Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Marzo 2001, 1
ESTADSTICA DESCRIPTIVA
Captulo 1. INTRODUCCIN
1.1
Qu es la estadstica?
1.2
Porque no todos los lectores estn en condiciones de detectar el error, y esto genera un
importante ruido en la bibliografa cientfica (Aunque este argumento tiende a
sobredimensionar la importancia de un paper, existe considerable evidencia que los
lectores sin formacin metodolgica tienden a aceptar como vlidas las conclusiones
Liliana Orellana
Marzo 2001, 2
1.3
reas de la estadstica
Describiremos brevemente cada una de las reas en que puede dividirse la estadstica:
I.
II.
III.
I. Diseo
Es una actividad crucial. Consiste en definir como se desarrollar la investigacin para dar
respuesta a las preguntas que motivaron la misma. La recoleccin de los datos requiere en
general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de
planificacin de la investigacin ahorra trabajo en las siguientes etapas. Un estudio bien
diseado resulta simple de analizar y las conclusiones suelen ser obvias. Un experimento
pobremente diseado o con datos inapropiadamente recolectados o registrados puede ser
incapaz de dar respuesta a las preguntas que motivaron la investigacin, ms all de lo
sofisticado que sea el anlisis estadstico.
An en los casos en que se estudian datos ya registrados, en que estamos restringidos a la
informacin existente, los principios del buen diseo de experimentos, pueden ser tiles
para ayudar a seleccionar un conjunto razonable de datos que est relacionado con el
problema de inters.
II. Descripcin
Los mtodos de la Estadstica Descriptiva o Anlisis Exploratorio de Datos ayudan a
presentar los datos de modo tal que sobresalga su estructura. Hay varias formas simples e
interesantes de organizar los datos en grficos que permiten detectar tanto las
caractersticas sobresalientes como las caractersticas inesperadas. El otro modo de
describir los datos es resumirlos en uno o dos nmeros que pretenden caracterizar el
conjunto con la menor distorsin o perdida de informacin posible.
Liliana Orellana
Marzo 2001, 3
Explorar los datos, debe ser la primera etapa de todo anlisis de datos. Por qu no
analizarlos directamente? En primer lugar porque las computadoras no son demasiado
hbiles (slo son rpidas), hacen aquello para lo que estn programadas y actan sobre los
datos que les ofrecemos. Datos errneos o inesperados sern procesados de modo
inapropiado y ni usted, ni la computadora se darn cuenta a menos que realice previamente
un anlisis exploratorio de los datos.
III. Inferencia
Inferencia Estadstica hace referencia a un conjunto de mtodos que permiten hacer
predicciones acerca de caractersticas de un fenmeno sobre la base de informacin parcial
acerca del mismo.
Los mtodos de la inferencia nos permiten proponer el valor de una cantidad desconocida
(estimacin) o decidir entre dos teoras contrapuestas cul de ellas explica mejor los datos
observados (test de hiptesis).
El fin ltimo de cualquier estudio es aprender sobre las poblaciones. Pero es usualmente
necesario, y ms prctico, estudiar solo una muestra de cada una de las poblaciones.
Definimos:
POBLACIN total de sujetos o unidades de anlisis de inters en el estudio
MUESTRA
Liliana Orellana
Marzo 2001, 4
VARIABLE
Sexo, lugar nacimiento, edad, presin arterial sistlica son variables que describen a una
persona, su sexo, su lugar de nacimiento, su edad, etc. son los valores que estas variables
toman para esta persona.
Cuando se disea una investigacin, se intenta estudiar de qu modo una o ms variables
(variables independientes) afectan a una o ms variables de inters (variables
dependientes). Por ejemplo en un experimento, el investigador impone a los sujetos
condiciones (variable independiente) y estudia el efecto de la misma sobre una
caracterstica del sujeto (aparicin de una cierta caracterstica, modificacin de una
condicin, etc.).
Un paso importante al comenzar a manejar un conjunto de datos es identificar cuntas
variables se han registrado y cmo fueron registradas esas variables, lo que permitir
definir la estrategia de anlisis. En el ejemplo anterior algunas de las variables son
nmeros y otras son letras que indican categoras. A continuacin se presenta una
clasificacin de los distintos tipos de datos que podemos encontrar. Debe notarse que
distintos autores usan distintos criterios para clasificar datos por lo que presentaremos aqu
un criterio que resulta til desde el punto de vista de seleccionar el mtodo de anlisis
estadstico ms apropiado para los mismos.
Liliana Orellana
Marzo 2001, 5
varn mujer
embarazada - no embarazada
fumador - no fumador
hipertenso normotenso
Debe notarse que los ejemplos 1) y 2) definitivamente cubren todas las categoras, mientras
que 3) y 4) son simplificaciones de categoras ms complejas. En 3) no est claro donde se
asignan los ex-fumadores, en tanto que en 4) fue necesario establecer un criterio de corte
para armar una variable categrica a partir de una variable numrica.
b) Ms de dos categoras
CATEGORAS NOMINALES
Ejemplos:
1) Tabaquismo: No fuma / ex-fumador / fuma 10 cigarrillos diarios / fuma > 10
cigarrillos diarios
2) Severidad de la patologa: Ausente / leve / moderado / severo.
An cuando los datos ordinales puedan ser codificados como nmeros como en el caso de
estadios de cncer de mama de I a IV, no podemos decir que una paciente en el estadio IV
Liliana Orellana
Marzo 2001, 6
tiene un pronstico dos veces ms grave que una paciente en estadio II, ni que la diferencia
entre estadio I y II es la misma que entre estadio III y IV. En cambio, cuando se considera
la edad de una persona, 40 aos es el doble de 20 y una diferencia de 1 ao es la misma a
travs de todo el rango de valores.
Por esta razn, debemos ser cuidadosos al tratar variables cualitativas, especialmente
cuando se han codificado numricamente, ya que no pueden ser analizadas como nmeros
sino que deben ser analizados como categoras. Es incorrecto presentar, por ejemplo, el
estadio promedio de cncer en un grupo de pacientes.
En la prctica clnica se usan escalas para definir grados de un sntoma o de una
enfermedad, tales como 0, +, ++, +++. Es importante definir operativamente este tipo de
variables y estudiar su confiabilidad de modo de asegurar que dos observadores puestos
frente al mismo paciente, lo clasificarn en la misma categora.
Liliana Orellana
Marzo 2001, 7
Slo en casos especiales es preferible registrar datos numricos como categricos, por
ejemplo, cuando se sabe que la medicin es poco precisa (nmero de cigarrillos diarios,
nmero de tazas de caf en una semana).
Totalmente
satisfecho
ubicacin del encuestado
Estas escalas son muy tiles para valorar cambios en el mismo individuo. An cuando un
puntaje de 3.7 no dice nada en si mismo, una reduccin de 2 puntos en un paciente si nos
da informacin. Debe tenerse cuidado al tratar este tipo de datos ya que, a diferencia de los
datos numricos, an cuando se registren como nmeros la escala subyacente no
necesariamente es la misma para dos sujetos distintos.
c) Scores
Los scores son indicadores de la condicin de un individuo basados en la observacin de
varias variables, generalmente categricas. En clnica los scores se construyen en base a
sntomas y signos, asignndole a cada uno de ellos un puntaje y calculando un puntaje total
o score, que es un indicador de la condicin del paciente.
Liliana Orellana
Marzo 2001, 8
1
< 100
Llanto dbil, hiperventilacin
Leve
Leve
Cuerpo rosado, extremidades azules
2
100
Llanto fuerte
Buena flexin
Llanto
Totalmente rosa
El recin nacido es evaluado en los minutos 0 y 5 de vida. Cada signo recibe un puntaje de
0 a 2, los cuales se suman y el score resultante es un nmero entre 0 a 10. Se considera que
un score 7 es de buen pronstico, y que un Apgar 3 es de muy mal pronstico.
No es de inters aqu discutir la validez de este particular score, pero remarcaremos tres
caractersticas que son comunes a este tipo de scores:
-
Los scores deberan tratarse en el anlisis tal como se los trata en la prctica, como
criterios para definir categoras ordinales y no como variables numricas.
d) Datos censurados
Una observacin censurada es aquella que no pudo ser medirla exactamente, pero que se
sabe que est ms all de un cierto lmite, es decir, conocemos una cota inferior o superior
para el dato.
Ejemplos.
-
Cuando se miden elementos traza, el nivel del elemento en la muestra puede ser menor
que el lmite de deteccin de la tcnica. Este es un dato con censura izquierda ya que
no se conoce el verdadero valor, pero si se conoce una cota superior.
Liliana Orellana
Marzo 2001, 9
Liliana Orellana
Marzo 2001, 10
Caja Negra. Se puede perder el contacto con los datos. Si el anlisis se realiza
automticamente, se corre el riesgo de no advertir las caractersticas ms relevantes de
los datos, o de perder la informacin acerca de individuos con comportamiento atpico.
Los resultados dependen de la calidad del archivo de datos. Si los datos estn mal
registrados o tienen inconsistencias y el investigador no lo advierte, los resultados
sern incorrectos ms all de lo sofisticado y elegante que sea el mtodo de anlisis
estadstico que se utilice.
Liliana Orellana
Marzo 2001, 11
Liliana Orellana
Marzo 2001, 12
Chequeo lgico.
Hay cierta informacin que slo se releva en ciertos casos. Por ejemplo, nmero de
embarazos es relevante si sexo = femenino, pero para sexo = masculino, esta variable
debera ser . o no corresponde.
Los datos deben satisfacer los criterios de inclusin y exclusin del estudio. Ejemplo:
Estudio de agentes anti-hipertensivos, los pacientes que entran en el estudio deben tener
valores de la presin arterial dentro de un cierto rango al ingreso.
Evaluar la consistencia de los datos es algo ms complicado cuando existen valores de
algunas variables que dependen de valores de otras variables. Existen combinaciones de
valores de ciertas variables que son inaceptables, an cuando cada una de ellas se
encuentre dentro de lmites razonables.
El investigador debe proponer chequeos lgicos que permitan detectar aberraciones en los
datos. Ejemplos: es poco probable que un sujeto se ubique en el percentil 5 de presin
diastlica y en el percentil 95 de presin sistlica, o es poco probable que un nio nacido
con 30 semanas de gestacin pese 3800 g.
Cuando una variable se mide varias veces en la misma unidad de observacin puede
graficarse a lo largo del tiempo para ver si el comportamiento es acorde a lo esperado.
Fechas.
Son la base para calcular tiempo transcurrido entre eventos. Ejemplos: edad del paciente al
momento de la consulta, tiempo de supervivencia, etc.
Un criterio de consistencia es chequear si las fechas caen dentro de intervalos de tiempo
razonables. Ejemplos: fechas de evaluacin dentro del perodo de desarrollo de la
investigacin, fechas de nacimiento consistentes con criterios de inclusin y exclusin
para edad, etc.
Finalmente, es importante controlar que las fechas siguen una secuencia correcta para cada
sujeto. Ejemplo: nacimiento, internacin, muerte.
Datos faltantes
Otro problema es el manejo de los datos missing (perdidos o faltantes). Cuando al cargar la
informacin se deja un blanco debe tenerse en cuenta que algunos paquetes estadsticos
asignan al blanco un cero. En ocasiones se asigna a los datos perdidos valores imposibles
como 99999 o un valor negativo para datos que slo pueden ser positivos. El problema es
que si no se excluyen los registros con estos valores atpicos en el momento del anlisis, el
resultado ser errneo ya que cualquier programa aceptar el valor 0 o el valor 99999
como verdaderos.
En particular, EpiInfo indica los datos missings con un punto, con lo cual se evita este
problema.
EpiInfo provee un procedimiento denominado CHEK que permite hacer consistencia de
datos a medida que se cargan los mismos.
Liliana Orellana
Marzo 2001, 13
Liliana Orellana
Marzo 2001, 14
BSA
HI
MTB
NM
OG
SE
SN
TV
Total pas
Nmero de notificaciones
(frecuencia)
446
34
17
489
89
228
304
345
1952
Frecuencia
relativa (%)
22.85 %
1.74 %
0.87 %
25.05 %
4.56 %
11.68 %
15.57 %
17.67 %
100.00 %
f
446
nmeros de casos de BSA
100 = BSA 100 =
100 = 22.85%
1952
nmero total de casos
n
Liliana Orellana
Marzo 2001, 15
NM
BSA
20%
TV
SN
15%
SE
10%
5%
OG
HI
MTB
0%
Liliana Orellana
Marzo 2001, 16
BSA
TV
BSA
20%
TV
SN
SN
15%
SE
SE
10%
5%
HI
OG
HI
OG
MTB MTB
0%
Ao 1999
Ao 2000
BSA
21%
TV
22%
BSA
22%
HI
3%
MTB
1%
HI
2%
MTB
1%
SN
16%
SN
14%
SE
11%
NM
25%
OG
3%
SE
12%
NM
24%
OG
5%
Liliana Orellana
3.2
Marzo 2001, 17
Tasa
0.00
1.28
1.60
1.67
2.19
2.87
3.01
3.16
3.20
3.21
3.33
3.37
Provincia
Ro Negro
La Rioja
Chubut
Santa F
Tierra del Fuego
Neuqun
San Juan
Mendoza
San Luis
Formosa
La Pampa
Chaco
Tasa
3.86
3.98
4.01
4.22
4.38
4.84
4.92
5.50
7.36
8.07
9.29
10.83
Liliana Orellana
Marzo 2001, 18
1. 2 8
TALLO
HOJA
2. Se listan los tallos verticalmente en orden creciente y se traza una lnea vertical a la
derecha de los tallos.
3. A continuacin de cada tallo se agregan las hojas correspondientes en la misma lnea,
arreglndolas de menor a mayor.
Se debe tomar una decisin sobre qu se har con el dgito posterior a la hoja, si se
truncar o se redondear, poco se pierde truncando y esta ltima opcin hace ms
simple volver a la lista de datos a partir del grfico.
Los tallos que no estn acompaados con hojas tambin se representan, de este modo
se respeta la escala de los datos.
Seleccionando como tallo la unidad se obtiene el siguiente grfico.
0
1
2
3
4
5
6
7
8
9
10
0
266
18
01223389
02389
5
3
0
2
8
La altura o extensin de la columna de hojas asociadas a un tallo nos dice con que
frecuencia ocurren las observaciones de la magnitud asociada al tallo.
Qu informacin nos brinda este grfico?
Podemos observar:
- El rango de las observaciones y los valores mximos y mnimos.
- La forma de la distribucin:
- Si es aproximadamente simtrica o es asimtrica.
- Cuntos picos o modas tiene la distribucin.
- Si existen valores que se aparten notablemente del conjunto, a los que denominaremos
datos atpicos o outliers.
Liliana Orellana
Marzo 2001, 19
9.03
9.16
9.23
9.34
9.39
9.42
9.56
9.89
10.00
10.28
10.41
10.56
10.52
10.75
10.86
10.89
11.07
11.27
11.36
11.58
11.76
8
0445667799
01233458
02455788
02357
7
8
8
9
9
10
10
11
11
8
044
5667799
012334
58
024
55788
023
57
En este grfico se acumula un nmero importante de hojas en cada tallo, por lo que
podramos estar perdiendo informacin acerca de la estructura de los datos. Dividiremos
cada tallo en dos, es decir, representaremos dos veces cada tallo, la primera vez que este
aparezca ir acompaado por las hojas 0 a 4 y la segunda vez por las hojas 5 a 9.
Obtenemos, entonces, el grfico de la derecha de la Figura 4.
Como puede observarse, al expandir la escala se observan ms detalles y parece haber dos
grupos de pases, uno con mayor consumo per cpita de protenas y otro con menor
consumo, ya que la distribucin de la variable tiene dos picos.
El problema de expandir la escala es que comienzan a aparecer detalles superfluos, o
simplemente atribuibles al azar.
Liliana Orellana
Marzo 2001, 20
74
963
660
9662
821
70
2
T2
5
6
7
8
9
10
11
12
13
14
47
2
37
77899
0358
222
37
4 16
El grfico nos muestra las siguientes caractersticas de la TAS en los dos grupos de
pacientes.
-
La distribucin de TAS tiene forma similar en ambos grupos: Un pico o moda y forma
simtrica y aproximadamente acampanada.
Diferencias en posicin. Los pacientes del grupo T1 tienen niveles de TAS levemente
mayores que los pacientes del grupo T2.
3.2.2 HISTOGRAMA
El histograma es el ms conocido de los grficos para resumir un conjunto de datos
numricos y petende responder a las mismas preguntas que un grfico de tallo-hojas. Una
virtud del grfico de tallo-hojas es que retiene los valores de las observaciones, sin
embargo, esta caracterstica puede ser una desventaja para gran cantidad de datos.
Construir manualmente un histograma es ms laborioso que construir un grfico de tallohojas, pero la mayora de los paquetes estadsticos producen histogramas.
Para construir un histograma es necesario previamente construir una tabla de frecuencias.
Liliana Orellana
Marzo 2001, 21
Liliana Orellana
Marzo 2001, 22
10
Frecuencia absoluta
Frecuencia absoluta
2
2
10
11
12
10
12
Liliana Orellana
Marzo 2001, 23
DISTRIBUCIN UNIFORME
2
80
60
40
20
0
10
11
12
13
14
15
16
17
0
2
10
12
14
16
18
20
22
24
26
ASIMETRIA DERECHA
ASIMETRA IZQUIERDA
80
120
60
80
40
40
20
0
0
400
800
1200
1600
2000
2400
2800
3200
3600
4000
4400
4800
5200
5600
0
-0.68 -0.66 -0.64
-0.46 -0.44
-0.42 -0.40
-0.38 -0.36
-0.34
Liliana Orellana
Marzo 2001, 24
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
35%
30%
25%
20%
15%
10%
5%
0%
0
10
20
30
40
50
60
70
80
edad
Liliana Orellana
Marzo 2001, 25
frecuencia en el intervalo
.
longitud del intervalo
frecuencia en el intervalo
= frecuencia
longitud del intervalo
La altura de la barra definida de este modo se denomina escala densidad porque indica el
nmero de datos por unidad de la variable. La ltima columna de la Tabla 6 muestra la
escala densidad para los datos de la Tabla 5 y la Figura 7 el histograma que se obtiene
usando la escala densidad.
Tabla 6. Escala densidad. Notificaciones de casos de rubola. Argentina, ao 2000. Fuente:
SINAVE.
Categora
(aos)
[ 0, 1)
[ 1, 2)
[ 2, 5)
[ 5, 10)
[10, 15)
[15, 50)
50
Total
Frecuencia
(fi)
497
387
1100
1389
798
521
28
4720
Frecuencia
relativa (fr)
10.5%
8.2%
23.3%
29.4%
16.9%
11.0%
0.6%
100.00%
Escala
densidad
10.53%
8.20%
7.77%
5.89%
3.38%
0.32%
0.01%
--
10
20
30
40
edad
50
60
70
80
Liliana Orellana
Marzo 2001, 26
En este grfico, el porcentaje de casos de rubola notificados para cada grupo est
representado en el rea de la barra. El histograma muestra que una gran proporcin de
casos ocurre en menores de 1 ao, y que la proporcin desciende a medida que aumenta la
edad. En este grfico estamos representando la densidad de notificaciones por cada ao
de edad.
Comentarios
Una prctica comn al manejar datos como los del ejemplo es tratar los datos como
categricos y representarlos en un grfico de barras como el de la Figura 8.
Figura 8. Grfico de barras. Notificaciones de casos de rubola. Argentina, ao 2000.
Fuente: SINAVE
35%
30%
25%
20%
15%
10%
5%
0%
0-1 ao
1 ao
El grfico de barras no tiene en cuenta el hecho de que los intervalos de clase (grupos
de edad) tienen distinta longitud.
En el grfico de barras, las barras se representan separadas para indicar que no hay
continuidad entre las categoras. En un histograma barras adyacentes deben estar en
contacto indicando que la variable es continua.
Cundo usar cada uno de ellos? Cul de las dos representaciones es adecuada?
-
Cuando la variable que define los grupos es categrica corresponde usar un grfico de
barras.
Cuando la variable que define las categoras es numrica, en general lo que interesa es
estudiar la distribucin de casos en las distintas edades, por lo tanto es preferible el
histograma ya que la escala del eje horizontal respeta la escala de la variable de inters.
Liliana Orellana
Marzo 2001, 27
Para variables numricas discretas con pocos valores posibles puede utilizarse un
grfico de barras.
Comentarios.
Una piramide de poblacin es un histograma para la variable edad, con intervalos de edad
de 5 aos.
10
20
30
40
edad
50
60
70
80
Liliana Orellana
Marzo 2001, 28
12%
10%
8%
6%
4%
2%
0%
0
10
20
30
40
edad
50
A o 1 9 9 9 (n = 8 3 4 7 )
60
Ao 2000
70
80
(n = 4 7 2 0 )
Comentario.
El histograma o el polgono de frecuencias muestran la distribucin de edad de los casos de
rubola notificados durante un ao, es decir, muestran la proporcin del total de los casos
que cae en cada categora de edad. Pero, los distintos grupos de edad tienen distinta
composicin, por lo tanto, puede ser de inters presentar la tasa de casos de rubola en
cada grupos de edad.
Podemos representar las tasas de rubola cada 1000 habitantes usando:
-
un grfico de barras o
un grfico en el que cada tasa se representa como un punto ubicado en el punto medio
de la categora de edad respetando de este modo la distancia entre las categoras.
Figura 11. Tasas de rubola cada 1000 habitantes. Argentina, 2000. Fuente: SINAVE
8
0
0-1 ao
1 ao
2 - 4 aos
50 y ms
0
0
10
20
30
40
edad
50
60
70
80
Liliana Orellana
Marzo 2001, 29
24
0.18
0.16
0.14
16
60
0.12
0.1
0.08
30
0.06
0.04
0.02
0
0.0
1.5
3.0
4.5
6.0
7.5
9.0
10.5
12.0
13.5
15.0
16.5
Muestra n = 100
18.0
19.5
21.0
0.0
1.5
3.0
4.5
6.0
7.5
9.0
10.5
12.0
13.5
15.0
16.5
Muestra n = 1000
18.0
19.5
21.0
10
11
12
13
14
15
16
17
18
19
20
21
Poblacin
La Figura 12 muestra dos histogramas, el primero basado en una muestra de tamao 100 y
el segundo basado en una muestra de tamao 1000, y una curva suave que representa la
distribucin poblacional. An cuando la variable sea discreta, una curva suave suele ser
una buena aproximacin para la distribucin poblacional, especialmente cuando el nmero
de valores posibles de la variable es grande.
Comentaremos a continuacin y a modo de cierre del tema de estadstica descriptiva
algunos problemas que aparecen al interpretar grficos.
3.3.1 DIBUJOS
En la Figura 13 se representa el nmero de conferencias organizadas en todos los
departamentos de la Universidad A y la Universidad B, en el ao 2000. Cada cono
representa 20 conferencias, por lo tanto, el grfico informa que en la Universidad A se
Liliana Orellana
Marzo 2001, 30
40
Universidad A
Universidad B
100
100 200
100
200
300 400
El punto clave aqu es que an cuando el grfico es correcto, slo ser correctamente
interpretado por los pocos lectores acostumbrados a leer los detalles de las notas al pie.
Liliana Orellana
Marzo 2001, 31
0 .3
0. 4
0 .2 5
0. 35
0. 3
0 .2
0. 25
0 .1 5
0. 2
0. 15
0 .1
0. 1
0 .0 5
0. 05
-4
-3
-2
-1
CENTRO
10
11
12
13
14
15
CENTRO?
Liliana Orellana
Marzo 2001, 32
Qu propuesta permite responder mejor a las preguntas sobre el mundo real que
pretendemos responder con estos datos?
X=
X1 + X 2 + ... + X n
=
n
Xi
i =1
X2 = 14
X=
X3 = 12
X4 = 11
X5 = 12
X6 = 13
X1 + X 2 + ... + X 6 10 + 14 + 12 + 11 + 12 + 13 72
=
=
= 12
n
6
6
Media poblacional
Si se dispone de la informacin de una variable X para las N unidades de anlisis de la
poblacin, es posible calcular la media poblacional a la que denotaremos con la letra
griega (mu), para distinguirla de la media obtenida en una muestra de n
N
Xi
X 1 + X 2 + ... + X N i =1
=
N
N
X=
n1 X1 + n2 X 2
n1 + n2
Ejemplo. Datos sobre niveles de hierro srico en nios y nias con fibrosis cstica.
X = nivel de hierro srico
Liliana Orellana
Marzo 2001, 33
Varones
5.9
13
X
n
X=
Mujeres
6.8
6
El promedio pesado obtenido aqu es igual al que hubiramos obtenido promediando los
datos de los 19 nios.
Caractersticas y propiedades de la media.
a) Se usa para datos numricos.
b) Representa el centro de gravedad o el punto de equilibrio de los datos.
Podemos imaginar a los datos como un sistema fsico, en el que cada dato tiene una
masa unitaria y lo ubicamos sobre una barra en la posicin correspondiente a su
valor. La media representa la posicin en que deberamos ubicar el punto de apoyo
para que el sistema est en equilibrio.
10
11
13
14
15
c) La suma de las distancias de los datos a la media es cero. Esta propiedad est
relacionada con el hecho que la media es el centro de gravedad de los datos.
En la tabla siguiente comprobamos esta propiedad para los datos del ejemplo anterior.
Xi
10
14
12
111
12
13
Total =
Xi - X
-2
2
0
-1
0
1
0
10
11
12
13
14
15
16
26
Con solo modificar un dato la media se desplaz tanto, que ya no se encuentra entre la
mayora de los datos. Podemos decir que en este caso la media no es una buena medida
Liliana Orellana
Marzo 2001, 34
de posicin de los datos. En consecuencia, la media es una buena medida del centro de
la distribucin cuando sta es simtrica.
Aunque la media es una medida simple de tendencia central, otras medidas son ms
informativas y ocasionalmente ms apropiadas.
n +1
2. La mediana es el dato que ocupa la posicin
en la lista ordenada.
2
~ es el dato que ocupa la posicin central.
Si el nmero de datos es impar, la mediana X
~ es el promedio de los dos datos centrales.
Si el nmero de datos es par, la mediana X
Ejemplo
-
n impar
X1 = 10
X2 = 14
X3 = 12
X4 = 18
X5 = 11
11
12
14
18
n +1 5 +1
~ = 12.
=
= 3 (tercer dato), es decir X
2
2
n par
X1 = 10
X2 = 14
X3 = 12
X4 = 18
X5 = 11
X6 = 23
11
12
14
18
23
6 +1
= 3.5
2
~ = 12 + 14 = 13 .
Obtenemos la mediana promediando el tercer y cuarto dato: X
2
Notar que (n+1)/2 no es la mediana, sino la localizacin de la mediana en el conjunto
ordenado de datos.
Si hay datos repetidos deben ser incluidos en el ordenamiento.
La mediana es muy simple de obtener a partir de un grfico de tallo-hojas.
Liliana Orellana
Marzo 2001, 35
Mediana poblacional
50%
0
50%
10
11
12
13
14
15
16
17
18
19
20
21
Propiedades de la mediana
a) La mediana puede ser usada no slo para datos numricos sino adems para datos
ordinales, ya que para calcularla slo es necesario establecer un orden en los datos.
b) Si la distribucin de los datos es aproximadamente simtrica la media y la mediana
sern aproximadamente iguales.
Si la distribucin de los datos es asimtrica, la media y la mediana diferirn segn el
siguiente patrn:
~
X > X
Asimetra derecha (cola larga hacia la derecha)
~
Asimetra izquierda (cola larga hacia la izquierda)
X < X
Ejemplos
~ = 14
X = X
~ = 14
X = 15 > X
3)
~ = 14
X = 12 < X
En la poblacin:
-4
-3
-2
-1
~
=
10
11
12
13
14
15
16
17
18
19
20
21
-20
Liliana Orellana
Marzo 2001, 36
Ejemplo
I) 10
II) 10
11
11
12
12
12
12
13
13
14
26
X = 12
X = 14
~ = 12
X
~ = 12
X
I)
10
11
12
13
14
II)
10
11
12
13
100
III)
11
12
12
12
IV)
10
11
12
100
100
Tiempo de supervivencia (en meses) de pacientes con cierta patologa. Los datos que se
indican entre parntesis tienen censura derecha, es decir, se sabe que el paciente
sobrevivi ese tiempo, pero no se conoce el tiempo real de supervivencia.
I) 1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84)
n = 15
Como n = 15 la mediana es el octavo dato, por lo tanto X~ = 28. Es posible
calcularla aunque haya datos censurados, porque los mismos se encuentran ms all
de la posicin 8 que define la mediana. Aunque no conocemos exactamente el
tiempo que sobrevivi el paciente cuyo dato es (45) sabemos que en esta muestra
ese dato ocupar la posicin 11 o una superior.
II)
n = 15
No es posible calcular la mediana debido al dato indicado como (12). Sabemos que
este paciente sobrevivi por lo menos 12 meses, pero desconocemos el verdadero
valor, el que puede ocupar cualquier posicin entre la quinta y la ltima.
Comparacin de la media y la mediana
MEDIA
MEDIANA
VENTAJA Usa toda la informacin que Representa el centro de la distribucin
S
proveen los datos.
(en un sentido claramente definido).
Es de manejo algebraico simple.
Robusta a la presencia de outliers.
til para datos ordinales.
DESVEN- Muy sensible a la presencia de Usa muy poca informacin de los datos.
TAJAS datos outliers.
Liliana Orellana
Marzo 2001, 37
Depende de cuantos outliers se pretende excluir y de cun robusta queremos que sea la
medida de posicin. Cuando seleccionamos = 0 tenemos la media, si elegimos el
mximo valor posible para (lo ms cercano posible a 0.5) tenemos la mediana. Cualquier
poda intermedia representa un compromiso entre ambas.
Una eleccin bastante comn es = 0.10, que excluye un 20% de los datos.
Cundo usar esta medida?
Cuando se sospecha que hay errores groseros en los datos, pero no tenemos modo de
decidir si el dato es errneo. Esto permite excluir datos aberrantes de un modo menos
sesgado, porque estamos excluyendo datos de ambos extremos.
Ejemplo
Calculamos la media 20% podada para los datos siguientes que corresponden a los
puntajes asignados a una gimnasta por 5 jueces durante una competencia olmpica.
X1 = 85
1. Ordenamos los datos:
X2 = 98
X3 = 99
85
95
98
X4 = 95
98
X5 = 98
99
95 + 98 + 98
= 97 .
3
~ = 98.
Para estos datos el promedio y la mediana resulta ser X =95, X
Qu ventaja tiene haber usado la media 20% podada? El puntaje final de la gimnasta no se
ve afectado por la calificacin notablemente baja que le asignara uno de los jueces.
Liliana Orellana
Marzo 2001, 38
Si n = 37 y quisiramos una poda del 10% deberamos excluir 37 0.10 = 3.7 datos de cada
extremo. Las opciones son:
-
Seleccionar una poda menor o igual que . En este caso podamos 3 datos de cada
extremo e informamos que se calcul la media 8.1% podada.
Cul de las tres medidas de posicin preferir: media, mediana o media -podada?
4.1.4 LA MODA
La moda es el dato que ocurre con mayor frecuencia en el conjunto.
Es una medida de poca utilidad salvo para datos categricos en los que suele interesar
identificar la categora con mayor cantidad de datos. En una muestra de datos numricos,
puede ocurrir que la moda sea un valor que se repite un cierto nmero de veces, pero que
no es tpico.
Cuando se considera la distribucin poblacional de una variable continua, decimos que esta
es UNIMODAL si presenta un pico y BIMODAL si aparecen dos picos claros.
Liliana Orellana
Marzo 2001, 39
La mediana es el percentil 50%. Otros percentiles con nombre propio son el percentil 25%
y el percentil 75% que se denominan cuartil inferior y superior respectivamente, ya que
juntamente con la mediana dividen a la distribucin en 4 porciones iguales.
25%
0
25%
3
p25
25%
25%
p50
10
11
12
13
14
15
16
17
18
19
20
21
p75
10 11 12 13
Datos 104 112 134 146 155 168 170 195 246 302 338 412 678
134 + 146
= 140
2
~ = 170
Posicin de la mediana = (13+1)/2 = 7
X
302 + 338
= 320
Posicin del Cuartil Superior = 3.(13+1)/4 = 10.5 CS =
2
Posicin del Cuartil Inferior = (13+1)/4 = 3.5
CI =
Un modo de resumir toda la distribucin de los datos es informar los siguientes cinco
nmeros resmenes:
Mnimo, Cuartil inferior, Mediana, Cuartil superior, Mximo
Liliana Orellana
Marzo 2001, 40
En nuestro ejemplo:
Mnimo =
104
Cuartil Inferior =
140
Mediana =
170
Cuartil Superior =
320
Mximo =
678
25%
25%
25%
25%
Comentarios
Los paquetes estadsticos calculan los percentiles usando diferentes mtodos, y diferentes
criterios para interpolar. El modo de clculo que presentamos aqu para los cuartiles tiene
la ventaja de su simplicidad. Cuando el conjunto de datos es grande los distintos mtodos
tienden a producir el mismo valor para el percentil, pero para conjuntos pequeos pueden
diferir ligeramente.
Los percentiles son modos muy tiles de resumir la distribucin de datos censurados. Es
posible calcular un percentil siempre que todos los datos tengan el mismo tipo de censura y
queden a la derecha (cuando la censura es derecha) o a la izquierda (cuando la censura es
izquierda) de la posicin que define el percentil.
55
47
39
55
51
47
55
53
53
55
55
55
55
57
57
55
59
63
55
63
71
Las medidas de dispersin o variabilidad describen cun cercanos se encuentran los datos
entre ellos, o cun cerca se encuentran de alguna medida de posicin. Introduciremos a
continuacin algunos estadsticos que miden variabilidad del conjunto de datos.
Muestra A:
Muestra B:
55
47
55
51
55
53
55
55
55
57
55
59
55
63
Rango = 55 55 = 0
Rango = 63 47 = 16
Liliana Orellana
Muestra C:
Marzo 2001, 41
39
47
53
55
57
63
71
Rango = 71 39 = 32
Caractersticas y propiedades
s2 =
(X1 X) + + (X n X)
=
n 1
2
(X i X) 2
i =1
n 1
Liliana Orellana
Marzo 2001, 42
2 =
( X1 ) + + ( X n )
=
N
2
( X i )2
i =1
= 2
Muestra A: 55
Muestra B: 47
Muestra C: 39
55
51
47
55
53
53
55
55
55
55
57
57
55
59
63
55
63
71
s2 = 0
s2 = 28
s2 = 108
sA = 0
sB = 5.29
sC= 10.39
s B2 =
s B = 28 = 5.29
Comparando las desviaciones estndar de las tres muestras vemos que sA < sB < sC.
Adems observamos que sA = 0, ya que todas las observaciones toman el mismo valor.
Interpretacin del valor de la desviacin estndar
Liliana Orellana
Marzo 2001, 43
120
80
40
0
2
11
14
X 2s
17
20
Xs
23
26
X+s
29
32
35
38
X + 2s
Esta regla es vlida para distribuciones no necesariamente acampanadas, pero puede ser
errnea cuando se aplica a distribuciones fuertemente asimtricas tales como la que se
presenta en el histograma siguiente en el que X = 3 y s = 2.45. Esta distribucin ficticia
podra representar la distribucin de ingreso mensual (en cientos de pesos) de una muestra
de asalariados con cargos no jerrquicos de una provincia Argentina.
240
160
80
0
0
10
12
14
16
18
20
Es til nuestra regla emprica para el desvo estndar en datos con esta distribucin? En
este caso, al restar 2s a la media, caemos fuera de la escala de la variable
X 2 s = 3 - 2 2.45 = -1.9 y la interpretacin que propusimos a travs de la regla emprica
resulta no ser apropiada.
Cuando la variable slo puede tomar valores dentro de un cierto rango, tal como ocurre con
el ingreso o el tiempo transcurrido hasta un cierto evento que no pueden ser menores que
cero, el hecho de obtener valores fuera del rango al aplicar la regla con 1 o 2 desvos
estndar nos indica que la distribucin de la variable es fuertemente asimtrica.
Propiedades de la desviacin estndar
s mide la dispersin alrededor de la media, por lo tanto es natural elegir esta medida de
dispersin cuando se usa la media como medida de posicin.
Liliana Orellana
Marzo 2001, 44
s = 0 solamente cuando todos los datos son iguales, de otro modo s > 0.
Toma el valor absoluto de las desviaciones para eliminar el signo (en vez de elevar al
cuadrado como hacemos al calcular el desvo estndar).
Toma la mediana de las distancias (en vez de promediar como hacemos con s).
1.
2.
3.
4.
5.
Propiedades de la MAD
Ejemplo
10
11
12
13
104 112 134 146 155 168 170 195 246 302 338 412 678
~ = 170.
1. Como n = 13 la mediana es el dato que ocupa la posicin (13+1)/2 = 7 X
Liliana Orellana
Marzo 2001, 45
58, 36, 24, 15, 2, 0, 25, 76, 132, 168, 242, 508
508
pero para estos datos s = 160.48. Esta gran diferencia nos dice que la distribucin es
asimtrica. El histograma de estos datos, que se presenta en la figura siguiente confirma
este hecho.
8
0
100
180
260
340
420
500
580
660
740
Si todos los datos son iguales DI = 0. Pero DI puedes ser igual a cero an cuando no
todos los datos sean iguales.
Ejemplo
5 12 12 12 12 12 20
n = 7 CI = 12
CS = 12
DI = 0
Liliana Orellana
Marzo 2001, 46
DI
4
s
3
Ejemplo
Consideremos nuevamente los datos siguientes.
Posicin 1
Datos
10
11
12
13
104 112 134 146 155 168 170 195 246 302 338 412 678
134 + 146
= 140
2
302 + 338
= 320
Posicin del Cuartil Superior = 3.(13+1)/4 = 10.5 CS =
2
Posicin del Cuartil Inferior = (13+1)/4 = 3.5
CI =
DI = CS CI = 320 140 = 80
Concluimos que el 50% central de los datos se encuentra en una distancia de 80 unidades.
Para estos datos s = 160.5. Si la distribucin fuera simtrica esperaramos que DI 0.75 s
= 0.75 160.5 = 120. Sin embargo, DI = 80, lo que nos indica que la distribucin es
asimtrica.
Liliana Orellana
Marzo 2001, 47
5. Partiendo del cuartil inferior trazar una lnea (bigote) que llegue hasta el ltimo dato
contenido dentro de la 1 cota inferior.
Partiendo del cuartil superior trazar una lnea (bigote) que llegue hasta el ltimo dato
contenido dentro de la 1 cota superior.
6. Marcar la posicin de los outliers con un smbolo (por ejemplo, *) y de los outliers
severos con otro smbolo (por ejemplo, ).
Ejemplo
Consideremos nuevamente los datos siguientes.
Posicin 1
Datos
10
11
12
13
104 112 134 146 155 168 170 195 246 302 338 412 678
DI = 320 140 = 80
100
130
160
190
220 250
280 310
CI mediana
CS
DI
mnimo valor dentro de la 1er. cota inferior
430
460
490
520 550
580 610
640
670
outlier
severo
Qu se observa?
-
Un dato outlier.
Liliana Orellana
Marzo 2001, 48
Los distintos paquetes estadsticos dibujan box-plots que no siempre se basan en los
criterios que hemos detallado aqu, algunos cambian el modo de calcular los cuartiles,
otros por ejemplo, ofrecen opciones de indicar la media y no la mediana en la caja.
Estos grficos son muy tiles para comparar varias distribuciones. La Figura siguiente
muestra los datos correspondientes a los resultados de una encuesta que se tom en cuatro
poblaciones diferentes las que se identifican de 1 a 4. La variable que se registr es el
grado de satisfaccin con el desempeo de los gobernantes en el ltimo ao (puntaje de 0 a
100).
80
60
40
20
P OB L AC 1
POB L AC 2
POBL AC 3
P OB L AC 4
Liliana Orellana
Marzo 2001, 49
TAS
250
70
Liliana Orellana
Marzo 2001, 50
Ejemplo
A)
Categrica
Categrica
B)
Categrica
Numrica
C)
Numrica
Categrica
D)
Numrica
Numrica
Liliana Orellana
Marzo 2001, 51
800
12
estadia
camas
600
400
10
200
6
0
200
pacient
400
600
40
50
edad
60
70
Qu nos dicen los grficos de la Figura 1 acerca de la relacin entre las variables?
Figura 1 a) Nmero de camas y nmero de pacientes estn fuertemente relacionados.
Cuando una variable aumenta la otra tambin aumenta, es decir, entre ambas variables
existe una asociacin positiva. Adems podemos proponer que la relacin entre ambas
variables es lineal ya que una lnea recta aproximara bastante bien la tendencia general de
la nube de puntos.
Liliana Orellana
Marzo 2001, 52
Figura 1 b) No parece haber relacin entre el tiempo de internacin y la edad del paciente.
Si nos ubicamos en alguna edad particular, digamos 50 aos, podemos encontrar pacientes
cuya internacin tuvo una duracin de cualquier magnitud. La nube de puntos no presenta
una tendencia particular.
Figura 2. Grficos de dispersin
a) Tasa de natalidad versus nmero de
aparatos de TV
b) Datos ficticios.
50
150
30
40
100
20
10
50
0
20
40
TV
60
80
10
15
Qu nos dicen los grficos de la Figura 2 acerca de la relacin entre las variables?
Figura 2 a). La tasa de natalidad est inversamente relacionada con el nmero de
televisores cada 100 habitantes. Cuando el nmero de televisores aumenta, la tasa de
natalidad disminuye. Adems, el decrecimiento no es lineal (una lnea recta no es un buen
modelo para el tipo de relacin que se observa entre las dos variables). Cuando el nmero
de televisores es bajo (cercano a cero), un aumento de 20 televisores por cada 100
habitantes produce una importante disminucin de la tasa de natalidad, mientras que si el
nmero de televisores es alto (ms de 40), un aumento de la misma magnitud en el nmero
de televisores produce una disminucin despreciable en la tasa de natalidad. La relacin
entre las dos variables podra describirse como exponencial negativa.
Figura 2 b). X e Y estn fuertemente relacionadas, podemos proponer que la relacin entre
ambas es curvilnea. No podemos hablar de direccin de la relacin ya que es en parte
creciente y en parte decreciente.
Al estudiar la relacin entre dos variables CUANTITATIVAS. En general interesa:
3 Investigar si existe asociacin entre las dos variables.
3 Cuantificar la fuerza de la asociacin, a travs de una medida de asociacin
denominada coeficiente de correlacin.
Liliana Orellana
Marzo 2001, 53
Nios de la misma edad seguramente no tendrn la misma altura. Sin embargo, a travs de
un modelo estadstico es posible concluir que la altura aumenta con la edad. Es ms,
podramos predecir la altura de un nio de cierta edad y asociarle un error de prediccin
que tiene en cuenta los errores de medicin y la variabilidad entre individuos.
En problemas biolgicos, trabajando en condiciones ideales es posible evitar los errores
de medicin, pero no la variabilidad individual, por eso es indispensable incluir el
componente aleatorio en los modelos estadsticos.
5.2
COEFICIENTE DE CORRELACIN
El grado de asociacin entre dos variables numricas puede ser resumido en un estadstico
denominado COEFICIENTE DE CORRELACIN.
Presentaremos en primer lugar el coeficiente de correlacin de Pearson, que mide el grado
de asociacin lineal entre dos variables y posteriormente un estadstico basado en rangos
que estima la correlacin sin hacer supuestos sobre el tipo de relacin entre las variables.
Liliana Orellana
Marzo 2001, 54
Supongamos que tenemos dos variables (X, Y) registradas en cada una de los n sujetos de
una muestra. Sean (Xi, Yi) las observaciones realizadas para cada variable en el sujeto isimo. Definimos la covarianza muestral entre X e Y como:
n
cov( X , Y ) =
n
donde X =
Xi
i =1
( X i X )(Yi Y )
i =1
n 1
e Y=
Yi
i =1
60
50
40
30
20
10
0
0
10
15
20
25
30
35
III
40
II
(X - X)
(Y - Y)
(X - X) (Y - Y)
I
II
III
IV
+
+
Liliana Orellana
Marzo 2001, 55
Por lo tanto,
-
Figura 4 a
Figura 4 b
40
60
35
50
30
40
25
20
30
15
20
10
10
5
0
0
10
15
20
25
30
35
40
10
15
20
25
30
35
40
Definicin
Sean (Xi, Yi) las observaciones realizadas en cada uno de los n sujetos de una muestra de
tamao n. Definimos el coeficiente de correlacin muestral de Pearson entre X e Y como:
n
cov( X , Y )
r = Corr ( X , Y ) =
=
s X sY
( X i X )(Yi Y )
i =1
(n 1) s X sY
Liliana Orellana
Marzo 2001, 56
Ejemplo
Media
DS
(X - X)
3
6
5
8
9
10
7
6.86
2.41
10
7
9
6
8
7
8
7.86
1.35
-3.86
-0.86
-1.86
1.14
2.14
3.14
0.14
(Y Y )
(X - X ) (Y Y )
3.14
0.14
2.14
-0.86
1.14
0.14
1.14
Suma =
-12.12
-0.12
-3.98
-0.98
2.45
0.45
0.16
-14.14
r=
( X i X )(Yi Y )
i =1
(n 1) s X sY
14.14
= 0.73
(7 1) 2.41 1.35
r = + 1 implica que todos los puntos caen sobre una recta de pendiente positiva
(asociacin positiva),
r = 1 implica que todos los puntos caen sobre una recta de pendiente negativa
(asociacin negativa),
Liliana Orellana
Marzo 2001, 57
120
120
100
100
80
80
60
60
40
40
20
20
0
0
10
20
30
40
50
60
10
20
r = 0.9993
30
40
50
60
r = -0.9775
40
60
35
50
30
40
25
20
30
15
20
10
10
5
0
0
10
15
20
25
30
35
40
0
20
25
30
r = 0.0139
35
40
45
50
55
100
120
140
r = 0.418
90
60
80
50
70
60
40
50
30
40
30
20
20
10
10
0
0
10
15
20
25
30
35
40
45
50
0
0
20
r = 0.2241
40
60
80
r = - 0.718
Liliana Orellana
Marzo 2001, 58
Figura 6
1800
1600
1400
1200
1000
800
600
400
200
0
0
10
20
30
40
50
60
70
80
90
100
-200
Por ltimo, diremos que mostrar que dos variables estn asociadas, no implica que exista
relacin de causalidad entre ellas.
Liliana Orellana
Marzo 2001, 59
120
100
100
80
80
60
60
40
40
20
20
0
0
10
20
30
40
50
60
0
0
20
40
r = 0.9993
60
80
100
120
r = 0.5168
250
40
35
200
30
25
150
20
100
15
10
50
5
0
0
10
15
20
25
30
35
40
0
0
50
100
r = -0.0139
150
200
250
r = 0.9651
350
60
300
50
250
40
200
30
150
20
100
10
50
0
0
20
40
60
80
100
r = -0.718
120
140
0
0
50
100
150
200
250
300
350
r = 0.8971
Resumiendo, una medida de correlacin entre dos variables X e Y debera satisfacer los
siguientes requerimientos:
-
Liliana Orellana
Marzo 2001, 60
Si los mayores valores de X tienden a aparecer junto con los menores valores de Y y
vice cersa, entonces la medida de correlacin debera ser negativa, con 1 indicando
que la tendencia es fuerte. Decimos entonces que X e Y estn negativamente
correlacionadas.
Existen otras medidas para resumir correlacin que satisfacen los requerimientos anteriores
pero que son robustas a la presencia de datos influyentes. Presentamos a continuacin una
propuesta alternativa para medir correlacin que se construye ordenando los datos.
Mide la fuerza de la correlacin entre las dos variables. Valores positivos indican que
la relacin entre X e Y es creciente. Valores negativos indican que la relacin es
decreciente. Valores cercanos a cero indican que la relacin no es creciente ni
decreciente.
Ejemplo
Para los datos de la tabla siguiente calculamos el coeficiente de correlacin de Spearman:
rS =
Para estos datos el coeficiente de Pearson es r = 0.8355. Por qu tanta diferencia entre
ambos? La Figura 8 muestra que la diferencia se debe a la presencia de un punto
fuertemente influyente.
Liliana Orellana
Marzo 2001, 61
X
10
13
12
15
16
17
14
30
15.88
6.13
Media
DS
Y
17
14
16
13
15
14
12
30
16.38
5.73
Rango (X)
1
3
2
5
6
7
4
8
4.5
2.45
Rango(Y)
7
3.5
6
2
5
3.5
1
8
4.5
2.43
30
25
20
15
10
0
0
10
15
20
25
30
35
Los grficos XY por convencin se representan respetando una relacin 4:3 entre el eje
horizontal y el vertical, practicamente todos los paquetes que construyen grficos respetan
esta convencin. La Figura 14 muestra cuatro representaciones diferentes de los mismos
Liliana Orellana
Marzo 2001, 62
datos de una serie anual donde se pretende mostrar como estos cambios pueden afectar la
interpretacin de la imagen.
Figura 14. Distintos formatos para la misma serie de tiempo
(a) Formato convencional
60
60
50
50
40
30
40
20
10
30
1998
20
1996
1994
1992
1990
10
1988
1986
1984
0
1978
S1
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
1982
1980
80
48
70
46
60
44
50
42
40
40
38
30
36
20
34
10
0
1978
32
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
30
1978
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
La Figura 14 (a) muestra el grfico obtenido respetando la relacin 4:3 y usando la escala
del eje vertical que comienza en cero. Se observa una tendencia moderadamente creciente
y fluctuaciones moderadas.
En la Figura 14 (b) se realiz una bonita representacin en perspectiva, respetando las
escalas que se usaron en (a). Este grfico puede producir una sensacin de tendencia ms
marcada que el grfico anterior o una impresin de que no hay tendencia, dependiendo del
observador.
En (c) modificamos la relacin horizontal:vertical, de 4:3 a 2:1, y aumentamos la escala del
eje Y. Resultado: la tendencia y las fluctuaciones parecen poco importantes.
Finalmente en el grfico (d) cambiamos la relacin horizontal:vertical a 1:1 y modificamos
la escala vertical logrando de este modo magnificar notablemente la tendencia y la
importancia de las fluctuaciones.
Todos los grficos de la Figura 14 son correctos en el sentido que se construyeron usando
la misma informacin (no hemos falseado o modificado los datos para construirlos). Sin
embargo, algunos de ellos producen impresiones engaosas amplificando o disimulando
diferencias que existen.
Liliana Orellana
Marzo 2001, 63
INDICE
Captulo 1. Introduccin
1.1
Qu es la estadstica?
1.2
Por qu estudiar estadstica?
1.3
reas de la estadstica
I. Diseo
II. Descripcin
III. Inferencia
Captulo 2. TIPOS DE DATOS
2.1 CARACTERSTICAS DE LOS CONJUNTOS DE DATOS.
2.2 TIPOS DE DATOS
2.2.1 DATOS CATEGRICOS O CUALITATIVOS
c) Dos categoras (DICOTMICOS)
d) Ms de dos categoras
2.2.2 DATOS NUMRICOS
2.2.3 OTRO TIPO DE DATOS
a) Porcentajes
b) Escalas analgicas visuales
c) Scores
d) Datos censurados
2.3 USANDO UNA COMPUTADORA PARA PROCESAR DATOS
2.3.1 VENTAJAS Y DESVENTAJAS DE USAR UNA COMPUTADORA.
a) Ventajas
b) Desventajas.
2.3.2 ESTRATEGIA PREVIA EL ANLISIS DE DATOS
a) Definicin y codificacin de las variables. Carga de datos.
b) Chequeo de los datos (Consistencia)
2.3.3 MALOS USOS O ABUSOS DE LA COMPUTADORA
Captulo 3. ESTADSTICA DESCRIPTIVA. GRFICOS.
3.1 PRESENTACIN DE DATOS CATEGRICOS
3.1.1 TABLA DE FRECUENCIA
3.1.2 GRFICO DE BARRAS
3.1.3 GRFICO DE TORTAS
3.3
REPRESENTACIN GRFICA DE UN NICO CONJUNTO DE DATOS
NUMRICOS
3.2.1 GRFICO DE TALLOS Y HOJAS (STEM AND LEAF)
3.2.2 HISTOGRAMA
Tabla de frecuencia para datos numricos.
Construccin del histograma
a) Intervalos de clase todos de la misma longitud.
b) Intervalos de clase de diferente longitud.
En que difieren un grfico de barras y un histograma?
3.2.3 POLGONO DE FRECUENCIAS
3.2.4 DISTRIBUCIN MUESTRAL Y POBLACIONAL
3.3 GRFICOS ENGAOSOS: DIBUJOS
Liliana Orellana
Marzo 2001, 64