Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA DESCRIPTIVA
Objetivo:
Al concluir la unidad, el estudiante utilizará los métodos gráficos y numéricos para la
descripción de un conjunto de datos.
Los datos tal como se obtienen de una investigación están en forma desordenada por lo que
es difícil su interpretación y análisis. Debido a esto se deben organizar en forma de tablas y
gráficas, que permitan una visualización clara y rápida de todo el conjunto.
El resumen más útil que se acostumbra hacer al recolectar datos de cualquier tipo, es contar
el número de observaciones que caen en cada una de las categorías, si la variable es
cualitativa, o que corresponde a cada uno de los valores numéricos o a intervalos, si la
variable es cuantitativa. También se podría buscar información sobre la variable en cuestión,
como por ejemplo, la proporción del número total de observaciones que caen en la categoría
o intervalo de valores numéricos ("clase", dicho de manera general).
Ejemplo 2.1. Los siguientes valores corresponden a los pesos (kg) de 20 animales de cierta
especie capturados en una reserva.
Para hacer fácil el manejo de una colección (muestra) de datos y obtener de ellos la
información que interese en determinado momento, éstos se ordenan (por regla general del
menor al mayor) y se asocian con cada una de ellos un número natural que llamamos la
frecuencia del dato, que es el número de veces que aparece el dato en la muestra, se
construye entonces la tabla de frecuencias de la muestra (ó tabla de distribución de
frecuencias).
Ordenando:
13.2, 13.0, 13.6, 13.1, 13.2, 13.2, 13.2,
14.4, 14.6, 14.4, 14.5, 14.4,
15.4, 15.0, 15.0,
16.6, 16.9, 16.6, 16.6, 16.5
17
Tabla 2.1. Frecuencias de los pesos
Frecuencia relativa Frecuencia
Frecuencia fi ~
Peso (Kg.) ( fi ) acumulada
(fi)
ni (Fi)
13.0 1 0.05 1
13.1 1 0.05 2
13.2 4 0.20 6
13.6 1 0.05 7
14.4 3 0.15 10
14.5 1 0.05 11
14.6 1 0.05 12
15.0 2 0.10 14
15.4 1 0.05 15
16.5 1 0.05 16
16.6 3 0.15 19
16.9 1 0.05 20
12
∑ fi = 20 1.00
i =1
∑f
i =1
i = f1 + f2 + f3 + L + f12 = 1 + 1 + 4 + 1 + 3 + 1 + 1 + 2 + 1 + 1 + 3 + 1 = n = 20
donde: fi= es la frecuencia del i-ésimo dato, número de veces que aparece el i-ésimo dato.
n= es el tamaño de la muestra; en el ejemplo n=20,
m= el número de datos distintos, en nuestro ejemplo son 12.
Si para cierto dato x sumamos todas las frecuencias correspondientes a los valores de la
muestra que son menores o iguales que x, se obtendrá la frecuencia acumulada (Fi es la
18
frecuencia acumulada del i-ésimo dato), correspondiente a ese dato. Esto dará lugar a la
última columna de la tabla. Por ejemplo, al valor x=14.4kg le corresponde la frecuencia
acumulada 10, lo cual indica que hay 10 valores de la muestra que son menores o iguales
que 14.4 kg.
Los diagramas tallo y hoja y los histogramas son dos de los métodos gráficos más populares
para describir conjuntos de datos cuantitativos.
Ejemplo 2.2. En la página siguiente se presenta la tabla 2.2, que contiene el registro de 4
variables de interés para el administrador de un hato bovino del rancho “La Vaquita Feliz”.
Clasifica a cada una de las variables cuantitativas, según sean discretas o continuas.
Solución
Las variables cuantitativas son: el número de garrapatas del animal, el número de
desparasitaciones hechas al animal y el peso del animal. Las dos primeras variables son
discretas mientras que la última es continua. Nótese que la variable sexo es cualitativa, a pesar
de que se han utilizado números para su registro. Estos números son únicamente códigos, que
pueden cambiar si la codificación se hiciera al revés (0=hembra, 1=macho). Esta ambigüedad
no existe con ningún tipo de variable cuantitativa, pues cada número tiene su representación
única en la recta real.
Cuando se quiera describir un conjunto de datos pequeño y cuando los datos numéricos
posean pocas cifras, se sugiere construir un diagrama de tallo y hoja
19
Tabla 2.2. Registro del sexo, peso, número de garrapatas y número de desparasitaciones para el
hato bovino del rancho “La Vaquita Feliz” (n= 36).
20
Veamos algunos ejemplos de construcción del diagrama tallo y hoja.
Ejemplo 2.3. Usemos los datos de los pesos del ejemplo 2.2 para construir un gráfico tallo y
hoja. Los dos primeros dígitos de la medida de los pesos serán los tallos y el último dígito (es
decir, las unidades), las hojas. Los posibles valores de tallo se listan verticalmente y se dibuja
una línea junto a ellos. Después se registran directamente de la tabla de datos en los renglones
correspondientes a sus valores de tallo. El diagrama tallo y hoja resultante es:
Puede aumentarse el número de tallos para tener una mejor representación de la distribución
de frecuencia de los pesos. Para ello, usamos cada valor de tallo dos veces y registramos las
hojas 0, 1, 2, 3, 4 para el primer valor (identificado con un ●) y 5, 6, 7, 8, 9 para el segundo
(identificado con un *).
Cada tallo define una clase de la distribución de frecuencias agrupada; dado que la variable
“peso” es de tipo continuo, es necesario asegurar que cualquier peso de los registrados en la
muestra caiga en una y sólo una clase. Por ello, es necesario definir los límites reales de la
distribución de frecuencias. Los límites de las clases son los valores más pequeño (mín.) y más
grande (máx.) posibles para esa clase. Así, los límites de clase para el valor de tallo 33* son
335 y 339; para el valor de tallo 36● son 360 y 364, etc. Los valores representados por las hojas
para un tallo dado caen entre los límites, inferior y superior. La tabla de arriba, a la derecha, se
construye a partir del diagrama tallo y hoja. Los límites reales (o fronteras) de las clases (2ª
columna) se calculan así:
Límite real inferior = mín. – u/2
Límite real superior = máx. + u/2
21
donde u es la unidad de medición más pequeña de los números registrados. En el ejemplo,
u =1 kg (los pesos se midieron al kilogramo más cercano).
Ventajas del gráfico tallo y hoja sobre el método convencional para construir
distribuciones de frecuencias agrupadas.
1. El método estándar, ordenando los datos de menor a mayor (uno por uno), involucra
un proceso “latoso” y largo de seleccionar el número de clases. En el gráfico tallo y
hoja, la agrupación está determinada automáticamente por la selección de los tallos.
Aunque esta característica es la fuerza de este método, también es una de sus
debilidades, puesto que restringe los límites de las clases a aquellos determinados
por los tallos elegidos y solamente aquellos tallos que son elegibles.
2. En el gráfico tallo y hoja, se preservan los números reales de la variable. Así es
posible realizar cálculos adicionales y resúmenes numéricos directamente del gráfico.
3. Quizás la ventaja más importante: no sólo se preservan los valores numéricos, sino
es un primer paso para ordenarlos al usar el gráfico.
Ejemplo 2.4. El diagrama tallo y hoja de la tabla 2.2, correspondiente al conjunto de pesos
mostrados en la tabla 1, puede rescribirse con las hojas ordenadas dentro de cada tallo:
33* 7
34●
34* 5
35● 2
35* 7
36● 000333
36* 5555588888
37● 0000033
37* 588
38● 00333
38* 5
Leyendo los pesos de este diagrama de arriba a abajo (y las hojas de izquierda a derecha),
obtenemos el conjunto de pesos ordenados:
337, 345, 352, 357, 360, 360, 360, 363, 363, 363, 365, 365, 365, 365, 365, 368, 368, 368
368, 368, 370, 370, 370, 370, 370, 373, 373, 375, 378, 378, 380, 380, 383, 383, 383, 385
¡Compara cuánto esfuerzo se requiere para ordenar los pesos directamente de la tabla 2.1,
en lugar de este método usando el diagrama tallo y hoja!
Nota. La formación de un gráfico tallo y hoja es un método de cálculo a mano y es ideal para
datos de tamaños que se extienden hasta el límite de conveniencia del cálculo a mano,
usando la calculadora manual, el cuál es de aproximadamente 100 observaciones. Más allá
22
de ese punto, es difícil de reordenar valores de hojas dentro de los tallos, y la posibilidad de
error se vuelve excesiva.
Otros ejemplos:
Exploremos el proceso de aumentar el número de tallos.
Ejemplo 2.5. Consideremos los siguientes datos que corresponden al número de insectos
acuáticos tomados por un dispositivo muestreador del fondo de un río. Hay, en total, n=35
datos:
66 65 72 54 62 71 71 69 72 73 66 63 57 70 63 70 72
67 67 67 65 67 66 60 68 68 65 64 64 63 64 66 65 65 67
Si seguimos el procedimiento descrito anteriormente, el primer dígito debe constituir al tallo y
el segundo a la hoja. Esto nos lleva a:
5│47
6│6529633777576088544346557
7│21123002
Nótese que hay muy pocos valores en los tallos 5 y 7 y también es difícil reordenar las hojas en
el rango 60-69. Una solución es usar cada valor de tallo dos veces y registrar las hojas 0,1,2,3,4
para el primer valor (identificado con un *) y 5,6,7,8,9 para el segundo (identificado con un ●).
Esto se muestra abajo, a la izquierda.
5*│4
5●│7
6*│23304434
6●│652967775768856557
7*│21123002
Ejercicios.
1. En la tabla 2.5, todavía parecen haber pocas clases; bien se podría subdividir las clases
originales, tomando 5 veces tantos intervalos de 2 unidades como se tengan. Este proceso
corresponde a repetir cada valor de tallo, 5 veces. Haz este gráfico, recordando codificar cada
subdivisión de un tallo con algún símbolo como * ó ●.
2. En ocasiones debemos construir un gráfico tallo y hoja en donde son necesarias hojas con
dígitos múltiples. Los siguientes datos se registraron con exactitud mayor que dos decimales;
tales datos son la pérdida de agua por evaporación (mg/g/hr) de 40 ratas a 25°C de
temperatura, medidos con un aparato altamente sensible. Construye el diagrama tallo y hoja
correspondiente.
0.6309 0.6241 0.6359 0.6320 0.6116 0.6585 0.6399 0.6301
0.6428 0.6458 0.6483 0.6397 0.6329 0.6266 0.6430 0.6362
0.6180 0.6544 0.6521 0.6390 0.6296 0.6328 0.6380 0.6499
0.6215 0.6300 0.6445 0.6320 0.6262 0.6404 0.6471 0.6459
0.6402 0.6449 0.6394 0.6214 0.6368 0.6611 0.6390 0.6441
23
Sugerencias para construir el diagrama:
1. Ignora el punto decimal, para efecto de la construcción del gráfico.
2. Escoge los primeros dos dígitos para los valores del tallo.
3. Construye las hojas con los dos últimos dígitos separados con comas.
Histograma de frecuencias
La siguiente tabla presenta una regla empírica para determinar el número de clases en un
histograma de acuerdo al número de datos.
Número de clases. Es conveniente tener entre 5 y 15 (otros entre 5 y 20) clases. El número
de clases debe determinarse a partir de la cantidad de datos presentes y de su uniformidad;
debe aumentarse o disminuirse según convenga y en beneficio de una presentación clara. Si
el número de clases es muy pequeño podríamos estar encubriendo características
importantes de los datos, debido al agrupamiento. Si son demasiadas clases, pueden
24
aparecer clases vacías y la distribución perdería su significado. En ocasiones es conveniente
usar una fórmula, llamada la “fórmula de Sturges” (H. A. Sturges, “The choice of a Class
Interval”, Journal of the American Statistical Association 21 (1926), 65-66), para determinar
el número de clases:
# de clases=1+3.322 log 10 n
donde n es el número de observaciones. El número de intervalos de clase especificado por
la regla es una guía y debe aumentarse o disminuirse según convenga y en beneficio de una
presentación clara.
en donde el Rango es la diferencia numérica entre las observaciones más grande y más
pequeña. Se sugiere evaluar el resultado y modificarlo en caso necesario ampliando los
intervalos y obtener una cifra conveniente para la amplitud de las clases.
Límites de las clases, límites reales y cifras significativas. Empiece con la clase más baja, de
modo que incluya a la observación más pequeña y añada las clases restantes. Los intervalos
deben ser mutuamente exclusivos; es decir, cada observación debe quedar exactamente
en una sola clase, no en dos al mismo tiempo. Los límites reales de las clases se deben
escoger de modo que sea imposible que una observación coincida con un límite real de
clase, es decir que sean iguales. Por ello, los límites reales poseen una cifra significativa
más que los datos originales.
Marcas de clase. Los puntos medios de los intervalos se llaman marcas de clase:
Ejemplo 2.6. Con base en el diagrama tallo y hoja correspondiente, se despliega en la figura
2.1 el histograma de frecuencias relativas de los pesos de los n=36 animales de un hato bovino,
de los ejemplos 2.2 y 2.3.
25
30 27.78
25
Frecuencia relativa, %
19.44
20
16.67
15 13.89
10 8.33
0
0
334.5 339.5 344.5 349.5 354.5 359.5 364.5 369.5 374.5 379.5 384.5 389.5
Peso (kg)
Figura 2.1. Histograma de frecuencias relativas de los pesos de n=36 animales de un hato.
Esto que se cumple de manera particular, también ocurre de manera general: "El porcentaje del
número total de mediciones que caigan en un intervalo particular de un histograma, es
proporcional al área de las barras que estén construidas arriba del intervalo".
Nota. El gráfico de tallo y hoja que se encuentra a la izquierda de la tabla 2.2 de los pesos de
los animales de un hato bovino, si se rota un ángulo de 90° observamos que las hojas del
gráfico tallo y hoja forman una figura de la distribución de frecuencias virtualmente idéntica a
un histograma de frecuencias relativas que está arriba. Así, el gráfico tallo y hoja representa
una forma pictórica útil y rápida de la distribución de frecuencias. El histograma puede ser
reservado para reportes escritos y resúmenes de los datos a publicar.
26