Está en la página 1de 10

UNIDAD II.

ESTADÍSTICA DESCRIPTIVA

Objetivo:
Al concluir la unidad, el estudiante utilizará los métodos gráficos y numéricos para la
descripción de un conjunto de datos.

El objetivo de la descripción estadística de datos es resumir las características de conjuntos de


datos, cualitativos o cuantitativos. Como fin último, queremos hacer a los datos más
comprensibles y encontrarles más sentido.

Los datos tal como se obtienen de una investigación están en forma desordenada por lo que
es difícil su interpretación y análisis. Debido a esto se deben organizar en forma de tablas y
gráficas, que permitan una visualización clara y rápida de todo el conjunto.

2.1 Datos ordenados y agrupados: tablas de frecuencias

El resumen más útil que se acostumbra hacer al recolectar datos de cualquier tipo, es contar
el número de observaciones que caen en cada una de las categorías, si la variable es
cualitativa, o que corresponde a cada uno de los valores numéricos o a intervalos, si la
variable es cuantitativa. También se podría buscar información sobre la variable en cuestión,
como por ejemplo, la proporción del número total de observaciones que caen en la categoría
o intervalo de valores numéricos ("clase", dicho de manera general).

Ejemplo 2.1. Los siguientes valores corresponden a los pesos (kg) de 20 animales de cierta
especie capturados en una reserva.

13.2 14.4 14.4 16.6


15.4 13.6 14.5 13.2
13.0 15.0 13.2 16.5
16.6 14.6 14.4 15.0
16.9 13.1 16.6 13.2

Para hacer fácil el manejo de una colección (muestra) de datos y obtener de ellos la
información que interese en determinado momento, éstos se ordenan (por regla general del
menor al mayor) y se asocian con cada una de ellos un número natural que llamamos la
frecuencia del dato, que es el número de veces que aparece el dato en la muestra, se
construye entonces la tabla de frecuencias de la muestra (ó tabla de distribución de
frecuencias).

Ordenando:
13.2, 13.0, 13.6, 13.1, 13.2, 13.2, 13.2,
14.4, 14.6, 14.4, 14.5, 14.4,
15.4, 15.0, 15.0,
16.6, 16.9, 16.6, 16.6, 16.5

Del menor al mayor:


13.0, 13.1, 13.2, 13.2, 13.2, 13.2, 13.6,
14.4, 14.4, 14.4, 14.5, 14.6,
15.0, 15.0, 15.4,
16.5, 16.6, 16.6, 16.6, 16.9

17
Tabla 2.1. Frecuencias de los pesos
Frecuencia relativa Frecuencia
Frecuencia fi ~
Peso (Kg.) ( fi ) acumulada
(fi)
ni (Fi)
13.0 1 0.05 1
13.1 1 0.05 2
13.2 4 0.20 6
13.6 1 0.05 7
14.4 3 0.15 10
14.5 1 0.05 11
14.6 1 0.05 12
15.0 2 0.10 14
15.4 1 0.05 15
16.5 1 0.05 16
16.6 3 0.15 19
16.9 1 0.05 20
12
∑ fi = 20 1.00
i =1

En la segunda columna de la tabla se encuentra la frecuencia de cada dato de la muestra,


y la suma de estas frecuencias debe ser igual al número total de datos de la muestra, en
este caso es:
12

∑f
i =1
i = f1 + f2 + f3 + L + f12 = 1 + 1 + 4 + 1 + 3 + 1 + 1 + 2 + 1 + 1 + 3 + 1 = n = 20

donde: fi= es la frecuencia del i-ésimo dato, número de veces que aparece el i-ésimo dato.
n= es el tamaño de la muestra; en el ejemplo n=20,
m= el número de datos distintos, en nuestro ejemplo son 12.

En el apéndice B se podrá encontrar más información sobre los símbolos de sumatoria.

Dividiendo la frecuencia entre el tamaño n de la muestra, obtenemos la frecuencia relativa


( f~i ) de cada dato, que se muestra en la tercera columna de la tabla.
Así que f3=4, la frecuencia del tercer dato (en el ejemplo: el peso de 13.2 kg.) es de cuatro,
tiene frecuencia relativa de 0.20, o bien 20%.
Como f~i = i (donde i=1, 2,…., n) para cada dato distinto de la muestra y cada fi ≤ n ,
f
n
~
entonces: 0 ≤ fi ≤ 1 y la suma de las frecuencias relativas es
m
siempre: ∑ f~ =f~ + f~ + L + f~
i =1
i 1 2 m =1

donde: f~i = es la frecuencia relativa del i-ésimo dato.


m= el número de datos distintos, en nuestro ejemplo son 12.

Si para cierto dato x sumamos todas las frecuencias correspondientes a los valores de la
muestra que son menores o iguales que x, se obtendrá la frecuencia acumulada (Fi es la

18
frecuencia acumulada del i-ésimo dato), correspondiente a ese dato. Esto dará lugar a la
última columna de la tabla. Por ejemplo, al valor x=14.4kg le corresponde la frecuencia
acumulada 10, lo cual indica que hay 10 valores de la muestra que son menores o iguales
que 14.4 kg.
„

2.2 Métodos descriptivos gráficos: diagrama de tallo y hoja, histograma, polígono de


frecuencias, diagrama de barras, diagrama circular o de pastel

Descripciones gráficas de datos cuantitativos

Los diagramas tallo y hoja y los histogramas son dos de los métodos gráficos más populares
para describir conjuntos de datos cuantitativos.

Ejemplo 2.2. En la página siguiente se presenta la tabla 2.2, que contiene el registro de 4
variables de interés para el administrador de un hato bovino del rancho “La Vaquita Feliz”.
Clasifica a cada una de las variables cuantitativas, según sean discretas o continuas.

Solución
Las variables cuantitativas son: el número de garrapatas del animal, el número de
desparasitaciones hechas al animal y el peso del animal. Las dos primeras variables son
discretas mientras que la última es continua. Nótese que la variable sexo es cualitativa, a pesar
de que se han utilizado números para su registro. Estos números son únicamente códigos, que
pueden cambiar si la codificación se hiciera al revés (0=hembra, 1=macho). Esta ambigüedad
no existe con ningún tipo de variable cuantitativa, pues cada número tiene su representación
única en la recta real.
„

Diagrama tallo y hoja

Cuando se quiera describir un conjunto de datos pequeño y cuando los datos numéricos
posean pocas cifras, se sugiere construir un diagrama de tallo y hoja

Pasos a seguir en la construcción de un diagrama tallo y hoja:

Paso 1: Decide cuántos tallos y hojas serán definidos.


Paso 2: Enlista los tallos en orden ascendente en una columna, comenzando con el tallo más
pequeño y terminando con el más grande.
Paso 3: Procede a lo largo del conjunto de datos, colocando la hoja para cada observación en el
renglón de tallo apropiado (se podría también ordenar las hojas de cada tallo en forma
creciente).

19
Tabla 2.2. Registro del sexo, peso, número de garrapatas y número de desparasitaciones para el
hato bovino del rancho “La Vaquita Feliz” (n= 36).

No. de identidad No. de Sexo No. de desparasitaciones Peso (kg)


del animal garrapatas
1 28 0 3 383
2 18 1 1 368
3 46 1 2 365
4 18 1 1 357
5 55 0 5 380
6 18 1 1 375
7 20 0 2 368
8 19 1 1 360
9 19 1 2 360
10 18 0 1 380
11 21 0 2 383
12 20 1 2 370
13 19 0 1 370
14 20 0 2 385
15 21 1 5 370
16 20 0 3 365
17 20 0 3 370
18 20 1 3 368
19 19 1 2 352
20 20 0 2 373
21 18 1 1 373
22 19 1 1 365
23 18 1 1 363
24 29 1 4 363
25 26 1 2 360
26 18 1 1 378
27 19 1 2 337
28 22 1 3 363
29 27 1 2 368
30 19 1 3 365
31 18 0 1 365
32 21 0 3 378
33 19 1 2 370
34 19 0 2 368
35 19 0 2 383
36 20 1 2 345

Nota. En la columna 3, 0=macho y 1=hembra. En la columna 4, se indica el número de veces


que ha sido desparasitado el animal en cuestión.

20
Veamos algunos ejemplos de construcción del diagrama tallo y hoja.

Ejemplo 2.3. Usemos los datos de los pesos del ejemplo 2.2 para construir un gráfico tallo y
hoja. Los dos primeros dígitos de la medida de los pesos serán los tallos y el último dígito (es
decir, las unidades), las hojas. Los posibles valores de tallo se listan verticalmente y se dibuja
una línea junto a ellos. Después se registran directamente de la tabla de datos en los renglones
correspondientes a sus valores de tallo. El diagrama tallo y hoja resultante es:

33│7 Así, el peso 345 se registra como un 5 sobre la línea


34│5 con tallo 34, los pesos 365 y 368 se registran como 5
35│72 y 8 con tallo 36, etc.
36│8580058533038558
37│5000033880
38│300353

Puede aumentarse el número de tallos para tener una mejor representación de la distribución
de frecuencia de los pesos. Para ello, usamos cada valor de tallo dos veces y registramos las
hojas 0, 1, 2, 3, 4 para el primer valor (identificado con un ●) y 5, 6, 7, 8, 9 para el segundo
(identificado con un *).

Esto se muestra a continuación, a la izquierda.

Tabla 2.3 Tabla de frecuencias de pesos de un hato (tabla 2.2)


LÍMITES DE LIMITES FREC. FREC. FREC.
CLASES REALES RELATIVA ACUMULADA
% RELATIVA %
33* 7 335-339 334.5-339.5 1 2.78 2.78
34● 340-344 339.5-344.5 0 0.00 2.78
34* 5 345-349 344.5-349.5 1 2.78 5.56
35● 2 350-354 349.5-354.5 1 2.78 8.34
35* 7 355-359 354.5-359.5 1 2.78 11.12
36● 003303 360-364 359.5-364.5 6 16.67 27.79
36* 858585855 365-369 364.5-369.5 10 27.78 55.57
37● 0000330 370-374 369.5-374.5 7 19.44 75.01
37* 588 375-379 374.5-379.5 3 8.33 83.34
38● 30033 380-384 379.5-384.5 5 13.88 97.22
38* 5 385-389 384.5-389.5 1 2.78 100.00
mín.-máx. inf.-sup. 36 100.00

Cada tallo define una clase de la distribución de frecuencias agrupada; dado que la variable
“peso” es de tipo continuo, es necesario asegurar que cualquier peso de los registrados en la
muestra caiga en una y sólo una clase. Por ello, es necesario definir los límites reales de la
distribución de frecuencias. Los límites de las clases son los valores más pequeño (mín.) y más
grande (máx.) posibles para esa clase. Así, los límites de clase para el valor de tallo 33* son
335 y 339; para el valor de tallo 36● son 360 y 364, etc. Los valores representados por las hojas
para un tallo dado caen entre los límites, inferior y superior. La tabla de arriba, a la derecha, se
construye a partir del diagrama tallo y hoja. Los límites reales (o fronteras) de las clases (2ª
columna) se calculan así:
Límite real inferior = mín. – u/2
Límite real superior = máx. + u/2

21
donde u es la unidad de medición más pequeña de los números registrados. En el ejemplo,
u =1 kg (los pesos se midieron al kilogramo más cercano).
„

Ventajas del gráfico tallo y hoja sobre el método convencional para construir
distribuciones de frecuencias agrupadas.
1. El método estándar, ordenando los datos de menor a mayor (uno por uno), involucra
un proceso “latoso” y largo de seleccionar el número de clases. En el gráfico tallo y
hoja, la agrupación está determinada automáticamente por la selección de los tallos.
Aunque esta característica es la fuerza de este método, también es una de sus
debilidades, puesto que restringe los límites de las clases a aquellos determinados
por los tallos elegidos y solamente aquellos tallos que son elegibles.
2. En el gráfico tallo y hoja, se preservan los números reales de la variable. Así es
posible realizar cálculos adicionales y resúmenes numéricos directamente del gráfico.
3. Quizás la ventaja más importante: no sólo se preservan los valores numéricos, sino
es un primer paso para ordenarlos al usar el gráfico.

Ejemplo 2.4. El diagrama tallo y hoja de la tabla 2.2, correspondiente al conjunto de pesos
mostrados en la tabla 1, puede rescribirse con las hojas ordenadas dentro de cada tallo:

33* 7
34●
34* 5
35● 2
35* 7
36● 000333
36* 5555588888
37● 0000033
37* 588
38● 00333
38* 5

Leyendo los pesos de este diagrama de arriba a abajo (y las hojas de izquierda a derecha),
obtenemos el conjunto de pesos ordenados:
337, 345, 352, 357, 360, 360, 360, 363, 363, 363, 365, 365, 365, 365, 365, 368, 368, 368
368, 368, 370, 370, 370, 370, 370, 373, 373, 375, 378, 378, 380, 380, 383, 383, 383, 385

¡Compara cuánto esfuerzo se requiere para ordenar los pesos directamente de la tabla 2.1,
en lugar de este método usando el diagrama tallo y hoja!
„

Nota. La formación de un gráfico tallo y hoja es un método de cálculo a mano y es ideal para
datos de tamaños que se extienden hasta el límite de conveniencia del cálculo a mano,
usando la calculadora manual, el cuál es de aproximadamente 100 observaciones. Más allá

22
de ese punto, es difícil de reordenar valores de hojas dentro de los tallos, y la posibilidad de
error se vuelve excesiva.

Otros ejemplos:
Exploremos el proceso de aumentar el número de tallos.
Ejemplo 2.5. Consideremos los siguientes datos que corresponden al número de insectos
acuáticos tomados por un dispositivo muestreador del fondo de un río. Hay, en total, n=35
datos:
66 65 72 54 62 71 71 69 72 73 66 63 57 70 63 70 72
67 67 67 65 67 66 60 68 68 65 64 64 63 64 66 65 65 67
Si seguimos el procedimiento descrito anteriormente, el primer dígito debe constituir al tallo y
el segundo a la hoja. Esto nos lleva a:
5│47
6│6529633777576088544346557
7│21123002

Nótese que hay muy pocos valores en los tallos 5 y 7 y también es difícil reordenar las hojas en
el rango 60-69. Una solución es usar cada valor de tallo dos veces y registrar las hojas 0,1,2,3,4
para el primer valor (identificado con un *) y 5,6,7,8,9 para el segundo (identificado con un ●).
Esto se muestra abajo, a la izquierda.

5*│4
5●│7
6*│23304434
6●│652967775768856557
7*│21123002

Este último procedimiento equivale a duplicar el número de clases.


„

Ejercicios.
1. En la tabla 2.5, todavía parecen haber pocas clases; bien se podría subdividir las clases
originales, tomando 5 veces tantos intervalos de 2 unidades como se tengan. Este proceso
corresponde a repetir cada valor de tallo, 5 veces. Haz este gráfico, recordando codificar cada
subdivisión de un tallo con algún símbolo como * ó ●.

2. En ocasiones debemos construir un gráfico tallo y hoja en donde son necesarias hojas con
dígitos múltiples. Los siguientes datos se registraron con exactitud mayor que dos decimales;
tales datos son la pérdida de agua por evaporación (mg/g/hr) de 40 ratas a 25°C de
temperatura, medidos con un aparato altamente sensible. Construye el diagrama tallo y hoja
correspondiente.
0.6309 0.6241 0.6359 0.6320 0.6116 0.6585 0.6399 0.6301
0.6428 0.6458 0.6483 0.6397 0.6329 0.6266 0.6430 0.6362
0.6180 0.6544 0.6521 0.6390 0.6296 0.6328 0.6380 0.6499
0.6215 0.6300 0.6445 0.6320 0.6262 0.6404 0.6471 0.6459
0.6402 0.6449 0.6394 0.6214 0.6368 0.6611 0.6390 0.6441

23
Sugerencias para construir el diagrama:
1. Ignora el punto decimal, para efecto de la construcción del gráfico.
2. Escoge los primeros dos dígitos para los valores del tallo.
3. Construye las hojas con los dos últimos dígitos separados con comas.
„

Histograma de frecuencias

Con la tabla de frecuencias como la construida en el ejemplo 3, se puede dibujar un histograma.

Los histogramas de frecuencias (o de frecuencias relativas) son diagramas de barras que


representan la distribución de frecuencias de intervalos de valores de datos cuantitativos.

Pasos a seguir para construir un histograma:


1. Examina los datos para determinar las mediciones más pequeña y más grande.
2. Divide el intervalo entre las mediciones más pequeña y más grande en subintervalos iguales
(de entre 5 y 20), llamados clases. Estas clases deben satisfacer el siguiente requisito:

Cada medición cae en un y sólo un intervalo.

El requisito implica que ninguna medición caerá en la frontera de un subintervalo.


3. Calcula la frecuencia o frecuencia relativa de mediciones que caigan dentro de cada
subintervalo.
4. Usando un eje vertical de casi tres cuartos de longitud del eje horizontal, grafica cada
frecuencia o frecuencia relativa como un rectángulo sobre el subintervalo correspondiente.

La siguiente tabla presenta una regla empírica para determinar el número de clases en un
histograma de acuerdo al número de datos.

Tabla 2.4 Regla empírica para determinar el número de clases en un histograma.


NÚMERO DE OBSERVACIONES NÚMERO DE CLASES
EN UN CONJUNTO DE DATOS
Menos de 25 5ó6
25-50 7 - 14
Más de 50 15 - 20

A continuación se proporcionan detalles adicionales que hay que considerar al construir un


histograma:

Número de clases. Es conveniente tener entre 5 y 15 (otros entre 5 y 20) clases. El número
de clases debe determinarse a partir de la cantidad de datos presentes y de su uniformidad;
debe aumentarse o disminuirse según convenga y en beneficio de una presentación clara. Si
el número de clases es muy pequeño podríamos estar encubriendo características
importantes de los datos, debido al agrupamiento. Si son demasiadas clases, pueden

24
aparecer clases vacías y la distribución perdería su significado. En ocasiones es conveniente
usar una fórmula, llamada la “fórmula de Sturges” (H. A. Sturges, “The choice of a Class
Interval”, Journal of the American Statistical Association 21 (1926), 65-66), para determinar
el número de clases:

# de clases=1+3.322 log 10 n
donde n es el número de observaciones. El número de intervalos de clase especificado por
la regla es una guía y debe aumentarse o disminuirse según convenga y en beneficio de una
presentación clara.

Cifras significativas y amplitud de las clases. Debe tomarse en cuenta el “formato” de


medición de la variable de respuesta, es decir, si los datos se miden con el formato “y.yy”, la
amplitud debe ser en el mismo formato un entero y dos dígitos después del punto decimal.
Todas las clases deben tener la misma amplitud. Esto nos permite hacer comparaciones
uniformes de las frecuencias de clase. Bajo esta condición de uniformidad, entonces la
amplitud se define como:
Rango
amplitud = ,
# de intervalos de clase (deseado)

en donde el Rango es la diferencia numérica entre las observaciones más grande y más
pequeña. Se sugiere evaluar el resultado y modificarlo en caso necesario ampliando los
intervalos y obtener una cifra conveniente para la amplitud de las clases.

Límites de las clases, límites reales y cifras significativas. Empiece con la clase más baja, de
modo que incluya a la observación más pequeña y añada las clases restantes. Los intervalos
deben ser mutuamente exclusivos; es decir, cada observación debe quedar exactamente
en una sola clase, no en dos al mismo tiempo. Los límites reales de las clases se deben
escoger de modo que sea imposible que una observación coincida con un límite real de
clase, es decir que sean iguales. Por ello, los límites reales poseen una cifra significativa
más que los datos originales.

Marcas de clase. Los puntos medios de los intervalos se llaman marcas de clase:

Lim sup + Lim inf


Marca de clase = .
2

El histograma como diagrama de barras. El histograma se construye dibujando un diagrama


de barras (rectángulos) adyacentes, donde la altura de los rectángulos representan las
frecuencias de clase (o bien, la frecuencia relativa de clase), y sus bases se extienden entre
límites “reales” de clase (fronteras de clase) sucesivos y no habrá huecos entre los
rectángulos.

Ejemplo 2.6. Con base en el diagrama tallo y hoja correspondiente, se despliega en la figura
2.1 el histograma de frecuencias relativas de los pesos de los n=36 animales de un hato bovino,
de los ejemplos 2.2 y 2.3.

25
30 27.78

25
Frecuencia relativa, %

19.44
20
16.67

15 13.89

10 8.33

5 2.78 2.78 2.78 2.78 2.78

0
0
334.5 339.5 344.5 349.5 354.5 359.5 364.5 369.5 374.5 379.5 384.5 389.5

Peso (kg)

Figura 2.1. Histograma de frecuencias relativas de los pesos de n=36 animales de un hato.

Interpretación del histograma

El porcentaje del número total de mediciones que contiene un intervalo particular es


proporcional al área del rectángulo dibujado sobre el intervalo. Por ejemplo, puede verificarse
que el área de las primera y segunda barras del histograma de frecuencias relativas miden
13.90 kg×%, cada una (correspondientes a las clases 334.5 – 339.5 y 344.5 – 349.5,
respectivamente; la clase 339.5 – 344.5 tiene frecuencia cero, por lo que no hay barra, es decir,
su área es cero). Así, juntas, las “áreas” de las barras de las tres primeras clases suman 27.80
kg×% (=13.90 + 0 + 13.90). Por otra parte, el área total de las barras de todas las clases es
igual a amplitud de cada clase ×100% = 500 kg×%. Entonces, las tres primeras barras cubren
un (27.8/500)×100%= 5.56% del área total. Esto coincide con la frecuencia acumulada relativa
para la clase 3 (ver tabla 2). Es decir, las áreas y las frecuencias relativas son proporcionales.

Esto que se cumple de manera particular, también ocurre de manera general: "El porcentaje del
número total de mediciones que caigan en un intervalo particular de un histograma, es
proporcional al área de las barras que estén construidas arriba del intervalo".
„

Nota. El gráfico de tallo y hoja que se encuentra a la izquierda de la tabla 2.2 de los pesos de
los animales de un hato bovino, si se rota un ángulo de 90° observamos que las hojas del
gráfico tallo y hoja forman una figura de la distribución de frecuencias virtualmente idéntica a
un histograma de frecuencias relativas que está arriba. Así, el gráfico tallo y hoja representa
una forma pictórica útil y rápida de la distribución de frecuencias. El histograma puede ser
reservado para reportes escritos y resúmenes de los datos a publicar.

26

También podría gustarte