Está en la página 1de 7

BIOESTADÍSTICA

Ruta de clase
TEMA: Datos agrupados

Objetivo: Resumir la información mediante datos agrupados

I. Preguntas Generales

a) ¿Cuándo debemos agrupar un conjunto de datos para poderlos interpretar?


b) ¿Cómo debemos agrupar el conjunto de datos?.
c) ¿Cómo se puede determinar el número de intervalos o clases para agrupar los datos?
d) ¿Cómo podemos construir la distribución de frecuencias para datos agrupados?
e) ¿Qué información podemos obtener de la distribución de frecuencias en datos agrupados?
f) ¿Cómo se representa una distribución de frecuencias de datos agrupados?

II. Introducción

Cuando el conjunto de datos contiene una gran cantidad de valores numéricos continuos, se hace necesario
construir la distribución de frecuencias, organizando o dividiendo el conjunto de datos en subgrupos llamados
intervalos de clase o simplemente clases, esto para facilitar los cálculos, la interpretación y análisis de estos
datos. Recordemos que uno de los objetivos de la estadística descriptiva es resumir el conjunto de datos y a
partir de este resumen identificar tendencias, realizar un análisis y poder tomar decisiones objetivas en contextos
definidos donde pertenecen los datos. Por esto la agrupación de datos hace parte de la estadística descriptiva y
ayuda al investigador a interpretar el conjunto de datos ya resumido.

Como ya sabemos, un conjunto de datos también se puede representar gráficamente. Si deseamos graficar una
distribución de frecuencias con datos agrupados, podemos hacer uso del histograma de frecuencias, el polígono
de frecuencias y la ojiva.

En esta ruta de clase, vamos a mostrar el histograma de frecuencias y corresponde a los estudiantes consultar
sobre la construcción del polígono de frecuencias y de la ojiva.

III. Construcción de una distribución de frecuencias para datos agrupados

Para construir la distribución de frecuencias de datos agrupados se hace necesario seguir los siguientes pasos:
* Determinar la cantidad de clases ó intervalos de clase que se quiere utilizar
* Determinar el ancho de clase.
* Determinar los límites de cada clase (superior e inferior).
* Luego se completa la tabla con la marca de clase y las frecuencias absolutas y relativas respectivas.

Cantidad de Clases : K

El número de clases depende de la cantidad de datos. Es decir cuanto mayor sea el número de observaciones,
mayor será el número de clases que se requieren. La experiencia indica que el número de clases oscila entre 5
y 20. Por esto el investigador puede en un momento dado decidir entre 5 y 20 o también la estadística presenta
varias fórmulas para calcular este número.
Una forma útil de calcular la cantidad de clases es aplicar la fórmula : K = √𝑛
Siendo K el número de clases o número de grupos de datos en los que vamos a dividir el conjunto de datos y n
el total de datos de la muestra-
Ancho de Clase :C

Para establecer el ancho de clase lo primero que se debe hacer es encontrar el rango que es la diferencia entre
el valor máximo y el valor mínimo de la serie de datos y luego calcular el ancho de clase C, con K y el rango.
Rango = valor máximo – valor mínimo
C = Rango / k Siendo C el ancho de clase.

Límites de Clase o límites del intervalo de clase : (LI, LS)

Se deben escoger de tal manera que cada valor ó dato pertenezca a una sola clase.
El límite inferior de la primera clase será el valor mínimo de la serie de datos, luego a ese primer límite inferior
se le suma el ancho de clase para hallar el límite superior de ese primer intervalo de clase. Luego en el segundo
intervalo, se coloca el límite superior del primer intervalo como el límite inferior del segundo intervalo, se le suma
el ancho de clase para hallar el límite superior del segundo intervalo y así se continua hasta completar el número
de intervalos de clase que hemos definido.

NOTA:
1. Toda tabla o distribución de frecuencias para datos, debe llevar el nro de la tabla, el titulo, cuerpo de la
tabla y la fuente.
2. Se debe tener en cuenta que el primer intervalo es cerrado [ ], los demás intervalos serán abierto,
cerrado ( ], esto para garantizar que no se traslapen los intervalos de clase.

Marca de Clase : MC
Es el punto medio de cada intervalo de clase. Es un valor que representa a todos los datos del intervalo de clase.

Un ejemplo:

El siguiente conjunto de datos corresponde al tiempo en minutos que tarda una muestra de niños de un Instituto
para la educación preescolar de niños en situación de discapacidad visual, en responder a una prueba de
escritura en braile.

0,6 1,6 2,1 2,5 2,9 3,2 3,5 3,7 4,4


0,8 1,6 2,1 2,6 2,9 3,2 3,5 3,8 4,4
0,8 1,6 2,2 2,6 2,9 3,2 3,5 3,8 4,4
0,9 1,7 2,2 2,6 2,9 3,2 3,5 3,8 4,6
1 1,7 2,2 2,7 2,9 3,2 3,5 3,9 4,6
1 1,7 2,2 2,7 2,9 3,2 3,5 4 4,6
1,1 1,8 2,2 2,7 3 3,2 3,5 4 4,7
1,2 1,8 2,2 2,7 3 3,3 3,5 4 4,7
1,3 1,8 2,2 2,8 3,1 3,3 3,6 4 4,8
1,3 1,8 2,4 2,8 3,1 3,3 3,6 4,1 5
1,4 1,9 2,4 2,8 3,1 3,4 3,7 4,2
1,4 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,4 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,5 1,9 2,5 2,8 3,1 3,4 3,7 4,2
1,5 1,9 2,5 2,8 3,1 3,5 3,7 4,3

A partir de estos datos se pide realizar una distribución de frecuencias e interpretar la información.
Solución.

Note que el conjunto de datos es grande y contiene una variable cuantitativa continua. En este caso, se debe
realizar una distribución de frecuencias para datos agrupados

Pasos a seguir :

1. Decidir cuantos en cuantos intervalos de clase se va a agrupar todo el conjunto de datos.


Por decisión del investigador, se deciden 6 intervalos de clase.

2. Hallar el rango
Rango = (5-0.6) = 4.4

3. Calcular el ancho de clase


C = 4.4/6 = 0.73. Es aconsejable aproximar por exceso este ancho de clase, para evitar que algún
dato quede fuera de los intervalos de clase, en este caso C = 0.8

4. Construir los intervalos de clase (Ver tabla).

5. Construir la marca de clase (Ver tabla).

6. Construir la tabla de distribución de frecuencias. (Ver tabla).

Tabla No 1.
Distribución de frecuencias para el tiempo en minutos que tarda una muestra de niños de un
Instituto de Educación preescolar para niños en situación de discapacidad visual, en responder a
una prueba de escritura en braile.

Intervalo de clase Frec. Rel.


Marca de Frecuencia Frecuencia Frec. Abs.
Clase acumulada
Li Ls Clase absoluta relativa (%) Acum.
(%)
1 0,6 1,4 2 13 10 13 10
2 1,4 2,2 3,6 26 20 39 30
3 2,2 3 5,2 29 22 68 52
4 3 3,8 6,8 41 32 109 84
5 3,8 4,6 8,4 17 13 126 97
6 4,6 5,4 10 4 3 130 100
130

Fuente: Investigadores sociales.

Alguna interpretación de los resultados obtenidos en la tabla de distribución de frecuencias:

1. Se observa que 26 niños, es decir el 20% de los niños del Instituto del estudio, demoraron entre 1.4 y
2.2 minutos en resolver la prueba.
2. El 84% (109) de los niños del Instituto en estudio, demoraron máximo 3.8 minutos en resolver la
prueba.
3. 62 niños, es decir el 48% de los niños del estudio demoraron más de 3 minutos en resolver la prueba.
Histograma de frecuencias:

El histograma, es una forma de graficar los datos que se encuentran en una distribución de frecuencias para
datos agrupados. Debemos tener en cuenta que el histograma nos da la misma información que nos da la
distribución de frecuencias, somos nosotros quienes decidimos si presentamos en el informe de resultados el
histograma o la distribución de frecuencias.

Para el ejemplo que traemos, el histograma de frecuencias es el siguiente:

Gráfico No 1.
Histograma de frecuencias para el tiempo en minutos que tarda una muestra de
niños de un Instituto para educación preescolar de niños en situación de
discapacidad visual, en responder a una prueba de escritura en braile
45
40
35
Nro de niños

30
25
20
15
10
5
0
0,6 - 1,4 1,4 - 2,2 2,2 - 3 3 - 3,8 4 - 4,6 4,6 - 5,4
Tiempo

Fuente : Investigadores.

En este histograma, podemos ver que la distribución del conjunto de datos es asimétrica con sesgo negativo,
adicionalmente, podemos pensar que las medidas de tendencia central podrán estar ubicadas entre los intervalos
2.2 – 3 y 3 – 3.8.

Trabajo para resolver de manera individual : Construya e interprete el polígono de frecuencias y la ojiva para
este conjunto de datos.

IV. Medidas de tendencia central en datos agrupados

Cuando los datos están agrupados en una tabla de distribución de frecuencias, la media se calcula como:

Media poblacional Media muestral

∑𝐶𝑙𝑎𝑠𝑒𝑠 𝑀𝐶 ∗ 𝐹𝐴 ∑𝐶𝑙𝑎𝑠𝑒𝑠 𝑀𝐶 ∗ 𝐹𝐴
𝜇= 𝑋̅ =
𝑁 𝑛

Dónde:

MC es la marca de cada una de las clases


FA es la frecuencia absoluta de cada clase
N es el número de individuos o tamaño de la población
n es el número de individuos o tamaño de la muestra
La mediana para datos que se encuentra agrupados en una tabla de distribución de frecuencias se calcula
como:

Se ubica la clase donde se encuentra el 50% de FRA (frecuencia relativa acumulada) y sobre esa clase se
calcula

50 − 𝐹𝑅𝐴𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
𝑀𝑒 = 𝐿𝐼𝑐𝑙𝑎𝑠𝑒 + ( ) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
𝐹𝑅𝑐𝑙𝑎𝑠𝑒

Si los datos se encuentran agrupados en una tabla de distribución de frecuencias, la moda es el valor
alrededor del cual se encuentra la mayor concentración de información.

Si las clases tienen igual amplitud, se ubica la clase modal como la que tiene mayor frecuencia absoluta o
mayor frecuencia relativa, y sobre esa clase se calcula:

𝐹𝑅𝑐𝑙𝑎𝑠𝑒 − 𝐹𝑅𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
𝑀𝑜 = 𝐿𝐼𝑐𝑙𝑎𝑠𝑒 + (2∗𝐹𝑅 )∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
𝑐𝑙𝑎𝑠𝑒 − 𝐹𝑅𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 − 𝐹𝑅𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟

V. Medidas de dispersión o variabilidad

Cuando los datos se encuentran agrupados en una tabla de distribución de frecuencias, la varianza se calcula
como:

Varianza poblacional Varianza muestral

∑𝐶𝑙𝑎𝑠𝑒𝑠(𝑀𝐶 − 𝜇)2 ∗ 𝐹𝐴 ∑𝐶𝑙𝑎𝑠𝑒𝑠(𝑀𝐶 − 𝑋̅)2 ∗ 𝐹𝐴


𝜎2 = 𝑆2 =
𝑁 𝑛−1

VI. Medidas de posición

Los cuartiles en datos agrupados se calcula como:

Primer cuartil

Se ubica la clase que contiene el 25% de FRA

25 − 𝐹𝑅𝐴𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
𝑄1 = 𝐿𝐼𝑐𝑙𝑎𝑠𝑒 + ( ) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
𝐹𝑅𝑐𝑙𝑎𝑠𝑒
Tercer cuartil

Se ubica la clase que contiene el 75% de FRA

75 − 𝐹𝑅𝐴𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
𝑄3 = 𝐿𝐼𝑐𝑙𝑎𝑠𝑒 + ( ) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
𝐹𝑅𝑐𝑙𝑎𝑠𝑒
Para hallar el rango intercuartil y los cercos superior e inferior, se utiliza la misma metodología y formulas vistas
en el caso de los datos sin agrupar.

Para cualquier percentil

Se ubica la clase que contiene el percentil deseado y sobre esa clase se calcula

𝑃% − 𝐹𝑅𝐴𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟
𝑃 = 𝐿𝐼𝑐𝑙𝑎𝑠𝑒 + ( ) ∗ 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑
𝐹𝑅𝑐𝑙𝑎𝑠𝑒

Ejercicio completo para datos agrupados

Se realizó un estudio sobre la edad a la que los jóvenes de una zona de alto riesgo social inician su
actividad delictiva. Los investigadores tomaron una muestra de 50 jóvenes de la zona y les
preguntaron la edad a la cual comenzaron a delinquir. Los resultados se resumieron en la siguiente
distribución de frecuencias. Se desea hacer el análisis exploratorio de los datos resumidos en esta
distribución de frecuencias

Tabla No 2.
Distribución de frecuencias para la edad en que una muestra de jóvenes de una zona de alto
riesgo social inician su actividad delictiva.

Frecuencia
Frecuencia Frecuencia
Marca Frecuencia Relativa
Clase Intervalo relativa Absoluta
de clase absoluta acumulada
(%) acumulada
(%)
1 (9-13] 11 8 16 8 16
2 (13-17] 15 13 26 21 42
3 (17-21] 19 10 20 31 62
4 (21-25] 23 9 18 40 80
5 (25-29] 27 6 12 46 92
6 (29-33] 31 4 8 50 100
TOTAL 50 100

Fuente : Investigadores.

Promedio

11 ∗ 8 + 15 ∗ 13+. . . +31 ∗ 4
𝑋̅ = = 19.3
50

La edad promedio a la que comienza la actividad delictiva en los jóvenes de dicha zona es de 19.3 años.

La mediana

La clase que contiene 50% de frecuencia relativa acumulada es la clase 3, sobre esa clase se calcula:

50 − 42
𝑀𝑒 = 17 + ( ) ∗ 4 = 18.6
20
El 50% de los jóvenes comienza su actividad delictiva por debajo de los 18.6 años

La moda

La clase modal es la número 2, dado que tiene la mayor frecuencia absoluta, sobre esa clase se calcula:

26 − 16
𝑀𝑜 = 13 + ( ) ∗ 4 = 15.5
2 ∗ 26 − 16 − 20

La edad a la que con mayor frecuencia comienza la actividad delictiva los jóvenes de la zona es a los 15.5 años

La varianza

(11 − 19.3)2 ∗ 8+. . . +(31 − 19.3)2 ∗ 4


𝑆2 = = 37.12
49

La varianza de la edad de inicio de la actividad delictiva es de 37.12 años2

La desviación estándar

𝑆 = √37.12 = 6.09

La desviación estándar de la edad de inicio de la actividad delictiva es de 6.09 años

Coeficiente de variación

6.09
𝐶𝑉 = ∗ 100 = 31.6%
19.3

El porcentaje de variabilidad de la edad de inicio de la actividad delictiva es de 31.6%

Cuartiles

La clase que tiene 25% de FRA acumulada es la clase 2

25 − 16
𝑄1 = 13 + ( ) ∗ 4 = 14.4
26

El 25% de los jóvenes comenzó su actividad delictiva antes de las 14.4 años

La clase que tiene 75% de FRA acumulada es la clase 2

75 − 62
𝑄3 = 21 + ( ) ∗ 4 = 23.9
18

El 75% de los jóvenes comenzó su actividad delictiva antes de las 23.9 años

VII. Ejercicios del taller

Realizar previo a la clase los ejercicios 1, 2, 3 y 4 del taller de datos agrupados

También podría gustarte