Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apunte 1 1 Introduccion Distribucion de Frecuencias PDF
Apunte 1 1 Introduccion Distribucion de Frecuencias PDF
Las observaciones o datos que son representados por una variable discreta o
continua se llaman datos discretos o continuos respectivamente. En general las
mediciones dan origen a datos continuos, mientras que las enumeraciones o conteos
originan datos discretos. En los datos continuos siempre existe la llamada unidad de
precisión del instrumento utilizado, y se debe tener en cuenta que el último decimal de
los datos se encuentra aproximado, así por ejemplo, si se registra una altura de un árbol
como 5.4 metros significa que la altura verdadera se encuentra entre 5.35 y 5.45 metros.
Consecuente con esto, debe siempre aplicarse en los cálculos la regla clásica de
aproximación.
Pág. 2
cuantitativa discreta codificando los valores no numéricos, pero se debe tener presente
que no tiene la misma interpretación que una variable de este tipo.
Variables
Cualitativas Cuantitativas
3. Distribución de frecuencias.
Cuando tenemos un registro de datos tal cual fueron obtenidos, sin ninguna
ordenación o clasificación, diremos que se tiene datos no agrupados. Cuando se
dispone de un gran número n de datos, es útil distribuirlos en clases o categorías, que
se definen subdividiendo excluyentemente el recorrido de la variable, y determinar el
número de observaciones perteneciente a cada clase, es decir, determinar la llamada
frecuencia absoluta de cada clase. Una ordenación tabular de este tipo se conoce con el
nombre de tabla de distribución de frecuencias, y por lo tanto, en tal caso, diremos que
se tienen datos agrupados. Esta tabulación permite conocer como están distribuidos los
datos, es decir, como varía la concentración o densidad de los datos en el recorrido de la
variable, teniendo con ello un conocimiento del comportamiento de la variable bajo
estudio.
Pág. 3
Intervalos Marca Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia
de Absoluta Relativa Porcentual Acumulada Acumulada
Clase Absoluta Relativa
L0, L1 X1 n1 f1 = n1/n f1% = f1*100 N1 = n1 F1 = N1/n
1.- Encontrar el valor mínimo xmin y el valor máximo xmáx y calcular el rango R = xmáx -
xmin. Y establecer la unidad de precisión u de los datos registrados.
2.- Elegir el número k de intervalos de clases de igual longitud que cubre el recorrido de
los datos. El número de intervalos de clase debe verificar que 5 ≤ k ≤ 15. También se
puede determinar a partir del tamaño de la muestra utilizando la regla k = 1 +
3.3*log(n).
3.- Determinar la amplitud a = R/k de las clases, que debe tener la misma precisión de
los datos, es decir, la misma cantidad de decimales que los datos.
5.- Calcular el primer límite inferior I1 = xmin - E/2, el cual debe tener la misma precisión
de los datos.
6.- Calcular los límites inferiores siguientes, sumándole la amplitud al límite inferior
anterior, (Ii = Ii-1 + a).
Pág. 4
7.- Calcular el primer límite superior restando una unidad de precisión al límite inferior
de la clase siguiente (S1 = I2 - u)
8.- Calcular los límites superiores siguientes sumándole la amplitud al límite superior
anterior, (Si = Si-1 + a).
9.- Contar el número de observaciones en los datos que pertenecen a cada intervalos de
clase, para obtener la frecuencia absoluta de cada clase (ni).
10.- Determinar los otros tipos de frecuencias, los límites reales o fronteras de clase (Li-1
= Ii - u/2 ó Li = Si + u/2) y las marcas de clase (xi = (Li-1 + Li)/2), si se necesitan.
Ejemplo:
Puntaje Lenguaje
Simce 2005 - 4º Básico - Los Ángeles
Porcentaje
Puntajes Establecimientos Porcentaje
Acumulado
175 184 2 2,6% 2,6%
185 194 2 2,6% 5,3%
195 204 5 6,6% 11,8%
205 214 8 10,5% 22,4%
215 224 5 6,6% 28,9%
225 234 12 15,8% 44,7%
235 244 9 11,8% 56,6%
245 254 10 13,2% 69,7%
255 264 7 9,2% 78,9%
265 274 5 6,6% 85,5%
275 284 5 6,6% 92,1%
285 294 3 3,9% 96,1%
295 304 2 2,6% 98,7%
305 314 1 1,3% 100,0%
Pág. 5
El histograma es un gráfico de columnas, donde cada barra representa la
frecuencia de cada clase, cuyas bases están definidas por las fronteras o límites reales de
las clases y su altura está dada por la correspondiente frecuencia (absoluta, relativa o
porcentual).
Ejemplo:
Simce 2005 - 4º Básico - Los Ángeles
Lenguaje
14
12
10
4
Frecuencia
0 N = 76,00
180,0 200,0 220,0 240,0 260,0 280,0 300,0
190,0 210,0 230,0 250,0 270,0 290,0 310,0
Lenguaje
Ejemplo:
Pág. 6
Simce 2005 - 4º Básico - Los Ángeles
25
20
10
0
165 185 205 225 245 265 285 305 325 345
Puntaje
Ejemplo:
Simce 2005 - 4º Básico - Los Ángeles
100,0%
80,0%
Porcentaje Acumulado
60,0%
40,0%
20,0%
0,0%
175 185 195 205 215 225 235 245 255 265 275 285 295 305 315
Puntaje en Lenguaje
Pág. 7
Otra forma de tabular u ordenar los datos no agrupados es mediante un
diagrama de tallo y hoja en el cual se definen categorías, denominados tallos,
considerando el o los primeros dígitos de los datos y luego se utiliza el siguiente dígito,
las hojas, para clasificar cada dato en su correspondiente tallo. Se recomienda que el
número de tallos esté entre 5 y 15, si es necesario se pueden dividir un tallo en dos,
clasificando en la primera mitad las hojas 0, 1, 2, 3, 4 y en la siguiente mitad las hojas 5,
6, 7, 8 y 9. También es posible fusionar dos tallos adyacentes a objeto de reducir el
número total de tallos. Para la construcción de este tipo de diagrama las hojas se
ordenan ascendentemente dentro de cada tallo y finalmente se calcula la profundidad
de cada tallo, que corresponde a la frecuencia acumulada absoluta ascendente en la
primera mitad y a la frecuencia acumulada absoluta descendente en la segunda mitad.
Si existe una única clase central la profundidad de ésta corresponde a su frecuencia
absoluta.
Ejemplo:
32 0 . 00000000000000000001111111111111
19 0 . 2222222222333333333
11 0 . 44444445555
12 0 . 666666677777
3 0 . 889
4 1 . 0011
1 Extremes (>=177)
Ejemplo:
Simce 2005 4º Básico Los Ángeles
340
320
300
280
260
240
220
Ruralidad
Matemática
200
40
180 R
160 U
N= 23 6 6 13 1 16 1 7 3
A B C D E
Grupo
Pág. 9