Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATOS AGRUPADOS
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos en clases y
a partir de estas determinar las características de la muestra y por consiguiente las de la
población de donde fue tomada.
Una tabla de frecuencias se puede construir a partir de intervalos o clases, para ello se
utiliza: el rango, el número de intervalos y el tamaño del intervalo.
𝑅 = 𝑋𝑚𝑎𝑦 − 𝑋𝑚𝑒𝑛
𝐼 = 1 + (log 𝑁)(3.33)
Tamaño o Amplitud del intervalo (A): La amplitud del intervalo es el tamaño de cada
intervalo y se calcula:
𝐴 = 𝑅⁄𝐼
Ejemplo: Construir una tabla de frecuencias con datos agrupados, con los datos que
corresponden a la información de tiempo de parqueo de 40 motos. (Tiempo expresado en
minutos)
30 32 32 34 44 45 47 47
50 52 52 55 57 57 60 60
62 62 62 63 63 63 64 64
65 65 65 75 75 76 77 78
79 80 81 82 83 83 84 84
Lo primero que debemos hacer es hallar el rango, luego el número de intervalos que hay
que tener en la tabla,
𝑅 = 84 − 30 = 54
Luego para encontrar el tamaño del intervalo lo que debemos de encontrar la amplitud del
intervalo.
𝐴 = 54⁄7 = 7.71428 ≅ 8
Para construir la tabla con los intervalos el primero siempre se comienza con el dato menor
del total de datos (30) y le sumamos el tamaño del intervalo es decir (8). Pero debe incluir
en esa amplitud al primer número (30), es decir, 30, 31, 32, 33, 34, 35, 36 y 37. Si nos
damos cuenta allí hay 8 números que son cabalmente la amplitud o tamaño del intervalo.
Después de haber colocado todos los intervalos procedemos a hallar la frecuencia absoluta
(que es la cantidad de veces que se repite un número), como es con intervalos debemos de
buscar todos los números que se encuentren entre el rango incluyendo el dato inferior (30)
y el dato superior (37) de cada intervalo. Y así sucesivamente con cada intervalo
30 32 32 34 44 45 47 47
50 52 52 55 57 57 60 60
62 62 62 63 63 63 64 64
65 65 65 75 75 76 77 78
79 80 81 82 83 83 84 84
I Lim - Apa fi Fa
1 30 – 37 4 4 Al contar cuantos datos hay comprendidos entre 30 y 37, se
contabilizaron 4, ese 4 es el valor de la frecuencia absoluta del
primer intervalo y también el valor de la primera frecuencia
acumulada.
2 38 – 45 2 6 En este segundo intervalo, solo hay 2 datos comprendidos entre
38 y 45, sin embargo la frecuencia acumulada es 6, debido a que
es la suma de la primera frecuencia acumulada y 2.
3 46 – 53 5 11 Hay 5 datos comprendidos entre 46 y 53, siendo este valor la
tercera frecuencia absoluta. Y la suma de esta frecuencia con la
frecuencia acumulada anterior da 11.
4 54 – 61 5 16 Los procesos de conteo y de acumulación anteriores se van
5 62 – 69 11 27 repitiendo en cada uno de los intervalos respectivos.
6 70 – 77 4 31
7 78 – 85 9 40 La frecuencia acumulada del último intervalo deberá ser siempre
igual al total de los datos
Σ 40 La sumatoria de todas las frecuencias absolutas es igual al total
de los datos.
Cada intervalo tiene un límite aparente inferior y un límite aparente superior, en el caso del
primer intervalo el límite aparente inferior es 30 y el límite aparente superior es 37. De
igual manera para cada uno de los siguientes intervalos.
La construcción de la tabla lleva consigo el ir aperturando nuevas columnas, las cuales nos
van a permitir realizar los cálculos posteriores, tanto de, las medidas de tendencia central,
de posición, de forma y de dispersión.
Para poder generar mayor información en la tabla, además de los límites aparentes (Lim –
Apa), frecuencias absolutas (fi) y frecuencias acumuladas (Fa) es necesario construir los
límites reales (Lim – Real), frecuencias relativas o porcentuales (fi % y Fa %) y las marcas
de clase (xi).
Para calcular los límites reales, sumamos el 1er límite aparente superior (37) con el 2do
37+38
límite aparente inferior (38) y dicha suma se divide entre 2, 2 = 37.5 dicho valor será
el primer límite real superior. Luego ese valor es el segundo límite real inferior.
Nuevamente sumamos el 2do límite aparente superior (45) con el 3er límite aparente
45+46
inferior (46) y dicha suma se divide entre 2, 2 = 45.5 dicho valor será el 2do límite real
superior. Luego ese valor es el 3er límite real inferior.
Y así sucesivamente hasta que lleguemos al último límite real inferior, que en este caso será
78.5. Para poder calcular el 1er límite real inferior y último límite real superior, le restamos
la amplitud al 1er límite real superior y le sumamos la amplitud al último límite real
inferior.
Para obtener las frecuencias relativas, tanto para, las absolutas como para las acumuladas,
cada una de las frecuencias se divide entre el total de los datos y se multiplica por 100.
Por último es necesario que se construyan las marcas de clase (xi) que son los puntos
medios, ya sea de, los límites aparentes o bien de los límites reales.
Con esta información se pueden hacer ya dos cosas: la primera construir las gráficas (las
cuales se explicará cómo se realizan en el siguiente curso) y segunda calcular las medidas
de tendencia central, de posición, de forma y de dispersión.
MEDIDAS DE TENDENCIA CENTRAL:
∑𝒏
𝒊=𝟏 𝒇𝒊 𝒙𝒊
̅=
𝒙 ∑𝒏
donde:
𝒊=𝟏 𝒇𝒊
∆𝟏
𝑴𝒐 = 𝑳𝑹 𝒊−𝟏 + (∆ ) 𝑨 donde:
𝟏 +∆𝟐
∆1
𝑀𝑜 = 𝐿𝑅 𝑖−1 + ( )𝐴
∆1 + ∆2
28
𝑀𝑜 = 14.5 + ( ) (5)
28 + 4
𝑀𝑜 = 18.875 ≅ 18.88
L - A L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10 - 14 9.5 - 14.5 2 12 2 24 N/2 = 94/2 = 47, con este valor de 47 se
15 - 19 14.5 - 19.5 30 17 32 510 busca la frecuencia acumulada que contenga
20 - 24 19.5 - 24.5 26 22 58 572 al 47, en este caso 58 es la frecuencia
25 - 29 24.5 - 29.5 20 27 78 540
acumulada que la contiene, por lo cual, ese
es el intervalo donde se encuentra
30 - 34 29.5 - 34.5 10 32 88 320
localizada la mediana, en este caso, el
35 - 39 34.5 - 39.5 4 37 92 148
intervalo está rotulado de color mostaza.
40 - 44 39.5 - 44.5 2 42 94 84
94 2198 Entonces:
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆
𝟒𝟕 − 𝟑𝟐
𝑴𝒆 = 𝟏𝟗. 𝟓 + ( )𝟓
𝟐𝟔
MEDIDAS DE DISPERSIÓN.
∑ 𝑓𝑖 |𝑥𝑖 −𝑥̅ |
𝐷𝑀 = ∑ 𝑓𝑖
donde:
∑ 𝑓𝑖 (𝑥𝑖 −𝑥̅ )2
𝑉𝑎𝑟 = ∑ 𝑓𝑖
donde:
𝑠
COEFICIENTE DE VARIACIÓN 𝐶. 𝑉. = × 100
𝑥̅
EJEMPLO:
Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.
20
𝑀𝑜 = 50.5 + ( ) (10)
20 + 70
𝑀𝑜 = 52.7222 ≅ 52.72
L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10.5 - 20.5 10 15.5 10 155 N/2 = 270/2 = 135, con este valor de 135 se
busca la frecuencia acumulada que contenga
20.5 - 30.5 20 25.5 30 510
al 135, en este caso 150 es la frecuencia
30.5 - 40.5 50 35.5 80 1775 acumulada que la contiene, por lo cual, ese
40.5 - 50.5 70 45.5 150 3185 es el intervalo donde se encuentra
50.5 - 60.5 90 55.5 240 4995 localizada la mediana, en este caso, el
60.5 - 70.5 20 65.5 260 1310 intervalo está rotulado de color celeste.
70.5 - 80.5 10 75.5 270 755
Entonces:
270 12685
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆
𝟏𝟑𝟓 − 𝟖𝟎
𝑴𝒆 = 𝟒𝟎. 𝟓 + ( ) 𝟏𝟎
𝟕𝟎
2844.444444
𝐷𝑀 =
270
𝐷𝑀 = 10.53497 ≅ 10.53
L - R fi xi Fa fixi | xi - x | fi | xi - x | (xi - x)2 fi(xi-x)2
10.5 - 20.5 10 15.5 10 155 31.48148148 314.8148148 991.0836763 9910.836763
20.5 - 30.5 20 25.5 30 510 21.48148148 429.6296296 461.4540466 9229.080933
30.5 - 40.5 50 35.5 80 1775 11.48148148 574.0740741 131.824417 6591.22085
40.5 - 50.5 70 45.5 150 3185 1.481481481 103.7037037 2.19478738 153.6351166
50.5 - 60.5 90 55.5 240 4995 8.518518519 766.6666667 72.56515775 6530.864198
60.5 - 70.5 20 65.5 260 1310 18.51851852 370.3703704 342.9355281 6858.710562
70.5 - 80.5 10 75.5 270 755 28.51851852 285.1851852 813.3058985 8133.058985
270 12685 2844.444444 47407.40741
Para poder calcular la varianza es necesario que calculemos dos columnas más, la primera donde
calculamos los cuadrados de las desviaciones y la segunda donde multiplicamos cada frecuencia
por su correspondiente cuadrado de su desviación.
Entonces:
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑉𝑎𝑟 =
∑ 𝑓𝑖
47407.40741
𝑉𝑎𝑟 =
270
Para poder calcular la desviación estándar o típica, es únicamente necesario sacarle la raíz
cuadrada a la varianza.
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠=𝜎=√ = √𝑉𝑎𝑟
∑ 𝑓𝑖
𝐷𝑀 < 𝑠
Para poder calcular el coeficiente de variación necesitamos saber la desviación estándar y
la media aritmética
𝑠
𝐶. 𝑉. = × 100
𝑥̅
13.25
𝐶. 𝑉. = × 100
46.98
𝐶. 𝑉. = 28.20%
Esto significa que los datos se encuentran a un 28.20% dispersos o dicho de otra manera se
encuentran 71.80% concentrados alrededor de la media aritmética. Lo cual nos permite
establecer que las medidas de tendencia central tienen un alto grado (71.80%) de
representatividad del juego de datos.
Ejemplo:
Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.
Media. 45.50
Moda 45.50
Mediana 45.50
DM 10.00
Var 180.00
s 13.42
C.V. 29.49%
HOJA DE TRABAJO # 1
MEDIDAS DE TENDENCIA CENTRAL Y
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS
SERIE I: Instrucciones: Para cada uno de los siguientes juegos de datos calcule: Las
medidas de tendencia central y las medidas de dispersión
1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Media. 49.66 20 - 24 10
32 – 42 45 Mediana 51.37 30 – 34 90
43 – 53 75 DM 11.53 35 – 39 40
54 – 64 95 Var 212.37 40 – 44 20
65 – 75 20 s 14.57 45 – 49 8
76 - 86 10 C.V. 29.35% 50 - 54 2
3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Media. 30.50 10 – 14 8
16 – 21 20 Moda 30.50 15 – 19 14
22 – 27 30 Mediana 30.50 20 – 24 20
28 – 33 40 DM 7.50 25 – 29 8
34 – 39 30 Var 90.00 30 – 34 9
40 – 45 20 s 9.49 35 – 39 10
46 - 51 10 C.V. 31.10% 40 – 44 2
5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Media. 39.98 10 – 15 10
21 – 26 16 Moda 45.13 16 – 21 20
27 – 32 24 Mediana 41.91 22 – 27 50
33 – 38 35 DM 6.63 28 – 33 20
39 – 44 80 Var 69.00 34 – 39 10
45 – 50 90 s 8.31 40 – 45 50
51 – 56 4 C.V. 20.78% 46 - 51 10
SERIE II: Instrucciones: Para el siguiente juego de datos: construya la tabla y calcule las
medidas de tendencia central y medidas de dispersión.
7) 10 27 44 25 42 23 40 21 38 19
29 46 14 14 13 25 12 24 59 36
12 39 33 44 55 60 12 13 23 17
31 48 15 15 15 16 20 21 57 34
14 41 12 14 20 22 24 26 22 15
33 50 16 13 14 15 35 45 55 32
16 43 10 10 20 12 15 18 21 13
35 52 17 17 16 13 20 22 53 30
18 45 15 47 18 49 19 51 20 11
37 20 54 22 56 24 58 26 60 28
MEDIDAS DE POSICIÓN O DE DISTRIBUCIÓN.
Partiendo del concepto de la mediana, la cual divide una serie de datos en dos partes
iguales, es decir, 50% a la izquierda de la mediana y el otro 50% a la derecha de la
mediana, se pueden establecer un conjunto de medidas que fraccionan a la serie de datos en
cuantas partes se requiera en un momento determinado, según las necesidades de análisis
estadístico. Por ejemplo, se puede fraccionar cualquier serie de datos en cuatro, cinco, seis,
diez, etc., hasta en cien partes iguales; debido a que el concepto de fraccionamiento se
deriva del concepto de la mediana, los cálculos correspondientes son similares al cálculo de
la mediana.
En una distribución de frecuencias, cierta cantidad de los datos cae en un fractil o por
debajo de éste. Los fractilos tienen nombres especiales, dependiendo del número de partes
iguales en que se dividen los datos. En resumen, una medida de posición, es un número
que representa un punto específico dentro de una serie de valores, por debajo del cual se
localiza un determinado porcentaje de los casos.
Cuartiles (Q):
𝒌𝑵
𝟒
Es el valor del cuartil que se desea
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior
𝑓𝑄
al intervalo donde se encuentra localizado el
cuartil buscado.
𝒌𝑵
𝟏𝟎
Es el valor del decil que se desea encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10
)𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝐷 intervalo donde se encuentra localizado el decil
buscado.
Percentiles (P):
𝒌𝑵
𝟏𝟎𝟎
Es el valor del percentil que se desea
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝑃
intervalo donde se encuentra localizado el
percentil buscado.
EJEMPLO: Calcule las medidas de tendencia central y de dispersión para el siguiente juego
de datos; además los siguientes fractilos: Q1, D6, Q3, D9 y P33.
En este caso recuerde que hay que calcular todas las columnas que hasta el momento se
deben de tener para la información que se necesita.
Media. 40.35
Moda 45.13
Mediana 42.18
DM 6.31
Var 64.62
s 8.04
C.V. 19.92%
Los fractilos buscados son:
1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Q1,Q3 20 - 24 10 Q2,Q3
21 – 31 25 D1,D4,D7 25 – 29 100 D2,D7,D9
32 – 42 45 P10,P25 30 – 34 90 P15,P25
43 – 53 75 P33,P45 35 – 39 40 P38,P55
54 – 64 95 P67,P82 40 – 44 20 P72,P98
65 – 75 20 45 – 49 8
76 - 86 10 50 - 54 2
3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Q1,Q2 10 – 14 8 Q1,Q3
16 – 21 20 D2,D4,D8 15 – 19 14 D1,D3,D5
22 – 27 30 P19,P28 20 – 24 20 P15,P25
28 – 33 40 P47,P65 25 – 29 8 P62,P76
34 – 39 30 P88,P99 30 – 34 9 P80,P82
40 – 45 20 35 – 39 10
46 - 51 10 40 – 44 2
5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Q1,Q2 10 – 15 10 Q1,Q3
21 – 26 16 D5,D6,D9 16 – 21 20 D1,D4,D7
27 – 32 24 P8,P38 22 – 27 50 P11,P22
33 – 38 35 P63,P78 28 – 33 20 P35,P45
39 – 44 80 P80,P90 34 – 39 10 P70,P93
45 – 50 90 40 – 45 50
51 – 56 4 46 - 51 10
MEDIDAS DE SESGO Y CURTOSIS
SESGO:
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno
de los cuales define de forma concisa como están distribuidos los datos respecto al eje de
asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran
por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce
como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.
Sk < 0
La curva es
asimétricamente
negativa por lo que los
valores se tienden a
reunir más en la parte
derecha de la media.
Sk = 0
Se acepta que la
distribución es
Simétrica, es decir,
existe
aproximadamente la
misma cantidad de
valores a los dos lados
de la media. Este valor
es difícil de conseguir
por lo que se tiende a
tomar los valores que
son cercanos ya sean
positivos o negativos
(± 0.05).
FÓRMULAS
COEFICIENTE DE PEARSON(1)
En este caso hay que tener cuidado pues en algunos casos la
Moda puede que no esté bien definida, es decir, que el juego
𝑥̅ − 𝑀𝑜 de datos tenga más de una moda. O sea, que el juego de
𝑆𝑘1 =
𝜎 datos sea bimodal, trimodal, etc. Razón la cual sería
necesario utilizar cualquiera de los otros coeficientes de
simetría.
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
Este coeficiente es más seguro al calcular, pues la mediana
𝑆𝑘2 = es una medida de tendencia central que está definida para
𝜎 cualquier juego de datos.
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
FÓRMULAS
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 ) Este coeficiente depende únicamente de las medidas de
K= posición y hay necesidad de calcular otro tipo de medidas.
𝑃90 − 𝑃10
Lo cual lo hace muy seguro.
EJEMPLO 1: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.
COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎
3(46.98 − 48.36)
𝑆𝑘2 =
13.25
3(−1.38) −4.14
𝑆𝑘2 = =
13.25 13.25
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10
0.5(18.33)
K=
33.00
K = 0.277727 ≅ 0.277
Como se puede comprobar todos los coeficientes de simetría son negativos, aunque no son
iguales, lo cual nos dice que hay un sesgo y por lo cual la gráfica es asimétrica negativa.
Además el coeficiente de curtosis es mayor a 0.263, lo que nos indica que la gráfica es
leptocúrtica.
EJEMPLO 2: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.
COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
45.50 − 45.50 0
𝑆𝑘1 = =
15.12 15.12
𝑆𝑘1 = 0
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎
3(45.50 − 45.50)
𝑆𝑘2 =
15.12
3(0) 0
𝑆𝑘2 = =
15.12 15.12
𝑆𝑘2 = 0
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10
0.5(22.04)
K=
42.14
K = 0.261509 ≅ 0.262
En este caso los 4 coeficientes de simetría si son iguales, todos son cero, la gráfica es
simétrica, y en el caso del coeficiente de curtosis el valor es muy cercano a 0.263, es una
milésima la aproximación, por lo cual se toma el valor como si fuese mesocúrtica.
HOJA DE TRABAJO # 3
MEDIDAS DE SESGO Y FORMA
Con los siguientes juegos de datos calcule: Las medidas de sesgo y forma (asimetría y
curtosis).