Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SIMPLES
MEDIDAS DE TENDENCIA CENTRAL
El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los
cuales pueda recaer la representación de toda la información. Las medidas de tendencia
central, llamadas así porque tienden a localizarse en el centro de la información, son de
gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación
no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de
ellas está asociada con el grado de concentración de la información.
Media aritmética.
Mediana
Moda.
MEDIA ARITMÉTICA
Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo,
decimos que en un determinado tramo vial se producen 6 accidentes diarios, no aseguramos
que diariamente deban exactamente ocurrir los 6 accidente, puesto que pueden ocurrir 5 en
un día, en otro 6, 7, 8, etc.
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑖 + ⋯ + 𝑥𝑛 ∑𝑛1 𝑥𝑖
𝑥̅ = =
𝑛 𝑛
𝑥̅ : 𝑀𝑒𝑑𝑖𝑎 𝐴𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥.
𝑥𝑖 : 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥
𝑛: 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠.
∑: 𝑆𝑖𝑔𝑛𝑜 𝑑𝑒 𝑠𝑢𝑚𝑎𝑡𝑜𝑟𝑖𝑎, 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠 𝑑𝑒𝑏𝑒𝑛 𝑠𝑢𝑚𝑎𝑟𝑠𝑒.
Ejemplo: Cantidad de accidentes observados en determinado tramo vial en una semana.
Lunes: 4
Martes: 7
Miércoles: 8
Jueves: 5
Viernes: 8
Sábado: 6
Domingo: 4
4 + 7 + 8 + 5 + 8 + 6 + 4 42
𝑥̅ = = =6
7 7
En este caso podemos decir que efectivamente en ese determinado tramo vial se producen 6
accidentes diarios.
LA MEDIANA
Otra medida de tendencia central, utilizada principalmente en estadística no paramétrica, es
la mediana, la cual no se basa en la magnitud de los datos, como la media aritmética, sino
en la posición central que ocupa en el orden de su magnitud, dividiendo la información en
dos partes iguales, dejando igual número de datos por encima y por debajo de ella.
Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente.
Si n es impar:
𝑀𝑒 = 𝑥(𝑛+1)
2
Si n es par:
Ejemplo: Consumo mensual de agua, en m3, por la fábrica de confecciones “La Hilacha”.
10 + 12 + 15 + 18 + 14 + 19 + 17 + 18 + 18 + 22 + 15 + 13 191
𝑥̅ = =
12 12
La mediana es:
10, 12, 13, 14, 15, 15, 17, 18, 18, 18, 19 y 22
Es una serie es par, y los dos datos de la mitad son 15 y 17 por lo que la mediana se calcula
así:
15 + 17 32
𝑀𝑒 = = = 16 𝑚3
2 2
Por lo que por debajo de los 16 m3, se encuentra el 50% de los datos y por encima de 16
m3, se encuentra el otro 50%.
LA MODA
La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia dentro de
una distribución. Una información puede tener una moda y se llama unimodal, dos modas y
se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la
información no posea moda.
Para el ejemplo de los accidentes podemos observar que hay dos días en los que se
observaron 4 accidentes y dos días también en los que se observaron 8 accidentes, por lo
tanto, el ejemplo tiene 2 modas Mo1 = 4 accidentes por día y Mo2 = 8 accidentes por día.
2.5
ACCIDENTES
2
CANTIDAD DE DÍAS
1.5
1 Series1
0.5
0
4 5 6 7 8
CANTIDAD DE ACCIDENTES REGISTRADOS POR DÍA
Lo cual coincide con el hecho de que hay dos modas, la de 4 accidentes por día y la de 8
accidentes por día.
En el caso de los metros cúbicos consumidos por la fábrica “La Hilacha” la gráfica es la
siguiente:
3.5
FABRICA "LA HILACHA"
3
2.5
CANTIDAD DE MESES
1.5 Series1
0.5
0
10 12 13 14 15 17 18 19 22
Metros Cúbicos Consumidos
MEDIDAS DE DISPERSIÓN
En el análisis estadístico no basta el cálculo e interpretación de las medidas de tendencia
central o de posición, ya que, por ejemplo, cuando pretendemos representar toda una
información con la media aritmética, no estamos siendo absolutamente fieles a la realidad,
pues suelen existir datos extremos inferiores y superiores a la media aritmética, los cuales,
en honor a la verdad, no están siendo bien representados por este parámetro.
En dos informaciones con igual media aritmética, no significa este hecho, que las
distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de
homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene igual media
aritmética y mediana que los valores 49, 50,51; sin embargo, para la primera información la
media aritmética, se encuentra muy alejada de los valores extremos 5 y 95, cosa que no
ocurre con la segunda información que posee igual media aritmética y mediana, vemos
entonces que la primera información es más heterogénea o dispersa que la segunda.
Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes
indicadores:
Desviación media
Varianza
Desviación típica o estándar
Coeficiente de variabilidad.
DESVIACIÓN MEDIA
La desviación media, mide la distancia absoluta promedio entre cada uno de los datos y el
parámetro que caracteriza la información. Usualmente se considera la desviación media con
respecto a la media aritmética:
∑𝑛1|𝑥𝑖 − 𝑥̅ |
𝐷𝑀 =
𝑛
DM : Desviación media
n : Tamaño de la muestra.
|𝑥𝑖 − 𝑥̅ | : Valor Absoluto de las desviaciones. El valor absoluto es una función en la que el
resultado que se obtiene siempre será positivo.
Lunes: 4
Martes: 7
Miércoles: 8
Jueves: 5
Viernes: 8
Sábado: 6
Domingo: 4
4 + 7 + 8 + 5 + 8 + 6 + 4 42
𝑥̅ = = =6
7 7
Por lo que la Desviación Media se calcula de la siguiente manera:
|4 − 6| + |7 − 6| + |8 − 6| + |5 − 6| + |8 − 6| + |6 − 6| + |4 − 6|
𝐷𝑀 =
7
2 + 1 + 2 + 1 + 2 + 0 + 2 10
𝐷𝑀 = = = 1.43
7 7
VARIANZA
El problema de los signos en la desviación media, es eludido tomando los valores absolutos
de las diferencias de los datos con respecto a la media aritmética. Ahora bien, la varianza
obvia los signos elevando las diferencias al cuadrado, lo cual resulta ser más elegante,
aparte de que es supremamente útil en el ajuste de modelos estadísticos que generalmente
conllevan formas cuadráticas.
Numéricamente definimos la varianza, como desviación cuadrática media de los datos con
respecto a la media aritmética:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑉𝑎𝑟 =
𝑛
Var: Varianza
xi : Valor de la variable X
n : Tamaño de la muestra.
22 + 12 + 22 + 12 + 22 + 02 + 22
𝑉𝑎𝑟 =
7
4 + 1 + 4 + 1 + 4 + 0 + 4 18
𝑉𝑎𝑟 = = = 2.57
7 7
𝑠 = √𝑉𝑎𝑟
𝑠 = √2.57 = 1.60
𝐷𝑀 < 𝑠
1.60
𝐶. 𝑉. = × 100 = 26.73%
6
Esto significa que los datos se encuentran a un 26.73% dispersos o dicho de otra manera se
encuentran 73.27% concentrados alrededor de la media aritmética.
HOJA DE TRABAJO 1
MEDIDAS DE TENDENCIA CENTRAL
Y DE DISPERSIÓN PARA SERIES SIMPLES
Instrucciones: Calcule las medidas de tendencia central y de dispersión para los siguientes
problemas:
1.43 1.45 1.36 1.52 1.63 1..82 1.38 1.40 1.72 1.73
1.66 1.45 1.62 1.80 1.81 1.45 1.74 1.92 1.85 1.90
14 30 24 60 70 24 22 42 45 70
75 12 30 45 62 63 74 28 20 30
40 50 60 20 10 20 30 40 50 60
DIA VENTA EN Q
LUNES Q.62,340.00
MARTES Q.75,416.00
MIERCOLES Q.93,214.00
JUEVES Q.104,421.00
VIERNES Q.80,216.00
SABADO Q.120,424.00
PROBLEMA 4: En un examen de Estadística las notas de los alumnos son: 7.28, 16.4,
9.0, 8.5, 9.0, 7.5, 8.8, 4.2, 10.0.
PROBLEMA 5: Las puntuaciones obtenidas por un grupo en una prueba han sido: 15, 13,
16, 15, 19, 18, 15, 14, 18.
PROBLEMA 6: El número de estrellas de los hoteles de una ciudad viene dado por la
siguiente serie: 3, 3, 4, 3, 4, 3, 1, 3, 4, 3, 3, 3, 2, 1, 3, 3, 3, 2, 3, 2, 2, 3, 3, 3.
Una tabla de frecuencias se puede construir a partir de intervalos o clases, para ello se
utiliza: el rango, el número de intervalos y el tamaño del intervalo.
𝑅 = 𝑋𝑚𝑎𝑦 − 𝑋𝑚𝑒𝑛
𝐼 = 1 + (log 𝑁)(3.33)
Tamaño o Amplitud del intervalo (A): La amplitud del intervalo es el tamaño de cada
intervalo y se calcula:
𝐴 = 𝑅⁄𝐼
Ejemplo: Construir una tabla de frecuencias con datos agrupados, con los datos que
corresponden a la información de tiempo de parqueo de 40 motos. (Tiempo expresado en
minutos)
30 32 32 34 44 45 47 47
50 52 52 55 57 57 60 60
62 62 62 63 63 63 64 64
65 65 65 75 75 76 77 78
79 80 81 82 83 83 84 84
Lo primero que debemos hacer es hallar el rango, luego el número de intervalos que hay
que tener en la tabla,
𝑅 = 84 − 30 = 54
Luego para encontrar el tamaño del intervalo lo que debemos de encontrar la amplitud del
intervalo.
𝐴 = 54⁄7 = 7.71428 ≅ 8
Para construir la tabla con los intervalos el primero siempre se comienza con el dato menor
del total de datos (30) y le sumamos el tamaño del intervalo es decir (8). Pero debe incluir
en esa amplitud al primer número (30), es decir, 30, 31, 32, 33, 34, 35, 36 y 37. Si nos
damos cuenta allí hay 8 números que son cabalmente la amplitud o tamaño del intervalo.
Después de haber colocado todos los intervalos procedemos a hallar la frecuencia absoluta
(que es la cantidad de veces que se repite un número), como es con intervalos debemos de
buscar todos los números que se encuentren entre el rango incluyendo el dato inferior (30)
y el dato superior (37) de cada intervalo. Y así sucesivamente con cada intervalo
30 32 32 34 44 45 47 47
50 52 52 55 57 57 60 60
62 62 62 63 63 63 64 64
65 65 65 75 75 76 77 78
79 80 81 82 83 83 84 84
I Lim - Apa fi Fa
1 30 – 37 4 4 Al contar cuantos datos hay comprendidos entre 30 y 37, se
contabilizaron 4, ese 4 es el valor de la frecuencia absoluta del
primer intervalo y también el valor de la primera frecuencia
acumulada.
2 38 – 45 2 6 En este segundo intervalo, solo hay 2 datos comprendidos entre
38 y 45, sin embargo la frecuencia acumulada es 6, debido a que
es la suma de la primera frecuencia acumulada y 2.
3 46 – 53 5 11 Hay 5 datos comprendidos entre 46 y 53, siendo este valor la
tercera frecuencia absoluta. Y la suma de esta frecuencia con la
frecuencia acumulada anterior da 11.
4 54 – 61 5 16 Los procesos de conteo y de acumulación anteriores se van
5 62 – 69 11 27 repitiendo en cada uno de los intervalos respectivos.
6 70 – 77 4 31
7 78 – 85 9 40 La frecuencia acumulada del último intervalo deberá ser siempre
igual al total de los datos
Σ 40 La sumatoria de todas las frecuencias absolutas es igual al total
de los datos.
Cada intervalo tiene un límite aparente inferior y un límite aparente superior, en el caso del
primer intervalo el límite aparente inferior es 30 y el límite aparente superior es 37. De
igual manera para cada uno de los siguientes intervalos.
La construcción de la tabla lleva consigo el ir aperturando nuevas columnas, las cuales nos
van a permitir realizar los cálculos posteriores, tanto de, las medidas de tendencia central,
de posición, de forma y de dispersión.
Para poder generar mayor información en la tabla, además de los límites aparentes (Lim –
Apa), frecuencias absolutas (fi) y frecuencias acumuladas (Fa) es necesario construir los
límites reales (Lim – Real), frecuencias relativas o porcentuales (fi % y Fa %) y las marcas
de clase (xi).
Para calcular los límites reales, sumamos el 1er límite aparente superior (37) con el 2do
37+38
límite aparente inferior (38) y dicha suma se divide entre 2, 2 = 37.5 dicho valor será
el primer límite real superior. Luego ese valor es el segundo límite real inferior.
Nuevamente sumamos el 2do límite aparente superior (45) con el 3er límite aparente
45+46
inferior (46) y dicha suma se divide entre 2, 2 = 45.5 dicho valor será el 2do límite real
superior. Luego ese valor es el 3er límite real inferior.
Y así sucesivamente hasta que lleguemos al último límite real inferior, que en este caso será
78.5. Para poder calcular el 1er límite real inferior y último límite real superior, le restamos
la amplitud al 1er límite real superior y le sumamos la amplitud al último límite real
inferior.
De esa manera nos queda la tabla de la siguiente manera:
Para obtener las frecuencias relativas, tanto para, las absolutas como para las acumuladas,
cada una de las frecuencias se divide entre el total de los datos y se multiplica por 100.
Por último es necesario que se construyan las marcas de clase (xi) que son los puntos
medios, ya sea de, los límites aparentes o bien de los límites reales.
Con esta información se pueden hacer ya dos cosas: la primera construir las gráficas (las
cuales se explicará cómo se realizan en el siguiente curso) y segunda calcular las medidas
de tendencia central, de posición, de forma y de dispersión.
MEDIDAS DE TENDENCIA CENTRAL:
∑𝒏
𝒊=𝟏 𝒇𝒊 𝒙𝒊
̅=
𝒙 ∑𝒏
donde:
𝒊=𝟏 𝒇𝒊
∆𝟏
𝑴𝒐 = 𝑳𝑹 𝒊−𝟏 + (∆ ) 𝑨 donde:
𝟏 +∆𝟐
∆1
𝑀𝑜 = 𝐿𝑅 𝑖−1 + ( )𝐴
∆1 + ∆2
28
𝑀𝑜 = 14.5 + ( ) (5)
28 + 4
𝑀𝑜 = 18.875 ≅ 18.88
L - A L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10 - 14 9.5 - 14.5 2 12 2 24 N/2 = 94/2 = 47, con este valor de 47 se
15 - 19 14.5 - 19.5 30 17 32 510 busca la frecuencia acumulada que contenga
20 - 24 19.5 - 24.5 26 22 58 572 al 47, en este caso 58 es la frecuencia
acumulada que la contiene, por lo cual, ese
25 - 29 24.5 - 29.5 20 27 78 540
es el intervalo donde se encuentra
30 - 34 29.5 - 34.5 10 32 88 320
localizada la mediana, en este caso, el
35 - 39 34.5 - 39.5 4 37 92 148 intervalo está rotulado de color mostaza.
40 - 44 39.5 - 44.5 2 42 94 84
94 2198 Entonces:
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆
𝟒𝟕 − 𝟑𝟐
𝑴𝒆 = 𝟏𝟗. 𝟓 + ( )𝟓
𝟐𝟔
MEDIDAS DE DISPERSIÓN.
∑ 𝑓𝑖 |𝑥𝑖 −𝑥̅ |
𝐷𝑀 = ∑ 𝑓𝑖
donde:
∑ 𝑓𝑖 (𝑥𝑖 −𝑥̅ )2
𝑉𝑎𝑟 = ∑ 𝑓𝑖
donde:
𝑠
COEFICIENTE DE VARIACIÓN 𝐶. 𝑉. = × 100
𝑥̅
EJEMPLO:
Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.
20
𝑀𝑜 = 50.5 + ( ) (10)
20 + 70
𝑀𝑜 = 52.7222 ≅ 52.72
L - R fi xi Fa fixi Ahora para calcular la mediana se calcula
10.5 - 20.5 10 15.5 10 155 N/2 = 270/2 = 135, con este valor de 135 se
busca la frecuencia acumulada que contenga
20.5 - 30.5 20 25.5 30 510
al 135, en este caso 150 es la frecuencia
30.5 - 40.5 50 35.5 80 1775 acumulada que la contiene, por lo cual, ese
40.5 - 50.5 70 45.5 150 3185 es el intervalo donde se encuentra
50.5 - 60.5 90 55.5 240 4995 localizada la mediana, en este caso, el
60.5 - 70.5 20 65.5 260 1310 intervalo está rotulado de color celeste.
70.5 - 80.5 10 75.5 270 755
Entonces:
270 12685
𝑵
− 𝑭𝒂𝒊−𝟏
𝑴𝒆 = 𝑳𝑹 𝒊−𝟏 + ( 𝟐 )𝑨
𝒇𝒎𝒆
𝟏𝟑𝟓 − 𝟖𝟎
𝑴𝒆 = 𝟒𝟎. 𝟓 + ( ) 𝟏𝟎
𝟕𝟎
2844.444444
𝐷𝑀 =
270
𝐷𝑀 = 10.53497 ≅ 10.53
L - R fi xi Fa fixi | xi - x | fi | xi - x | (xi - x)2 fi(xi-x)2
10.5 - 20.5 10 15.5 10 155 31.48148148 314.8148148 991.0836763 9910.836763
20.5 - 30.5 20 25.5 30 510 21.48148148 429.6296296 461.4540466 9229.080933
30.5 - 40.5 50 35.5 80 1775 11.48148148 574.0740741 131.824417 6591.22085
40.5 - 50.5 70 45.5 150 3185 1.481481481 103.7037037 2.19478738 153.6351166
50.5 - 60.5 90 55.5 240 4995 8.518518519 766.6666667 72.56515775 6530.864198
60.5 - 70.5 20 65.5 260 1310 18.51851852 370.3703704 342.9355281 6858.710562
70.5 - 80.5 10 75.5 270 755 28.51851852 285.1851852 813.3058985 8133.058985
270 12685 2844.444444 47407.40741
Para poder calcular la varianza es necesario que calculemos dos columnas más, la primera donde
calculamos los cuadrados de las desviaciones y la segunda donde multiplicamos cada frecuencia
por su correspondiente cuadrado de su desviación.
Entonces:
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑉𝑎𝑟 =
∑ 𝑓𝑖
47407.40741
𝑉𝑎𝑟 =
270
Para poder calcular la desviación estándar o típica, es únicamente necesario sacarle la raíz
cuadrada a la varianza.
∑ 𝑓𝑖 (𝑥𝑖 − 𝑥̅ )2
𝑠=𝜎=√ = √𝑉𝑎𝑟
∑ 𝑓𝑖
𝐷𝑀 < 𝑠
Para poder calcular el coeficiente de variación necesitamos saber la desviación estándar y
la media aritmética
𝑠
𝐶. 𝑉. = × 100
𝑥̅
13.25
𝐶. 𝑉. = × 100
46.98
𝐶. 𝑉. = 28.20%
Esto significa que los datos se encuentran a un 28.20% dispersos o dicho de otra manera se
encuentran 71.80% concentrados alrededor de la media aritmética. Lo cual nos permite
establecer que las medidas de tendencia central tienen un alto grado (71.80%) de
representatividad del juego de datos.
Ejemplo:
Calcule las medidas de tendencia central y de dispersión para el siguiente juego de datos.
Media. 45.50
Moda 45.50
Mediana 45.50
DM 10.00
Var 180.00
s 13.42
C.V. 29.49%
HOJA DE TRABAJO # 2
MEDIDAS DE TENDENCIA CENTRAL Y
MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS
SERIE I: Instrucciones: Para cada uno de los siguientes juegos de datos calcule: Las
medidas de tendencia central y las medidas de dispersión
1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Media. 49.66 20 - 24 10
32 – 42 45 Mediana 51.37 30 – 34 90
43 – 53 75 DM 11.53 35 – 39 40
54 – 64 95 Var 212.37 40 – 44 20
65 – 75 20 s 14.57 45 – 49 8
76 - 86 10 C.V. 29.35% 50 - 54 2
3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Media. 30.50 10 – 14 8
16 – 21 20 Moda 30.50 15 – 19 14
22 – 27 30 Mediana 30.50 20 – 24 20
28 – 33 40 DM 7.50 25 – 29 8
34 – 39 30 Var 90.00 30 – 34 9
40 – 45 20 s 9.49 35 – 39 10
46 - 51 10 C.V. 31.10% 40 – 44 2
5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Media. 39.98 10 – 15 10
21 – 26 16 Moda 45.13 16 – 21 20
27 – 32 24 Mediana 41.91 22 – 27 50
33 – 38 35 DM 6.63 28 – 33 20
39 – 44 80 Var 69.00 34 – 39 10
45 – 50 90 s 8.31 40 – 45 50
51 – 56 4 C.V. 20.78% 46 - 51 10
SERIE II: Instrucciones: Para el siguiente juego de datos: construya la tabla y calcule las
medidas de tendencia central y medidas de dispersión.
7) 10 27 44 25 42 23 40 21 38 19
29 46 14 14 13 25 12 24 59 36
12 39 33 44 55 60 12 13 23 17
31 48 15 15 15 16 20 21 57 34
14 41 12 14 20 22 24 26 22 15
33 50 16 13 14 15 35 45 55 32
16 43 10 10 20 12 15 18 21 13
35 52 17 17 16 13 20 22 53 30
18 45 15 47 18 49 19 51 20 11
37 20 54 22 56 24 58 26 60 28
MEDIDAS DE POSICIÓN O DE DISTRIBUCIÓN.
Partiendo del concepto de la mediana, la cual divide una serie de datos en dos partes
iguales, es decir, 50% a la izquierda de la mediana y el otro 50% a la derecha de la
mediana, se pueden establecer un conjunto de medidas que fraccionan a la serie de datos en
cuantas partes se requiera en un momento determinado, según las necesidades de análisis
estadístico. Por ejemplo, se puede fraccionar cualquier serie de datos en cuatro, cinco, seis,
diez, etc., hasta en cien partes iguales; debido a que el concepto de fraccionamiento se
deriva del concepto de la mediana, los cálculos correspondientes son similares al cálculo de
la mediana.
En una distribución de frecuencias, cierta cantidad de los datos cae en un fractil o por
debajo de éste. Los fractilos tienen nombres especiales, dependiendo del número de partes
iguales en que se dividen los datos. En resumen, una medida de posición, es un número
que representa un punto específico dentro de una serie de valores, por debajo del cual se
localiza un determinado porcentaje de los casos.
Cuartiles (Q):
𝒌𝑵
Es el valor del cuartil que se desea
𝟒
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑄𝑘 = 𝐿𝑅 𝑖−1 + ( 4 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior
𝑓𝑄
al intervalo donde se encuentra localizado el
cuartil buscado.
𝒌𝑵
Es el valor del decil que se desea encontrar.
𝟏𝟎
𝑘𝑁
− 𝐹𝑎𝑖−1
𝐷𝑘 = 𝐿𝑅 𝑖−1 + ( 10
)𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝐷 intervalo donde se encuentra localizado el decil
buscado.
Percentiles (P):
𝒌𝑵
𝟏𝟎𝟎
Es el valor del percentil que se desea
encontrar.
𝑘𝑁
− 𝐹𝑎𝑖−1
𝑃𝑘 = 𝐿𝑅 𝑖−1 + (100 )𝐴 𝑭𝒂𝒊−𝟏 Es la frecuencia acumulada anterior al
𝑓𝑃
intervalo donde se encuentra localizado el
percentil buscado.
EJEMPLO: Calcule las medidas de tendencia central y de dispersión para el siguiente juego
de datos; además los siguientes fractilos: Q1, D6, Q3, D9 y P33.
En este caso recuerde que hay que calcular todas las columnas que hasta el momento se
deben de tener para la información que se necesita.
Media. 40.35
Moda 45.13
Mediana 42.18
DM 6.31
Var 64.62
s 8.04
C.V. 19.92%
Los fractilos buscados son:
1) Lim-Apa fi 2) Lim-Apa fi
10 – 20 10 Q1,Q3 20 - 24 10 Q2,Q3
21 – 31 25 D1,D4,D7 25 – 29 100 D2,D7,D9
32 – 42 45 P10,P25 30 – 34 90 P15,P25
43 – 53 75 P33,P45 35 – 39 40 P38,P55
54 – 64 95 P67,P82 40 – 44 20 P72,P98
65 – 75 20 45 – 49 8
76 - 86 10 50 - 54 2
3) Lim-Apa fi 4) Lim-Apa fi
10 – 15 10 Q1,Q2 10 – 14 8 Q1,Q3
16 – 21 20 D2,D4,D8 15 – 19 14 D1,D3,D5
22 – 27 30 P19,P28 20 – 24 20 P15,P25
28 – 33 40 P47,P65 25 – 29 8 P62,P76
34 – 39 30 P88,P99 30 – 34 9 P80,P82
40 – 45 20 35 – 39 10
46 - 51 10 40 – 44 2
5) Lim-Apa fi 6) Lim-Apa fi
15 – 20 8 Q1,Q2 10 – 15 10 Q1,Q3
21 – 26 16 D5,D6,D9 16 – 21 20 D1,D4,D7
27 – 32 24 P8,P38 22 – 27 50 P11,P22
33 – 38 35 P63,P78 28 – 33 20 P35,P45
39 – 44 80 P80,P90 34 – 39 10 P70,P93
45 – 50 90 40 – 45 50
51 – 56 4 46 - 51 10
MEDIDAS DE SESGO Y CURTOSIS
SESGO:
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor
del punto central (Media aritmética). La asimetría presenta tres estados diferentes, cada uno
de los cuales define de forma concisa como están distribuidos los datos respecto al eje de
asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran
por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce
como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.
Sk < 0
La curva es
asimétricamente
negativa por lo que los
valores se tienden a
reunir más en la parte
derecha de la media.
Sk = 0
Se acepta que la
distribución es
Simétrica, es decir,
existe
aproximadamente la
misma cantidad de
valores a los dos lados
de la media. Este valor
es difícil de conseguir
por lo que se tiende a
tomar los valores que
son cercanos ya sean
positivos o negativos
(± 0.05).
FÓRMULAS
COEFICIENTE DE PEARSON(1)
En este caso hay que tener cuidado pues en algunos casos la
Moda puede que no esté bien definida, es decir, que el juego
𝑥̅ − 𝑀𝑜 de datos tenga más de una moda. O sea, que el juego de
𝑆𝑘1 =
𝜎 datos sea bimodal, trimodal, etc. Razón la cual sería
necesario utilizar cualquiera de los otros coeficientes de
simetría.
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
Este coeficiente es más seguro al calcular, pues la mediana
𝑆𝑘2 = es una medida de tendencia central que está definida para
𝜎 cualquier juego de datos.
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
FÓRMULAS
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
Este coeficiente depende únicamente de las medidas de
K= posición y hay necesidad de calcular otro tipo de medidas.
𝑃90 − 𝑃10
Lo cual lo hace muy seguro.
EJEMPLO 1: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.
COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
46.98 − 52.72 −5.74
𝑆𝑘1 = =
13.25 13.25
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎
3(46.98 − 48.36)
𝑆𝑘2 =
13.25
3(−1.38) −4.14
𝑆𝑘2 = =
13.25 13.25
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10
0.5(18.33)
K=
33.00
K = 0.277727 ≅ 0.277
Como se puede comprobar todos los coeficientes de simetría son negativos, aunque no son
iguales, lo cual nos dice que hay un sesgo y por lo cual la gráfica es asimétrica negativa.
Además el coeficiente de curtosis es mayor a 0.263, lo que nos indica que la gráfica es
leptocúrtica.
EJEMPLO 2: Calcule las medidas de sesgo y curtosis para el siguiente juego de datos.
COEFICIENTE DE PEARSON(1)
𝑥̅ − 𝑀𝑜
𝑆𝑘1 =
𝜎
45.50 − 45.50 0
𝑆𝑘1 = =
15.12 15.12
𝑆𝑘1 = 0
COEFICIENTE DE PEARSON(2)
3(𝑥̅ − 𝑀𝑒)
𝑆𝑘2 =
𝜎
3(45.50 − 45.50)
𝑆𝑘2 =
15.12
3(0) 0
𝑆𝑘2 = =
15.12 15.12
𝑆𝑘2 = 0
COEFICIENTE DE CURTOSIS
0.5(𝑄3 − 𝑄1 )
K=
𝑃90 − 𝑃10
0.5(22.04)
K=
42.14
K = 0.261509 ≅ 0.262
En este caso los 4 coeficientes de simetría si son iguales, todos son cero, la gráfica es
simétrica, y en el caso del coeficiente de curtosis el valor es muy cercano a 0.263, es una
milésima la aproximación, por lo cual se toma el valor como si fuese mesocúrtica.
HOJA DE TRABAJO # 4
MEDIDAS DE SESGO Y FORMA
Con los siguientes juegos de datos calcule: Las medidas de sesgo y forma (asimetría y
curtosis).