Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística I Tema 3
Estadística I Tema 3
Medidas de Posición,
Dispersión y Forma
Estadística I
2
1. Medidas de posición
Medidas de
posición
• Media aritmética:
✓ Medida de tendencia central más conocida y utilizada
σ𝑘𝑖=1 𝑥𝑖 ∗ 𝑛𝑖
𝑥ҧ =
𝑁
4
1.1. Medidas de tendencia central
• Ejemplo 1: Disponemos de la distribución por edades de un grupo de 36 personas.
Queremos obtener la edad media del grupo.
Edades Personas
0 – 24 5
5
1.1. Medidas de tendencia central
• Ejemplo 1:
σ𝑁
𝑖=1 𝑥𝑖 𝑛𝑖 60+224+517+535′ 5+298 1634′ 5
• 𝑥ҧ = = = = 45′ 4028 ≈ 45′ 4 𝑎ñ𝑜𝑠
𝑁 5+7+11+9+4 36
6
• La edad media del grupo de personas es de 45’4 años.
1.1. Medidas de tendencia central
• Media geométrica:
❖Sólo puede obtenerse para variables cuantitativas positivas
✓ Se mide en la mismas unidades que la variable
❖Si un valor de la variable es 0, la media geométrica también lo es
1ൗ
𝑛 𝑛 𝑛
𝑛
𝑛
𝑥𝐺 = 𝐺 = ෑ 𝑥𝑖 = ෑ 𝑥𝑖 = 𝑥1 𝑛1 ∗ 𝑥2 𝑛2 ∗ ⋯ ∗ 𝑥𝑘 𝑛𝑘
𝑖=1 𝑖=1
σ𝑘𝑖=1 𝑛𝑖 log 𝑥𝑖 7
𝐺 = 𝑎𝑛𝑡𝑖𝑙𝑜𝑔
𝑁
1.1. Medidas de tendencia central
• Ejercicio 1: El precio de la vivienda de segunda mano en España creció entre 2015 y
2016 un 10’8%; entre 2016 y 2017 un 4’2% y entre 2017 y 2018 bajó un 0’9%
(calculados a partir de las cifras de abril de cada año) ¿Cuánto ha crecido el precio de la
vivienda en media cada año?
1
𝑥𝐺 = 𝐺 = ς𝑛𝑖=1 𝑥𝑖 Τ𝑛 = 𝑛 ς𝑛𝑖=1 𝑥𝑖 = 𝑛 𝑥1 𝑛1 ∗ 𝑥2 𝑛2 ∗ ⋯ ∗ 𝑥𝑘 𝑛𝑘 =
9
1.1. Medidas de tendencia central
• Media armónica:
❖Sólo puede obtenerse para variables cuantitativas
✓ Se mide en las mismas unidades que la variable
❖Si algún valor de la variable es igual a 0, no se puede calcular
−1
𝑘
1 𝑁
𝑥𝐴 = 𝐻 = 𝑁 ∗ = 𝑛𝑖
𝑥𝑖 σ𝑘𝑖=1
𝑖=1 𝑥𝑖
10
1.1. Medidas de tendencia central
• Ejercicio 2: Por las condiciones de la carretera, un coche debe hacer un total de 400 km,
tiene que recorrer los 100 primeros a 120km/h, los 100 segundos a 80 km/h, los 100
terceros a 100 km/h y los 100 últimos a 110 km/h. ¿Cuál es la velocidad media de todo
el trayecto?
12
1.1. Medidas de tendencia central
• Media cuadrática:
❖Sólo puede obtenerse para variables cuantitativas
✓ Se mide en las mimas unidades que la variable
❖El principal inconveniente es que es muy sensible a datos atípicos
σ𝑘𝑖=1 𝑥𝑖2 𝑛𝑖
𝑥𝑄 = 𝐶 =
𝑁
13
1.1. Medidas de tendencia central
• Ejercicio 3: Se han medido los errores de predicción del PIB de 7 instituciones
obteniéndose los siguientes datos. Calcula el valor de la media más adecuada para este
caso.
Institución Error de predicción
σ𝑘 2
𝑖=1 𝑥𝑖 𝑛𝑖 −0′ 62 +0′ 152 +0′ 22 +−0′ 42 +0′ 52 +−0′ 32 +0′ 12 0′ 9325
Institución 1 - 0’6
Institución 2 0’15
Institución 3 0’2
Institución 4 - 0’4
Institución 5 0’5
15
Institución 6 - 0’3
Institución 7 0’1
1.1. Medidas de tendencia central
• Relación entre los diferentes tipos de media:
𝑥𝐴 ≤ 𝑥𝐺 ≤ 𝑥ҧ ≤ 𝑥𝑄
16
1.1. Medidas de tendencia central
• Mediana: es el valor de la variable que, ordenados los datos en orden ascendente, deja
tantas observaciones por debajo de si como por encima.
✓ Divide a la muestra en dos partes con el mismo número de observaciones
✓ No se ve afectada por la dispersión de la variable
17
1.1. Medidas de tendencia central
Variable sin agrupar Variable agrupada en intervalos
𝑁ൗ − 𝑁
𝑖−1
𝑀𝑒 = 𝐿𝑖−1 + 2 ∗ 𝑐𝑖
𝑛𝑖
Edades Personas 𝑛𝑖
De 16 a 19 126,5
➢ Si los datos no están agrupados, el valor de la variable que más se repite se corresponde con
la moda.
22
1.1. Medidas de tendencia central
Variable agrupada en intervalos de igual Variable agrupada en intervalos de distinta
amplitud amplitud
• Identificar el intervalo modal, que será • Calculamos la densidad de cada intervalo:
aquel que presente una mayor frecuencia 𝑛𝑖
ℎ𝑖 =
absoluta (𝑛𝑖 ). Dentro de dicho intervalo, el 𝑐𝑖
valor concreto de la moda será el que viene • Identificamos el intervalo modal, como
Edades Personas 𝑛𝑖
De 16 a 19 126,5
De 20 a 24 421,3
Edades 𝑛𝑖 𝑥𝑖 𝑁𝑖 𝑓𝑖 𝐹𝑖
De 1 a 14 16 7,5 16 0,16 0,16
De 15 a 29 14 22 30 0,14 0,3
Edades
18
16
12
10
0
28
De 1 a 14 De 15 a 29 De 30 a 44 De 45 a 59 De 60 a 74 De 75 a 89 De 90 a 104
1.1. Medidas de tendencia central
• Ejercicio 6: σ𝑁
𝑖=1 𝑥𝑖 𝑛𝑖 5058
𝑥ҧ = = = 50′ 58 𝑎ñ𝑜𝑠
𝑁 100
Edades 𝑛𝑖 𝑥𝑖 𝑥𝑖 ∗ 𝑛𝑖 𝑁𝑖
De 1 a 14 16 7,5 120 16 𝑁ൗ − 𝑁
𝑖−1
De 15 a 29 14 22 308 30 𝑀𝑒 = 𝐿𝑖−1 + 2 ∗ 𝑐𝑖
De 30 a 44 14 37 518 44 𝑛𝑖
Cuantiles
30
Q Qu D P
1.2. Medidas de tendencia no central
Variable sin agrupar Variable agrupada en intervalos
• Ordenada la variable en orden ascendente, se obtiene • Ordenados los intervalos en orden ascendente, se
la columna de frecuencias absolutas acumuladas (𝑁𝑖 ) y obtiene la columna de frecuencias absolutas
𝑟∗𝑁
hallamos
𝑟∗𝑁
, donde r es el orden del cuantil que acumuladas (𝑁𝑖 ) y hallamos .
𝑞 𝑞
estamos interesados en calcular y q el número de • Si
𝑟∗𝑁
está en la columna de frecuencias absolutas
𝑞
partes iguales en que se divide la muestra con el tipo
Q N.º Interpretación
Quintiles (Qu) 1
Deja por debajo de sí el
20% de las observaciones y
el 80% por encima
Deciles (D)
𝑄1 = 𝑃25
𝑄2 = 𝐷5 = 𝑃50 = 𝑀𝑒
𝑄𝑢1 = 𝐷2 = 𝑃20
𝑄𝑢2 = 𝐷4 = 𝑃40
𝑄𝑢3 = 𝐷6 = 𝑃60 36
𝑄𝑢4 = 𝐷8 = 𝑃80
2. Medidas de dispersión
• Las medidas de dispersión nos permiten cuantificar la variabilidad presente en una
variable.
• Miden la dispersión de los valores que toma la variable respecto a una medida de
tendencia central.
• Sólo se pueden calcular para variables cuantitativas.
σ 𝑁 2
2 𝑖=1 𝑖 ∗ 𝑛𝑖
𝑥
𝑠 = − 𝑥ҧ 2
𝑁
38
2. Medidas de dispersión
• Desviación típica: Es la raíz cuadrada positiva de la varianza.
• Se mide en las mismas unidades que la variable.
• Es la medida usada más comúnmente para identificar la dispersión de una variable.
• El inconveniente que presenta es que no permite hacer comparaciones entre variables
σ 𝑁 2 σ𝑁 2
2 𝑖=1 𝑥𝑖 − 𝑥ҧ ∗ 𝑛𝑖 𝑖=1 𝑖 ∗ 𝑛𝑖
𝑥
𝑠= + 𝑠 = + = + − 𝑥ҧ 2
𝑁 𝑁
39
2. Medidas de dispersión
• Coeficiente de variación de Pearson: nos permite comparar la dispersión entre
diferentes variables.
• Es adimensional
• Un coeficiente de variación menor, supone una menor dispersión (o una mayor
𝑠
𝐶𝑉 =
𝑥ҧ
40
2. Medidas de dispersión
• Recorrido o rango: Es la diferencia entre el valor máximo y el mínimo que toma la
variable.
𝑅𝐶 = 𝑀𝑎𝑥 − 𝑀𝑖𝑛
𝑅𝐼 = 𝑄3 − 𝑄1
41
2. Medidas de dispersión
• Ejemplo 2: A partir de los datos siguientes sobre PIB per cápita en miles de € y tasa de
paro en % por comunidad autónoma para 2013, calcula a interpreta las medidas de
dispersión explicadas. CCAA PIB per cápita Tasa de paro
Andalucía 16,7 36,2
Aragón 24,7 21,4
24 20 22 20 22 24 19 18 20 20
48
Ejercicio 7
Edad 𝑛𝑖 𝑁𝑖 𝑥𝑖 ∗ 𝑛𝑖 𝑥𝑖2 ∗ 𝑛𝑖
18 5 5 90 1620 Medidas de tendencia central:
19 4 9 76 1444 σ𝑁𝑖=! 𝑥𝑖 ∗ 𝑛𝑖 618
𝑥ҧ = =
20 7 16 140 2800 𝑁 30
21 3 19 63 1323
= 20′ 6 𝑎ñ𝑜𝑠
49
Medidas de dispersión:
𝑁 2
σ 𝑥 ∗ 𝑛𝑖
Ejercicio 7 2
𝑠 =
𝑖=1
𝑁
𝑖
− 𝑥ҧ 2
12832
Edad 𝑛𝑖 𝑁𝑖 𝑥𝑖 ∗ 𝑛𝑖 𝑥𝑖2 ∗ 𝑛𝑖 = − 20′ 62 = 3′ 37
30
18 5 5 90 1620 𝑠 = + 𝑠 2 = + 3′ 37
19 4 9 76 1444 = 1′ 84
20 7 16 140 2800 𝑠 1′ 84
21 3 19 63 1323 𝐶𝑉 = = ′ = 0′ 089
𝑥ҧ 20 6
22 7 26 154 3388
Coeficiente Coeficiente
51
de Asimetría de curtosis
3.1. Momentos
• Definimos el momento de orden “r” respecto al parámetro “c” como:
σ𝑁𝑖=1 𝑥𝑖 − 𝑐
𝑟
∗ 𝑛𝑖
𝑀𝑟 𝑐 =
𝑁
σ𝑁
𝑖=1 𝑥𝑖 − 𝑥ҧ
3 ∗ 𝑛𝑖
𝑀3 𝑥ҧ =
𝑁
53
3.2. Asimetría
• La asimetría de una variable hace referencia a la forma que toma la distribución a
ambos lados de la media.
• Coeficiente de asimetría de Pearson:
𝑥ҧ − 𝑀𝑜
𝐴𝑝 =
Horas 𝑛𝑖 𝑁𝑖 𝑥𝑖 ∗ 𝑛𝑖 𝑥𝑖 − 𝑥ҧ (𝑥𝑖 − 𝑥)ҧ 2 (𝑥𝑖 −𝑥)ҧ 2 ∗ 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 3 (𝑥𝑖 −𝑥)ҧ 3 ∗ 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 4 (𝑥𝑖 −𝑥)ҧ 4 ∗ 𝑛𝑖
2,5
σ𝑁 3
𝑖=1 𝑥𝑖 −𝑥ҧ ∗𝑛𝑖 12 2
• 𝑀3 𝑥ҧ = = = 1′ 5 1,5
𝑁 8
1
σ𝑁 4
𝑖=1 𝑥𝑖 −𝑥ҧ ∗𝑛𝑖 2058′ 5 63
• 𝑀4 𝑥ҧ = = = 257′ 3125 0,5
𝑁 8 0
6 9 12 15 17
3. Medidas de forma
• Ejercicio 8: Los siguientes datos hacen referencia a las horas que dedican un grupo de alumnos a la asignatura de
Estadística a la semana: 6, 9, 9, 12, 12, 12, 15, 17. Calcula las medidas de forma estudiadas a estos datos.
• Coeficiente de asimetría:
𝑥ҧ −𝑀𝑜 11′ 5 −12
• 𝐴𝑝 = = = −0′ 1524 → 𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 𝑎 𝑙𝑎 𝑖𝑧𝑞𝑢𝑖𝑒𝑟𝑑𝑎 𝑜 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑎
𝑠 3′ 2787
64
4. Diagrama de caja
• El diagrama de caja es una representación gráfica realizada a partir de los valores que
toma una variable, que nos permite estudiar la simetría de la distribución, dispersión y
la existencia de datos atípicos.
• También se denomina box plot.
• Para su construcción se usan 5 medias descriptivas del conjunto de datos a representar:
65
4. Diagrama de caja
• La línea central en la
caja es la mediana, sus
extremos son el primer
y tercer cuartil. Los
extremos de los
• Media: 11’5
70
Ejercicio 10
• Los siguientes datos hacen referencia al número de bolígrafos que utiliza un grupo de
alumnos universitarios durante un cuatrimestre. Estudia todas las medidas de
centralización, dispersión y forma vistas a lo largo del tema. Realiza un diagrama de
barras y uno de caja.
71
Ejercicio 10
Bolígrafos 𝑛𝑖 𝑁𝑖 𝑥𝑖 ∗ 𝑛𝑖 𝑥𝑖 − 𝑥ҧ (𝑥𝑖 − 𝑥)ҧ 2 (𝑥𝑖 −𝑥)ҧ 2 ∗ 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 3 (𝑥𝑖 −𝑥)ҧ 3 ∗ 𝑛𝑖 (𝑥𝑖 − 𝑥)ҧ 4 (𝑥𝑖 −𝑥)ҧ 4 ∗ 𝑛𝑖
0 1 1 0 -5,5 30,25 30,25 -166,375 -166,375 915,0625 915,0625
1 2 3 2 -4,5 20,25 40,5 -91,125 -182,25 410,0625 820,125
2 4 7 8 -3,5 12,25 49 -42,875 -171,5 150,0625 600,25
3 0 7 0 -2,5 6,25 0 -15,625 0 39,0625 0
74
0
0 1 2 3 4 5 6 7 8 9 10
Ejercicio 10
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
𝑟 77
𝑥𝑟 𝑛𝑟 𝑥𝑟 𝑛𝑟 N 𝑢𝑟 = 𝑥𝑗 𝑛𝑗 100 100
𝑗=1
5. Medidas de concentración
• Índice de Gini:
σ𝑟−1
𝑖=1 𝑝𝑖 − 𝑞𝑖
𝐼𝐺 =
σ𝑟−1
𝑖=1 𝑝𝑖
• La columna 𝑥𝑖 𝑛𝑖 nos da el reparto del total de recursos entre los distintos elementos de
la distribución dados por las frecuencias absolutas.
78
• La columna 𝑢𝑖 nos da la evolución acumulada de recursos
• La columna 𝑁𝑖 nos da la evolución de individuos que se los reparten
5. Medidas de concentración
• Curva de Lorenz:
El Índice de Gini es el
área sombreada del entre
la diagonal y la Curva de
79
5. Medidas de concentración
• Ejemplo 3: En una empresa existen cuatro categorías profesionales y cada una tiene unos
niveles de ingresos mensuales diferentes. Calcula el índice de Gini y la curva de Lorenz.
80
5. Medidas de concentración
• Ejemplo 3:
Nivel de
Personas x*n N p u q
ingresos
1000 25 25000 25 62,5 25000 40,9836
40 61000
81
5. Medidas de concentración
• Ejemplo 3:
σ𝑟−1
𝑖=1 𝑝𝑖 − 𝑞𝑖 62′ 5 − 40′ 9836 + 87′ 5 − 73′ 7705 + 97′ 5 − 93′ 4426
𝐼𝐺 = 𝑟−1 =
σ𝑖=1 𝑝𝑖 62′ 5 + 87′ 5 + 97′ 5
21′ 5164 + 13′ 7295 + 4′ 0574 39′ 3033
• Como toma un valor próximo a cero se puede concluir que existe una buena
equidistribución de los ingresos.
82
5. Medidas de concentración
• Ejemplo 3: Curva de Lorenz