Está en la página 1de 118

Estadística I

Primer semestre de 2023

Profesor: Pedro Mateu Bullón

Universidad del Pacífico


Medidas estadísticas básicas
3. Medidas de tendencia
central y de posición
Lecturas esenciales (contenido 3)

Newbold et al. (2012) - NCT


Capítulo 2 (sección 2.1)

Toma & Rubio (2017) - TRP


Capítulo 3 (sección 3.1)
Omitir sección 3.1.4
• Estos indicadores son los que reflejan la tendencia de
los datos a agruparse o concentrarse alrededor de
determinados valores.

• El objetivo es establecer qué valores pueden ser


considerados como representativos de un conjunto
de datos.
• Las medidas de tendencia que se utilizan con más
frecuencia son:

- Media aritmética simple

- Mediana

- Moda
3.1 Media aritmética
simple
La media o promedio aritmético de un conjunto de datos es la suma de todas
las observaciones dividida entre el número de observaciones.

Media poblacional, µ Media muestral, 𝑋ത


𝑁 𝑛

𝜇 = 𝑁1 ෍ 𝑋𝑖 𝑋ത = 𝑛1 ෍ 𝑋𝑖
𝑖=1 𝑖=1

𝑋1 + 𝑋2 + ⋯ + 𝑋𝑁 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
𝜇= 𝑋ത =
𝑁 𝑛

donde 𝑋𝑖 es el valor de la i-ésima donde n = tamaño de muestra.


observación de la variable en
estudio. N = tamaño de la población.
Ejemplo (una MAS de n=36 personas)
Datos ordenados de la variable Número de viajes de aventura
alrededor de Perú realizados en los últimos cinco años (2018-
2022). Determinar el valor de la media aritmética:
3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 4
4 5 5 5 5 6 6 6 6
6 6 6 6 8 8 8 8 8
𝑛 36
1 1 178
𝑋ത = 𝑛෍ 𝑖
𝑋 = 36 ෍ 𝑖
𝑋 = = 4.9444
36
𝑖=1 𝑖=1
Propiedades de la media aritmética
1. Es un valor representativo, debido a que es el centro
de gravedad o valor de equilibrio de un conjunto de
observaciones.

Fuente: Moore et al. (2012: 57)


2. La suma de las desviaciones de las observaciones
respecto a la media aritmética es igual a cero.
𝑁

෍ 𝑋𝑖 − 𝜇 = 0
𝑖=1

෍ 𝑋𝑖 − 𝑋ത = 0
𝑖=1
3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 4 ത 178 89
𝑋= = = 4.9444
4 5 5 5 5 6 6 6 6 36 18
6 6 6 6 8 8 8 8 8

-35/18 -35/18 -35/18 -35/18 -35/18 -35/18 -17/18 -17/18 -17/18


-17/18 -17/18 -17/18 -17/18 -17/18 -17/18 -17/18 -17/18 -17/18 𝑑𝑖 = 𝑋𝑖 − 𝑋ത
-17/18 1/18 1/18 1/18 1/18 19/18 19/18 19/18 19/18
19/18 19/18 19/18 19/18 55/18 55/18 55/18 55/18 55/18

−431 431
෍ 𝑑𝑖′ = 𝑑
෍ 𝑖′′
= ෍ 𝑑𝑖′ + ෍ 𝑑𝑖′′ = 0
18 18
3. Si se sustituye el valor de cada observación por el valor
del promedio aritmético, la suma de todas las
observaciones no cambia.
3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 4
4 5 5 5 5 6 6 6 6
෍ 𝑋𝑖 = 178
6 6 6 6 8 8 8 8 8

89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18


89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 89
89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 𝑋ത =
89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 89/18 18
3204
෍ 𝑋𝑖′ = = 178 ෍ 𝑋𝑖′ = ෍ 𝑋𝑖
18
4. La suma de los cuadrados de las desviaciones de las
observaciones con respecto a la media aritmética es
menor o igual a la suma de los cuadrados de las
desviaciones de las observaciones con respecto a cualquier
otro valor.
𝑁
2
෍ 𝑋𝑖 − 𝜇
𝑖=1 Ambos son
𝑛 valores mínimos
෍ 𝑋𝑖 − 𝑋ത 2

𝑖=1
Ver TRP (p. 134) para demostración matemática.
𝑛 𝑛

෍ 𝑋𝑖 − 𝑋ത 2
≤ ෍ 𝑋𝑖 − 𝑘 2
, donde 𝑘 ∈ 𝑅
𝑖=1 𝑖=1

𝑛 𝑛

෍ 𝑋𝑖 − 𝑘 2 ഥ + 𝑿
= ෍ 𝑋𝑖 − 𝑿 ഥ−𝑘 2

𝑖=1 𝑖=1

𝑛 𝒏 𝑛

= ෍ 𝑋𝑖 − 𝑋ത 2
+ 2 𝑋ത − 𝑘 ෍ 𝑿𝒊 − 𝑿
ഥ + ෍ 𝑋ത − 𝑘 2

𝑖=1 𝒊=𝟏 𝑖=1

= ෍ 𝑋𝑖 − 𝑋ത 2 ഥ−𝒌
+𝒏 𝑿 𝟐
𝑛 𝑋ത − 𝑘 2
≥0
𝑖=1
Desventaja de la media aritmética
Está afectada por los valores extremos.

Presencia de valores extremos


altos: asimetría a la derecha

Presencia de valores extremos


bajos: asimetría a la izquierda

Simétrica
Cálculos de la media aritmética para datos agrupados
Para datos discretos
Considerando que los datos individuales se simbolizan con 𝑋𝑖
para 𝑖 = 1,2, … , 𝑁 ó 𝑛, al construir el cuadro de frecuencias se
presentan k valores diferentes 𝑘 ≤ 𝑁 ó 𝑛 .

Media o promedio poblacional Media o promedio muestral


𝑘 𝑘 𝑘 𝑘
1 1
𝜇 = ෍ 𝑋𝑖 𝑓𝑖 = ෍ 𝑋𝑖 𝑓𝑟𝑖 𝑋ത = ෍ 𝑋𝑖 𝑓𝑖 = ෍ 𝑋𝑖 𝑓𝑟𝑖
𝑁 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Ejemplo
Cantidad de ausencias de los colaboradores durante el año 2022
Cantidad de Número de Proporción de Porcentaje de
ausencias colaboradores colaboradores colaboradores
2 4 0.2500 25.00
3 2 0.1250 12.50
4 3 0.1875 18.75
6 4 0.2500 25.00
7 3 0.1875 18.75
Total 16 1.0000 100.00
𝑘

𝑋ത = ෍ 𝑋𝑖 𝑓𝑟𝑖 = 2 0.25 + 3 0.125 + 4 0.1875 + 6 0.25 + 7 0.1875


𝑖=1
𝑋ത =4.4375
Cálculos de la media aritmética para datos agrupados
Para datos continuos
Cuando se tienen datos continuos agrupados en cuadros de
frecuencias, el promedio aritmético puede ser calculado de la
siguiente manera:

Media o promedio poblacional Media o promedio muestral


𝑘 𝑘 𝑘 𝑘
1 1
𝜇 ≅ ෍ 𝑓𝑖 𝑀𝑖 ≅ ෍ 𝑓𝑟𝑖 𝑀𝑖 𝑋ത ≅ ෍ 𝑓𝑖 𝑀𝑖 ≅ ෍ 𝑓𝑟𝑖 𝑀𝑖
𝑁 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Ejemplo
Distribución de sueldos mensuales de los colaboradores administrativos de Promart
Sueldos mensuales Cantidad de Proporción de Porcentaje de
Marca de clase
(en soles) colaboradores colaboradores colaboradores
De 2000 a menos de 2500 2250 7 0.14 14.00
De 2500 a menos de 3000 2750 12 0.24 24.00
De 3000 a menos de 3500 3250 20 0.40 40.00
De 3500 a menos de 4000 3750 8 0.16 16.00
De 4000 a menos de 4500 4250 2 0.04 4.00
De 5500 hasta 6000 5750 1 0.02 2.00
50
𝑘

𝑋ത ≅ ෍ 𝑓𝑟𝑖 𝑀𝑖
𝑖=1

≅ 2250 0.14 + 2750 0.24 + 3250 0.40 + 3750 0.16 + 4250 0.04 + 5750 0.02
𝑋ത ≅ 3160
3.2 Mediana
La mediana de un conjunto de observaciones ordenadas de
acuerdo con su magnitud es el valor de la observación que ocupa la
posición central de dicho conjunto.

Mediana poblacional, 𝑀𝑒 = 𝑀𝑒𝑋

Mediana muestral, 𝑚𝑒 = 𝑚𝑒𝑋


Determinación del valor de la mediana para datos no
organizados en cuadros de frecuencia (no agrupados)
1. Ordenar los n observaciones 𝑋𝑖 según su magnitud.

𝑋 1 ,𝑋 2 ,…,𝑋 𝑛

2. Determinar la posición de la mediana de acuerdo con:


Si n es impar Si n es par

𝑋 𝑛 +𝑋 𝑛
+1
2 2
𝑀𝑒 = 𝑚𝑒 = 𝑋 𝑛+1 𝑀𝑒 = 𝑚𝑒 =
2 2
Un ejemplo más
Datos ordenados de la variable Número de viajes de aventura en los
últimos cinco años. Determinar el valor de la mediana e interprete.
3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 4
4 5 5 5 5 6 6 6 6
6 6 6 6 8 8 8 8 8
𝑛 = 36

𝑥 𝑛 +𝑥 𝑛
2 2
+1 4+4
𝑚𝑒 = =
2 2

𝑚𝑒 = 4
Determinación del valor de la mediana para datos
agrupados (I)
La mediana para datos discretos agrupados en un cuadro de
frecuencias se obtiene de la misma forma que en el caso de datos
no agrupados.
Cantidad de Número de Proporción de Porcentaje de
ausencias colaboradores colaboradores colaboradores
2 4 0.2500 25.00
3 2 0.1250 12.50
4 3 0.1875 18.75
6 4 0.2500 25.00
7 3 0.1875 18.75
Total 16 1.0000 100.00
𝑛 = 16
𝑥 𝑛 +𝑥 𝑛
𝑥 +𝑥
2 2
+1 8 9 4+4
𝑚𝑒 = = =
2 2 2
𝑚𝑒 = 4
Determinación del valor de la mediana para datos
agrupados (II)
La mediana para datos continuos agrupados se puede obtener
utilizando las frecuencias absolutas o las frecuencias relativas.
𝑛
− 𝐹 𝑚−1 0.5 − 𝐹𝑟 𝑚−1
𝑚𝑒 ≅ 𝐿𝐼𝑚 + 2 𝑇𝐼𝐶 𝑚𝑒 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶
𝑓𝑚 𝑓𝑟𝑚

m = Intervalo que contiene a la mediana


(primer intervalo donde 𝐹𝑟𝑘 ≥ 0.5)
𝐹 𝑚−1 = Frecuencia acumulada absoluta del intervalo de clase (m-1)
𝐹𝑟 𝑚−1 = Frecuencia acumulada relativa del intervalo de clase (m-1)
𝑓𝑚 = Frecuencia absoluta del intervalo de clase m
𝑓𝑟𝑚 = Frecuencia relativa del intervalo de clase m
Ejemplo
Distribución de sueldos mensuales de los colaboradores administrativos de Promart
Marca de Frec. Frec. Frec. Frec. Frec. Frec.
Sueldos mensuales clase Abs. Rel. Acum. Acum. Por. Acum.
(en soles) Abs. Rel. Por.
(Mi ) (fi ) (fri ) (Fi ) (Fri ) (pi ) (Pi )
De 2000 a menos de 2500 2250 7 0.14 7 0.14 14.00 14.00
De 2500 a menos de 3000 2750 12 0.24 19 0.38 24.00 38.00
De 3000 a menos de 3500 3250 20 0.40 39 0.78 40.00 78.00
De 3500 a menos de 4000 3750 8 0.16 47 0.94 16.00 94.00
De 4000 a menos de 4500 4250 2 0.04 49 0.98 4.00 98.00
De 5500 hasta 6000 5750 1 0.02 50 1.00 2.00 100.00
Total 50 1.00 100.00

0.5 − 𝐹𝑟 𝑚−1 𝟎. 𝟓 − 𝟎. 𝟑𝟖
𝑚𝑒 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚 ≅ 3000 + 500
𝑓𝑟𝑚 0.4
𝑚𝑒 ≅ 3150
Marca de Frec. Frec. Frec. Frec. Frec. Frec.
Sueldos mensuales clase Abs. Rel. Acum. Acum. Por. Acum.
(en soles) Abs. Rel. Por.
(Mi ) (fi ) (fri ) (Fi ) (Fri ) (pi ) (Pi )
De 2000 a menos de 2500 2250 7 0.14 7 0.14 14.00 14.00
De 2500 a menos de 3000 2750 12 0.24 19 0.38 24.00 38.00
De 3000 a menos de 3500 3250 20 0.40 39 0.78 40.00 78.00
De 3500 a menos de 4000 3750 8 0.16 47 0.94 16.00 94.00
De 4000 a menos de 4500 4250 2 0.04 49 0.98 4.00 98.00
De 5500 hasta 6000 5750 1 0.02 50 1.00 2.00 100.00
Total 50 1.00 100.00

(3500, 0.78)
0.78 − 0.38 3500 − 3000

0.50 − 0.38 𝑚𝑒 − 3000
(𝒎𝒆 , 0.50)
500 0.12
𝑚𝑒 ≅ + 3000
0.40
(3000, 0.38)
(3500, 0.38)
(𝒎𝒆 , 0.38) 𝑚𝑒 ≅ 3150
Propiedades de la mediana
1. La mediana divide a un conjunto de observaciones en dos
partes iguales. El 50% de las observaciones son menores o
iguales que la mediana y el 50% restante, mayores que la
mediana.

2. Como medida de posición, la mediana está influenciada


por el número de las observaciones y no por los valores de
las observaciones.

Por lo tanto, ante la presencia de valores extremos la


mediana se mantiene inafecta.
3.3 Moda
La moda de un conjunto de observaciones se define como el valor,
clase o categoría que ocurre con mayor frecuencia.

Moda poblacional, 𝑀𝑜 = 𝑀𝑜𝑋

Moda muestral, 𝑚𝑜 = 𝑚𝑜𝑋


Ejemplo (variable categórica o cualitativa)
Sea X una variable que indica la categoría de un conjunto de
empresas. Se tiene una muestra de 25 empresas cuyas categorías
son:

A, B, A, A, C, B, B, D, B, B, C, B, D, B, A, D, C, B, B,
B, B, A, C, D, B
Determine la categoría modal e interprete.

A, A, A, A, A, B, B, B, B, B, B, B, B, B, B, B, B, C, C, C, C, D, D, D, D

𝑚𝑜𝑋 = 𝐵 La distribución es monomodal o unimodal.


Ejemplo (variable numérica)
Sea Y una variable que indica el número de hijos de cada familia
que viven en el distrito de Jesús María. Se tiene una muestra de 20
familias:

2, 3, 4, 5, 1, 2, 1, 3, 4, 5, 2, 3, 1, 5, 4, 4, 3 , 2, 1, 5
Determine el valor modal o la moda e interprete.

1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5
No existe moda. La distribución es cero modal.
Ejemplo (otra variable numérica, aún no agrupada)
Datos ordenados de la variable Número de viajes de aventura
alrededor de Perú realizados en los últimos cinco años (2014-2018).
Determine el valor de la moda e interprete.
3 3 3 3 3 3 4 4 4
4 4 4 4 4 4 4 4 4
4 5 5 5 5 6 6 6 6
6 6 6 6 8 8 8 8 8

𝑚𝑜𝑍 = 4 La distribución es unimodal.


Propiedades de la moda
1. Un conjunto de observaciones puede no tener moda o
tener una o más modas.

2. No está afectada por los llamados valores extremos.

3. Es la única medida de tendencia que se aplica tanto a


información cuantitativa como cualitativa.

4. La moda muestral es muy inestable.


Determinación del valor modal para datos agrupados
La moda para datos continuos agrupados se puede obtener
utilizando las frecuencias absolutas o las frecuencias relativas:

𝑑1
𝑚𝑜 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚
𝑑1 + 𝑑2
donde:
m = intervalo de clase que contiene a la moda (intervalo de clase modal).
Dicho intervalo es aquel de mayor frecuencia.
𝑑1 = 𝑓𝑚 − 𝑓𝑚−1 𝑑1 = 𝑓𝑟𝑚 − 𝑓𝑟𝑚−1
O
𝑑2 = 𝑓𝑚 − 𝑓𝑚+1 𝑑2 = 𝑓𝑟𝑚 − 𝑓𝑟𝑚+1
Distribución de sueldos mensuales de los colaboradores administrativos de Promart
Marca de Frec. Frec. Frec. Frec. Frec. Frec.
Sueldos mensuales clase Abs. Rel. Acum. Acum. Por. Acum.
(en soles) Abs. Rel. Por.
(Mi ) (fi ) (fri ) (Fi ) (Fri ) (pi ) (Pi )
De 2000 a menos de 2500 2250 7 0.14 7 0.14 14.00 14.00
De 2500 a menos de 3000 2750 12 0.24 19 0.38 24.00 38.00
De 3000 a menos de 3500 3250 20 0.40 39 0.78 40.00 78.00
De 3500 a menos de 4000 3750 8 0.16 47 0.94 16.00 94.00
De 4000 a menos de 4500 4250 2 0.04 49 0.98 4.00 98.00
De 5500 hasta 6000 5750 1 0.02 50 1.00 2.00 100.00
Total 50 1.00 100.00
𝑑1 = 𝑓3 − 𝑓2 = 20 − 12 = 8 𝑑2 = 𝑓3 − 𝑓4 = 20 − 8 = 12

8
𝑚𝑜 ≅ 3000 + 500 𝑚𝑜 ≅ 3200
8 + 12
[IMM] La distribución es unimodal. El sueldo mensual más frecuente en una muestra
de 50 colaboradores administrativos de Promart es aproximadamente S/. 3,200.
3.4 Usos de la media
aritmética, mediana y moda
La media aritmética se utiliza:
1. Cuando no existen valores extremos que afecten a la media.
2. Cuando se tenga que calcular otros valores estadísticos, como
la variancia por ejemplo.
La mediana se utiliza:
1. Cuando se desea conocer el valor de la posición central.
2. Cuando se tiene valores extremos que afectan a la media.

Números de llamadas

Duración de la llamadas

Fuente: Moore et al. (2012: 14)


La moda se utiliza:
1. Cuando se desea conocer el valor de la observación más
frecuente.
2. Cuando se analizan variables cualitativas.
3. Cuando se desea tener una estimación rápida y aproximada de
la tendencia central.

Una relación aproximada entre la media aritmética, la mediana y


la moda es la siguiente:

𝑚𝑜 = 𝑋ത − 3 𝑋ത − 𝑚𝑒
3.5 Media aritmética
ponderada
Este indicador se utiliza para promediar observaciones 𝑋𝑖
que tienen diferente importancia relativa. Se define de la
siguiente manera:
Promedio aritmético ponderado poblacional, 𝜇p

σ𝑁
𝑖=1 𝑊𝑖 𝑋𝑖 𝑊1 𝑋1 + 𝑊2 𝑋2 + ⋯ + 𝑊𝑁 𝑋𝑁
𝜇p = 𝑁 =
σ𝑖=1 𝑊𝑖 𝑊1 + 𝑊2 + ⋯ + 𝑊𝑁

Promedio aritmético ponderado muestral, 𝑋തp

σ𝑛𝑖=1 𝑊𝑖 𝑋𝑖 𝑊1 𝑋1 + 𝑊2 𝑋2 + ⋯ + 𝑊𝑛 𝑋𝑛
𝑋തp = 𝑛 =
σ𝑖=1 𝑊𝑖 𝑊1 + 𝑊2 + ⋯ + 𝑊𝑛
𝑋𝑖 : Observación-iésima
𝑊𝑖 : Ponderación o importancia relativa de la observación i-ésima
Ejemplo
Una empresa importadora coloca en las tiendas minoristas todas las unidades
importadas de cierto producto. El precio de venta por unidad, depende del
volumen de compra de la tienda. Con la siguiente información, determine el
precio promedio por unidad vendida.

Precio N° de unidades σ𝑁
𝑖=1 𝑊𝑖 𝑋𝑖
Tienda 𝑋 𝑖
(en soles) 𝑊 𝑖
vendidas
𝜇p = 𝑁
σ𝑖=1 𝑊𝑖
A (1) 30 300
B (2) 28 500 300 30 + 500 28 + ⋯ 100 32
=
C (3) 26 1000 300 + 500 + ⋯ 100
D (4) 29 200
𝜇p = 27.62
E (5) 32 100
El precio promedio por unidad vendida para las cinco tiendas es 27.62 soles.

El precio promedio de las cinco tiendas es 29 soles bajo el supuesto de que …


Otro ejemplo
Suponiendo que los días 4 y 5 de marzo fueron los únicos días en los que
funcionó el puerto del Callao, determine el valor promedio del monto
negociado por contenedor para ambos días conjuntamente.
Monto negociado (en % contenedores
decenas de miles de soles) 4 de marzo
15 5 de marzo
16
De 30 a menos de 42 27.78 10
De 42 a menos de 54 33.33 15 𝜇1 ≅ 53.33, 𝑁1 = 36
De 54 a menos de 43 16.68 25
De 66 a menos de 78 13.89 18
De 78 a menos de 90 5.55 10
De 90 a menos de 102 2.77 8
𝜇2 ≅ 70.68, 𝑁2 = 52
De 102 a menos de 114 0 8
De 114 a menos de 126 0 6

σ𝑁
𝑖=1 𝑊𝑖 𝑋𝑖 36 53.33 + 52 70.68
𝜇p = 𝑁 ≅ 𝜇p ≅ 63.58
σ𝑖=1 𝑊𝑖 36 + 52
3.6 Media geométrica
La media o promedio geométrico se utiliza para evaluar los
cambios ocurridos en una variable a lo largo del tiempo.

Media geométrica poblacional, 𝜇G


𝑁
𝑁
𝑁 𝑁 𝑉𝐹
𝜇G = 𝑋1 ∙ 𝑋2 ∙ ⋯ ∙ 𝑋𝑁 = ෑ 𝑋𝑖 =
𝑉𝐼
𝑖=1

Media geométrica muestral, 𝑋തG


𝑛
𝑛 𝑛 𝑉𝐹
𝑋തG = 𝑛
𝑋1 ∙ 𝑋2 ∙ ⋯ ∙ 𝑋𝑛 = ෑ 𝑋𝑖 =
𝑉𝐼
𝑖=1
Ejemplo
Se proporcionan las ventas anuales (en millones de soles) para el periodo
2008-2015
Año 2008 2009 2010 2011 2012 2013 2014 2015
Periodo 0 1 2 3 4 5 6 7
Venta 110 120 150 180 200 230 190 150
Índices - 1.09 1.25 1.20 1.11 1.15 0.83 0.79

(a) Determine el valor de la razón de crecimiento geométrico promedio anual.


Interprete.
𝑁 𝑉𝐹 7 150
Si utilizo las ventas del periodo final e inicial, 𝜇G = = = 1.0453
𝑉𝐼 110

𝑁 7
Si utilizo los índices, 𝜇G = 𝑋1 ∙ 𝑋2 ∙ ⋯ ∙ 𝑋𝑁 = 1.09 1.25 … 0.79 = 1.0458
(b) Halle el valor de la tasa de crecimiento geométrico promedio mensual,
considerando lo obtenido en la pregunta anterior.

𝑟𝐺 = 𝑇𝐺 = 𝑇𝐺,𝐴 = 𝜏𝐺 = 𝜇𝐺 − 1 = 0.045836 → 4.58%

12
𝑇𝐺,𝑀 = 1.045836 − 1 = 0.003742 → 0.3742%

Este promedio es utilizado en la elaboración de números índices y para el


cálculo de tasas promedio de variación.

Nota:
𝑋𝑖 > 0
Si N o n son muy altos, 𝜇G y 𝑋തG son imprecisos, respectivamente.
3.7 Otras medidas de
tendencia: cuantiles
1. Percentiles*
Un percentil 𝑃𝑝 es un valor que divide a un conjunto de datos en
cien partes. El 100𝑝% de ellos con valores inferiores a 𝑃𝑝 , y el
100 1 − 𝑝 % con valores superiores a 𝑃𝑝 .
Para datos agrupados, los percentiles se obtienen de dos formas:

𝑛𝑝 − 𝐹 𝑚−1 𝑝 − 𝐹𝑟 𝑚−1
𝑃෠𝑝 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚 𝑃෠𝑝 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚
𝑓𝑚 𝑓𝑟𝑚

m = Intervalo que contiene al percentil (primer intervalo donde 𝐹𝑟𝑘 ≥ 𝑝)


𝐹 𝑚−1 = Frecuencia acumulada absoluta del intervalo de clase (m-1)
𝐹𝑟 𝑚−1 = Frecuencia acumulada relativa del intervalo de clase (m-1)
𝑓𝑚 = Frecuencia absoluta del intervalo de clase m
𝑓𝑟𝑚 = Frecuencia relativa del intervalo de clase m
𝑝 = 0.01, 0.02, 0.03, …., 0.99
Con los datos de la tabla de frecuencia, hallar el valor del 𝑃0.8 𝑃80 .
Sueldos mensuales (S/.) (Mi ) (fi ) (fri ) (Fi ) (Fri ) (pi ) (Pi )
De 2000 a menos de 2500 2250 7 0.14 7 0.14 14.00 14.00
De 2500 a menos de 3000 2750 12 0.24 19 0.38 24.00 38.00
De 3000 a menos de 3500 3250 20 0.40 39 0.78 40.00 78.00
De 3500 a menos de 4000 3750 8 0.16 47 0.94 16.00 94.00
De 4000 a menos de 4500 4250 2 0.04 49 0.98 4.00 98.00
De 5500 hasta 6000 5750 1 0.02 50 1.00 2.00 100.00
Total 50 1.00 100.00

𝑝 − 𝐹𝑟 𝑚−1 0.8 − 0.78



𝑃𝑝 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚 𝑃෠0.8 ≅ 3500 + 500
𝑓𝑟𝑚 0.16
𝑃෠0.8 ≅ 3562.5
En el 80% de la muestra de colaboradores administrativos de Promart se
observó un sueldo mensual menor o igual a S/. 3562.5, aproximadamente; y
en el 20% de colaboradores restantes se observó un sueldo superior a S/.
3562.5.
Para datos no agrupados pero ordenados en forma ascendente,
los valores de los percentiles se obtienen de la siguiente forma:

1. Para el percentil 𝑃𝑝 , primero se obtiene el valor k


𝑘 = 𝑝 𝑛 + 1 = 𝒆. 𝒅
donde 𝑝 es la proporción acumulada de datos asociada al
percentil, y n representa el tamaño de muestra.

2. Considerando la naturaleza de 𝒆. 𝒅:

𝑃𝑝 = 𝑋 𝑒 + 0. 𝑑 𝑋 𝑒+1 −𝑋 𝑒
Ejemplo: De una muestra de 40 niños de Papua Nueva Guinea se
analizó si existía deficiencia de vitamina A. Para ello, se midieron
las concentraciones de suero de retinol (𝜇mol/l). Hallar 𝑃෠0.6 .
0.24 0.31 0.31 0.33 0.34 0.34 0.34 0.35 0.35 0.35
0.36 0.37 0.38 0.41 0.52 0.56 0.67 0.69 0.69 0.70
0.82 0.83 0.87 0.88 0.94 0.97 0.97 0.99 1.00 1.02
1.04 1.11 1.13 1.15 1.17 1.19 1.20 1.36 1.44 1.90
𝑘 = 𝑝 𝑛 + 1 = 𝒆. 𝒅 𝑘 = 0.6 40 + 1 = 𝟐𝟒. 𝟔

𝑃෠𝑝 = 𝑋 𝑒 + 0. 𝑑 𝑋 𝑒+1 −𝑋 𝑒 𝑃෠0.6 = 𝑋 24 + 0.6 𝑋 24+1 −𝑋 24

𝑃෠0.6 = 0.88 + 0.6 0.94 − 0.88 = 0.92


2. Deciles*
Es una medida de tendencia que se define en forma similar a los
percentiles. Así:

Un decil 𝐷𝑖 es un valor que divide a un conjunto de datos en diez


partes. El 100 𝑖 Τ10 % de ellos con valores inferiores a 𝐷𝑖 , y el
resto con valores superiores a 𝐷𝑖 .

𝐷𝑖 = 𝑃𝑖Τ10 , para 𝑖 = 1, 2, 3, … , 9
3. Cuartiles*
Otra medida de tendencia que se define en forma similar a los
percentiles. Así:

Un cuartil 𝑄𝑗 es un valor que divide a un conjunto de datos en


cuatro partes. El 100 𝑗Τ4 % de ellos con valores inferiores a 𝑄𝑗 , y
el resto con valores superiores a 𝑄𝑗 .

𝑄𝑗 = 𝑃𝑗Τ4 , para 𝑗 = 1, 2, 3

De lo anterior puede deducirse: 𝑀𝑒 = 𝑃0.5 = 𝑄2 = 𝐷5


Ejemplo: Distribución de sueldos mensuales de los colaboradores administrativos de
Interbank. Hallar e interpretar el valor del 𝑄1 .
Marca de Frec. Frec. Frec. Frec. Frec. Frec.
Sueldos mensuales clase Abs. Rel. Acum. Acum. Por. Acum.
(en soles) Abs. Rel. Por.
(Mi ) (fi ) (fri ) (Fi ) (Fri ) (pi ) (Pi )
De 1990 a menos de 2517 2253.5 6 0.20 6 0.20 20.00 20.00
De 2517 a menos de 3044 2780.5 7 0.23 13 0.43 23.33 43.33
De 3044 a menos de 3571 3307.5 3 0.10 16 0.53 10.00 53.33
De 3571 a menos de 4098 3834.5 6 0.20 22 0.73 20.00 73.33
De 4098 a menos de 4625 4361.5 4 0.13 26 0.87 13.33 86.67
De 4625 hasta 5152 4888.5 4 0.13 30 1.00 13.33 100.00
Total 30 1.00 100.00

𝑝 − 𝐹𝑟 𝑚−1 0.25 − 0.20



𝑃𝑝 ≅ 𝐿𝐼𝑚 + 𝑇𝐼𝐶𝑚 𝑃෠0.25 ≅ 2517 + 527
𝑓𝑟𝑚 0.23
𝑃෠0.25 = 𝑄෠1 ≅ 2631.57
4. Medidas de variabilidad o
de dispersión
Lecturas esenciales (contenido 4)

Newbold et al. (2012) - NCT


Capítulo 2 (sección 2.2)

Toma & Rubio (2017) - TRP


Capítulo 3 (sección 3.2)
A través del estudio del grado de variabilidad de los datos, se
puede determinar el grado de confiabilidad de las
estimaciones que se puedan establecer.

Para un tamaño de muestra determinado, un análisis con datos


homogéneos será más confiable que el realizado con datos
heterogéneos.
Medidas de variabilidad o medidas de
dispersión
• Absolutas • Relativas
- Rango, amplitud o recorrido Coeficiente de variabilidad o
- Rangos intercuantílicos coeficiente de variación

- Variancia
- Desviación estándar
4.1 Rango, amplitud o
recorrido
El rango es la diferencia entre la observación de mayor valor y la
observación de menor valor.

Rango poblacional, 𝑅 = 𝑅𝑥 = 𝐴
𝑋𝑚á𝑥 − 𝑋𝑚í𝑛

𝑋(𝑛) − 𝑋(1)
Rango muestral, 𝑟 = 𝑟𝑥 = 𝑎
Características
1. Tiene la misma unidad de medida que la de las
observaciones.

2. Poco confiable.

3. El rango muestral es muy inestable.


4.2 Rangos
intercuantílicos
Equivalencia entre cuartiles, deciles y percentiles
Cuartil 1 = Percentil 25 ó
Percentil 0.25 Decil 1 = Percentil 10 ó Percentil 0.1

Decil 2 = Percentil 20 ó Percentil 0.2 Decil 3 = Percentil 30 ó Percentil 0.3

Cuartil 2 = Decil 5 = Percentil


Decil 4 = Percentil 40 ó Percentil 0.4
50 ó Percentil 0.5 = Mediana
Decil 6 = Percentil 60 ó Percentil 0.6
Decil 7 = Percentil 70 ó Percentil 0.7
Cuartil 3 = Percentil 75 ó
Percentil 0.75 Decil 8 = Percentil 80 ó Percentil 0.8

Decil 9 = Percentil 90 ó Percentil 0.9


Diferencia entre el último cuantil y el primer cuantil.

Rango 𝑹𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏
intercuartílico 50%
෡ =𝑸
𝑹𝑰𝑸 ෡𝟑 − 𝑸
෡𝟏

Rango 𝑹𝑰𝑫 = 𝑫𝟗 − 𝑫𝟏
interdecílico 80%
෡ =𝑫
𝑹𝑰𝑫 ෡𝟗 − 𝑫
෡𝟏
Rango
interpercentílico

𝑹𝑰𝑷 = 𝑷𝟗𝟗 − 𝑷𝟏 = 𝑷𝟎.𝟗𝟗 − 𝑷𝟎.𝟎𝟏


98%
෡=𝑷
𝑹𝑰𝑷 ෡ 𝟗𝟗 − 𝑷
෡𝟏 = 𝑷
෡ 𝟎.𝟗𝟗 − 𝑷
෡ 𝟎.𝟎𝟏
4.3 Variancia o Varianza
Es la suma de los cuadrados de las diferencias entre cada
observación y la media, dividida por el número de observaciones.

Variancia poblacional, 𝜎 2 = 𝜎𝑋2 Variancia muestral, 𝑆 2 = 𝑆𝑋2


𝑁 𝑛
1
𝜎 2 = 𝑁1 ෍ 𝑋𝑖 − 𝜇 2 𝑆 2 = 𝑛−1 ෍ 𝑋𝑖 − 𝑋ത 2

𝑖=1 𝑖=1

𝑋1 − 𝜇 2 + 𝑋2 − 𝜇 2 + ⋯ + 𝑋𝑁 − 𝜇 2 𝑋1 − 𝑋ത 2 + 𝑋2 − 𝑋ത 2 + ⋯ + 𝑋𝑛 − 𝑋ത 2
= =
𝑁 𝑛−1

donde N = tamaño de la población y donde n = tamaño de muestra.


σ significa “la suma de”.
Desviación estándar
Mide la dispersión promedio alrededor de la media.

Desviación estándar poblacional, 𝜎 = 𝜎𝑋 Desviación estándar muestral, 𝑆 = 𝑆𝑋

𝑁 𝑛
1 1
𝜎= 𝜎2 = ෍ 𝑋𝑖 − 𝜇 2
𝑆= 𝑆2 = 𝑋𝑖 − 𝑥ҧ 2
𝑁 𝑛−1 ෍
𝑖=1 𝑖=1

Tomen en cuenta que la desviación estándar restaura los datos a


su unidad de medición original.
Desviación alrededor de Desviaciones cuadráticas alrededor
Ventas ($100), 𝒙𝒊
la media, 𝒙𝒊 − 𝒙ഥ de la media, 𝒙𝒊 − 𝒙ഥ 𝟐
1 -9.2 84.64
19 8.8 77.44
2 -8.2 67.24
18 7.8 60.84
11 0.8 0.64
10 -0.2 0.04
3 -7.2 51.84
17 6.8 46.24
4 -6.2 38.44
17 6.8 46.24
10 10 10
෍ 𝑥𝑖 = 102 2
෍ 𝑥𝑖 − 𝑥ҧ = 0 ෍ 𝑥𝑖 − 𝑥ҧ = 473.60
𝑖=1 𝑖=1 𝑖=1
10
σ 𝑥𝑖 2 1 2
473.60
𝑥ҧ = = 10.2 𝑠 = 𝑛−1
෍ 𝑥𝑖 − 𝑥ҧ = ≅ 52.62
𝑛 9
𝑖=1

𝑠= 𝑠 2 ≅ 52.62 ≅ 7.25
𝑛
1
𝑠 2 = 𝑛−1 ෍ 𝑥𝑖 − 𝑥ҧ 2

𝑖=1

1 𝑛
𝑠2 = ෍ 𝑥𝑖2 − 𝑛𝑥ҧ 2
𝑛−1 𝑖=1

෍ 𝑥𝑖2 = 1514

𝑥ҧ = 10.2
2
1 2
473.60
𝑠 = 1514 − 10 × 10.2 = ≅ 52.62
10 − 1 9
4.4 Coeficiente de
variabilidad
Es una medida de dispersión relativa que indica la cantidad de
veces que la desviación estándar contiene a la media aritmética.

Población Muestra

𝜎 𝑠
𝐶𝑉 = 𝑐𝑣 =
𝜇 𝑋ത

𝜎 𝑠
𝐶𝑉 = ∙ 100 𝑐𝑣 = ∙ 100
𝜇 𝑋ത

𝜎 𝑠
𝐶𝑉 = ∙ 100 𝑐𝑣 = ∙ 100
𝜇 ത
𝑋
Características
1. No tiene unidad de medida.

2. No aplicable a distribuciones con media cero.

3. Cambia de valor cuando se suma una constante a cada


observación de un conjunto de datos.
𝜎𝑋 𝑆𝑋
𝐶𝑉𝑌 = 𝑐𝑣𝑌 =
𝜇𝑥 + 𝑘 𝑋ത + 𝑘
4. No cambia de valor cuando se multiplica por una
constante a cada observación de un conjunto de datos.
𝐶𝑉𝑌 = 𝐶𝑉𝑋 𝑐𝑣𝑌 = 𝑐𝑣𝑋
Calificación de una distribución de datos, según el grado
de dispersión (omitir p. 145 en TRP)

cv (en %) Grado de variabilidad


0 Completamente homogéneos
0 < 𝑐𝑣 < 10 Datos ligeramente heterogéneos
10 ≤ 𝑐𝑣 < 25 Datos regularmente heterogéneos
𝑐𝑣 ≥ 25 Datos muy heterogéneos
Medidas de variabilidad para datos discretos no
organizados
Número de papeletas impuestas en 36 distritos de LM
(02 de abril)
3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4
4 5 5 5 5 6 6 6 6 6 6 6 6 8 8 8 8 8
¿Cuáles son las medidas de variabilidad? Interprete
෍ 𝑋𝑖 = 178 ෍ 𝑋𝑖2 = 970 𝜇 = 4.944444

𝑅=5 𝜎 2 = 2.496914 𝜎 = 1.580163 𝐶𝑉 ≅ 31.96%


Medidas de variabilidad para datos continuos no
organizados
Valor total de las papeletas impuestas en 36 distritos de
LM, el 02 de abril (en decenas de soles)
30 32 32 35 36 36 37 38 39 41 42 42 43 45 46 46 47 48
48 50 51 52 54 56 57 60 63 65 66 70 72 74 76 79 88 98
¿Cuáles son las medidas de variabilidad? Interprete
෍ 𝑋𝑖 = 1894 ෍ 𝑋𝑖2 = 109412 𝜇 = 52.61111

𝑅 = 68 𝜎 2 = 271.2932 𝜎 = 16.47098 𝐶𝑉 ≅ 31.31%


Cálculo del rango y la variancia para datos discretos
agrupados

- Rango o amplitud

𝑅𝑋 = 𝑋𝑘 − 𝑋1
𝑟𝑋 = 𝑋𝑘 − 𝑋1

- Rangos intercuantílicos
Diferencia entre el último cuantil y el primer cuantil del
grupo correspondiente.
- Variancia poblacional
𝑘
σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 − 𝜇𝑋 2 σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖2 − 𝑁𝜇𝑋2
𝜎𝑋2 = = = ෍ 𝑓𝑟𝑖 𝑋𝑖2 − 𝜇𝑋2
𝑁 𝑁
𝑖=1

- Variancia muestral
𝑘
σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖 − 𝑋ത 2 σ𝑘𝑖=1 𝑓𝑖 𝑋𝑖2
− 𝑛𝑋 𝑛ത2
𝑆𝑋2 = = = ෍ 𝑓𝑟𝑖 𝑋𝑖2 − 𝑋ത 2
𝑛−1 𝑛−1 𝑛−1
𝑖=1
Ejemplo Estimar:
Cantidad de faltas de los colaboradores de Interbank en el 2019
𝑋ത = 2.066677
Cantidad de Número de Proporción de Porcentaje de 𝑚𝑒 = 2
faltas colaboradores colaboradores colaboradores 𝑚𝑜 = 1
0 5 0.1667 16.67 𝑄෠1 = 1
1 8 0.2667 26.67 𝑄෠3 = 3
2 6 0.2000 20.00 ෡1 = 0
3 4 0.1333 13.33
𝐷
4 5 0.1667 16.67 𝐷෡9 = 4
5 2 0.0667 6.67 𝑃෠1 = 0
Total 30 1.0000 100.00 𝑃෠99 = 5

Sobre la base de los cálculos previos, determine los valores del rango,
de los rangos intercuantílicos, de la variancia, de la desviación
estándar y del coeficiente de variabilidad. Interprete apropiadamente.
Cálculo del rango y la variancia para datos
continuos agrupados

- Rango o amplitud

𝑅𝑋 𝑟𝑋 ≅ 𝐿𝑆𝑘 − 𝐿𝐼1

- Rangos intercuantílicos
Diferencia entre el último cuantil y el primer cuantil del
grupo correspondiente.
- Variancia poblacional

𝑘
σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖 − 𝜇𝑋 2 σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖2 − 𝑁𝜇𝑋2
𝜎𝑋2 ≅ = = ෍ 𝑓𝑟𝑖 𝑀𝑖2 − 𝜇𝑋2
𝑁 𝑁
𝑖=1

- Variancia muestral
𝑘
σ𝑘𝑖=1 𝑓𝑖
𝑀𝑖 − 𝑋ത 2 σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖2
− 𝑛𝑋 𝑛 ത2
𝑆𝑋2 ≅ = = ෍ 𝑓𝑟𝑖 𝑀𝑖2 − 𝑋ത 2
𝑛−1 𝑛−1 𝑛−1
𝑖=1
Distribución de sueldos mensuales de los colaboradores adm. de Interbank en el 2019
Marca Frec. Frec. Frec. Frec. Frec. Frec.
Sueldos mensuales de clase Abs. Rel. Porc. Abs. Acum. Acum.
(en soles) Abs. Rel. Porc.
(Mi) (fi) (fri) (pi) (Fi) (Fri) (Pi)
De 1990 a menos de 2517 2253.5 4 0.1333 13.33 4 0.1333 13.33
De 2517 a menos de 3044 2780.5 6 0.2000 20.00 10 0.3333 33.33
De 3044 a menos de 3571 3307.5 7 0.2333 23.33 17 0.5667 56.67
De 3571 a menos de 4098 3834.5 6 0.2000 20.00 23 0.7667 76.67
De 4098 a menos de 4625 4361.5 4 0.1333 13.33 27 0.9000 90.00
De 4625 hasta 5152 4888.5 3 0.1000 10.00 30 1.0000 100.00
Total -- 30 1.0000 100.00

Considerando: 𝑋ത ≅ 3465.6, 𝑚𝑒 ≅ 3420.6, 𝑚𝑜 ≅ 3307.5, 𝑄෠1 ≅ 2824.5, 𝑄෠3 ≅ 4054.0

෡1 ≅ 2385.35,
𝐷 ෡9 ≅ 4625.0,
𝐷 𝑃෠1 ≅ 2029.54, 𝑃෠99 ≅ 5099.3
Determine los valores del rango, de los rangos intercuantílicos, de la variancia, de la
desviación estándar y del coeficiente de variabilidad. Interprete apropiadamente.
Cuando se analiza la variabilidad entre dos o más distribuciones, no todos los
indicadores de dispersión justifican las conclusiones:
1. Cuando planteas una conclusión sobre variabilidad y justificas con:
Rango
RIP
Redacta las conclusiones con la palabra “podría”.
Rangos intercuantílicos RID
RIQ
Variancia
Redacta las conclusiones con asertividad.
Desviación estándar

2. Cuando planteas una conclusión sobre variabilidad relativa, justifica solo con el
coeficiente de variabilidad.

3. Cuando planteas una conclusión sobre variabilidad, en términos generales:


a) Justifica con el coeficiente de variabilidad cuando
las medias son diferentes o las unidades de medida de las variables son diferentes.

b) Justifica la variancia o la desviación estándar cuando las medias son similares.


5. Medidas de asimetría y de
curtosis
Lecturas esenciales (contenido 5)

Newbold et al. (2012) - NCT


Capítulo 2 (ps. 65-71)

Toma & Rubio (2017) - TRP


Capítulo 3 (secciones 3.3 y 3.4)
¿Cuál es el comportamiento ideal de las variables?
¿Las medidas de tendencia y de variabilidad reflejan apropiadamente
el comportamiento de las variables?

¿Cómo establecer un grado de confiabilidad sobre el uso de las


medidas de tendencia y de variabilidad?
5.1 Coeficiente de
asimetría de Pearson
Distribución simétrica: se da cuando existe un igual porcentaje
de datos en intervalos equidistantes por debajo y encima de la
media aritmética de un conjunto de datos de una población o
muestra.

Los indicadores de asimetría sirven para detectar la presencia de


valores extremos que puedan influenciar en la representatividad
de las medidas de tendencia.
Coeficiente de asimetría de Pearson

3 𝜇 − 𝑀𝑒
Población Sk p =
𝜎

3 𝑋ത − 𝑚𝑒
Muestra S෠ k p =
𝑆
Características
1. No tiene unidad de medida.

2. Se aplica a distribuciones unimodales.

3. Según los valores que tome este coeficiente, se puede tener:

𝑀𝑜 < 𝑀𝑒 < 𝜇 𝜇 = 𝑀𝑒 = 𝑀𝑜 𝜇 < 𝑀𝑒 < 𝑀𝑜


Sk p > 0 Sk p = 0 Sk p < 0
Clasificación de una distribución según su asimetría (valores
referenciales) [p. 149]
Valor del coeficiente de Pearson Calificación
0 Simétrica
−0.3 ≤ Sk p < 0 ó 0 < Sk p ≤ 0.3 Ligeramente asimétrica
(+/− )
−0.6 ≤ Sk p < −0.3 ó 0.3 < Sk p ≤ 0.6 Moderadamente asimétrica
(+/− )
Sk p < −0.6 ó Sk p > 0.6 Muy asimétrica
(+/− )
4. No le afecta la suma de una constante “k” a cada observación o
el producto de cada observación por una constante “k”.
Ejemplo: Del reporte de los sueldos mensuales de los
colaboradores administrativos de Interbank en el 2019, se obtuvo:

𝑋ത ≅ 3465.6, 𝑚𝑒 ≅ 3420.6, 𝑆 ≅ 808.0169


Determine el coeficiente de asimetría de Pearson.

3 𝑋ത − 𝑚𝑒 3 3465.6 − 3420.6
S෠ k p ≅ ≅ ≅ 0.1671
𝑆 808.0169
IMM: Esto indica que los sueldos mensuales de la muestra de
colaboradores administrativos de Interbank en el 2019 tienen,
aproximadamente, una distribución ligeramente asimétrica con
cierto sesgo a la derecha.
Coeficiente de asimetría usando el tercer momento respecto a la
media aritmética (central) y normalizado (p. 296)

Para datos no agrupados σ𝑁𝑖=1 𝑋𝑖 − 𝜇


3
Población 𝐴=
𝑁𝜎 3
σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 3
Muestra 𝐴መ =
𝑛𝑆 3

Para datos agrupados (continuos) σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖 − 𝜇 3


Población 𝐴≅
𝑁𝜎 3
Muestra σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖 − 𝑋ത 3
𝐴መ ≅
𝑛𝑆 3
5.2 Curtosis
Definición: Es el grado de apuntalamiento de la distribución
de una variable en comparación con una distribución normal.

Define la extensión y grosor de las colas de la distribución. En


otras palabras, determina el grado de concentración de las
observaciones alrededor de la media.
Coeficiente de Curtosis

1 𝑅𝐼𝑄 1 𝑄3 − 𝑄1
Población Ku = ∙ = ∙
2 𝑅𝐼𝐷 2 𝐷9 − 𝐷1

1 𝑅𝐼 𝑄෠ 1 𝑄෠3 − 𝑄෠1
Muestra ෡u = ∙
K = ∙
෡ 2 𝐷
2 𝑅𝐼 𝐷 ෡9 − 𝐷
෡1
Características
1. No tiene unidad de medida.

2. Se aplica a distribuciones unimodales, simétricas o como


máximo ligeramente asimétricas.

3. Su valor debe encontrarse en el intervalo de 0 a 0.5. [p. 151]


Valor del coeficiente de Curtosis Clasificación
Ku < 0.225 Platicúrtica
0.225 ≤ Ku ≤ 0.275 Mesocúrtica
Ku > 0.275 Leptocúrtica

4. No le afecta las operaciones de suma de una constante y


producto por una constante “k” aplicada a cada observación.
Ejemplo: Del reporte de los sueldos mensuales de los colaboradores
administrativos de Interbank en el 2019, se obtuvo:
𝑋ത ≅ 3465.6, 𝑚𝑒 ≅ 3420.6, 𝑚𝑜 ≅ 3307.5, 𝑄෠1 ≅ 2824.5, 𝑄෠3 ≅ 4054.0
෡1 ≅ 2385.35,
𝐷 ෡9 ≅ 4625.0,
𝐷 𝑃෠1 ≅ 2029.54, 𝑃෠99 ≅ 5099.3
Determine el coeficiente de curtosis.
1 𝑄෠3 − 𝑄෠1 1 4054.0 − 2824.5
෡u ≅ ∙
K ≅ ∙ ≅ 0.2745
2 𝐷 ෡9 − 𝐷
෡1 2 4625.0 − 2385.35
IMM: Esto indica que los sueldos mensuales de la muestra de
colaboradores administrativos de Interbank en el 2019 tienen una
distribución que es aproximadamente mesocúrtica, es decir, existe una
moderada concentración de los sueldos con respecto al sueldo
promedio de los col. adm..
Coeficiente de curtosis usando el cuarto momento respecto a la media
aritmética (central) y normalizado (p. 296)

Para datos no agrupados σ𝑁


𝑖=1 𝑋𝑖 − 𝜇
4
Población K= −3
𝑁𝜎 4
4
Muestra σ𝑛𝑖=1 ഥ
𝑋𝑖 − 𝑋
෡=
K −3
𝑛𝑆 4
Para datos agrupados (continuos) σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖 − 𝜇 4
Población K≅ −3
𝑁𝜎 4
Muestra σ𝑘𝑖=1 𝑓𝑖 𝑀𝑖 − 𝑋ത 4
෡≅
K −3
𝑛𝑆 4
Utilizando un conjunto de datos de una población, un momento se
calcula de la siguiente manera:

σ𝑁
𝑖=1 𝑋𝑖 − 𝑎
𝑅
𝜇𝑅 =
𝑁

Si 𝑎 = 0, 𝜇𝑅 es el R-ésimo momento no central (con respecto al origen)


Si 𝑎 = 𝜇, 𝜇𝑅 es el R-ésimo momento central (con respecto a la media)
𝜇𝑅
Si 𝑎 = 𝜇, 𝑅 el R-ésimo momento central normalizado (estandarizado).
𝜎
Es decir:

𝜇𝑅 σ𝑁 𝑖=1 𝑋𝑖 − 𝜇
𝑅

𝑅
=
𝜎 𝑁𝜎 𝑅
5.3 Gráfico de caja
Propósito: Evaluar la asimetría y la presencia de valores extremos
(atípicos).
Para evaluar la asimetría se utiliza la regla de los cinco números:
Diagrama de caja
𝑋 1 < 𝑄1 < 𝑀𝑒 < 𝑄3 < 𝑋 𝑛
original
Para detectar los potenciales valores extremos:
𝑙1 < 𝑄1 < 𝑀𝑒 < 𝑄3 < 𝑙2
donde:
𝑙1 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝑄
𝑙2 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝑄 .

Entonces, 𝑋𝑖 es extrema o atípica si 𝑋𝑖 < 𝑙1 o 𝑋𝑖 > 𝑙2 .


Los diagramas de caja generados con paquetes estadísticos son
usualmente diagramas de caja modificados que muestran cada
uno de los potenciales valores extremos. En este diagrama, los
bigotes se extienden hasta las observaciones mínima y máxima
que no son afectadas por la regla 1.5 × 𝑅𝐼𝑄.
Ejemplo: Dentro de cada país, la emisión de dióxido de carbono (CO2) por parte de las plantas
de energía y el parque automotor contribuye al calentamiento global. Los datos de emisión de
dióxido de carbono por persona de un conjunto de 48 países cuya población es por lo menos 20
millones se detallan a continuación:
Emisiones de dióxido de carbono (toneladas métricas por persona)
País CO2 País CO2 País CO2
Algeria 2.3 Irán 7.3 Polonia 8.0
Argentina 3.9 Irak 3.8 Rumania 3.9
Australia 17.0 Italia 3.6 Rusia 10.2
Bangladesh 0.2 Japón 9.1 Arabia Saudita 11.0
Brasil 1.8 Kenia 0.3 Sudáfrica 8.1
Canadá 16.0 Corea del Norte 9.7 España 6.8
China 2.5 Corea del Sur 8.8 Sudán 0.2
Colombia 1.4 Malasia 4.6 Tanzania 0.1
Congo 0.0 México 3.7 Tailandia 2.5
Egipto 1.7 Marruecos 1.0 Turquía 2.8
Etiopía 0.0 Myanmar 0.2 Ucrania 9.0
Francia 6.1 Nepal 0.1 Reino Unido 19.9
Alemania 10.0 Nigeria 0.3 Estados Unidos 7.6
Ghana 0.2 Paquistán 0.7 Uzbequistán 4.8
India 0.9 Perú 0.8 Venezuela 5.1
Indonesia 1.2 Filipinas 0.9 Vietnam 0.5
Fuente: earthtrends.wvi.org
Diagrama de caja de las emisiones de dióxido de carbono (CO2)
Gráfico de caja original
𝑋1 =0
𝑄1 = 0.75
𝑄2 = 𝑀𝑒 = 3.20
𝑄3 = 7.80
+
𝑋 48 = 19.90

Gráfico de caja modificado Emisiones de dióxido de carbono


𝑅𝐼𝑄 = 7.05; 1.5𝑅𝐼𝑄 = 10.58
𝑙1 = 0.75 − 10.58 = −9.83 Atípico
𝑙2 = 7.80 + 10.58 = 18.38
Big. Inf. en 𝑋𝑖 ≥ 𝑙1 : 0 +
𝑄1 = 0.75
𝑄2 = 𝑀𝑒 = 3.20
𝑄3 = 7.80
Big. Sup. en 𝑋𝑖 ≤ 𝑙2 : 17
5.4 Transformación de
datos
Mediante la transformación de datos se pueden generar nuevas
distribuciones.

I. Si 𝑌𝑖 = 𝑋𝑖 + 𝑘; entonces,

𝜇𝑌 = 𝜇𝑋 + 𝑘 𝑃p,𝑌 = 𝑃p,𝑋 + 𝑘
𝑀𝑒𝑌 = 𝑀𝑒𝑋 + 𝑘 𝑀𝑜𝑌 = 𝑀𝑜𝑋 + 𝑘
𝜎𝑌2 = 𝜎𝑋2 𝜎𝑌 = 𝜎𝑋
𝑅𝑌 = 𝑅𝑋 Sk pY = Sk pX
𝜎𝑋
𝐶𝑉𝑌 = Ku𝑌 = KuX
𝜇𝑋 + 𝑘
II. Si 𝑌𝑖 = 𝑋𝑖 ∗ 𝑘; entonces,

𝜇𝑌 = 𝑘𝜇𝑋 𝑃p,𝑌 = 𝑘𝑃p,𝑋

𝑀𝑒𝑌 = 𝑘𝑀𝑒𝑋 𝑀𝑜𝑌 = 𝑘𝑀𝑜𝑋


𝜎𝑌2 = 𝑘 2 𝜎𝑋2 𝜎𝑌 = 𝑘 𝜎𝑋

𝑅𝑌 = 𝑘 𝑅𝑋 Sk pY = Sk pX
𝐶𝑉𝑌 = 𝐶𝑉𝑋 Ku𝑌 = KuX
III. Si 𝑌𝑖 = 𝑎𝑋𝑖 ± 𝑏𝑍𝑖 ± 𝑐𝑊𝑖 ; entonces,

𝜇𝑌 = 𝑎𝜇𝑋 ± 𝑏𝜇𝑍 ± 𝑐𝜇𝑊

𝑀𝑒𝑌 = 𝑎𝑀𝑒𝑋 ± 𝑏𝑀𝑒𝑍 ± 𝑐𝑀𝑒𝑊

𝑀𝑜𝑌 = 𝑎𝑀𝑜𝑋 ± 𝑏𝑀𝑜𝑍 ± 𝑐𝑀𝑜𝑊

𝑃p,𝑌 = 𝑎𝑃p,𝑋 ± 𝑏𝑃p,𝑍 ± 𝑐𝑃p,𝑊


Si además X, Z y W son variables independientes,

𝜎𝑌2 = 𝑎2 𝜎𝑋2 + 𝑏 2 𝜎𝑍2 + 𝑐 2 𝜎𝑊


2

𝜎𝑌 = 𝑎2 𝜎𝑋2 + 𝑏 2 𝜎𝑍2 + 𝑐 2 𝜎𝑊
2
Lecturas esenciales (contenido 6)

Newbold et al. (2012) - NCT


Capítulo 3

Toma & Rubio (2017) - TRP


Capítulo 5
Lectura sugerida: sección 5.10

También podría gustarte