Está en la página 1de 24

LOGRO ESPERADO

Resuelve problemas utilizando las medidas de variabilidad a partir de la


teoría respectiva y considerando las características del problema.

INDICADORES DE LOGRO

• Calcula las medidas de dispersión utilizando las formulas


correspondientes.
• Explica el concepto de las medidas de dispersión a partir de las
referencias teóricas.
• Compara la variabilidad entre 2 o más conjuntos de datos utilizando
la medida estadística correspondiente a partir de las referencias
teóricas.

2
Estadística Descriptiva y Probabilidades
INTRODUCCIÓN
Suponga que los ingresos mensuales (en soles) de los trabajadores en 2
pequeñas empresas (A y B) son los siguientes:

A B
𝑠 2 = 10750 2550 950 𝑠 2 = 5474500
𝑠 = 103.6822 2500 1050 𝑠 = 2339.7650
103.6822 2400 1150 2339.7650
𝐶𝑉 = 𝐶𝑉 =
2420 2350 2500 2420
2300 6450
= 0.9668(96.68%)
= 0.0428(4.28%) 𝑋 = 2420 𝑋 = 2420

¿En cuál de las 2 empresas, el ingreso promedio es representativo?


MEDIDAS DE DISPERSIÓN
Las medidas de dispersión o variabilidad miden el grado de
concentración de los datos con respecto a un valor central. Para
medir el grado de concentración de los datos se tienen en cuenta las
desviaciones.
Una desviación es la diferencia entre el dato y la media.
Ejemplo
2550 – 2420 = 130
2500 – 2420 = 80
2400 – 2420 = -20
2350 – 2420 = -70
2300 – 2420 = -120
VARIANZA Y DESVIACIÓN ESTÁNDAR
Las medidas de dispersión o variabilidad que se estudiarán son:
1. Varianza (s2)
La varianza mide la dispersión de los datos con respecto a la media. La varianza
será pequeña si los datos se encuentran cerca a la media, en caso contrario la
varianza será grande. La unidad de medida de la varianza es la unidad de
medida de los datos elevada al cuadrado.
2. Desviación Estándar (s)
La desviación estándar es la raíz cuadrada de la varianza, y también nos
proporciona información sobre la dispersión de los datos con respecto a la
media. La diferencia es que la unidad de medida de la desviación estándar es la
unidad de medida de los datos.
Observación
𝑠 2 es la notación de la varianza muestral y 𝜎 2 es la notación de la varianza
poblacional.
Varianza poblacional
𝑵 𝟐
𝒊=𝟏(𝒙 𝒊 − 𝝁)
𝝈𝟐 =
𝑵
FÓRMULAS PARA EL CÁLCULO DE LA VARIANZA MUESTRAL

• Datos no agrupados:
𝒏
− 𝒙)𝟐
𝒊=𝟏(𝒙𝒊
• Datos agrupados:
𝒔𝟐 =
𝒏−𝟏
Forma abreviada:

𝑛 2
𝑠2 =
𝑛
− 𝑥 )2
𝑖=1(𝑥𝑖
− 𝑛𝑥 2
𝑖=1 𝑖 𝑓𝑖
𝑥
𝑠2 =
𝑛−1
𝑛 2
− 2𝑥𝑖 𝑥 + 𝑥 2 )
=
𝑖=1(𝑥𝑖
𝑛−1 𝑛−1
𝑛 2 2
𝑖=1 𝑥𝑖 − 2𝑥 𝑛𝑖=1 𝑥𝑖 + 𝑛
𝑖=1 𝑥
=
𝑛−1

𝑛 2 𝑛 𝑥𝑖
𝑖=1 𝑥𝑖 − 2𝑥 𝑛 𝑖=1 𝑛 + 𝑛𝑥 2
=
𝑛−1
𝑛 2
𝑖=1 𝑥𝑖 − 2𝑥 𝑛𝑥 + 𝑛𝑥 2
=
𝑛−1
𝑛 2
𝑖=1 𝑥𝑖 − 2𝑛𝑥 2 + 𝑛𝑥 2
=
𝑛−1

𝒏 𝟐
− 𝒏𝒙𝟐
𝒊=𝟏 𝒙𝒊
𝒔𝟐 =
𝒏−𝟏
EJEMPLO
El gerente de una entidad bancaria seleccionó una muestra de 8 clientes y registró los
montos de retiros (en miles de soles) realizados en un cajero automático, a saber: 34,
37, 23, 34, 45, 56, 34 y 22. Calcule la varianza y la desviación estándar.

xi2

xi 8
xi 285
34 1156 x i1
  35.625
37 1369 n 8
23 529
34 1156 Varianza
45 2025
56 3136
34 1156
22 484
La varianza de los montos de retiro de los clientes en un cajero
285 11011 automático es 122.55 miles de soles2.
Desviación estándar
𝑠 = 122.55 = 11.07
La desviación estándar de los montos de retiro de los clientes en un
cajero automático es 11.07 miles de soles.
PROPIEDADES DE LA VARIANZA

1. La varianza de un conjunto de datos siempre es un número no negativo; es


decir, s2  0.
2. La varianza de una constante es cero.
3. Si a todos los valores que toma la variable se le incrementa o disminuye
una constante, entonces la varianza y la desviación estándar del nuevo
conjunto de datos no cambian.
4. Si a todos los valores que toma la variable se le multiplica por una
constante, entonces la varianza del nuevo conjunto de datos es igual a la
varianza anterior multiplicada por dicha constante elevada al cuadrado y la
desviación estándar del nuevo conjunto de datos es igual a la desviación
estándar anterior multiplicada por la constante.
COEFICIENTE DE VARIACIÓN
El coeficiente de variación es una medida de dispersión relativa que nos
proporciona información sobre la variabilidad de un conjunto de datos.
Además, nos permite comparar la variabilidad de 2 o más conjuntos de
datos, incluso cuando se encuentran en unidades de medidas
diferentes.
𝒔
𝑪𝑽 = × 𝟏𝟎𝟎%
𝒙

Para tener en cuenta:

Caso: Conclusión:
CV ≤ 10% El conjunto de datos es homogéneo.
10% < CV ≤ 30% El conjunto de datos es variable.
CV > 30% El conjunto de datos es heterogéneo.
EJEMPLO
A continuación, se presentan las calificaciones de 2 salones (Salón 1 y Salón 2) del curso
Estadística Aplicada.
Salón 1:
Leaft Unit=1.0
Tallo Hojas 27 27

5 0 55689 𝑥𝑖 = 344 𝑥𝑖2 = 4548


𝑖=1 𝑖=1
(12) 1 001112222234
10 1 55566789
2 2 00

Salón 2:
Calificaciones Nº de estudiantes 5 5

[5, 8> 3 𝑥𝑖 𝑓𝑖 = 306.5 𝑥𝑖2 𝑓𝑖 = 4008.25


[8, 11> 5 𝑖=1 𝑖=1

[11, 14> 9
[14, 17> 7
[17, 20] 1
a) ¿En cuál de los 2 salones las calificaciones son más homogéneas?
b) Si en el salón 2, las calificaciones se incrementan en 5% más un punto, ¿la
variabilidad aumenta o disminuye?
SOLUCIÓN
a) Para el salón 1:
344
𝑥1 = = 12.74 𝑠12 = 6.3729 ⟹ 𝑠1 = 2.5245
27 2.5245
𝐶𝑉1 = = 19.82%
12.74
Para el salón 2:
306.5
𝑥2 = = 12.26 𝑠22 = 10.44 ⟹ 𝑠2 = 3.2311
25 3.2311
𝐶𝑉2 = = 26.35%
12.26
En el salón 1, las calificaciones son más homogéneas porque existe menor
variabilidad.
b) 𝑥2 = 1.05 × 12.26 + 1 = 13.873 𝑠2 = 1.05 × 3.2311 = 3.3927
3.3927
𝐶𝑉2 = = 24.46%
13.873
El aumento del 5% de las calificaciones más un punto en el salón 2 produce
una disminución de la variabilidad.
EJEMPLO

El jefe de producción de una empresa que fabrica focos ahorradores quiere obtener
información estadística acerca del tiempo de vida de los focos producidos en sus dos
líneas de producción. Para esto, ha tomado muestras de focos de ambas líneas,
obteniendo los siguientes resultados:
Para la línea 1:
Tiempo de vida Nº de focos
(en miles de horas) en la línea 1

[1.05, 1.45> 3
[1.45, 1.85> 9
[1.85, 2.25> 15
[2.25, 2.65> 8
Totales 35

De donde:
4 4
 xif = 68.9500 y  x 2 f  140.2475
i i i
i=1 i=1
Para la línea 2:
Focos en la línea 2 agrupados por su tiempo de vida
12
12

10

8
8
Frecuencia

6
5

0
1,05 1,45 1,85 2,25 2,65
Tiempo de vida

a) ¿Cuál de las dos líneas presenta tiempos de vida menos variables?


0.3604
CV = = 0.1829
1 1.97
0.4014
CV = = 0.2246
2 1.7875
Los focos de la línea 1presentan tiempos de vida menos variables.
b) Para corregir los errores en la toma de los tiempos de vida en
ambas líneas, se realizan los siguientes cambios: En la línea 1,
los tiempos se incrementaron en 10% más 150 horas y en la
línea 2, los tiempos se incrementaron en 600 horas. ¿En cuál de
las dos líneas, se presentan tiempos más homogéneos luego de
los cambios?

1.1x0.3604
CV1 = = 0.1711
1.1x1.97 + 0.15
0.4014
CV = = 0.1681
2 1.7875 + 0.6
Los focos de la línea 2 presentan tiempos de vida más homogéneos.
EJERCICIO PROPUESTO

Los ingresos semanales de los 150 trabajadores de una


empresa tienen un coeficiente de variación del 20%. Por
incremento del costo de vida, se decide hacer un aumento del
12% de los ingresos semanales más un adicional de 180 soles.
De esta manera, el nuevo coeficiente de variación es igual a
12.5%.
¿Cuánto dinero necesita la empresa para pagar los ingresos
semanales después del aumento?
DIAGRAMA DE CAJA
Es una representación gráfica de la distribución de una variable
cuantitativa. Este diagrama está compuesto por un rectángulo (el
cual contiene el 50% central de los datos) y 2 líneas extendidas, a
cada lado del rectángulo, llamadas bigotes.
Para construir un diagrama de cajas se procede de la siguiente
manera:
Ordenar los datos de menor a mayor.
Calcular los cuartiles: Q1, Q2 (Me) y Q3.
Calcular el rango intercuartílico: RI= Q3 – Q1.
Calcular Q1-1.5RI y Q3 +1.5RI.
Los datos fuera del intervalo [Q1 -1.5RI ; Q3 +1.5RI] son
considerados datos atípicos (outliers). Es posible que en una
distribución no se encuentren este tipo de datos. En el gráfico
de caja, los datos atípicos son representados con asteriscos.
Ubicar el dato con menor valor y el dato con mayor valor en el
intervalo [Q1 -1.5RI ; Q3 +1.5RI].
Mediana
Valor Valor
mínimo P25 P75 máximo

12 14 16 18 20 22 24 26 28 30 32 34 36

Tiempo
EJEMPLO
La compañía de Tablet Delta, ha lanzado al mercado su nueva versión VX23.
El gerente obtuvo información para analizar el nivel de ventas (en miles de
unidades) en las diferentes tiendas durante las 3 primeras semanas (semana
1, semana 2 y semana 3). Los resultados obtenidos son los siguientes:
a) ¿En cuál de las 3 semanas, el rango o recorrido es menor
en el 50% central? Justifique.
En la semana 2, porque la rectángulo es más pequeño o
porque presenta menor rango intercuartilico (RI=P75-P25).
b) Explique el significado del asterisco correspondiente a la
semana 2.
En la semana 2, se observa una tienda con un nivel de
ventas muy superior a todas.
c) ¿Qué distribución presentan las ventas en la semana 3?
En la semana 3, las ventas presentan una asimetría positiva
porque se observa más variabilidad con respecto a los
niveles de ventas más grandes.
MEDIDAS DE ASIMETRÍA

Estas medidas brindan información sobre la dirección horizontal que


toma la distribución de los datos con respecto a su centro.

COEFICIENTE DE ASIMETRÍA DE PEARSON:

3 ( x  Me )
Ak 
s
• Si Ak < 0, la distribución presenta asimetría negativa o hacia la
izquierda.
• Si Ak = 0, la distribución es simétrica.
• Si Ak > 0, la distribución presenta asimetría positiva o hacia la
derecha.
MEDIDAS DE CURTOSIS
Estas medidas brindan información sobre la deformación vertical de una distribución de
frecuencias en comparación con la curva normal.

COEFICIENTE DE CURTOSIS BASADO EN PERCENTILES


Q3 - Q1
KU 
2 ( P90 - P10 )
• Si KU = 0,263, se dice que la distribución es mesocúrtica.
• Si KU < 0,263, se dice que la distribución es platicúrtica.
• Si KU > 0,263, se dice que la distribución es leptocúrtica
METACOGNICIÓN

¿Que aspectos le han parecido interesantes?


¿Que contenido considera más importante del tema trabajado?
¿Qué competencias del tema podría aplicar en su vida diaria?
PARA REFORZAR LO APRENDIDO

RESOLVER LOS EJERCICIOS DE LA GUÍA DE


TRABAJO

También podría gustarte