Está en la página 1de 25

Estadística Descriptiva e Inferencial

Tema: Medidas de variabilidad

▪ Varianza, desviaciónestándar y coeficiente de


variación

▪ Gráfico de cajas
LOGRO DELTEMA

Al finalizar el tema, el estudiante aplica técnicas de


resumen de la información, adecuada a las variables
y a la población o muestra que requiera estudiar,
usando las medidas de variabilidad o dispersión
adecuados a situaciones reales.
TEMARIO

1 Introducción

2 Medidas de variabilidad

3 Gráfico de cajas

4 Conclusiones

5 Referencias
1. Introducción

El estudiante en esta sección podrá identificar la forma de


aplicar correctamente las medidas de variabilidad o
dispersión, la forma de aplicarlos e interpretarlos, para que a
partir de una gran cantidad de información lo pueda resumir.
Esta clase tiene como propósito que el estudiante pueda
identificar las medidas de variabilidad como: varianza,
desviación estándar, coeficiente de variación.
2. Medidas de variabilidad
Son aquellas que permiten cuantificar el alejamiento de los datos con respecto a la media. Las medidas de variabilidad que se han
considerado para este curso son: Varianza, desviación estándar y coeficiente de variación.

2.1. Varianza

2 1 𝑁 2 2 σ𝑁 2
𝑖=1 𝑋𝑖
La varianza para una población: 𝜎 = σ
𝑁 𝑖=1
𝑋𝑖 − 𝜇 𝜎 = − 𝜇2
𝑁

1
La varianza de la muestra se calcula como: 𝑆2 =
1
σ𝑛𝑖=1 𝑋𝑖 − 𝑥ҧ 2
2
𝑆 = σ𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑥ҧ 2
𝑛−1
𝑛−1
2.1. Varianza

Ejemplo 1. Una empresa cuenta en total con 5 trabajadores, a ellos se les pregunta sobre su sueldo (en soles), los resultados se
muestran a continuación:

700 600 850 800 755

Calcular la varianza de los datos.


Solución 1. Primero se debe encontrar la media de datos:

σ𝑁
𝑖=1 𝑋𝑖 𝜇=
700 + 600 + 850 + 800 + 755 3705
= = 741 soles
𝜇= 5 5
𝑁

1
𝜎 2 = σ𝑁
𝑖=1 𝑋𝑖 − 𝜇
2
𝑁
1 37120
𝜎2 = −41 2 + −141 2 + 109 2 + 59 2 + 14 2 = = 7424
5 5

𝜎 2 =7424 𝑠𝑜𝑙𝑒𝑠2
2.1. Varianza
Ejemplo 1. Una empresa cuenta en total con 5 trabajadores, a ellos se les pregunta sobre su sueldo (en soles), los resultados se
muestran a continuación:

700 600 850 800 755

Calcular la varianza de los datos.


Solución 2. Otra forma de calcular la varianza.

700 + 600 + 850 + 800 + 755 3705


𝜇= = = 741 𝑠𝑜𝑙𝑒𝑠
5 5

σ𝑁 2
𝑖=1 𝑋𝑖 2782525
𝜎2 = − 𝜇2 𝜎2 = − 7412
𝑁 5

𝜎 2 = 556505 - 549081= 7424

𝜎 2 = 7424 𝑠𝑜𝑙𝑒𝑠2
2.1. Varianza

Ejemplo 2. De una empresa con un gran número de trabajadores se selecciona por sorteo una muestra de 5 trabajadores, a ellos se les
pregunta sobre su sueldo (en soles), los resultados se muestran a continuación:

700 600 850 800 755

Calcular la varianza de los datos.


Solución 1. Primero se debe encontrar la media de datos.

σ𝑛
𝑖=1 𝑋𝑖
𝑥ҧ = 𝑛
Xത =
700 + 600 + 850 + 800 + 755 3705
= = 741 𝑠𝑜𝑙𝑒𝑠
5 5

1 1
𝑆2 = σ𝑛𝑖=1 𝑋𝑖 − 𝑥ҧ 2 𝑆2 =
4
700 − 741 2 + 600 − 741 2 + 850 − 741 2 + 800 − 741 2 + 755 − 741 2

𝑛−1
1 37120
𝑆2 = −41 2 + −141 2 + 109 2 + 59 2 + 14 2 = = 9280
4 4

𝑆 2 =9280 𝑆𝑜𝑙𝑒𝑠2
2.1. Varianza

Ejemplo 2. De una empresa con un gran número de trabajadores se selecciona por sorteo una muestra de 5 trabajadores, a ellos se les
pregunta sobre su sueldo (en soles), los resultados se muestran a continuación:

700 600 850 800 755

Calcular la varianza de los datos.


Solución 2. Otra forma de calcular la varianza muestral.

ത = 700 + 600 + 850 + 800 + 755 = 3705 = 741 𝑠𝑜𝑙𝑒𝑠


X
𝑋
5 5

1 1
𝑆2 = σ𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑥ҧ 2 𝑆2 =
=
4
{(7002 + 6002 + 8502 + 8002 + 7552) – (5*7412)}
𝑛−1
37120
𝑆2 = = 9280
4

𝑆 2 =9280 𝑆𝑜𝑙𝑒𝑠2
2.2. Desviación estándar

Desviación estándar para una población: 𝜎= 𝜎2

Desviación estándar de la muestra: S = 𝑆2


2.2. Desviación estándar

Ejemplo 3. Para evaluar el rendimiento de una máquina que produce repuestos se realizó 30 pruebas en diferentes
condiciones, anotando la cantidad de repuestos que se produce por hora, se encontraron los siguientes resultados:

29 33 34 34 35 36 37 39 40 40
41 45 46 47 49 50 50 51 52 54
58 62 63 64 78 80 83 85 89 92

Calcular la desviación estándar: 𝑛 𝑛

σ𝑛
𝑖=1 𝑋𝑖 1596 ෍ 𝑋𝑖 = 1596 ෍ 𝑋𝑖2 = 94762
𝑥ҧ = 𝑛
=
30
= 53.2
𝑖=1 𝑖=1

1 1 𝑺𝟐
𝑆2 = σ𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑥ҧ 2 = 94762 − 30(53.22) = 339.8207 𝑺=
𝑛−1 29
𝑆= 339.8207 = 18.4342

El alejamiento máximo de los datos con respecto a la media es 18.4342.


2.3. Coeficiente de variación

Es una medida de dispersión relativa que proporciona información sobre la variabilidad de los datos sin considerar sus unidades.

𝑆 𝑒𝑥𝑝𝑟𝑒𝑠𝑎𝑑𝑜 𝑒𝑛 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 𝐶𝑉% = * 100


𝑆
𝐶𝑉 = 𝑥ҧ
𝑥ҧ
Forma de interpretar:

CV ≤ 10% El conjunto de datos es homogéneo.

10% < CV ≤ 30% El conjunto de datos es variable.

CV > 30% El conjunto de datos es heterogéneo.


2.3. Coeficiente de Variación

Ejemplo 4. Para evaluar el rendimiento de una máquina que produce repuestos se realizó 30 pruebas en diferentes
condiciones, anotando la cantidad de repuestos que se produce por hora, se encontraron los siguientes resultados:

29 33 34 34 35 36 37 39 40 40
41 45 46 47 49 50 50 51 52 54
58 62 63 64 78 80 83 85 89 92

Calcular la desviación estándar: 𝑛 𝑛

σ𝒏
𝒊=𝟏 𝑿𝒊 1596 ෍ 𝑋𝑖 = 1596 ෍ 𝑋𝑖2 = 94762

𝒙= =
30
= 53.2
𝑖=1 𝑖=1
𝒏

𝟏 1 𝑺= 𝑺𝟐
𝟐
𝑺 = σ𝒏𝒊=𝟏 𝑿𝟐𝒊 − 𝒏ഥ
𝒙 𝟐 = 94762 − 30(53.22) = 339.8207
𝒏−𝟏 29
𝑆= 339.8207 = 18.4342
𝑺
𝑪𝑽% = * 100 = 18.4342

𝒙 53.2
* 100 = 34.64%
2.3. Coeficiente de variación

Ejemplo 5. Con el fin de analizar la variabilidad de los sueldos de los trabajadores de tres zonas del Perú, se seleccionó
mediante un muestreo estratificado, se escogió información de cada zona encontrando la siguiente información:

Medida de Sueldo en soles


resumen Zona 1 Zona 2 Zona 3
Promedio 5900 soles 4700 soles 1800 soles
Varianza 649000 soles2 454000 soles2 87600 soles2

¿En qué zona los sueldos son más homogéneos?


𝑆
𝑺= 𝑺𝟐 𝐶𝑉% = 𝑥ҧ * 100
649000 454000
𝐶𝑉1 = = 13.65% 𝐶𝑉2 = = 14.34%
5900 4700

87600
𝐶𝑉3 = = 16.44%
1800
2.3. Coeficiente de variación
Ejemplo 5. Con el fin de analizar la variabilidad de los sueldos de los trabajadores de tres zonas del Perú, se seleccionó mediante un
muestreo estratificado, se escogió información de cada zona encontrando la siguiente información:

Medida de Sueldo en soles


resumen Zona 1 Zona 2 Zona 3
Promedio 5900 soles 4700 soles 1800 soles
Varianza 649000 soles2 454000 soles2 87600 soles2

𝑆
𝑺= 𝑺𝟐 𝐶𝑉% = 𝑥ҧ * 100
87600 454000
649000 𝐶𝑉2 = = 14.34%
𝐶𝑉1 = = 13.65% 𝐶𝑉3 = = 16.44%
5900 1800 4700

¿En qué zona los sueldos son más homogéneos?


Si consideramos la varianza para determinar la zona de sueldos más homogéneos se tendría que la zona 3 presenta menor varianza
(87600 soles2); sin embargo, con el coeficiente de variación el grupo más homogéneo sería la zona 1 (con un CV1=13.65%).

¿Por qué esta contradicción?


Cuando los promedios son diferentes para identificar el grupo más homogéneo se utiliza el coeficiente de variación.
2.3. Coeficiente de variación

Propiedad 1

Si a los datos de la investigación se le suma o resta una constante, se cumple

a) El promedio original aumenta o disminuye en la misma constante


b) La varianza no cambia
c) La desviación estándar no cambia

Ejemplo 6. En una investigación sobre tiempo que se requiere para terminar un trabajo se seleccionó una muestra de 500 datos,
encontrando las siguientes medidas de resumen:
_
𝑋 = 53.2 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑆 2 = 18.1476 𝑚𝑖𝑛𝑢𝑡𝑜𝑠2 𝑦 𝑆 = 4.26

Un ajuste en la lectura de los 500 datos, originó un aumento de 10 minutos en cada dato. ¿Cuáles son las nuevas medidas de
resumen?_
𝑋 = 53.2 + 10
_
𝑋 = 63.2 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑆 2 = 18.1476 𝑚𝑖𝑛𝑢𝑡𝑜𝑠2 𝑦 𝑆 = 4.26
2.3. Coeficiente de variación
Propiedad 2

Si a los datos de la investigación se les multiplica o divide por una constante, se cumple:

a) El promedio original queda multiplicado o dividido por la misma constante.


b) La varianza original queda multiplicado o dividido por la constante elevada al cuadrado.
c) La desviación estándar queda multiplicado o dividido por la misma constante.

Ejemplo 7. En una investigación sobre tiempo que se requiere para terminar un trabajo se seleccionó una muestra de 500 datos,
encontrando las siguientes medidas de resumen:

_
𝑋 = 53.2 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑆 2 = 18.1476 𝑚𝑖𝑛𝑢𝑡𝑜𝑠2 𝑦 𝑆 = 4.26

Un ajuste en la lectura de los 500 datos, origino un aumento del 15% en cada dato ¿Cuáles son las nuevas medidas de resumen?
_
𝑋 = 1.15 53.2 = 61.18 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 𝑆 2 = 1.152 18.1476 = 24.0002 𝑚𝑖𝑛𝑢𝑡𝑜𝑠2 𝑆 = 1.15 (4.26) = 4.899 𝑚𝑖𝑛𝑢𝑡𝑜𝑠
3. Gráfico de cajas

1. Ordenar los datos de menor a mayor.

2. Hallar los cuartiles (Q1, Q2 y Q3), con los cuartiles Q1 y Q3 se forma un


rectángulo, dentro del rectángulo se traza una línea a la altura del Q2.

3. Hallar el rango intercuartílico (RI = Q3- Q1).

4. Calcular los límites Q1-1.5RI y Q3 +1.5RI, todos los datos que quedan
fuera del intervalo [Q1-1.5RI; Q3 +1.5RI ] los debemos identificar como
valores discordantes.

5. De la parte superior e inferior central del rectángulo se traza una línea


(bigote) hasta el máximo y mínimo de los datos que quedan dentro del
intervalos [Q1-1.5RI; Q3 +1.5RI ], los datos que quedan fuera de este
intervalo se representan con asteriscos.
3. Gráfico de cajas

Ejemplo 8. El gerente de la oficina de Control de Calidad de un Banco, está preocupado por el tiempo de espera de los clientes en sus
agencias, por ello selecciona una muestra aleatoria de clientes de cada agencia y se les pregunta sobre el tiempo de espera desde el
momento que llegó al banco hasta el momento que se le atendió en la ventanilla. Los datos captados fueron graficados a continuación:

Grafico de cajas de los tiempos de espera por agencia

70

60
Tiempo de espera (en minutos)

50
a. ¿Qué agencia presenta datos simétricos?

40
b. ¿Qué representan los asteriscos de la agencia 2?
30
c. ¿Qué asimetría presenta el 50% central de los
20
datos de la agencia 3?
10

Agencia 1 Agencia 2 Agencia 3


3. Gráfico de cajas

a. ¿Qué agencia presenta datos simétricos?


Grafico de cajas de los tiempos de espera por agencia
La agencia 1 presente datos simétricos. 70

b. ¿Qué representan los asteriscos de la agencia 2? 60

50

Tiempo de espera (en minutos)


Representan valores muy latos con respecto a los
otros datos, se llaman valores discordante. 40

30
c. ¿Qué asimetría presenta el 50% central de los datos
de la agencia 3? 20

10
Como la mediana está más cerca al Q3, se identifica
una distribución asimétrica negativa. 0
Agencia 1 Agencia 2 Agencia 3
Fórmulas
Varianza muestral
Varianza poblacional

1 1
𝜎 2 = 𝑁 σ𝑁
𝑖=1 𝑋𝑖 − 𝜇
2
𝑆 2 = 𝑛−1 σ𝑛𝑖=1 𝑋𝑖 − 𝑥ҧ 2

σ𝑁 2 1
𝜎2 = 𝑖=1 𝑋𝑖
− 𝜇2 𝑆 2 = 𝑛−1 σ𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑥ҧ 2
𝑁

Desviación estándar para una población Desviación estándar de la muestra

𝜎= 𝜎2 S= 𝑆 2
Coeficiente de variación
𝑆
𝐶𝑉% = 𝑥ҧ * 100 𝑒𝑥𝑝𝑟𝑒𝑠𝑎𝑑𝑜 𝑒𝑛 𝑝𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒
4. Conclusiones

Las medidas de dispersión son útiles para identificar grupos más


homogéneos o cuantificar la variabilidad de un conjunto de datos.

Las medidas de variabilidad cuantifican el alejamiento de los datos, permitiendo


al investigador tomar decisiones sobre la dispersión de la información.
5. Referencias

Mendenhall, W. & Sincich, T. (2016). STATISTICS for Engineering and


theSciences (6). Boca Raton: CRC Press

Montgomery, D. (2014). Applied statistics and probability for engineers


(6). United States of America: Hoboken, NJ2.

Navidi, W. (2015). Statistics for engineers and scientists. McGraw-Hill Education.

TRIOLA (2018). ESTADISTICA 12 ED. https://www.ebooks7-24.com:443/?il=7386

Montesinos L., Bayona Y., Cerna E., Llanos K. & Pajuelo S (2016). Estadística
Descriptiva y Probabilidad: Enfoque por competencias. (2a. ed.). Universidad San
Ignacio de Loyola. https://www.ebooks7-24.com:443/?il=10149

También podría gustarte