Está en la página 1de 20

Fundamentos de Estadística

Primer Semestre 2020

Unidad 2. Estadística Descriptiva (Parte II)

Diego Alejandro Castro


Asignatura: Fundamentos de Estadística
Facultad de Ingeniería
Universidad del Valle, Palmira
Estadística Descriptiva
Indicadores de dispersión
Son aquellos cuyo objetivo es detectar el grado de proximidad de los datos respecto a los
valores centrales, en otros términos permiten evaluar el grado de homogeneidad, dispersión o
variabilidad de un conjunto de datos. Estas medidas son:

Rango: es la discrepancia entre el valor máximo y mínimo de los datos.

Medidas de Varianza: corresponde a la variabilidad de los datos. Su unidad de


dispersión
medición está al cuadrado.

Desviación estándar: que tanto se dispersan los datos con


respecto a la media. El indicador siempre será mayor o igual a cero.

Coeficiente de variación: consiste en expresar la desviación estándar como un porcentaje de


la media. Es útil para comparar dos o más poblaciones. Entre menor sea el indicador, más
homogénea es la población.
Estadística Descriptiva
Varianza y Desviación estándar

Sea 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑛 una muestra aleatoria de una característica de la población. Se estima como:


n m

 (x − x)
i
2

;
 n (x − x)
i i
2

S2 = i =1
S2 = i =1 𝑚 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠
n −1 n −1

Sea 𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑁 las observaciones de una característica de una población. Se calcula


como:
N m
 (x − )
i
2
;  n (x − ) i i
2

 =
2 i =1
2 = i =1
N N

Datos agrupados
Datos no agrupados
La desviación estándar es la raíz cuadrada positiva de la varianza.
Estadística Descriptiva
Varianza y Desviación estándar
Ejemplo 1: retomemos el ejemplo de la calificación del primer parcial de Fundamentos de
Estadística para una muestra de 8 estudiantes resultó ser:

3,5 3,9 4,9 5,0 5,0 3,2 4,5 2,2


3,5 + 3,9 + 4,9 + 5,0 + 5,0 + 3,2 + 4,5 + 2,2
Sabemos que: 𝑥lj = = 4,025
8
¿Calcular la desviación estándar e interpretar este indicador según el contexto?
n

 i
( x − x ) 2
(3,5 − 4,025)2 +(3,9 − 4,025)2 +(4,9 − 4,025)2 … + 2,2 − 4,025 2
S2 = i =1
𝑆2 =
n −1 7

𝑆 2 = 1,027912 𝑆= 1,02785 = 1,01386

La discrepancia entre la calificación de un estudiante con respecto al promedio es 1,01386.


𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑀á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑀í𝑛𝑖𝑚𝑜 = 5,0 − 2,2 = 2,8
Estadística Descriptiva
Varianza y Desviación estándar
Ejemplo 2: retomemos el ejemplo del salario mensual (millones de pesos) de los 7 funcionarios
seleccionados de manera aleatoria de un Banco,

2,5 3,4 2,8 25,6 3,1 2,2 4,1


2,5 + 3,4 + 2,8 + 25,6 + 3,1 + 2,2 + 4,1
Sabemos que: 𝑥lj = = 6,24
7

¿Calcular la desviación estándar e interpretar este indicador según el contexto?


n

 i
( x − x ) 2
(2,5 − 6,24)2
+(3,4 − 6,24)2
+(2,8 − 6,24)2
… + 4,1 − 6,24 2
S2 = i =1 2
𝑆 =
n −1 6

𝑆 2 = 73,2428 𝑆= 73,2428 = 8,5582

La discrepancia entre el salario mensual de un funcionario seleccionado de la muestra con


respecto al promedio es 8,5582 millones. 𝑅𝑎𝑛𝑔𝑜 = 25,6 − 2,2 = 23,4
Estadística Descriptiva
Varianza y Desviación estándar
Ejemplo 3: si se elimina el dato atípico del ejemplo inmediatamente anterior, el rango y la
desviación estándar disminuyen considerablemente.
2,5 3,4 2,8 3,1 2,2 4,1
2,5 + 3,4 + 2,8 + 3,1 + 2,2 + 4,1
Sabemos que: 𝑥lj = = 3,0166
6

¿Calcular la desviación estándar e interpretar este indicador según el contexto?


n

 i
( x − x ) 2
(2,5 − 3,0166)2 +(3,4 − 3,0166)2 +. . + 4,1 − 3,0166 2
S2 = i =1 𝑆2 =
5
n −1
𝑆 2 = 0,46166 𝑆= 0,46166 = 0,6794

La discrepancia entre el salario mensual de un funcionario seleccionado de la muestra con


respecto al promedio es 0,6794 millones. 𝑅𝑎𝑛𝑔𝑜 = 4,1 − 2,2 = 1,9
Estadística Descriptiva
Varianza y Desviación estándar
Ejemplo 5: retomando el ejemplo del costo semanal de mantenimiento de la fábrica, estimar la
desviación estándar e interpretar el indicador según el contexto del problema.
i ( Li −1 − Li ] Xi ni fi Ni Fi
1 (3,2 - 3,7] 3,45 3 0,075 3 0,075 Sabemos que el promedio resultó ser 4,65.
2 (3,7 - 4,2] 3,95 7 0,175 10 0,25
3 (4,2 - 4,7] 4,45 15 0,375 25 0,625 La discrepancia entre el costo semanal de
4 (4,7 - 5,2] 4,95 6 0,15 31 0,775 mantenimiento y el costo promedio es igual
5 (5,2 - 5,7] 5,45 4 0,10 35 0,875 a 0,71432 millones de pesos.
6 (5,7 - 6,2] 5,95 5 0,125 40 1,0
Total 40 1,0

σ𝑚 2 2 + 7 ∗ (3,95 − 4,65)2 + ⋯ + 5 ∗ (5,95 − 4,65)2


𝑖=1 𝑛 𝑖 (𝑥𝑖 − 𝑥)
lj 3 ∗ (3,45 − 4,65)
𝑆2 = = = 0,51025
𝑛−1 40 − 1

S = 0,51025 = 0,71432
Estadística Descriptiva
Varianza y Desviación estándar
Ejemplo 5: retomando el ejemplo del grosor de los discos, estimar la desviación estándar e
interpretar el indicador según el contexto del problema.
i ( Li −1 − Li ] Xi ni fi Ni Fi
1 (1,05 - 1,09] 1,07 16 0,08 16 0,08
Sabemos que el promedio resultó ser 1,20785.
2 (1,09 - 1,15] 1,12 20 0,10 36 0,18
3 (1,15 - 1,19] 1,17 36 0,18 72 0,36
El grosor de los discos se dispersa con
4 (1,19 - 1,24] 1,215 64 0,32 136 0,68
respecto al promedio en 0,0682 mm.
5 (1,24 - 1,29] 1,265 42 0,21 178 0,89
6 (1,29 - 1,35] 1,32 22 0,11 200 1,0
Total 200

𝑚
2
σ lj 2 16 ∗ (1,07 − 1,20785)2 + 20 ∗ (1,12 − 1,20785)2 + ⋯ + 22 ∗ (1,32 − 1,20785)2
𝑖=1 𝑛𝑖 (𝑥𝑖 − 𝑥)
𝑆 = =
𝑛−1 200 − 1
𝑆 2 = 0,00465892 𝑆= 0,00465892 = 0,0682
Estadística Descriptiva
Coeficiente de variación
Por la estructura de la varianza, se sabe que cuando aumenta la dispersión, el valor de la varianza
aumenta, al igual que la desviación estándar.

• ¿Una desviación estándar de 200 metros es grande o pequeña?

• ¿Una desviación estándar de 80 kilogramos podría ser grande?

Solo con la desviación estándar no se puede señalar si los datos están muy dispersos o por el
contrario son muy homogéneos. Para resolver estas preguntas, es necesario recurrir a un indicador
que considere el promedio y la desviación estándar.

Ejemplo 6: la Universidad del Valle sede Palmira cuenta con dos grupos de Fundamentos de
Estadística. El grupo 50 y 51 presentó una desviación estándar de la calificación del primer parcial
de 0,55 y 0,64 puntos respectivamente. ¿Se puede concluir que el grupo 51 presentó una mayor
variabilidad, puesto que su desviación estándar es mayor? Respuesta: Falso
Estadística Descriptiva
Coeficiente de variación
Es necesario definir un indicador de dispersión que involucre la magnitud de los datos. El
Coeficiente de Variación (CV) consiste en expresar la desviación estándar como un porcentaje
de la media aritmética, es decir:
𝜎 𝑆
𝐶𝑉 = ∗100 ; 𝐶𝑉 = ∗ 100 ; 𝑑𝑜𝑛𝑑𝑒 𝑥lj , 𝜇 ≠ 0
𝜇 𝑥lj

El CV es muy útil cuando queremos comparar dos o más medidas de dispersión y están en
unidades diferentes o bien están en las mismas unidades pero sus medias son muy distintas. Su
unidad de medición es porcentaje.

El CV indica el grado de homogeneidad del conjunto de datos. No hay un valor definido que
permita valorar el CV como grande o pequeño.
Estadística Descriptiva
Coeficiente de variación
Ejemplo 6: el Banco de la República requiere de un analista de investigaciones económicas. Para
la selección de la vacante, consideró un total de 40 economistas. La media aritmética de las
puntuaciones obtenidas en una prueba de conocimiento por parte de todos los candidatos fue
de 85 puntos, con una desviación estándar de 18 puntos. En la prueba de agilidad mental, la
media y la desviación estándar es 74 y 16 puntos respectivamente.

¿Cuál de las dos pruebas presentó una mayor dispersión?


𝑋1 = Prueba de conocimiento 𝜇1 = 85 ; 𝝈𝟏 = 𝟏𝟖 𝜎
𝐶𝑉 = ∗ 100
𝜇2 = 74 ; 𝝈2 = 𝟏𝟔 𝜇
𝑋2 = Prueba agilidad mental

18
𝐶𝑉1 = ∗ 100 = 21,17%
85 Presentó una mayor dispersión la prueba agilidad mental, puesto
16 que el CV es mayor.
𝐶𝑉2 = ∗ 100 = 21,62%
74
Estadística Descriptiva
Coeficiente de variación
Ejemplo 7: en los juegos Olímpicos del 2012, el promedio y la desviación estándar en que un
atleta recorre la prueba Reina del atletismo resultó ser 10,15 segundos y 0,12 segundos
respectivamente. Por su parte, en los juegos Olímpicos del 2016, el promedio y la desviación
estándar del tiempo recorrido por un atleta en la misma prueba resultó ser 10,28 segundos y
0,14 segundos respectivamente. ¿Cuál de los dos años presentó una mayor homogeneidad?
𝑋1 = Tiempo que demora un atleta en recorrer la prueba Reina de los juegos Olímpicos del 2012

𝑋2 = Tiempo que demora un atleta en recorrer la prueba Reina de los juegos Olímpicos del 2016
𝜇1 = 10,15 ; 𝝈𝟏 = 0,12 𝜎
𝐶𝑉 = ∗ 100
𝜇2 = 10,28 ; 𝝈2 = 0,14 𝜇
0,12
𝐶𝑉1 = ∗ 100 = 1,182%
10,15 La competición del año 2012 presentó una mayor
0,14 homogeneidad, puesto que su CV resultó ser menor.
𝐶𝑉2 = ∗ 100 = 1,362%
10,28
Estadística Descriptiva
Propiedades de la varianza muestral o poblacional
1. La varianza es siempre no negativa. 𝑆 2 ≥ 0 , esto se desprende de que la varianza es una
suma de cuadrados, multiplicada por una constante, que siempre es positiva.
n m

 (x − x)i
2
 n (x − x)
i i
2

S2 = i =1
S2 = i =1
n −1 n −1
2
2. La varianza de una constante es cero, es decir: si 𝑥𝑖 = 𝑘 para todo i, entonces: S x = 0
Ejemplo 8: supongamos que la calificación del primer parcial de Fundamentos de estadística
para una muestra de cinco estudiantes resultó ser:
Estudiante Calificación 4,1 + 4,1 + 4,1 + 4,1 + 4,1
𝑥lj = = 4,1
1 4,1 5
2 4,1 (4,1 − 4,1)2 +(4,1 − 4,1)2 +. . + 4,1 − 4,1 2

3 4,1 𝑆2 = =0
4
4 4,1
5 4,1
Estadística Descriptiva
Propiedades de la varianza muestral o poblacional
3. Si a cada uno de los valores de la muestra se le suma una misma constante, la desviación
estándar no cambia. Matemáticamente: si 𝑦𝑖 = 𝑥𝑖 + 𝑘 , entonces: 𝑆𝑦2 = 𝑆𝑥2

Ejemplo 9: supongamos que la calificación del primer parcial de Fundamentos de estadística


(𝑋) para una muestra de cinco estudiantes resultó ser:
Estudiante Calificación Calif. Ajustada 4,8 + 3,5 + 4,3 + 3,2 + 4,2
𝑥lj = = 4,0
5
1 4,8 5,0
(4,8 − 4)2 +(3,5 − 4)2 +. . + 4,2 − 4 2
2 3,5 3,7 𝑆𝑥2 = = 0,415
3 4,3 4,5 4

4 3,2 3,4 Si el profesor otorga una bonificación de dos


5 4,2 4,4 decimas a cada uno de los estudiantes (𝑌), ¿Cuál
es la nueva varianza?
5,0 + 3,7 + 4,5 + 3,4 + 4,4
𝑦lj = = 4,2 (5,0 − 4,2)2 +(3,7 − 4,2)2 +. . + 4,4 − 4,2 2
5 𝑆𝑥2 = = 0,415
4
Estadística Descriptiva
Propiedades de la varianza muestral o poblacional
4. Si todos los datos de una muestra se multiplican por una constante, entonces el promedio de
la muestra se obtiene multiplicando por la misma constante, es decir: si 𝑦𝑖 = 𝑘𝑥𝑖 , entonces
𝑆𝑦2 = 𝑘 2 𝑆𝑥2 .

Ejemplo 10: por la actual situación económica del país, las utilidades de un determinado Banco
se han disminuido en un 50%. Antes de la crisis, las utilidades en promedio eran de $ 900 mil
millones y la desviación estándar de las utilidades era $ 150 mil millones. Dada la crisis, ¿Cuál es
la nueva varianza de las utilidades?

Sea 𝑋 = "𝑢𝑡𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑎𝑛𝑡𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑟𝑖𝑠𝑖𝑠 𝑠𝑎𝑛𝑖𝑡𝑎𝑟𝑖𝑎"


𝑌 = "𝑢𝑡𝑖𝑙𝑖𝑑𝑎𝑑𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑐𝑟𝑖𝑠𝑖𝑠 𝑠𝑎𝑛𝑖𝑡𝑎𝑟𝑖𝑎"
𝜇𝑥 = 900 ; 𝑆𝑥 = 150 ; 𝑆𝑥2 = 22.500

𝑆𝑦2 = 𝑘 2 𝑆𝑥2 𝑆𝑦2 = 0,502 ∗ 22.500 = 5.625


Estadística Descriptiva
Ejercicios de repaso en clase

La desviación estándar del salario mensual de un grupo de trabajadores de la empresa


Centroaguas resultó ser $62.430.

La interpretación correcta de la desviación estándar es:

a) $62.430 es la dispersión del salario mensual para el grupo de trabajadores.


b) La dispersión entre cada trabajador con respecto a su media es de $62.430.
c) La dispersión entre el salario mensual de cada trabajador con respecto a su media es
de $62.430.
d) La dispersión entre el salario mensual de cada trabajador con respecto a su mediana es de
$62.430.
Estadística Descriptiva
Ejercicios de repaso en clase

El promedio del consumo de energía, de los hogares de la comuna 20 de la ciudad de Cali


resultó ser 290 Kwh. Por su parte, la desviación estándar fue de 28,4 Kwh. Las empresas
municipales de Cali notaron que la medición del Kwh estaba mal medida y tenía un error por
debajo de 20 Kwh. ¿Cuál es la nueva media?

a) 290 Kwh
b) 270 Kwh
c) 310 Kwh

¿Cuál es la nueva desviación estándar?


a) 28,4 Kwh
b) 8,4 Kwh
c) 48,4 Kwh
Estadística Descriptiva
Ejercicios de repaso en clase
La empresa autoveloz que se encarga de realizar la revisión tecnomecánica de automóviles, lleva a cabo
un estudio en el que se busca identificar en cuál de las tres principales ciudades de Colombia se presentan
mayores niveles de emisión de hidrocarburos en partes por millón en los vehículos. Para eso se tomó una
muestra de 20 vehículos en cada una de las ciudades a estudiar, Cali, Medellín y Bogotá. Los principales
resultados estadísticos se muestran en la tabla siguiente:
Ciudad Media Desviación Estándar
Bogotá 405 433
Medellín 439 473
Cali 533 493
¿Cuál de las ciudades presenta una menor dispersión de los niveles de emisión de hidrocarburos
en partes por millón?
a) Cali
b) Medellín
c) Bogotá
Estadística Descriptiva
Ejercicios de repaso en clase
Para responder la pregunta, es necesario calcular el Coeficiente de Variación (CV), indicador que permite
comparar la variabilidad de dos o más poblaciones o muestras.
Ciudad Media Desviación Estándar
Bogotá 405 433
Medellín 439 473
Cali 533 493
𝑆
𝐶𝑉 = ∗ 100
𝑥lj
433
𝐶𝑉𝐵𝑜𝑔𝑜𝑡á = ∗ 100 = 106,91%
405
La ciudad de Cali presenta una menor dispersión
𝐶𝑉𝑀𝑒𝑑𝑒𝑙𝑙í𝑛 =
473
∗ 100 = 107,74%
en relación a las demás ciudades, puesto que su
439 CV es menor.
493
𝐶𝑉𝐶𝑎𝑙𝑖 = ∗ 100 = 92,49%
533
Estadística Descriptiva
Ejercicios de repaso en clase
Responder verdadero o falso cada una de las siguientes afirmaciones:
El coeficiente de variación siempre será un número entre 0% y 100%
a) Verdadero
b) Falso

El coeficiente de variación es un indicador de tendencia central


a) Verdadero
b) Falso

El coeficiente de variación de una determinada característica en la población A y B resultó ser del 15% y
23% respectivamente. Se puede concluir que la población A presenta una mayor homogeneidad respecto
a la población B
a) Verdadero
b) Falso

También podría gustarte