Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas de Dispersión
Medidas de Dispersión
Medidas de dispersión
PhD. Marcos Castañeda Orozco
Octubre de 2021
MEDIDAS DE DISPERSIÓN
Ejemplo:
Las calificaciones de 10 estudiantes: 4.0, 5.0, 4.5, 2.0, 3.0, 3.5, 4.0, 5.0, 4.5, 2.5
ഥ
𝒙 = 𝟑, 𝟖
-0,3
0,2
-0,8
σ 𝑥𝑖 ∗ 𝑓𝑖 38 0,7
𝑥ҧ = = = 3,8 -1,3
𝑛 10
1,2
-1,8
σ 𝑥𝑖 − 𝑥ҧ ∗𝑓𝑖
D 𝑥ҧ = 𝑛
Edad marca de clase (Xi) Frecuencia (f) Xi*f /Xi - Media/ /Xi - Media/*f
18-24 21 5 105 17,04 85,2 σ 𝑥𝑖 ∗ 𝑓𝑖
𝑥ҧ =
24-30 27 4 108 11,04 44,16 𝑛
30-36 33 11 363 5,04 55,44
36-42 39 12 468 0,96 11,52
1902
𝑥ҧ = = 38,04
42-48 45 10 450 6,96 69,6 50
48-54 51 8 408 12,96 103,68
369,6
total 50 1902 369,6 D 𝑥ҧ = = 7,392
50
Se espera que el valor de la desviación media sea lo más próximo a 1, para garantizar
la homogeneidad de los datos y que la dispersión sea lo más pequeña posible.
LA VARIANZA
σ 𝑥𝑖 − 𝑥ҧ 2 ∗ 𝑓𝑖
𝜎2 =
𝑛
Donde:
ഥ : es la media de la variable
𝑿
xi: observación número i de la variable X. i puede tomará valores entre 1 y n.
n: número de observaciones.
fi: frecuencia absoluta
Edad marca de clase (Xi) Frecuencia (f) Xi*f Xi - Media (Xi - media)^2 (Xi - media)^2*f
18-24 21 5 105 -17,04 290,3616 1451,808
24-30 27 4 108 -11,04 121,8816 487,5264
30-36 33 11 363 -5,04 25,4016 279,4176
36-42 39 12 468 0,96 0,9216 11,0592
42-48 45 10 450 6,96 48,4416 484,416
48-54 51 8 408 12,96 167,9616 1343,6928
total 50 1902 4057,92
2 σ 𝑥𝑖 − 𝑥ҧ 2 ∗𝑓𝑖 4057,92
𝜎 = = = 81,16
𝑛 50
Este valor indica el área ocupada por los datos alrededor de la media es de
81,16. Para poder interpretarlo bajo los datos reales es necesario calcular la
desviación Estándar o típica.
DESVIACIÓN ESTÁNDAR O TÍPICA
𝜎= 𝑣𝑎𝑟(𝑥)
Interpretación: Esto indica que el promedio de las edades de las personas que
participaron en el estudio debe estar entre los 29 y los 48 años
COEFICIENTE DE VARIACIÓN (C.V):
𝜎
C. V = ∗ 100
𝑥ҧ
9,0088
C. V = ∗ 100 = 23,68%
38,04
Interpretación:
COEFICIENTE DE VARIACIÓN APRESIACIÓN Las edades de las personas involucradas en el
26% o más Muy Heterogénea estudio son heterogéneas. Por lo tanto, los datos
Entre 16% y 26% Heterogénea tomados están dispersos de manera moderada y
Entre el 11% y el 15% Homogéneo esto afecta la confiabilidad de los resultados.
Entre 0% y el 10% Muy Homogéneo Sólo existe un 76% de homogeneidad entre los
datos (100% - C.V = 100% - 23,68% = 76%)
TABLAS DE CONTINGENCIA O DE DOBLE ENTRADA
Supongamos que en una empresa hay 100 empleados, de los cuales 30 son mujeres y
70 son hombres. Supongamos, además, que hay 21 mujeres y 33 hombres que fuman.
Fuma 33 21
No Fuma
Total 70 30 100
VARIABLES BIDIMENCIONALES
Son variables que se obtienen al observar simultáneamente dos características de
un mismo elemento en una población. Esta se representan mediante el par (X, Y) y
toman los valores 𝑋1 , 𝑌1 , 𝑋2 , 𝑌2 , … , 𝑋𝑛 , 𝑌𝑛 , donde X es la variable independiente
y Y es la variable dependiente.
COVARIANZA
La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían
de forma conjunta respecto a sus medias.
Nos permite saber cómo se comporta una variable en función de lo que hace otra
variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la covarianza
puede tomar los siguiente valores:
➢ Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una
correlación negativa.
➢ Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una
correlación positiva.
Cálculo de la covarianza
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ 𝑓𝑖 (𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
𝐶𝑜𝑣 𝑋, 𝑌 = ó 𝐶𝑜𝑣 𝑋, 𝑌 =
𝑛 𝑛
Donde:
• 𝑥𝑖 , 𝑦𝑖 corresponden a los valores que toma cada una de las variables
• 𝑥,ҧ 𝑦ത representan los valores correspondientes a cada una de la medias de
cada variable
• n indica el número total de datos que son tenidos en cuenta con respecto a
ambas variables.
σ 𝑓𝑖 ∗ (𝑥𝑖 𝑦𝑖 )
𝐶𝑜𝑣 𝑋, 𝑌 = − 𝑥ҧ 𝑦ത
𝑛
Ejemplos de aplicación
En este ejemplo se muestra la información
correspondiente a los días transcurridos (X) desde
que se planto una planta y la altura (Y) que creció
en centímetros
σ 𝑓𝑖 ∗ (𝑥𝑖 𝑦𝑖 )
𝐶𝑜𝑣 𝑋, 𝑌 = − 𝑥ҧ 𝑦ത
𝑛
Covarianza
σ(𝑥𝑖 ∗ 𝑦𝑖 )
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
𝑛
COEFICIENTE DE CORRELACIÓN LINEAL
𝑆𝑥𝑦
𝑟= .
𝑆𝑥 𝑆𝑦
σ(𝑥𝑖 )2 σ(𝑦𝑖 )2
𝑆𝑥 = − 𝑥ҧ 2 ; 𝑆𝑦 = − 𝑦ത 2 (𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒)
𝑛 𝑛
INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN LINEAL
Este método consiste en calcular la ecuación de la recta que linealiza la dispersión de los
puntos, ajustándolos a la mejor recta. Esto permite establecer una ecuación a partir de la
cual se puedan realizar predicciones con respectos a las variables que se estudian.
La ecuación de la recta de regresión se calcula empleando la fórmula punto pendiente:
𝑆𝑥𝑦
𝑦 − 𝑦ത = 𝑚 𝑥 − 𝑥ҧ ; 𝑑𝑜𝑛𝑑𝑒 𝑚 =
(𝑆𝑥 )2
A partir del ejemplo desarrollado anteriormente, tenemos los siguientes datos:
𝑆𝑥𝑦 37,13
𝑥ҧ = 23,25; 𝑦ത = 11; m= = = 0,348
(𝑆𝑥 )2 (10,35)2
Reemplazando:
Ejemplo de aplicación
𝒚 − 𝑦ത = 𝑚 𝒙 − 𝑥ҧ → 𝑦 − 11 = 0,348 𝑥 − 23,25 Determinar la altura (y) de la
𝑦 − 11 = 0,348𝑥 − 8,091 → 𝑦 = 0,348𝑥 − 8,091 + 11 planta transcurridos 100 días (x)
𝒚 = 𝟎, 𝟑𝟒𝟖𝒙 + 𝟐, 𝟗𝟎𝟗 (Ecuación de regresión lineal) y = 0,348(100) – 2,909
y = 31,89 cm