Está en la página 1de 15

UNIVERSIDAD DEL ATLÁNTICO

FACULTAD DE CIENCIAS DE LA EDUCACIÓN

Medidas de dispersión
PhD. Marcos Castañeda Orozco

Octubre de 2021
MEDIDAS DE DISPERSIÓN

Son procedimientos numéricos que se emplean para medir la separación o


dispersión de cada uno los datos de un conjunto con respecto a un valor de
referencia (la media aritmética).

Ejemplo:

Las calificaciones de 10 estudiantes: 4.0, 5.0, 4.5, 2.0, 3.0, 3.5, 4.0, 5.0, 4.5, 2.5


𝒙 = 𝟑, 𝟖

-0,3
0,2
-0,8
σ 𝑥𝑖 ∗ 𝑓𝑖 38 0,7
𝑥ҧ = = = 3,8 -1,3
𝑛 10
1,2
-1,8

2,0 3,0 4,0 5,0


Las medidas de dispersión más utilizadas son:

RANGO: Se define como la diferencia entre el valor máximo y el valor


mínimo de los datos de un conjunto.
R = Vmax – Vmin

DESVIACIÓN MEDIA: es el promedio de las distancia de cada uno de los


datos del conjunto con respecto a la media

σ 𝑥𝑖 − 𝑥ҧ ∗𝑓𝑖
D 𝑥ҧ = 𝑛

Edad marca de clase (Xi) Frecuencia (f) Xi*f /Xi - Media/ /Xi - Media/*f
18-24 21 5 105 17,04 85,2 σ 𝑥𝑖 ∗ 𝑓𝑖
𝑥ҧ =
24-30 27 4 108 11,04 44,16 𝑛
30-36 33 11 363 5,04 55,44
36-42 39 12 468 0,96 11,52
1902
𝑥ҧ = = 38,04
42-48 45 10 450 6,96 69,6 50
48-54 51 8 408 12,96 103,68
369,6
total 50 1902 369,6 D 𝑥ҧ = = 7,392
50
Se espera que el valor de la desviación media sea lo más próximo a 1, para garantizar
la homogeneidad de los datos y que la dispersión sea lo más pequeña posible.
LA VARIANZA

Es una medida de dispersión que representa la variabilidad de una serie de


datos respecto a su media. Se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.

σ 𝑥𝑖 − 𝑥ҧ 2 ∗ 𝑓𝑖
𝜎2 =
𝑛

Donde:
ഥ : es la media de la variable
𝑿
xi: observación número i de la variable X. i puede tomará valores entre 1 y n.
n: número de observaciones.
fi: frecuencia absoluta

La unidad de medida de la varianza será siempre la unidad de medida


correspondiente a los datos pero elevada al cuadrado. La varianza siempre es
mayor o igual que cero. Al elevarse los residuos al cuadrado es
matemáticamente imposible que la varianza salga negativa. Y de esa forma no
puede ser menor que cero.
Ejemplo de aplicación
Se tiene en cuenta el cuadro de las edades con que se trabajó la definición
de la desviación media.

Edad marca de clase (Xi) Frecuencia (f) Xi*f Xi - Media (Xi - media)^2 (Xi - media)^2*f
18-24 21 5 105 -17,04 290,3616 1451,808
24-30 27 4 108 -11,04 121,8816 487,5264
30-36 33 11 363 -5,04 25,4016 279,4176
36-42 39 12 468 0,96 0,9216 11,0592
42-48 45 10 450 6,96 48,4416 484,416
48-54 51 8 408 12,96 167,9616 1343,6928
total 50 1902 4057,92

2 σ 𝑥𝑖 − 𝑥ҧ 2 ∗𝑓𝑖 4057,92
𝜎 = = = 81,16
𝑛 50

Este valor indica el área ocupada por los datos alrededor de la media es de
81,16. Para poder interpretarlo bajo los datos reales es necesario calcular la
desviación Estándar o típica.
DESVIACIÓN ESTÁNDAR O TÍPICA

Es definida como el promedio de las distancias de cada dato con respecto a la


media. Se calcula a partir de la raíz cuadrada de la varianza.

𝜎= 𝑣𝑎𝑟(𝑥)

Teniendo en cuenta los datos del ejemplo anterior

𝜎= 𝑣𝑎𝑟(𝑥) = 81,16 = 9,0088

Interpretación: Esto significa que la distancia promedio de las edades del


conjunto con respecto a la media es de 9,0088 años.

A través de este valor se puede calcular un intervalo de confianza (I.C) para la


media.

I.C = (𝑥ҧ − 𝜎 , 𝑥ҧ + 𝜎) = 38,04 − 9,0088 ; 38,04 + 9,0088 = 29,03 ; 47,04

Interpretación: Esto indica que el promedio de las edades de las personas que
participaron en el estudio debe estar entre los 29 y los 48 años
COEFICIENTE DE VARIACIÓN (C.V):

Se define como el cociente entre la desviación estándar y la media aritmética,


multiplicado por 100%

𝜎
C. V = ∗ 100
𝑥ҧ

Teniendo los datos del ejemplo anterior:

9,0088
C. V = ∗ 100 = 23,68%
38,04
Interpretación:
COEFICIENTE DE VARIACIÓN APRESIACIÓN Las edades de las personas involucradas en el
26% o más Muy Heterogénea estudio son heterogéneas. Por lo tanto, los datos
Entre 16% y 26% Heterogénea tomados están dispersos de manera moderada y
Entre el 11% y el 15% Homogéneo esto afecta la confiabilidad de los resultados.
Entre 0% y el 10% Muy Homogéneo Sólo existe un 76% de homogeneidad entre los
datos (100% - C.V = 100% - 23,68% = 76%)
TABLAS DE CONTINGENCIA O DE DOBLE ENTRADA
Supongamos que en una empresa hay 100 empleados, de los cuales 30 son mujeres y
70 son hombres. Supongamos, además, que hay 21 mujeres y 33 hombres que fuman.

CODICIÓN/GENERO Hombre (H) Mujer (M) Total

Fuma 33 21

No Fuma

Total 70 30 100

VARIABLES BIDIMENCIONALES
Son variables que se obtienen al observar simultáneamente dos características de
un mismo elemento en una población. Esta se representan mediante el par (X, Y) y
toman los valores 𝑋1 , 𝑌1 , 𝑋2 , 𝑌2 , … , 𝑋𝑛 , 𝑌𝑛 , donde X es la variable independiente
y Y es la variable dependiente.
COVARIANZA
La covarianza es el valor que refleja en qué cuantía dos variables aleatorias varían
de forma conjunta respecto a sus medias.

Nos permite saber cómo se comporta una variable en función de lo que hace otra
variable. Es decir, cuando X sube ¿Cómo se comporta Y? Así pues, la covarianza
puede tomar los siguiente valores:

Correlación positiva Correlación negativa No hay correlación

➢ Covarianza (X,Y) es menor que cero cuando “X” sube e “Y” baja. Hay una
correlación negativa.

➢ Covarianza (X,Y) es mayor que cero cuando “X” sube e “Y” sube. Hay una
correlación positiva.
Cálculo de la covarianza

La fórmula de la covarianza se expresa como sigue:

σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ 𝑓𝑖 (𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

𝐶𝑜𝑣 𝑋, 𝑌 = ó 𝐶𝑜𝑣 𝑋, 𝑌 =
𝑛 𝑛
Donde:
• 𝑥𝑖 , 𝑦𝑖 corresponden a los valores que toma cada una de las variables
• 𝑥,ҧ 𝑦ത representan los valores correspondientes a cada una de la medias de
cada variable
• n indica el número total de datos que son tenidos en cuenta con respecto a
ambas variables.

Otra fórmula que es muy utilizada para calcular la covarianza e

σ 𝑓𝑖 ∗ (𝑥𝑖 𝑦𝑖 )
𝐶𝑜𝑣 𝑋, 𝑌 = − 𝑥ҧ 𝑦ത
𝑛
Ejemplos de aplicación
En este ejemplo se muestra la información
correspondiente a los días transcurridos (X) desde
que se planto una planta y la altura (Y) que creció
en centímetros

σ 𝑓𝑖 ∗ (𝑥𝑖 𝑦𝑖 )
𝐶𝑜𝑣 𝑋, 𝑌 = − 𝑥ҧ 𝑦ത
𝑛

Covarianza
σ(𝑥𝑖 ∗ 𝑦𝑖 )
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ത
𝑛
COEFICIENTE DE CORRELACIÓN LINEAL

Cuantifica la relación existente entre dos variables. Se representa con la letra


r y está comprendido entre -1 y 1.
Para valores próximos a 1 la correlación es positiva, para valores próximos a -1
la correlación es negativa y cuando r es muy próximo a cero no hay
correlación entre las variables. La fórmula empleada para calcularlo es:

𝑆𝑥𝑦
𝑟= .
𝑆𝑥 𝑆𝑦

σ(𝑥𝑖 𝑦𝑖 ) σ(𝑥𝑖 )2 σ(𝑦𝑖 )2


𝐷𝑜𝑛𝑑𝑒: 𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ഥ (𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎); 𝑆𝑥 = − 𝑥ҧ 2 ; 𝑆𝑦 = − 𝑦ത 2
𝑛 𝑛 𝑛
EJEMPLO DE APLICACIÓN

Cálculo de coeficiente de correlación

𝑆𝑥𝑦 37,13 37,13


𝑟= = = = 0,98
𝑆𝑥 𝑆𝑦 10,35 ∗ 3,64 37,674
σ(𝑥𝑖 𝑦𝑖 )
𝑆𝑥𝑦 = − 𝑥ҧ 𝑦ഥ (𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎)
𝑛

σ(𝑥𝑖 )2 σ(𝑦𝑖 )2
𝑆𝑥 = − 𝑥ҧ 2 ; 𝑆𝑦 = − 𝑦ത 2 (𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑝𝑎𝑟𝑎 𝑐𝑎𝑑𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒)
𝑛 𝑛
INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN LINEAL

Teniendo en cuenta los resultados


obtenidos en el ejemplo anterior:
r = 0,98
Significa que r está muy próximo a
1. por lo tanto, las variables
número de días desde la
germinación de la planta (x) y la
altura de la planta (y) están
fuertemente correlacionados de
manera positiva, o sea, al aumentar
los días, la altura de la planta
aumenta.
REGRESIÓN LINEAL

Este método consiste en calcular la ecuación de la recta que linealiza la dispersión de los
puntos, ajustándolos a la mejor recta. Esto permite establecer una ecuación a partir de la
cual se puedan realizar predicciones con respectos a las variables que se estudian.
La ecuación de la recta de regresión se calcula empleando la fórmula punto pendiente:
𝑆𝑥𝑦
𝑦 − 𝑦ത = 𝑚 𝑥 − 𝑥ҧ ; 𝑑𝑜𝑛𝑑𝑒 𝑚 =
(𝑆𝑥 )2
A partir del ejemplo desarrollado anteriormente, tenemos los siguientes datos:

𝑆𝑥𝑦 37,13
𝑥ҧ = 23,25; 𝑦ത = 11; m= = = 0,348
(𝑆𝑥 )2 (10,35)2
Reemplazando:
Ejemplo de aplicación
𝒚 − 𝑦ത = 𝑚 𝒙 − 𝑥ҧ → 𝑦 − 11 = 0,348 𝑥 − 23,25 Determinar la altura (y) de la
𝑦 − 11 = 0,348𝑥 − 8,091 → 𝑦 = 0,348𝑥 − 8,091 + 11 planta transcurridos 100 días (x)
𝒚 = 𝟎, 𝟑𝟒𝟖𝒙 + 𝟐, 𝟗𝟎𝟗 (Ecuación de regresión lineal) y = 0,348(100) – 2,909
y = 31,89 cm

También podría gustarte