Está en la página 1de 14

INTRODUCCIÓN

• El análisis de correlación es un método estadístico que permite


estudiar la relación lineal entre 2 variables.
• El coeficiente de correlación es una medida que permite cuantificar la
relación lineal entre 2 variables.
DIAGRAMA DE DISPERSIÓN
El diagrama de dispersión es una herramienta que permite identificar gráficamente la relación
entre 2 variables.
Gráfica de dispersión de Y vs. X

X Y 20.0

1.3 10
17.5
2.0 6
1.7 5 15.0

1.5 12
12.5
1.6 10

Y
1.2 15 10.0
1.6 5
1.4 12 7.5

1.0 17
5.0
1.1 20
1.0 1.2 1.4 1.6 1.8 2.0
X
COVARIANZA
La covarianza mide la relación lineal entre 2 variables. La covarianza es una medida que indica el grado de variación
conjunta de 2 variables aleatorias; por lo que, esta medida permite analizar la dependencia entre dichas variables.
Para un conjunto de datos (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), …, (𝑥𝑛 , 𝑦𝑛 ), la covarianza se calcula de la siguiente manera:

σ𝒏𝒊=𝟏(𝒙𝒊 − 𝒙 ഥ) σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖
ഥ)(𝒚𝒊 − 𝒚 σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത
𝑪𝒐𝒗 𝑿, 𝒀 = = − 𝑥ҧ 𝑦ത =
𝒏 𝑛 𝑛

Observe que la magnitud del producto, tiene una mayor influencia en la sumatoria.
• Si la covarianza es positiva, significa que existe una relación directa entre las variables. Si una variable se
incrementa, la otra variable también lo hace.
• Si la covarianza es negativa, significa que existe una relación inversa entre las variables. Si una variable se
incrementa, la otra variable disminuye.
• Si la covarianza es cero, significa que no existe una relación lineal entre las variables.
EJEMPLO
A continuación se muestra el nivel de ventas (Y, en ciento de dólares) y el precio (X, en dólares) que tiene una
empresa en 10 semanas tomadas al azar:

X Y
1.3 10
2.0 6
1.7 5
1.5 12
1.6 10
1.2 15
1.6 5
1.4 12
1.0 17
1.1 20

Calcule la covarianza.
SOLUCIÓN
X Y XY
1.3 10 13 Gráfica de dispersión de Y vs. X
2 6 12
20.0
1.7 5 8.5
1.5 12 18
17.5
1.6 10 16
1.2 15 18
15.0
1.6 5 8
1.4 12 16.8
12.5

Y
1 17 17
1.1 20 22
10.0
Suma 14.4 112 149.3
Promedio 1.44 11.2 7.5

σ𝒏𝒊=𝟏 𝒙𝒊 𝒚𝒊 5.0

𝑪𝒐𝒗 𝑿, 𝒀 = ഥ𝒚
−𝒙 ഥ= 1.0 1.2 1.4 1.6 1.8 2.0
𝒏 X
149.3
= − 1.44 11.2
10 En el diagrama se observa una preponderancia de productos
= −1.198 negativos.
ANÁLISIS DE CORRELACIÓN

Existen diferentes medidas que permiten cuantificar la relación lineal


entre 2 variables. Entre otras medidas, tenemos los siguientes
coeficientes: Pearson, Spearman y Kendall.
COEFICIENTE DE PEARSON (r)

Este coeficiente funciona bien cuando las variables siguen una distribución normal,
aunque algunos autores mencionan que cuando las variables se alejan
moderadamente de la normal también proporciona buenos resultados. Es sensible
a valores extremos.
Para un conjunto de datos (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), …, (𝑥𝑛 , 𝑦𝑛 ), el coeficiente de correlación
de Pearson es el siguiente:

𝐶𝑜𝑣 𝑋, 𝑌 σ𝐧𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത


𝑟= = ; −1 ≤ 𝑟 ≤ 1
𝑉 𝑋 𝑉(𝑌)
(σ𝐧𝑖=1 𝑥𝑖2 − 𝑛𝑥ҧ 2 )(σ𝐧𝑖=1 𝑦𝑖2 − 𝑛𝑦ത 2 )
El coeficiente de correlación poblacional se representa con la letra griega 𝜌.
CASOS

• Si r = -1 → La relación lineal es negativa perfecta


• Si -1 < r ≤ -0.8 → La relación lineal es negativa fuerte
• Si -0.8 < r ≤ -0.5 → La relación lineal es negativa moderada
• Si -0.5 < r < 0 → La relación lineal es negativa débil
• Si r=0 → No existe relación lineal
• Si 0 < r < 0.5 → La relación lineal es positiva débil
• Si 0.5 ≤ r < 0.8 → La relación lineal es positiva moderada
• Si 0.8 ≤ r < 1 → La relación lineal es positiva fuerte
• Si r = 1 → La relación lineal es positiva perfecta
EJEMPLO
Calcule el coeficiente de correlación con los datos del ejemplo anterior.

X Y XY X2 Y2
1.3 10 13 1.69 100
2 6 12 4 36
1.7 5 8.5 2.89 25
1.5 12 18 2.25 144
1.6 10 16 2.56 100
1.2 15 18 1.44 225
1.6 5 8 2.56 25
1.4 12 16.8 1.96 144
1 17 17 1 289
1.1 20 22 1.21 400
Suma 14.4 112 149.3 21.56 1488
Promedio 1.44 11.2

149.3 − 10(1.44)(11.2)
𝑟= = −0.8635
(21.56 − 10(1.44)2 )(1488 − 10(11.2)2 )

Por lo tanto, la relación lineal entre las variables aleatorias X e Y es negativa fuerte.
ANÁLISIS INFERENCIAL PARA EL COEFICIENTE DE CORRELACIÓN
PRUEBA DE SIGNIFICANCIA
Como r se calcula con los datos de una muestra, es lógico pensar que el valor de r varíe de una
muestra a otra. Esto conlleva a pensar sobre la significancia de r.
Las hipótesis son:
𝐻𝑜: 𝜌 = 0 (𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)
𝐻1: 𝜌 ≠ 0(𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)
Estadístico de prueba
𝑟 𝑟
𝑡= = ~𝑡𝑛−2
𝑠𝑟 1 − 𝑟2
𝑛−2
Conclusión con el p-valor:
Si p − valor ≤ 𝛼, se rechaza 𝐻𝑜.
EJEMPLO
Pruebe la significancia del coeficiente de correlación con los datos del ejemplo anterior.

𝐻𝑜: 𝜌 = 0 (𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)


𝐻1: 𝜌 ≠ 0(𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)

Gráfica de distribución
T; df=8
0.4

𝑟 −0.8635
𝑡= = = −4.8426 0.3

1− 𝑟2 1− (−0.8635)2

Densidad
𝑛−2 10 − 2 0.2

0.1

0.025 0.025
0.0
-2.306 0 2.306
X

Como t=-4.8426, se encuentra en la región de rechazo, se rechaza 𝐻𝑜. Con un nivel de significancia del 5%, e.e.e. para pensar
que 𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜.
CON EL PROGRAMA MINITAB

𝐻𝑜: 𝜌 = 0 (𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)


𝐻1: 𝜌 ≠ 0(𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜)

Como Valor-p=0.001 < 𝛼 = 0.05, se rechaza 𝐻𝑜 . Con un nivel de significancia del 5%, e.e.e. para pensar que
𝑒𝑙 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑜.

También podría gustarte