Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Definición
El análisis de correlación es una técnica estadística que busca expresar el grado o nivel
de dependencia (relación) existente entre una variable, denominada variable
dependiente, y otra(s) variable(s), denominada(s) variable(s) independiente(s), a través
de un único número. El análisis de correlación es lineal cuando se limita solamente a
dependencias (o relaciones) de naturaleza lineal entre la variable dependiente y la(s)
variable(s) independiente(s); y es simple, cuando se tiene una sola variable
independiente.
• La covarianza
• El coeficiente de correlación lineal
2.1. Definición
Donde,
Siendo la COV(X,Y) una media, esperanza o valor esperado de una función de las
variables aleatorias X y Y, se tiene que:
∞ ∞
1
Análisis de correlación lineal simple Rubén Medinaceli O.
2.2. Teorema
𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝜇𝑋 𝜇𝑌
2.3. Teorema
Luego,
𝐶𝑂𝑉(𝑋, 𝑌) = 0
2.4. Teorema
2.5. Definición
𝐶𝑂𝑉(𝑋, 𝑌)
𝜌𝑋,𝑌 =
𝜎𝑋 𝜎𝑌
Donde,
2
Análisis de correlación lineal simple Rubén Medinaceli O.
2.6. Teorema
Luego,
𝜌𝑋,𝑌 = 0
𝐶𝑂𝑉(𝑋, 𝑌) 0
𝜌𝑋,𝑌 = = =0
𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑌
2.7. Teorema
−1 ≤ 𝜌𝑋,𝑌 ≤ 1
X ●
●
●
X
𝐶𝑂𝑉(𝑋, 𝑋) 𝜎𝑋2
𝜌𝑋,𝑋 = = 2=1
𝜎𝑋 𝜎𝑋 𝜎𝑋
3
Análisis de correlación lineal simple Rubén Medinaceli O.
Y Y
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
X X
𝜌𝑌,𝑋 ≅ 0,8 𝜌𝑌,𝑋 ≅ −0,90
(Alta correlación lineal directa) (Altísima correlación lineal aunque inversa)
Y Y
●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ●
X X
𝜌𝑌,𝑋 ≅ 0 𝜌𝑌,𝑋 ≅ 0
(No existe correlación lineal) (existe correlación aunque no lineal)
3. Supuestos
4
Análisis de correlación lineal simple Rubén Medinaceli O.
fX,Y(x,y)
Donde,
µX = Media de X
µY = Media de Y
σX2 = Varianza de X
σY2 = Varianza de Y
ρ = Coeficiente de correlación lineal de X y Y (ρX,Y) (Parámetro)
4. Estimación de ρX,Y
Recuerde que,
Si X1, X2, X3, … , Xn es una muestra aleatoria de una población que sigue una distribución
normal con media µX y varianza σX2,
Si Y1, Y2, Y3, … , Yn es una muestra aleatoria de una población que sigue una distribución
normal con media µY y varianza σY2,
5
Análisis de correlación lineal simple Rubén Medinaceli O.
𝐶𝑂𝑉(𝑋,𝑌)
Consecuentemente, un buen estimador de 𝜌𝑋,𝑌 = es,
𝜎𝑋 𝜎𝑌
1
𝐶𝑋,𝑌 ∑𝑛 (𝑋 − 𝑋̅ )(𝑌𝑖 − 𝑌̅) ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅ )
𝑅𝑋,𝑌 = = 𝑛 − 1 𝑖=1 𝑖 =
𝑆𝑋 𝑆𝑌
√ 1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 √ 1 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 √∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅ )2
𝑛−1 𝑛−1
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
4.1. Teorema
𝑆𝑥𝑥
𝑅𝑋,𝑌 = 𝐵1 √
𝑆𝑦𝑦
A manera de demostración, recuerde que:
𝑆𝑥𝑦
𝐵1 = ; de donde, 𝑆𝑥𝑦 = 𝐵1 𝑆𝑥𝑥
𝑆𝑥𝑥
6
Análisis de correlación lineal simple Rubén Medinaceli O.
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
Se tiene que,
𝐵1 𝑆𝑥𝑥
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
2
𝐵12 𝑆𝑥𝑥
2 𝐵12 𝑆𝑥𝑥
𝑅𝑋,𝑌 = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
Finalmente,
𝑆𝑥𝑥
𝑅𝑋,𝑌 = 𝐵1 √
𝑆𝑦𝑦
Parámetro: 𝜌𝑋,𝑌
𝑆𝑥𝑦 𝑆𝑥𝑥
Estimador: 𝑅𝑋,𝑌 = = 𝐵1 √
√𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
𝑆𝑥𝑥 𝑆𝑥𝑥
Valor estimado: 𝑟𝑋,𝑌 = = 𝑏1 √
√𝑆𝑥𝑥 𝑆𝑌𝑌 𝑆𝑦𝑦
5. Definición
5.1. Teorema
Luego,
2
𝑆𝑆𝑅
𝑅𝑋,𝑌 =
𝑆𝑆𝑇
7
Análisis de correlación lineal simple Rubén Medinaceli O.
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
Por tanto,
2
𝑆𝑥𝑦 𝑆𝑥𝑦 𝐵1 𝑆𝑥𝑦 𝑆𝑆𝑅
𝑅𝑋,𝑌 = = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦 𝑆𝑆𝑇
Así, si rX,Y = 0,6, significa que el grado o nivel de dependencia o de relación lineal
existente entre Y y X es igual a 0,6; y, r2X,Y = 0,36 significa que el 36% de la variación total
de los valores de Y está explicada por su relación lineal con X.
En suma,
2
Parámetro: 𝜌𝑋,𝑌
2
𝑆𝑥𝑦
2 𝑆𝑥𝑥 𝑆𝑆𝑅
Estimador: 𝑅𝑋,𝑌 = = 𝐵12 =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦 𝑆𝑆𝑇
2
Valor estimado: 𝑟𝑋,𝑌
H0: ρX,Y = 0
H1: ρX,Y ≠ 0
𝐵1 𝑅𝑋,𝑌 √𝑛 − 2
𝑇= = ~𝑡𝑛−2
𝑆 2
√1 − 𝑅𝑋,𝑌
√𝑆𝑥𝑥
8
Análisis de correlación lineal simple Rubén Medinaceli O.
Criterio de rechazo de H0
-t0 0 t0 𝑻~ 𝒕𝒏−𝟐
4.
𝑏1 𝑟𝑋,𝑌 √𝑛 − 2
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = =
𝑆 2
√1 − 𝑟𝑋,𝑌
√𝑆𝑥𝑥
H0: ρX,Y = ρ0
H1: ρX,Y ≠ ρ0
3.
Estadístico de prueba
6.2.1. Teorema
Sea (X,Y) una variable aleatoria bi-dimensional continua que sigue una distribución
normal bivariada.
Luego,
1 1 + 𝑅𝑋,𝑌 1 1 + 𝜌𝑋,𝑌 1
𝑃 = 𝐿𝑛 ( ) ~𝑁 [ 𝐿𝑛 ( ); ]
2 1 − 𝑅𝑋,𝑌 2 1 − 𝜌𝑋,𝑌 𝑛 − 3
9
Análisis de correlación lineal simple Rubén Medinaceli O.
1 1+𝑅𝑋,𝑌
En palabras, la variable aleatoria 𝑃 = 𝐿𝑛 ( ) sigue una distribución normal con
2 1−𝑅𝑋,𝑌
1 1+𝜌𝑋,𝑌 1
media 𝐿𝑛 ( ) y varianza .
2 1−𝜌𝑋,𝑌 𝑛−3
1 1 + 𝑅𝑋,𝑌 1 1 + 𝜌𝑋,𝑌
𝐿𝑛 ( ) − 𝐿𝑛 ( )
2 1 − 𝑅𝑋,𝑌 2 1 − 𝜌𝑋,𝑌
𝑍= ~ 𝑁(0,1)
1
√𝑛 − 3
Con unas operaciones simples, se llega a la siguiente forma del estadístico de prueba,
Criterio de rechazo de H0
fZ(z)
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
4.
√𝑛 − 3 (1 + 𝑟𝑋,𝑌 )(1 − 𝜌0 )
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]
2 (1 − 𝑟𝑋,𝑌 )(1 + 𝜌0 )
fZ(z)
10
Análisis de correlación lineal simple Rubén Medinaceli O.
1-α
α/2 Nivel de α/2
Confiabilidad
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 ) = 1 − 𝛼
√𝑛 − 3 1 + 𝑅𝑋,𝑌 1 + 𝜌𝑋,𝑌
𝑃 [−𝑧0 ≤ {𝐿𝑛 ( ) − 𝐿𝑛 ( )} ≤ 𝑧0 ] = 1 − 𝛼
2 1 − 𝑅𝑋,𝑌 1 − 𝜌𝑋,𝑌
A B
1 1 + 𝐿𝐼 1 1 + 𝜌𝑋,𝑌 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼
2 1 − 𝐿𝐼 2 1 − 𝜌𝑋,𝑌 2 1 − 𝐿𝑆
(Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad para ρY,X)
1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼
1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆
11
Análisis de correlación lineal simple Rubén Medinaceli O.
7. Ejercicio
Problema:
i X Y
1 1,0 8,1
2 1,1 7,8
3 1,2 8,5
4 1,3 9,8
5 1,4 9,5
6 1,5 8,9
7 1,6 8,6
8 1,7 10,2
9 1,8 9,3
10 1,9 9,2
11 2,0 10,5
i. Estimar ρX,Y
ii. Estimar e interpretar ρ2X,Y
iii. Con α = 0,05 averiguar si ρX,Y = 0
iv. Con α = 0,05 averiguar si ρX,Y < 0,8
v. Obtener un intervalo de confiabilidad del 90% para ρX,Y
Solución:
𝑆 = 0,632
i)
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
12
Análisis de correlación lineal simple Rubén Medinaceli O.
1,99
𝑟𝑋,𝑌 = = 0,707
√1,1 (7,202)
ii)
2
𝑆𝑆𝑅
𝑅𝑋,𝑌 =
𝑆𝑆𝑇
Donde,
2
3,6
𝑟𝑋,𝑌 = = 0,5
7,202
iii)
1. H0: ρX,Y = 0
H1: ρX,Y ≠ 0
2. α = 0,05
3.
Estadístico de prueba
𝐵1 √𝑆𝑥𝑥 𝑅𝑋,𝑌 √𝑛 − 2
𝑇= = ~𝑡𝑛−2
𝑆 2
√1 − 𝑅𝑋,𝑌
Criterio de rechazo de H0
13
Análisis de correlación lineal simple Rubén Medinaceli O.
4.
1,809√1,1 0,707√9
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = = 3,0
0,632 √1 − 0,7072
5.
Para α = 0,05
Rechazar H0 → Aceptar H1
→ ρX,Y ≠ 0
iv)
2. α = 0,05
3.
Estadístico de prueba
Criterio de rechazo de H0
fZ(z)
14
Análisis de correlación lineal simple Rubén Medinaceli O.
-z0=-1,645 𝒁~𝑵(𝟎, 𝟏)
4.
5. Para α=0,05
Aceptar H0 → ρX,Y = 0,8
v)
A B
fZ(z)
1-α
α/2 Nivel de α / 2 = 0,05
Confiabilidad
0,90
1 1 + 0,707 1,645
𝐴 = 𝐿𝑛 ( )− = 0,3
2 1 − 0,707 √8
1 1 + 0,707 1,645
𝐵 = 𝐿𝑛 ( )+ = 1,462
2 1 − 0,707 √8
Luego,
1 1 + 𝐿𝐼
𝐿𝑛 ( ) = 𝐴 = 0,3
2 1 − 𝐿𝐼
15
Análisis de correlación lineal simple Rubén Medinaceli O.
𝐿𝐼 = 0,29
1 1 + 𝐿𝑆
𝐿𝑛 ( ) = 𝐵 = 1,462
2 1 − 𝐿𝑆
De donde,
𝐿𝑆 = 0,89
Por tanto,
En palabras, el valor del coeficiente de correlación lineal simple (ρX,Y) es algún valor entre
0,29 y 0,89; y la probabilidad que esto ocurra es igual a 0,90.
Práctica
Dada la siguiente muestra:
I X Y i X Y i X Y
1 700 160 11 1000 250 21 1400 560
2 700 200 12 1100 180 22 1400 600
3 800 140 13 1100 220 23 1500 940
4 800 160 14 1200 325 24 1500 820
5 800 200 15 1200 360 25 1500 850
6 900 155 16 1300 310 26 1600 1200
7 900 220 17 1300 350 27 1600 1040
8 1000 160 18 1400 470 28 1600 1150
9 1000 180 19 1400 400 29 1600 1060
10 1000 220 20 1400 540 30 1600 1100
Donde:
16