Análisis correlación simple

Análisis de correlación lineal simple Rubén Medinaceli O.
ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE
1. Definición
El análisis de correlación es una técnica estadística que busca expresar el grado o nivel
de dependencia (relación) existente entre una variable, denominada variable
dependiente, y otra(s) variable(s), denominada(s) variable(s) independiente(s), a través
de un único número. El análisis de correlación es lineal cuando se limita solamente a
dependencias (o relaciones) de naturaleza lineal entre la variable dependiente y la(s)
variable(s) independiente(s); y es simple, cuando se tiene una sola variable
independiente.
2. Medidas de correlación lineal
Entre las medidas de correlación lineal se puede mencionar a las siguientes:
• La covarianza
• El coeficiente de correlación lineal
2.1. Definición
Si X y Y son variables aleatorias, la covarianza de X y Y, denotada por COV(X, Y), se

define como:
𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]
Donde,
µX = Media, esperanza o valor esperado de la variable aleatoria X

µY = Media, esperanza o valor esperado de la variable aleatoria Y
Siendo la COV(X,Y) una media, esperanza o valor esperado de una función de las
variables aleatorias X y Y, se tiene que:
𝐶𝑂𝑉(𝑋, 𝑌) = ∑ ∑(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 )𝑓𝑋,𝑌 (𝑥𝑖 , 𝑦𝑖 ) ; 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑦 𝑌 𝑠𝑜𝑛 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠

𝑥𝑖 𝑦𝑖
∞ ∞
𝐶𝑂𝑉(𝑋, 𝑌) = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑓𝑋,𝑌 (𝑥, 𝑦)𝑑𝑥𝑑𝑦 ; 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑦 𝑌 𝑠𝑜𝑛 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎𝑠

−∞ −∞
De esta manera la COV(X,Y) tiende a medir el grado o el nivel de dependencia o relación

lineal existente entre X y Y; sin embargo, su magnitud no tiene mucho sentido ya que
depende de la variabilidad de X y de Y. La covarianza puede ser positiva o negativa.
1
2.2. Teorema
𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝜇𝑋 𝜇𝑌
Es una expresión útil para calcular la COV(X,Y)
2.3. Teorema
Sean X y Y variables aleatorias conjuntamente discretas o conjuntamente continuas pero

independientes; vale decir, variables aleatorias sin ninguna dependencia o relación.
Luego,
𝐶𝑂𝑉(𝑋, 𝑌) = 0
A manera de demostración, se tiene que si X y Y son independientes, 𝑓𝑋,𝑌 (𝑥, 𝑦) =

𝑓𝑋 (𝑥)𝑓𝑌 (𝑦); y, E[XY] = E[X]E[Y]
Por tanto, de acuerdo al teorema anterior,
𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝜇𝑋 𝜇𝑌 = 𝐸[𝑋]𝐸[𝑌] − 𝜇𝑋 𝜇𝑌 = 𝜇𝑋 𝜇𝑌 − 𝜇𝑋 𝜇𝑌 = 0
2.4. Teorema
𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑋 − 𝜇𝑋 )] = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝑉𝑎𝑟[𝑋] = 𝜎𝑋2
En palabras, la covarianza de una variable aleatoria X consigo misma, es igual a su

varianza.
2.5. Definición
Si X y Y son variables aleatorias, el coeficiente de correlación lineal simple de Y y X,

denotado por ρY,X, se define como:
𝐶𝑂𝑉(𝑋, 𝑌)
𝜌𝑋,𝑌 =
𝜎𝑋 𝜎𝑌
Donde,
σX = Desviación estándar de la variable aleatoria X

σY = Desviación estándar de la variable aleatoria Y
El coeficiente de correlación lineal simple de Y y X (ρX,Y) remueve, en algún sentido, la

variabilidad individual de cada una de las variables aleatorias X y Y al dividir la COV(X,Y)
por el producto de sus desviaciones estándar σ X y σY respectivamente. Así, resulta que el
coeficiente de correlación lineal simple es una mejor medida del nivel o grado de
dependencia (o relación) lineal de X y Y, que su covarianza.
2
2.6. Teorema
Sean X y Y variables aleatorias conjuntamente discretas o conjuntamente continuas pero

independientes; vale decir, variables aleatorias sin ninguna dependencia o relación.
Luego,
𝜌𝑋,𝑌 = 0
A manera de demostración se tiene que,
𝐶𝑂𝑉(𝑋, 𝑌) 0
𝜌𝑋,𝑌 = = =0
𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑌
2.7. Teorema
El coeficiente de correlación lineal simple de Y y X (ρ X,Y) es adimensional y satisface la

siguiente expresión:
−1 ≤ 𝜌𝑋,𝑌 ≤ 1
En palabras, el coeficiente de correlación lineal toma valores solamente en el intervalo

(-1, 1). El coeficiente de correlación lineal simple de Y y X es igual a |1| para la una
correlación lineal perfecta, e igual a cero (0) cuando no existe correlación lineal.
La variable aleatoria mejor correlacionada linealmente (correlación lineal perfecta) con X

es la misma variable aleatoria X; esto es,
X ●
● Correlación lineal perfecta
●
●
X
Efectivamente, el coeficiente de correlación lineal simple para una correlación lineal

perfecta es igual a:
𝐶𝑂𝑉(𝑋, 𝑋) 𝜎𝑋2
𝜌𝑋,𝑋 = = 2=1
𝜎𝑋 𝜎𝑋 𝜎𝑋
3
A partir de esta constatación, es posible estimar visualmente el coeficiente de correlación

lineal simple,
Y Y
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
● ●
X X
𝜌𝑌,𝑋 ≅ 0,8 𝜌𝑌,𝑋 ≅ −0,90
(Alta correlación lineal directa) (Altísima correlación lineal aunque inversa)
Y Y
●
● ● ●
● ● ● ● ● ●
● ● ● ● ●
● ● ●
● ● ●
● ●
X X
𝜌𝑌,𝑋 ≅ 0 𝜌𝑌,𝑋 ≅ 0
(No existe correlación lineal) (existe correlación aunque no lineal)
3. Supuestos
En el marco de la inferencia estadística, el análisis de correlación lineal simple asume

que,
• La variable dependiente Y es una variable aleatoria

• La variable independiente X es una variable aleatoria
• La variable aleatoria bi-dimensional (X,Y) sigue una distribución normal bi-variada.
La función de densidad de probabilidad conjunta de una variable aleatoria bi-dimensional

que sigue una distribución normal bi-variada es:
4
1 𝑥−𝜇𝑋 2 𝑥−𝜇𝑋 𝑦−𝜇𝑌 𝑌−𝜇𝑌 2

1 {−
2(1−𝜌 2 )
[(
𝜎𝑋
) −2𝜌(
𝜎𝑋
)(
𝜎𝑌
)+(
𝜎𝑌
) ]}
𝑓𝑋,𝑌 (𝑥, 𝑦) = 𝑒 ; −∞ ≤ 𝑥 ≤ ∞; −∞ ≤ 𝑦 ≤ ∞
2𝜋𝜎𝑋 𝜎𝑌 √1 − 𝜌2
fX,Y(x,y)
Donde,
µX = Media de X
µY = Media de Y
σX2 = Varianza de X
σY2 = Varianza de Y
ρ = Coeficiente de correlación lineal de X y Y (ρX,Y) (Parámetro)
4. Estimación de ρX,Y
Recuerde que,
Si X1, X2, X3, … , Xn es una muestra aleatoria de una población que sigue una distribución
normal con media µX y varianza σX2,
Un buen estimador de 𝜇𝑋 es,

𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑖=1
Y, un buen estimador de 𝜎𝑋2 es,

𝑛
1
𝑆𝑋2 = ∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
𝑖=1
De igual manera si,
Si Y1, Y2, Y3, … , Yn es una muestra aleatoria de una población que sigue una distribución
normal con media µY y varianza σY2,
5
Un buen estimador de 𝜇𝑌 es,

𝑛
1
𝑌̅ = ∑ 𝑌𝑖
𝑛
𝑖=1
Y, un buen estimador de 𝜎𝑌2 es,

𝑛
1
𝑆𝑌2 = ∑(𝑌𝑖 − 𝑌̅)2
𝑛−1
𝑖=1
En la misma línea, un buen estimador de la COV(X, Y) es,

𝑛
1
𝐶𝑋,𝑌 = ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅ )
𝑛−1
𝑖=1
𝐶𝑂𝑉(𝑋,𝑌)
Consecuentemente, un buen estimador de 𝜌𝑋,𝑌 = es,
𝜎𝑋 𝜎𝑌
1
𝐶𝑋,𝑌 ∑𝑛 (𝑋 − 𝑋̅ )(𝑌𝑖 − 𝑌̅) ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅ )
𝑅𝑋,𝑌 = = 𝑛 − 1 𝑖=1 𝑖 =
𝑆𝑋 𝑆𝑌
√ 1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 √ 1 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 √∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅ )2 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅ )2
𝑛−1 𝑛−1
Utilizando la notación acordada en el tema anterior se tiene que,
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
√𝑆𝑥𝑥 𝑆𝑦𝑦
4.1. Teorema
Sea RX,Y un estimador del coeficiente de correlación lineal simple ρX,Y

Sea B1 el estimador del parámetro β1 del modelo de regresión lineal simple µY/X=β0+β1X
Luego,
𝑆𝑥𝑥
𝑅𝑋,𝑌 = 𝐵1 √
𝑆𝑦𝑦
A manera de demostración, recuerde que:
𝑆𝑥𝑦
𝐵1 = ; de donde, 𝑆𝑥𝑦 = 𝐵1 𝑆𝑥𝑥
𝑆𝑥𝑥
Por otro lado, siendo,
6
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
Se tiene que,
𝐵1 𝑆𝑥𝑥
𝑅𝑋,𝑌 =
2
𝐵12 𝑆𝑥𝑥
2 𝐵12 𝑆𝑥𝑥
𝑅𝑋,𝑌 = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
Finalmente,
𝑆𝑥𝑥
𝑅𝑋,𝑌 = 𝐵1 √
𝑆𝑦𝑦
Resumiendo los resultados obtenidos se tiene que,
Parámetro: 𝜌𝑋,𝑌
𝑆𝑥𝑦 𝑆𝑥𝑥
Estimador: 𝑅𝑋,𝑌 = = 𝐵1 √
√𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦
𝑆𝑥𝑥 𝑆𝑥𝑥
Valor estimado: 𝑟𝑋,𝑌 = = 𝑏1 √
√𝑆𝑥𝑥 𝑆𝑌𝑌 𝑆𝑦𝑦
5. Definición
El cuadrado del coeficiente de correlación lineal simple, ρ2X,Y , recibe el nombre de

coeficiente de determinación lineal de X y Y.
5.1. Teorema
Sea ρ2X,Y el coeficiente de determinación lineal de X y Y.

Sea R2X,Y su estimador.
Luego,
2
𝑆𝑆𝑅
𝑅𝑋,𝑌 =
𝑆𝑆𝑇
Tal como se vió en el tema anterior,
SSR = Suma de cuadrados explicada por la ecuación de regresión

SST = Suma de cuadrados total
7
La demostración es muy directa. Recuerde que,
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
Por tanto,
2
𝑆𝑥𝑦 𝑆𝑥𝑦 𝐵1 𝑆𝑥𝑦 𝑆𝑆𝑅
𝑅𝑋,𝑌 = = =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦 𝑆𝑆𝑇
Nótese que el coeficiente de determinación lineal de X y Y expresa cuanto de la variación

total de la variable dependiente Y (SST) es explicada por la relación lineal existente entre
Y y X (SSR).
Así, si rX,Y = 0,6, significa que el grado o nivel de dependencia o de relación lineal
existente entre Y y X es igual a 0,6; y, r2X,Y = 0,36 significa que el 36% de la variación total
de los valores de Y está explicada por su relación lineal con X.
En suma,
2
Parámetro: 𝜌𝑋,𝑌
2
𝑆𝑥𝑦
2 𝑆𝑥𝑥 𝑆𝑆𝑅
Estimador: 𝑅𝑋,𝑌 = = 𝐵12 =
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝑦𝑦 𝑆𝑆𝑇
2
Valor estimado: 𝑟𝑋,𝑌
6. Inferencia estadística relacionada con ρX,Y
6.1. Prueba de hipótesis
1. H0: No existe correlación lineal entre Y y X

H1: Existe correlación lineal entre Y y X
H0: ρX,Y = 0
H1: ρX,Y ≠ 0
2. Definir un valor para α (probabilidad de cometer el error tipo I

3.
Estadístico de prueba
𝐵1 𝑅𝑋,𝑌 √𝑛 − 2
𝑇= = ~𝑡𝑛−2
𝑆 2
√1 − 𝑅𝑋,𝑌
√𝑆𝑥𝑥
8
Criterio de rechazo de H0
α/2 α/2 Rechazar H0 si, |Tcalculado| > t0
-t0 0 t0 𝑻~ 𝒕𝒏−𝟐
4.
𝑏1 𝑟𝑋,𝑌 √𝑛 − 2
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = =
𝑆 2
√1 − 𝑟𝑋,𝑌
√𝑆𝑥𝑥
5. Tomar la decisión que corresponda
6.2. Prueba de hipótesis
1. H0: No existe correlación lineal entre Y y X

H1: Existe correlación lineal entre Y y X
H0: ρX,Y = ρ0
H1: ρX,Y ≠ ρ0
(ρ0 es un valor específico para ρX,Y; por ejemplo, ρX,Y = 0,5)
2. Definir un valor para α (probabilidad de cometer el error tipo I)
3.
6.2.1. Teorema
Sea (X,Y) una variable aleatoria bi-dimensional continua que sigue una distribución
normal bivariada.
Luego,
1 1 + 𝑅𝑋,𝑌 1 1 + 𝜌𝑋,𝑌 1
𝑃 = 𝐿𝑛 ( ) ~𝑁 [ 𝐿𝑛 ( ); ]
2 1 − 𝑅𝑋,𝑌 2 1 − 𝜌𝑋,𝑌 𝑛 − 3
9
1 1+𝑅𝑋,𝑌
En palabras, la variable aleatoria 𝑃 = 𝐿𝑛 ( ) sigue una distribución normal con
2 1−𝑅𝑋,𝑌
1 1+𝜌𝑋,𝑌 1
media 𝐿𝑛 ( ) y varianza .
2 1−𝜌𝑋,𝑌 𝑛−3
Estandarizando la variable aleatoria P, se tiene,
1 1 + 𝑅𝑋,𝑌 1 1 + 𝜌𝑋,𝑌
𝐿𝑛 ( ) − 𝐿𝑛 ( )
2 1 − 𝑅𝑋,𝑌 2 1 − 𝜌𝑋,𝑌
𝑍= ~ 𝑁(0,1)
1
√𝑛 − 3
Con unas operaciones simples, se llega a la siguiente forma del estadístico de prueba,
√𝑛 − 3 (1 + 𝑅𝑋,𝑌 )(1 − 𝜌𝑋,𝑌 )

𝑍= 𝐿𝑛 [ ] ~ 𝑁(0,1)
2 (1 − 𝑅𝑋,𝑌 )(1 − 𝜌𝑋,𝑌 )
fZ(z)
α/2 α/2 Rechazar H0, si |Zcalculado| > z0
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
4.
√𝑛 − 3 (1 + 𝑟𝑋,𝑌 )(1 − 𝜌0 )
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]
2 (1 − 𝑟𝑋,𝑌 )(1 + 𝜌0 )
5. Tomar la decisión que corresponda
6.3. Intervalo de confiabilidad para ρX,Y
El estadístico a utilizarse para este propósito es el obtenido en el anterior punto.
fZ(z)
10
1-α
α/2 Nivel de α/2
Confiabilidad
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
En el gráfico se puede ver que,
𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 ) = 1 − 𝛼
Reemplazando el estadístico, se tiene,
√𝑛 − 3 1 + 𝑅𝑋,𝑌 1 + 𝜌𝑋,𝑌
𝑃 [−𝑧0 ≤ {𝐿𝑛 ( ) − 𝐿𝑛 ( )} ≤ 𝑧0 ] = 1 − 𝛼
2 1 − 𝑅𝑋,𝑌 1 − 𝜌𝑋,𝑌
Siguiendo algunos pasos sencillos, se llega a,
Con algunos pasos sencillos, se llega a,
1 1 + 𝑟𝑋,𝑌 𝑧0 1 1 + 𝜌𝑋,𝑌 1 1 + 𝑟𝑋,𝑌 𝑧0

𝑃 [ 𝐿𝑛 ( )− ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )+ ]= 1−𝛼
2 1 − 𝑟𝑋,𝑌 √𝑛 − 3 2 1 − 𝜌𝑋,𝑌 2 1 − 𝑟𝑋,𝑌 √𝑛 − 3
A B
Por otro lado si,
1 1 + 𝐿𝐼 1 1 + 𝜌𝑋,𝑌 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼
2 1 − 𝐿𝐼 2 1 − 𝜌𝑋,𝑌 2 1 − 𝐿𝑆
(Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad para ρY,X)
Algebraicamente, se puede afirmar que,
𝑃[𝐿𝐼 ≤ 𝜌𝑋,𝑌 ≤ 𝐿𝑆] = 1 − 𝛼
Consecuentemente, es posible establecer las siguientes igualdades,
1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼
1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆
11
Resolviendo estas ecuaciones para LI y LS, finalmente se logra el siguiente intervalo de

confiabilidad para ρX,Y.
𝑃[𝐿𝐼 ≤ 𝜌𝑋,𝑌 ≤ 𝐿𝑆] = 1 − 𝛼
7. Ejercicio
Problema:
Dada la siguiente muestra:
i X Y
1 1,0 8,1
2 1,1 7,8
3 1,2 8,5
4 1,3 9,8
5 1,4 9,5
6 1,5 8,9
7 1,6 8,6
8 1,7 10,2
9 1,8 9,3
10 1,9 9,2
11 2,0 10,5
i. Estimar ρX,Y
ii. Estimar e interpretar ρ2X,Y
iii. Con α = 0,05 averiguar si ρX,Y = 0
iv. Con α = 0,05 averiguar si ρX,Y < 0,8
v. Obtener un intervalo de confiabilidad del 90% para ρX,Y
Solución:
Esta muestra ya fue utilizada en el tema anterior y recuerde que,

𝑛 𝑛 𝑛 𝑛 𝑛
∑ 𝑋𝑖 = 16,5; ∑ 𝑌𝑖 = 100,4; ∑ 𝑋𝑖2 = 25,85; ∑ 𝑌𝑖2 = 923,58; ∑ 𝑋𝑖 𝑌𝑖 = 152,59

𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑆𝑥𝑥 = 1,10; 𝑆𝑦𝑦 = 7,202; 𝑆𝑥𝑦 = 1,99
𝑋̅ = 1,50; 𝑌̅ = 9,127; 𝑏0 = 6,414; 𝑏1 = 1,809 𝑛 = 11
𝑆 = 0,632
i)
Un estimador de ρX,Y es,
𝑆𝑥𝑦
𝑅𝑋,𝑌 =
12
El valor estimado de ρX,Y es,
1,99
𝑟𝑋,𝑌 = = 0,707
√1,1 (7,202)
ii)
Uno de los estimadores de ρ2X,Y es,
2
𝑆𝑆𝑅
𝑅𝑋,𝑌 =
𝑆𝑆𝑇
Donde,
𝑆𝑆𝑅 = 𝑏1 𝑆𝑥𝑦 = 1,809(1,99) = 3,6

𝑆𝑆𝑇 = 𝑆𝑦𝑦 = 7,202
Por tanto, el valor estimado de ρ2X,Y es igual a,
2
3,6
𝑟𝑋,𝑌 = = 0,5
7,202
Significa que el 50% de la variación total de la variable dependiente Y se debe a la

linealidad de Y y X.
iii)
1. H0: ρX,Y = 0
H1: ρX,Y ≠ 0
2. α = 0,05
3.
𝐵1 √𝑆𝑥𝑥 𝑅𝑋,𝑌 √𝑛 − 2
𝑇= = ~𝑡𝑛−2
𝑆 2
√1 − 𝑅𝑋,𝑌
13
α/2 α / 2 = 0,025 Rechazar H0 si, |Tcalculado| > 2,262
-t0 0 t0 = 2,262 𝑻~ 𝒕𝒏−𝟐 ~𝒕𝟗
4.
1,809√1,1 0,707√9
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = = 3,0
0,632 √1 − 0,7072
5.
Para α = 0,05
Rechazar H0 → Aceptar H1
→ ρX,Y ≠ 0
iv)
1. H0: ρX,Y = 0,8

H1: ρX,Y < 0,8
2. α = 0,05
3.
√𝑛 − 3 (1 + 𝑅𝑋,𝑌 )(1 − 𝜌𝑋,𝑌 )

𝑍= 𝐿𝑛 [ ] ~ 𝑁(0,1)
2 (1 − 𝑅𝑋,𝑌 )(1 − 𝜌𝑋,𝑌 )
fZ(z)
14
α = 0,05 Rechazar H0, si Zcalculado < -1,645
-z0=-1,645 𝒁~𝑵(𝟎, 𝟏)
4.
√𝑛 − 3 (1 + 𝑟𝑋,𝑌 )(1 − 𝜌0 ) √8 (1 + 0,707) (1 − 0,8)

𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]= 𝐿𝑛 [ ] = −0,615
2 (1 − 𝑟𝑋,𝑌 )(1 + 𝜌0 ) 2 (1 − 0,707) (1 + 0,8)
5. Para α=0,05
Aceptar H0 → ρX,Y = 0,8
v)
1 1 + 𝑟𝑋,𝑌 𝑧0 1 1 + 𝜌𝑋,𝑌 1 1 + 𝑟𝑋,𝑌 𝑧0

𝑃 [ 𝐿𝑛 ( )− ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )+ ]= 1−𝛼
2 1 − 𝑟𝑋,𝑌 √𝑛 − 3 2 1 − 𝜌𝑋,𝑌 2 1 − 𝑟𝑋,𝑌 √𝑛 − 3
A B
fZ(z)
1-α
α/2 Nivel de α / 2 = 0,05
Confiabilidad
0,90
-z0 0 z0=1,645 𝒁~𝑵(𝟎, 𝟏)
1 1 + 0,707 1,645
𝐴 = 𝐿𝑛 ( )− = 0,3
2 1 − 0,707 √8
1 1 + 0,707 1,645
𝐵 = 𝐿𝑛 ( )+ = 1,462
2 1 − 0,707 √8
Luego,
1 1 + 𝐿𝐼
𝐿𝑛 ( ) = 𝐴 = 0,3
2 1 − 𝐿𝐼
Resolviendo esta ecuación, se tiene que,
15
𝐿𝐼 = 0,29
1 1 + 𝐿𝑆
𝐿𝑛 ( ) = 𝐵 = 1,462
2 1 − 𝐿𝑆
De donde,
𝐿𝑆 = 0,89
Por tanto,
𝑃[0,29 ≤ 𝜌𝑋,𝑌 ≤ 0,89] = 0,90
En palabras, el valor del coeficiente de correlación lineal simple (ρX,Y) es algún valor entre
0,29 y 0,89; y la probabilidad que esto ocurra es igual a 0,90.
Práctica
Dada la siguiente muestra:
I X Y i X Y i X Y
1 700 160 11 1000 250 21 1400 560
2 700 200 12 1100 180 22 1400 600
3 800 140 13 1100 220 23 1500 940
4 800 160 14 1200 325 24 1500 820
5 800 200 15 1200 360 25 1500 850
6 900 155 16 1300 310 26 1600 1200
7 900 220 17 1300 350 27 1600 1040
8 1000 160 18 1400 470 28 1600 1150
9 1000 180 19 1400 400 29 1600 1060
10 1000 220 20 1400 540 30 1600 1100
Donde:
X = Ingreso mensual en Oruro ($us)

Y = Ahorro mensual en Oruro ($us)
a. Graficar la muestra y estimar visualmente ρX,Y

b. Estimar analíticamente ρX,Y
c. Estimar e interpretar ρ2X,Y
d. Con α = 0,10 averiguar si ρX,Y = 0
e. Con α = 0,05 averiguar si ρX,Y > 0,5
f. Obtener un intervalo de confiabilidad del 95% para ρX,Y
16

Análisis correlación simple

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis correlación simple

Cargado por

Copyright:

Formatos disponibles

Análisis de correlación lineal simple Rubén Medinaceli O.

ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE

2. Medidas de correlación lineal

Entre las medidas de correlación lineal se puede mencionar a las siguientes:

Si X y Y son variables aleatorias, la covarianza de X y Y, denotada por COV(X, Y), se

𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]

µX = Media, esperanza o valor esperado de la variable aleatoria X

𝐶𝑂𝑉(𝑋, 𝑌) = ∑ ∑(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 )𝑓𝑋,𝑌 (𝑥𝑖 , 𝑦𝑖 ) ; 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑦 𝑌 𝑠𝑜𝑛 𝑑𝑖𝑠𝑐𝑟𝑒𝑡𝑎𝑠

𝐶𝑂𝑉(𝑋, 𝑌) = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑓𝑋,𝑌 (𝑥, 𝑦)𝑑𝑥𝑑𝑦 ; 𝑐𝑢𝑎𝑛𝑑𝑜 𝑋 𝑦 𝑌 𝑠𝑜𝑛 𝑐𝑜𝑛𝑡𝑖𝑛𝑢𝑎𝑠

De esta manera la COV(X,Y) tiende a medir el grado o el nivel de dependencia o relación

Es una expresión útil para calcular la COV(X,Y)

Sean X y Y variables aleatorias conjuntamente discretas o conjuntamente continuas pero

A manera de demostración, se tiene que si X y Y son independientes, 𝑓𝑋,𝑌 (𝑥, 𝑦) =

Por tanto, de acuerdo al teorema anterior,

𝐶𝑂𝑉(𝑋, 𝑌) = 𝐸[𝑋𝑌] − 𝜇𝑋 𝜇𝑌 = 𝐸[𝑋]𝐸[𝑌] − 𝜇𝑋 𝜇𝑌 = 𝜇𝑋 𝜇𝑌 − 𝜇𝑋 𝜇𝑌 = 0

𝐶𝑂𝑉(𝑋, 𝑋) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑋 − 𝜇𝑋 )] = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝑉𝑎𝑟[𝑋] = 𝜎𝑋2

En palabras, la covarianza de una variable aleatoria X consigo misma, es igual a su

Si X y Y son variables aleatorias, el coeficiente de correlación lineal simple de Y y X,

σX = Desviación estándar de la variable aleatoria X

El coeficiente de correlación lineal simple de Y y X (ρX,Y) remueve, en algún sentido, la

Sean X y Y variables aleatorias conjuntamente discretas o conjuntamente continuas pero

A manera de demostración se tiene que,

El coeficiente de correlación lineal simple de Y y X (ρ X,Y) es adimensional y satisface la

En palabras, el coeficiente de correlación lineal toma valores solamente en el intervalo

La variable aleatoria mejor correlacionada linealmente (correlación lineal perfecta) con X

● Correlación lineal perfecta

Efectivamente, el coeficiente de correlación lineal simple para una correlación lineal

A partir de esta constatación, es posible estimar visualmente el coeficiente de correlación

En el marco de la inferencia estadística, el análisis de correlación lineal simple asume

• La variable dependiente Y es una variable aleatoria

La función de densidad de probabilidad conjunta de una variable aleatoria bi-dimensional

1 𝑥−𝜇𝑋 2 𝑥−𝜇𝑋 𝑦−𝜇𝑌 𝑌−𝜇𝑌 2

Un buen estimador de 𝜇𝑋 es,

Y, un buen estimador de 𝜎𝑋2 es,

De igual manera si,

Un buen estimador de 𝜇𝑌 es,

Y, un buen estimador de 𝜎𝑌2 es,

En la misma línea, un buen estimador de la COV(X, Y) es,

Utilizando la notación acordada en el tema anterior se tiene que,

Sea RX,Y un estimador del coeficiente de correlación lineal simple ρX,Y

Por otro lado, siendo,

Resumiendo los resultados obtenidos se tiene que,

El cuadrado del coeficiente de correlación lineal simple, ρ2X,Y , recibe el nombre de

Sea ρ2X,Y el coeficiente de determinación lineal de X y Y.

Tal como se vió en el tema anterior,

SSR = Suma de cuadrados explicada por la ecuación de regresión

La demostración es muy directa. Recuerde que,

Nótese que el coeficiente de determinación lineal de X y Y expresa cuanto de la variación

6. Inferencia estadística relacionada con ρX,Y

6.1. Prueba de hipótesis

1. H0: No existe correlación lineal entre Y y X

2. Definir un valor para α (probabilidad de cometer el error tipo I

α/2 α/2 Rechazar H0 si, |Tcalculado| > t0

5. Tomar la decisión que corresponda

6.2. Prueba de hipótesis

1. H0: No existe correlación lineal entre Y y X

(ρ0 es un valor específico para ρX,Y; por ejemplo, ρX,Y = 0,5)

2. Definir un valor para α (probabilidad de cometer el error tipo I)

Estandarizando la variable aleatoria P, se tiene,

√𝑛 − 3 (1 + 𝑅𝑋,𝑌 )(1 − 𝜌𝑋,𝑌 )

α/2 α/2 Rechazar H0, si |Zcalculado| > z0

5. Tomar la decisión que corresponda