Está en la página 1de 7

Estadística. Fac. Agronomía.

UNLPam

ANÁLISIS DE CORRELACIÓN

Contenido
ANÁLISIS DE CORRELACIÓN .................................................................................... 1

1 Introducción ............................................................................................................. 1

2 Coeficiente de correlación muestral de Pearson......................................................... 2

3 Coeficiente de correlación población del de Pearson ................................................ 2

4 Propiedades del coeficiente de correlación ................................................................ 2

5 Pruebas de Hipótesis para el coeficiente de correlación ............................................. 4

5.1 Pruebas de hipótesis del coeficiente de correlación ( = 𝟎) .............................. 4

4.2 Intervalos de confianza para el coeficiente de correlación................................... 5

4.3. Comparación del coeficiente de correlación a un valor en particular (  = 𝝆) ... 6

4.4 Comparación entre dos coeficientes de correlación............................................ 6

1 Introducción
En muchas circunstancias, medimos sobre cada unidad muestral dos variables. Centrando
nuestro interés en estudiar el comportamiento conjunto de ambas, para ver si están asociadas, y
si es así, cuantificar el grado y el sentido de la asociación. La rama de la estadística que se
dedica a estudiarlo se denomina Análisis de Correlación.
Consideremos una muestra formada por n unidades experimentales o muestrales (UE).
Donde en cada UE se han observado dos variables aleatorias 𝑋 e 𝑌 obteniendo los pares
ordenados de las observaciones (Tabla 1) .
Tabla 1: Observaciones la variables X e Y en n unidades muestrales
Unidad Experimental Variable X Variable Y
1 𝑥1 𝑦1

2 𝑥2 𝑦2

⋮ ⋮ ⋮

n 𝑥𝑛 𝑦𝑛

Para estudiar su comportamiento conjunto, los valores obtenidos se pueden representar


en un sistema de ejes cartesianos, por medio de un gráfico denominado Gráfico de Dispersión
(Figura Nº1)

1
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

100

800
80

600
60

y
y

400
40

200
20

0
0 5 10 15 20 25 30 0 5 10 15 20 25 30

x x

a) b)
Figura Nº 1: Diagrama de dispersión de n puntos; a) Relación lineal b) Relación no lineal

2 Coeficiente de correlación muestral de Pearson


Si los datos siguen un comportamiento lineal (Figura Nº1 a)) el coeficiente presentado
por Karl Pearson es una buena medida para cuantificar el grado de asociación entre las
variables e indicar el sentido de la misma. Su fórmula de cálculo de determina como:
𝑆𝑥𝑦
𝑟= (1)
√𝑆𝑥𝑥 ×𝑆𝑦𝑦

siendo
 𝑆𝑥𝑦 = ∑𝑛𝑖=1 𝑥𝑖 ×𝑦𝑖 − 𝑛×𝑥̅ ×𝑦̅;
 𝑆𝑥𝑥 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛×𝑥̅ 2 ;
 𝑆𝑦𝑦 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛× 𝑦̅ 2

3 Coeficiente de correlación población del de Pearson


Si las variables aleatorias (𝑋 e 𝑌) están medidas en toda la población, este coeficiente de
correlación se indica con la letra griega  (que se pronuncia rho). Y su fórmula, que depende de
la covarianza y de las varianzas de las variables de 𝑋 e 𝑋, (𝑐𝑜𝑣(𝑋, 𝑌) 𝑣𝑎𝑟(𝑋) 𝑦 𝑣𝑎𝑟(𝑌)) queda
determinada como:
𝑐𝑜𝑣(𝑋,𝑌)
= (2)
√𝑣𝑎𝑟(𝑋)×𝑣𝑎𝑟(𝑌)

Recordando los conceptos básicos de estadística,  es el parámetro poblacional que


indica el grado de asociación entre las variables en toda la población y el coeficiente de
correlación muestral, 𝑟, es una estimación puntual de este parámetro (𝑟 = 𝜌̂).

4 Propiedades del coeficiente de correlación


En adelante a modo de simplificación, nos referiremos al coeficiente de correlación
muestral 𝑟, pero todos los conceptos pueden ser extendidos al coeficiente de correlación
poblacional .

2
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

 El coeficiente de correlación no depende de la asignación de 𝑋 o 𝑌 que se ha hecho


inicialmente. En correlación no existe una variable dependiente ni otra independiente y
ambas variables son aleatorias.
 El coeficiente de correlación no tiene unidades y es independiente de las unidades con
que se miden las variables 𝑋 o 𝑌 .
 El coeficiente de correlación toma valores que van entre -1 y 1, incluyéndolos (-1
r1)
 Sí el coeficiente de correlación es nulo (𝑟 = 0) no hay asociación entre las variables. En
otras palabras, una variable no modifica la ocurrencia de las otra (son independientes)
(Figura Nº 2 a)).
 Sí 𝑟 = 1 , los valores (xi, yi) pertenecen todos a una misma recta con pendiente positiva
(Figura Nº 2 b)).
 Sí 𝑟 = −1, los valores (xi, yi) pertenecen todos a una misma recta con pendiente negativa
(Figura 4.2 c)).
 Sí 0<r1, existe una asociación positiva entre las variables (Figura Nº 2 c)). Por lo tanto
si una de las variables aumenta la otra también (Sentido positivo de la asociación).
 Sí -1r<0, existe una asociación negativa entre las variables (Figura Nº 2d)). Expresando
que si una delas variables aumenta la otra disminuye (Sentido negativo de la asociación).
 Si el coeficiente de correlación es aproximadamente cero (𝑟 ≈ 0) puede estar indicando
una posible falta de asociación entre las variables (Figura Nº 2 f)).
y

y
y

r=0 r=1 r = -1

x x x

a) b) c)
y

Y
y

0<r<1 -1<r<0 r~0

x x x

d) e) f)
Figura Nº 2: Distintas representaciones de asociación lineal

3
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

Ejemplo 1:
En un estudio llevado a cabo durante un período de 15 años, en una región, se midieron las
variables, X= “la precipitación en un mes de junio” e Y= “producción de pasto perenne
(kg/ha)” los resultados se presentan el siguiente tabla
Tabla 2: Datos de precipitaciones y producción de pasto perenne
año 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 22.05 25.74 30.48 11.89 27.28 9.63 17.63 22.2 17.27 22.1 17.5 18.9 21.03 25 24.8
Y 391 529 723 307 760 263 375 466 463 558 367 542 380 489 475

Calcule el coeficiente de correlación muestral entre las variables


 𝑆𝑥𝑦 = ∑𝑛𝑖=1 𝑥𝑖 ×𝑦𝑖 − 𝑛×𝑥̅ ×𝑦̅ = 187137.73 − 15×20.9×472.53 = 8998.53
 𝑆𝑥𝑥 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛×𝑥̅ 2 = 6992.1686 − 15×20.92 = 440.0186
 𝑆𝑦𝑦 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛× 𝑦̅ 2 = 3617282 − 15×472.532 = 268265.73
𝑆𝑥𝑦 8998.53
𝑟= = = 0.8282
√440.0186×268265.73
√𝑆𝑥𝑥 ×𝑆𝑦𝑦

El coeficiente de correlación muestral entre la precipitación de los meses de junio y la


producción de pasto perenne es 𝑟 = 0.8282.

5 Pruebas de Hipótesis para el coeficiente de correlación


Como hemos visto a lo largo de todo el curso de estadística, en general trabajamos con
datos muestrales. Por lo tanto, luego de encontrar el valor del coeficiente de correlación
muestral, 𝑟, la pregunta que debemos hacernos es: ¿la asociación que observamos en la muestra,
se puede extender a toda la población? Por ejemplo si la asociación muestral entre dos variables
fue r=0.80, ¿Podemos decir que el coeficiente de correlación poblacional es distinto de cero
(≠0)?. Para responder esta pregunta adecuadamente debemos recurrir a una prueba de
hipótesis.

5.1 Pruebas de hipótesis del coeficiente de correlación ( = 𝟎)


Sí las dos variables aleatorias 𝑋 𝑒 𝑌 tienen distribución conjunta normal bivariada,
podemos construir una prueba de hipótesis para probar si están asociadas, donde las hipótesis
quedan planteadas como:
H0:  = 0 vs Ha:  ≠ 0
y el estadístico de prueba tiene distribución t–Student con n-2 grados de libertad, depende del
coeficiente muestral, del tamaño de la muestra y es:
𝑟
𝑡= 2
~𝑡𝑛−2 (3)
√1−𝑟
𝑛−2
Como en toda prueba de hipótesis, debemos encontrar una región de rechazo en función de la
hipótesis nula, la distribución del estadístico y el nivel de significación fijado. Calculando el
valor de estadístico para los datos de la muestra, podremos tomar una decisión. Si no
rechazamos la hipótesis nula, estamos diciendo que no hay asociación entre las variables en
estudio a nivel poblacional. En caso contrario, si rechazamos la hipótesis nula, las variables en
estudio son dependientes.

4
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

Ejemplo 2:
Realizar una prueba estadística para probar si el coeficiente de correlación poblacional entre
X= “la precipitación en un mes de junio” e Y= “producción de pasto perenne (kg/ha)” es
diferente de cero.

Resolución
Las hipótesis pertinentes quedan determinadas como:

H0: =0 vs Ha: ≠0

Y reemplazando el valor r=0.8282 en el estadístico, obtenemos el valor calculado


0.8282
𝑡𝑐 = = 7.20
1−0.82822

15−2
La región rechazo (RR) queda determinada por dos intervalos semi-abiertos:
(−∞, 2.1604) y (2.1604, ∞) (Figura Nº 3)) Como el valor calculado pertenece a la RR, hay
evidencias para rechazar la hipótesis nula
0.40

0.30
probabilidad

0.20

0.10

0.025 0.025
0.00
-5 -2.1604 2.1604 5

Figura Nº 3: Delimitación de la zona de rechazo

4.2 Intervalos de confianza para el coeficiente de correlación


Si rechazamos la hipótesis H0: =0, estamos interesados en saber cuál será el valor que
toma , esto lo podemos estimar por medio de la estimación puntual (𝑟) o por medio de un
intervalode confianza.
Cunado ≠0, la distribución de los r es asimétrica, esto es el de coeficiente de Pearson no
sigue una distribución normal. Para poder vencer esta dificultad, el matemático y estadístico R.
Fisher introdujo una transformación de r a valores de z para conseguir que sigan una
distribución normal y calcular a partir del valor z el intervalo de confianza. Esta transformación
es:
1+𝑟
𝑧 = 1⁄2 𝑙𝑛 (1−𝑟) o 𝑧 = 𝑡𝑎𝑛ℎ−1 (𝑟) (4)

Siendo la 𝑡𝑎𝑛ℎ−1 , la función trigonométrica tangente hiperbólica inversa.


1
Los valores de z se distribuyen de manera normal con desvío: , siendo n el tamaño de
√𝑛−3

la muestra, un número relativamente grande. Y el intervalo de confianza del (1-)% para los
valores de z queda determinado como:

5
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

1
𝐼𝐶 (𝑧, (1 − 𝛼 )%) = 𝑡𝑎𝑛ℎ−1 (𝑟) ± 𝑧𝛼∗ ⁄ = (𝑧𝑖𝑛𝑓 , 𝑧𝑠𝑢𝑝 ) (5)
2 √𝑛−3

Donde 𝑧𝛼∗⁄ es el valor de la tabla normal estandarizada que deja en cada cola el 𝛼⁄2 de
2

probabilidad.
Luego de determinar los límites del intervalo debemos re-transformar para obtener los
valores de 𝑟, por medio de 𝑡𝑎𝑛ℎ (𝑧) (tangente hiperbólica de z).

𝐼𝐶 (𝜌, (1 − 𝛼 )%) = (𝑡𝑎𝑛ℎ(𝑧𝑖𝑛𝑓 ), tanh(𝑧𝑠𝑢𝑝 )) (6)

Ejemplo 3:
Encontrar un intervalo de confianza del 95% para el verdadero coeficiente de correlación
lineal entre las variables X= “la precipitación en un mes de junio” e Y= “producción de pasto
perenne (kg/ha)”

Resolución:
El coeficiente de correlación para este conjunto de datos, encontrado en el ejemplo 2 es:
𝑟 = 0.8282

El valor transformado será: 𝑧𝑡 = 𝑡𝑎𝑛ℎ −1 (0.8282) = 1.1824

Reemplazando en el intervalo de confianza y teniendo en cuenta que 𝑧𝛼∗⁄ = 1.96 queda


2

como:
1
𝐼𝐶 (𝑧, 95%) = 1.1824 ± 1.96× = (0.617; 1.748)
√15 − 3

Re transformado el intervalo queda determinado como:

𝐼𝐶 (𝜌, 95%) = (𝑡𝑎𝑛ℎ(0.617) ; 𝑡𝑎𝑛ℎ(1.748)=(0.549; 0.941)

4.3. Comparación del coeficiente de correlación a un valor en particular (  =


𝝆𝟎 )
Para probar la hipótesis Ho 𝜌 = 𝜌0 vs Ha 𝜌 ≠ 𝜌0 , podemos usar la relación entre Pruebas
de Hipótesis e Intervalos de confianza que establece la equivalencia entre ambas pruebas de la
siguiente manera. Si en una prueba de hipótesis no rechazamos la Ho 𝜌 = 𝜌0 para un nivel de
significación; el intervalo de confianza para (1- 𝛼)% contiene el valor 𝜌0 . Si rechazamos la
hipótesis nula, el intervalo de confianza no contendrá al valor 𝜌0 .

4.4 Comparación entre dos coeficientes de correlación


Sea 𝑟1 y 𝑟 los coeficientes de correlación muestrales de las variables 𝑥 e 𝑦, obtenidas

6
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam

en dos muestras diferentes. Muchas veces el interés se centra en probar los coeficientes de
correlación poblacionales son iguales, 𝜌1 = 𝜌2 . Esta comparación es relativamente sencilla
bajo la transformación de 𝑟 a 𝑧 por medio de (4). Formalmente la prueba estadística queda
definida como:
Ho 𝜌1 = 𝜌2 vs Ha 𝜌1 ≠ 𝜌2

𝑧1 −𝑧2
siendo el estadístico de prueba: 𝑍 ∗ = 1 1
~N(0,1)
√𝑛 −3+𝑛 −3
1 2

donde 𝑧1 = 𝑡𝑎𝑛ℎ −1 (𝑟1 ) y 𝑧2 = 𝑡𝑎𝑛ℎ −1 (𝑟2 ) repectivamente.

Ejercicio Nº 4:
En dos estudios sobre la correlación entre el largo de ala y de lengua de abejas en dos
muestras diferentes cada una de 34 abejas, se encontró valores para r = 0.731 y 0.69 estando
cada. Pruébese la hipótesis de que estas son con  común, para un nivel de significación de
0.05.

Resolución:
Las variables estudiadas son X= “Largo del Ala” e Y= “largo e la lengua”
Ho 𝜌1 = 𝜌2 vs Ha 𝜌1 ≠ 𝜌2
𝑧1 −𝑧2
siendo el estadístico de prueba: 𝑍∗ = 1 1
~N(0,1)
√𝑛 +
1 −3 𝑛2 −3

donde 𝑧1 = 𝑡𝑎𝑛ℎ −1 (0.731) = 36.167 y 𝑧2 = 𝑡𝑎𝑛ℎ −1 (0.69) = 34.61 repectivamente.

36.167 − 34.61
𝑍∗ = = 6.14
1 1
√ + 34−3
34−3
La región rechazo (RR) queda determinada por dos intervalos semi-abiertos:
(−∞, −1.96) y (1.96, ∞) (Figura Nº 4) Como el valor calculado pertenece a la RR, hay
evidencias para rechazar la hipótesis nula
0.40

0.30
Densidad

0.20

0.10

0.00
-5.0 5.0
-1.96 1.96

Figura Nº 4: Región de rechazo para un nivel de significación 0.05

Conclusión estadística: rechazo la hipótesis nula, por lo tanto el 𝜌1 ≠ 𝜌2 las muestras no


pertenecen a la misma población para las variables estudiadas

7
Mgter Belmonte Valeria

También podría gustarte