Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apunte Correlacion
Apunte Correlacion
UNLPam
ANÁLISIS DE CORRELACIÓN
Contenido
ANÁLISIS DE CORRELACIÓN .................................................................................... 1
1 Introducción ............................................................................................................. 1
1 Introducción
En muchas circunstancias, medimos sobre cada unidad muestral dos variables. Centrando
nuestro interés en estudiar el comportamiento conjunto de ambas, para ver si están asociadas, y
si es así, cuantificar el grado y el sentido de la asociación. La rama de la estadística que se
dedica a estudiarlo se denomina Análisis de Correlación.
Consideremos una muestra formada por n unidades experimentales o muestrales (UE).
Donde en cada UE se han observado dos variables aleatorias 𝑋 e 𝑌 obteniendo los pares
ordenados de las observaciones (Tabla 1) .
Tabla 1: Observaciones la variables X e Y en n unidades muestrales
Unidad Experimental Variable X Variable Y
1 𝑥1 𝑦1
2 𝑥2 𝑦2
⋮ ⋮ ⋮
n 𝑥𝑛 𝑦𝑛
1
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
100
800
80
600
60
y
y
400
40
200
20
0
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
a) b)
Figura Nº 1: Diagrama de dispersión de n puntos; a) Relación lineal b) Relación no lineal
siendo
𝑆𝑥𝑦 = ∑𝑛𝑖=1 𝑥𝑖 ×𝑦𝑖 − 𝑛×𝑥̅ ×𝑦̅;
𝑆𝑥𝑥 = ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛×𝑥̅ 2 ;
𝑆𝑦𝑦 = ∑𝑛𝑖=1 𝑦𝑖2 − 𝑛× 𝑦̅ 2
2
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
y
y
r=0 r=1 r = -1
x x x
a) b) c)
y
Y
y
x x x
d) e) f)
Figura Nº 2: Distintas representaciones de asociación lineal
3
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
Ejemplo 1:
En un estudio llevado a cabo durante un período de 15 años, en una región, se midieron las
variables, X= “la precipitación en un mes de junio” e Y= “producción de pasto perenne
(kg/ha)” los resultados se presentan el siguiente tabla
Tabla 2: Datos de precipitaciones y producción de pasto perenne
año 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 22.05 25.74 30.48 11.89 27.28 9.63 17.63 22.2 17.27 22.1 17.5 18.9 21.03 25 24.8
Y 391 529 723 307 760 263 375 466 463 558 367 542 380 489 475
4
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
Ejemplo 2:
Realizar una prueba estadística para probar si el coeficiente de correlación poblacional entre
X= “la precipitación en un mes de junio” e Y= “producción de pasto perenne (kg/ha)” es
diferente de cero.
Resolución
Las hipótesis pertinentes quedan determinadas como:
0.30
probabilidad
0.20
0.10
0.025 0.025
0.00
-5 -2.1604 2.1604 5
la muestra, un número relativamente grande. Y el intervalo de confianza del (1-)% para los
valores de z queda determinado como:
5
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
1
𝐼𝐶 (𝑧, (1 − 𝛼 )%) = 𝑡𝑎𝑛ℎ−1 (𝑟) ± 𝑧𝛼∗ ⁄ = (𝑧𝑖𝑛𝑓 , 𝑧𝑠𝑢𝑝 ) (5)
2 √𝑛−3
Donde 𝑧𝛼∗⁄ es el valor de la tabla normal estandarizada que deja en cada cola el 𝛼⁄2 de
2
probabilidad.
Luego de determinar los límites del intervalo debemos re-transformar para obtener los
valores de 𝑟, por medio de 𝑡𝑎𝑛ℎ (𝑧) (tangente hiperbólica de z).
Ejemplo 3:
Encontrar un intervalo de confianza del 95% para el verdadero coeficiente de correlación
lineal entre las variables X= “la precipitación en un mes de junio” e Y= “producción de pasto
perenne (kg/ha)”
Resolución:
El coeficiente de correlación para este conjunto de datos, encontrado en el ejemplo 2 es:
𝑟 = 0.8282
como:
1
𝐼𝐶 (𝑧, 95%) = 1.1824 ± 1.96× = (0.617; 1.748)
√15 − 3
6
Mgter Belmonte Valeria
Estadística. Fac. Agronomía. UNLPam
en dos muestras diferentes. Muchas veces el interés se centra en probar los coeficientes de
correlación poblacionales son iguales, 𝜌1 = 𝜌2 . Esta comparación es relativamente sencilla
bajo la transformación de 𝑟 a 𝑧 por medio de (4). Formalmente la prueba estadística queda
definida como:
Ho 𝜌1 = 𝜌2 vs Ha 𝜌1 ≠ 𝜌2
𝑧1 −𝑧2
siendo el estadístico de prueba: 𝑍 ∗ = 1 1
~N(0,1)
√𝑛 −3+𝑛 −3
1 2
Ejercicio Nº 4:
En dos estudios sobre la correlación entre el largo de ala y de lengua de abejas en dos
muestras diferentes cada una de 34 abejas, se encontró valores para r = 0.731 y 0.69 estando
cada. Pruébese la hipótesis de que estas son con común, para un nivel de significación de
0.05.
Resolución:
Las variables estudiadas son X= “Largo del Ala” e Y= “largo e la lengua”
Ho 𝜌1 = 𝜌2 vs Ha 𝜌1 ≠ 𝜌2
𝑧1 −𝑧2
siendo el estadístico de prueba: 𝑍∗ = 1 1
~N(0,1)
√𝑛 +
1 −3 𝑛2 −3
36.167 − 34.61
𝑍∗ = = 6.14
1 1
√ + 34−3
34−3
La región rechazo (RR) queda determinada por dos intervalos semi-abiertos:
(−∞, −1.96) y (1.96, ∞) (Figura Nº 4) Como el valor calculado pertenece a la RR, hay
evidencias para rechazar la hipótesis nula
0.40
0.30
Densidad
0.20
0.10
0.00
-5.0 5.0
-1.96 1.96
7
Mgter Belmonte Valeria