Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación lineal
UAH
Dr. Francisco Maturana Miranda
www.fmaturana.cl
Comentarios o sugerencias a: fmaturana@uahurtado.cl
✓ Cuando tenemos 2 variables cuantitativas ¿cómo podemos analizar su
vínculo?
(explicada). 45
40
25
explicada. 10
35
el nivel de consumo de un individuo.
30
25
✓ Vemos en el gráfico que el consumo
20
aumenta a medida que aumenta el
15 ingreso. Por tanto intuitivamente
10 podríamos apreciar una correlación positiva
5 entre estas variables.
0
0 10 20 30
Ingreso disponible (en miles)
40 50 60
✓ Entonces: un débil nivel de consumo es
vinculado a un débil ingreso, un alto nivel
de consumo a un alto ingreso.
Nube de puntos: es una figura constituida de puntos (una por unidad estadística observada).
Las coordenadas de cada punto corresponden a los valores de dos variables puestas en
relación. Su título en general es : Variable dependiente según variable independiente .
También es posible llamar el gráfico “diagrama de dispersión”.
Consumo según ingreso
50
45
y = 0,8461x + 1,4582
R² = 0,9372 ✓ Observamos que podemos trazar
40
una recta y también un óvalo. En
Consumo (en miles)
35
general mientras este es
30
extendido mas apropiado es el
modelo lineal para describir un
25
conjunto de puntos.
20
15
✓ Con una ecuación que se
10
construya a partir de esta nube
5
de puntos. Podríamos estimar el
0
0 10 20 30 40 50 60
nivel de consumo a partir de un
Ingreso disponible (en miles) ingreso disponible.
✓ Nos falta poder cuantificar la fuerza de la correlación lineal entre las 2 variables estudiadas. Es decir la
tendencia que tienen los puntos en un diagrama de dispersión a agruparse en torno a la recta.
✓ Determinar, la presencia de una correlación lineal y la ecuación de la recta que mejor expresa la relación
entre las dos variables.
Coeficiente de correlación lineal
El coeficiente de correlación lineal mide la fuerza de la relación lineal entre 2 variables
cuantitativas medida por la ayuda de una escala de intervalos o relación.
Dónde:
Número de pares
-1.00 = Correlación negativa perfecta es decir a medida que aumenta una, disminuye la otra.
Así:
0,5
y x Para y
0
Promedio 2,86 78,6 Paso 1 0,48
40 50 60 70 80 90 100
Desvia es 4,344 1044,4 Paso 2 0,69
Calculo final ecuacion
✓ Mientras r mas cercano a 0, mas débil es la correlación lineal y por tanto los O ≤ |r| < 0,2 Nula o débil
puntos presentan menos tendencia a agruparse en torno a una recta. Se debe O,2 ≤ |r| < 0,4 Débil a moderada
tener cuidado que más próximo a cero no indican necesariamente que no exista
correlación entre las dos variables, sino que mas bien que ellas no están O,4 ≤ |r| < 0,7 Moderada a fuerte
vinculadas de manera lineal. O,7 ≤ |r| < 0,9 Fuerte a muy
fuerte
✓ Una correlación lineal aunque sea fuerte no permite afirmar una relación causal.
O,9 ≤ |r| ≤ 1 Muy fuerte o
A pesar de lo anterior en ciertas áreas (como la medicina), existen posibilidades
perfecta
de causales entre dos variables.
✓ Para tal efecto se debe realizar una prueba de hipótesis en la cual debemos considerar un
nivel de significancia. Como hemos visto al menos debemos asegúranos de un 95% de
certeza por tanto trabajaremos al menos con un 5% de significancia.
✓ Se debe realizar un test t para comparar el valor t versus un valor crítico obtenido a partir de
la ley de Student. El valor crítico se calculará a partir de los grados de libertad, el cual
corresponde a la resta entre el número de pares de los datos de la muestra menos 2. Ese
valor resultante, son los grados de libertad y debemos buscar el número en una tabla de
valores críticos que se construyen a partir de la ley de Student.
Debemos saber si el coeficiente de correlación lineal obtenido para la población es significativamente mayor a
cero.
1. Ho: p=0 h1: p>0. En nuestro caso la hipótesis nula = 0, indicaría que la correlación lineal obtenida no seria
significativa. En el caso de hipótesis 1, esta es siempre contraria a la nula, y por tanto indicaría que el valor
obtenido es mayor a cero y por tanto la correlación lineal obtenida es estadísticamente significativa.
3. Certificamos las condiciones de aplicación. Debemos suponer que la muestra fue realizada al azar y en el
contexto de una población para la cual la distribución de las dos variables corresponde a un modelo de la ley
normal.
6. Calculo estadístico
7. Interpretación
Ejemplo: Supongamos que tenemos un coeficiente de correlación igual a 0,79 y una muestra que considera 10 pares de
datos.
✓ Entonces lo que debemos saber si nuestro t es mayor o menor a v. En el caso que t sea mayor a v, entonces se rechaza la
hipótesis nula (indicaría que la correlación lineal obtenida es significativa.).
Ahora calculamos t
3,64
Constatamos que t 3,64 es mayor 1,86 por tanto se rechaza la idea de la hipótesis nula. Es decir sobre la base
de nuestra muestra a un nivel de significancia del 5%, en virtud de la regla de decisión (contrastar hipótesis), es
posible afirmar que el coeficiente de correlación lineal para toda la población es significativamente superior a
cero y por tanto la correlación lineal obtenida es estadísticamente significativa.
✓El modelo lineal describe el vínculo entre dos variables. Es
interesante encontrar la ecuación de la recta y’ = ax+b que
representaría de mejor manera el conjunto de puntos. Sea una recta
que atraviesa la nube de puntos y la caracteriza lo mejor posible.
Para esto debemos considerar la noción de co varianza entre X e Y la cual mide la tendencia de
X e Y a variar en su conjunto , es decir a co variar.
Varianza: Es la desviación estándar al cuadrado. Se utiliza para análisis inferenciales (para probar hipótesis
y estimar parámetros).
Co varianza = promedio de los productos menos promedios de los promedios. Presenta el grado de variación
conjunta entre 2 variables.
Si es positiva, tendríamos que esperar que a altos valores de una de las variables analizadas, exista una
tendencia a que podamos observar valores altos en la otra variable. Mismo si hay bajos en una podríamos
esperar lo mismo para la otra.
Si es negativa, sería inversa, a medida que los valores de una variable son altos, los de la otra variable deberían
ser bajos y viceversa.
Es posible utilizar la recta de regresión según las siguientes
condiciones:
• Se plantea la hipótesis que existe una relación estadística entre el % de empleo en el sector terciario y la
riqueza promedio de los habitantes, traduciéndose en el avance o retraso económico en 15 países de la EU.
• Se puede partir de la base, tanto que el sector terciario explica el PIB como el PIB explique el sector terciario.
y pib por
País x sector terciario habitante Para calcular las ecuaciones necesitamos:
Alemania 60,8 126
Austria 60,6 122
Belgica 69,1 112
Y: PIB X: Sector
Dinamarca 68,5 140 suma 1.503,00 970,70
España 60,5 65 promedio 100,20 64,71
Filandia 64,6 89 varianza 1.088,56 30,04
France 68,1 117 desvia estandar 32,99 5,48
Grecia 56,4 46
Irlanda 60,2 71 Covarianza 119,00 119,00
Italia 60,4 92
Luxemburgo 70,9 168
Holanda 72,8 108
Portugal 56,3 46
Reino Unido 70,5 87
Suecia 71 114
Obtener recta Y’ = a1X + b1
1ra recta:
Pendiente: a1 = covarianza/varianza x =119 / 30,04 = 3,96 Y: PIB X: Sector
suma 1.503,00 970,70
Pendiente: b1 = my-a1mx =100,20 - 3,96 x 64,71 = 156,01 promedio 100,20 64,71
varianza 1.088,56 30,04
Así ecuación : Y’ = 3,96X– 156,01 desvia estandar 32,99 5,48
Dibujo
70
1er punto Y = my = 100,02 la otra X = mx = 64,71
2do punto Y = 0 la otra X = b2 =53,68
50
55 57 59 61 63 65 67 69 71 73 75
Concluyendo:
• La regresión de Y e X supone que es el porcentaje de población activa en el sector terciario que, en la EU,
“explica” el PIB por habitante, es decir, el mas o menos fuerte ingreso promedio en los 15 países analizados.
• Las unidades (individuos) estadísticos pueden tener una duración en un instante que varía
en el tiempo.
• Las variables temporales generalmente son cuantitativas continuas. Por ejemplo evolución
de precios en el consumo, tasa de desempleo, concentración de contaminación,
temperaturas diarias, etc.
Representación gráfica:
350
345
340
335
330
325
320
315
1981-1
1974-5
1974-10
1975-3
1975-8
1976-1
1976-6
1976-11
1977-4
1977-9
1978-2
1978-7
1978-12
1979-5
1979-10
1980-3
1980-8
1981-6
1981-11
1982-4
1982-9
1983-2
1983-7
1983-12
1984-5
1984-10
1985-3
1985-8
1986-1
1986-6
1986-11
1987-4
1987-9
Tendencia: ya sea al aumento o la disminución
Es posible resumir la tendencia, realizando una regresión. En este caso hay un linealidad por tanto no es
necesario transformar valores a escala logarítmica para regresión. Acá apreciamos claramente una tendencia al
aumento según año!!!!
Co2
355
En 0,121 meses la
340
concentración de Co2 aumenta
335 en una unidad bajo el valor
329,33
330
325
320
315
1987-9
1974-5
1974-9
1975-1
1975-5
1975-9
1976-1
1976-5
1976-9
1977-1
1977-5
1977-9
1978-1
1978-5
1978-9
1979-1
1979-5
1979-9
1980-1
1980-5
1980-9
1981-1
1981-5
1981-9
1982-1
1982-5
1982-9
1983-1
1983-5
1983-9
1984-1
1984-5
1984-9
1985-1
1985-5
1985-9
1986-1
1986-5
1986-9
1987-1
1987-5
Fuente: Dumolard et al. 2003
Borrar la tendencia
Valores residuales nos permite estudiar variaciones cíclicas y aleatorias es decir lo que sucedía por ejemplo en el interior de un
año
mes
-Borrada la tendencia, se aprecia que hay un ciclo estacionario, con algunos valores máximos en cada año
(considerar que está por mes valores obtenidos).
-Podríamos según los meses del año, analizar en qué fecha se producen tales diferencias.