Está en la página 1de 25

Análisis Exploratorio de Datos Espaciales

Correlación lineal

UAH
Dr. Francisco Maturana Miranda
www.fmaturana.cl
Comentarios o sugerencias a: fmaturana@uahurtado.cl
✓ Cuando tenemos 2 variables cuantitativas ¿cómo podemos analizar su
vínculo?

✓ Es posible expresar el vínculo entre las variables bajo la forma de una


función la cual permite predecir el valor de una variable a partir del valor
de otra.
Correlación lineal

Matemáticas: una función entre dos variables x e y se escribe bajo la forma y


= f(x). Donde x es la variable independiente e y es la variable dependiente. Así
la ecuación y = a +bx es el ejemplo mas simple de tal función.

La anterior es una ecuación de una recta con una pendiente b y de ordenada


al origen a.
Tabla de datos Ingreso
20,3
Consumo
17
Ingreso
16,3
Consumo
13
Ingreso
14,6
Consumo
14,6
22,6 22,5 18,7 18,6 34,8 30,1
Ejemplo: 23,5 18 22,2 22 23,5 21
28,9 28,7 20 18,6 31,1 28,8
40,1 35 25,8 24,5 24,8 17
15 10 34,3 32 50,6 40,3
Un economista plantea que hay un vínculo entre el ingreso disponible de 35,4
38,2
34,9
34
32,2
45,3
31
36
24,1
17,5
21,9
16,9
los trabajadores y el nivel de consumo. Para establecer tal vínculo se 10,8
50,7
10,5
45
12,9
19,5
12,6
18
18,9
22,2
17,4
21,7
cuenta con una encuesta a 50 trabajadores. 19
25,6
18
21
21,3
22
19,4
20,7
18,7
14,8
18,3
14,7
17,5 17 34,8 34,7 23,5 20,6
14,8 14,2 31,1 31 18 17
OBS: 13,9
23,8
13,8
17
23,5
31,9
18
30
28
27,4
25,8
25,8
39,7 35 29,5 26,9

✓ Se busca expresar que el ingreso disponible (explicativa) Consumo según ingreso


explica al menos parcialmente el nivel de consumo 50

(explicada). 45

40

Consumo (en miles)


✓ Es decir: El nivel de consumo se pude expresar en 35

función del ingreso disponible. 30

25

✓ Ingreso disponible (x) como variable independiente o 20

explicativa y consumo (y) variable dependiente o 15

explicada. 10

✓ Si el economista establece el vínculo entre el consumo e 0


0 10 20 30 40 50 60
ingreso, podrá realizar predicciones. Ingreso disponible (en miles)
Consumo según ingreso
50 ✓ En el gráfico se observan los 50 puntos que
45
corresponden a pares de ingreso; consumo.
40
✓ Cada punto representa (a la vez) el ingreso y
Consumo (en miles)

35
el nivel de consumo de un individuo.
30

25
✓ Vemos en el gráfico que el consumo
20
aumenta a medida que aumenta el
15 ingreso. Por tanto intuitivamente
10 podríamos apreciar una correlación positiva
5 entre estas variables.
0
0 10 20 30
Ingreso disponible (en miles)
40 50 60
✓ Entonces: un débil nivel de consumo es
vinculado a un débil ingreso, un alto nivel
de consumo a un alto ingreso.

Nube de puntos: es una figura constituida de puntos (una por unidad estadística observada).
Las coordenadas de cada punto corresponden a los valores de dos variables puestas en
relación. Su título en general es : Variable dependiente según variable independiente .
También es posible llamar el gráfico “diagrama de dispersión”.
Consumo según ingreso
50

45
y = 0,8461x + 1,4582
R² = 0,9372 ✓ Observamos que podemos trazar
40
una recta y también un óvalo. En
Consumo (en miles)

35
general mientras este es
30
extendido mas apropiado es el
modelo lineal para describir un
25
conjunto de puntos.
20

15
✓ Con una ecuación que se
10
construya a partir de esta nube
5
de puntos. Podríamos estimar el
0
0 10 20 30 40 50 60
nivel de consumo a partir de un
Ingreso disponible (en miles) ingreso disponible.

✓ Nos falta poder cuantificar la fuerza de la correlación lineal entre las 2 variables estudiadas. Es decir la
tendencia que tienen los puntos en un diagrama de dispersión a agruparse en torno a la recta.

✓ Determinar, la presencia de una correlación lineal y la ecuación de la recta que mejor expresa la relación
entre las dos variables.
Coeficiente de correlación lineal
El coeficiente de correlación lineal mide la fuerza de la relación lineal entre 2 variables
cuantitativas medida por la ayuda de una escala de intervalos o relación.

Dónde:
Número de pares

Coordenadas de cada par

Promedio de la variable independiente

Promedio de la variable dependiente


Desviación estándar de la variable independiente

Desviación estándar de la variable dependiente


El valor varía entre -1 y 1.

-1.00 = Correlación negativa perfecta es decir a medida que aumenta una, disminuye la otra.

-0.5 = Correlación negativa media.

0 = No existe correlación alguna entre las variables.

+0.5 = Correlación positiva media.

+1.00 = Correlación positiva perfecta.

Así:

Mientras mas cercano a 1 ó -1 la correlación lineal será mas fuerte.


Corroboremos:
Supongamos que queremos explicar las notas obtenidas en la universidad a partir de las notas obtenidas en el colegio. El
promedio de notas en el colegio es variable explicativa o independiente (x) y el promedio de notas en la universidad será la
variable a explicada o dependiente (y). Muestra 10 estudiantes.
Tabla de datos
Promedio de notas a la universidad según el promedio del colegio
Promedio Notas U (sobre 4,3) y Promedio notas colegio (sobre 100) x obtenido
4
2,3 70
3,2 80 3,5
1,8 62 y = 0,0582x - 1,7112
2,1 74 3
R² = 0,8132
3,5 87
2,5
3,9 95
3,6 90 2
2,5 77
2,7 66 1,5
3 85
1

0,5
y x Para y
0
Promedio 2,86 78,6 Paso 1 0,48
40 50 60 70 80 90 100
Desvia es 4,344 1044,4 Paso 2 0,69
Calculo final ecuacion

Sumatoria 1 2309 Para x


r= 0,90
n 10 Paso 1 116,0444444
Paso 2 10,77

A pesar de haber obtenido una excelente correlación. ¿ es válido nuestro estudio?


Algunas características de la correlación lineal
✓ El coeficiente de correlación lineal es un número puro (sin unidad) que siempre
tendrá que ser mayor o igual a -1 y menor o igual a 1 pasando por el cero.

✓ Un valor r distinto de cero indica una correlación lineal entre 2 variables.


Recuerde que es posible que dicha correlación sea obtenida a partir de una Interpretación referencial
muestra. Por tanto se verifica sólo el vinculo en función de esa muestra.
Valor absoluto del Relación lineal
✓ Mientras mas r será cercano a 1 ó -1 mas la correlación será fuerte. Si se sitúa coeficientes de
sobre 1 ó -1 es una correlación perfecta. correlación lineal

✓ Mientras r mas cercano a 0, mas débil es la correlación lineal y por tanto los O ≤ |r| < 0,2 Nula o débil
puntos presentan menos tendencia a agruparse en torno a una recta. Se debe O,2 ≤ |r| < 0,4 Débil a moderada
tener cuidado que más próximo a cero no indican necesariamente que no exista
correlación entre las dos variables, sino que mas bien que ellas no están O,4 ≤ |r| < 0,7 Moderada a fuerte
vinculadas de manera lineal. O,7 ≤ |r| < 0,9 Fuerte a muy
fuerte
✓ Una correlación lineal aunque sea fuerte no permite afirmar una relación causal.
O,9 ≤ |r| ≤ 1 Muy fuerte o
A pesar de lo anterior en ciertas áreas (como la medicina), existen posibilidades
perfecta
de causales entre dos variables.

✓ No existe un criterio universal para determinar si una correlación lineal es fuerte


o débil. Por ejemplo un 0,4 podría ser relevante para unas áreas pero para otras
no. Por ejemplo en medicina quizás se necesite un valor muy cercano a 1.
Prueba de hipótesis sobre el coeficiente de correlacional lineal
✓ El valor del coeficiente de correlación es obtenido a partir de una muestra es necesario
realizar un test, para verificar si es significativamente diferente de cero, es decir, si existe
una correlación lineal (no nula, positiva o negativa) entra las 2 variables según toda la
población.

✓ El test trata de dilucidar si el valor absoluto de r obtenido es debido a un error aleatorio de


la muestra, donde entonces habría una independencia entre las variables y e x.

✓ Para tal efecto se debe realizar una prueba de hipótesis en la cual debemos considerar un
nivel de significancia. Como hemos visto al menos debemos asegúranos de un 95% de
certeza por tanto trabajaremos al menos con un 5% de significancia.

✓ Se debe realizar un test t para comparar el valor t versus un valor crítico obtenido a partir de
la ley de Student. El valor crítico se calculará a partir de los grados de libertad, el cual
corresponde a la resta entre el número de pares de los datos de la muestra menos 2. Ese
valor resultante, son los grados de libertad y debemos buscar el número en una tabla de
valores críticos que se construyen a partir de la ley de Student.
Debemos saber si el coeficiente de correlación lineal obtenido para la población es significativamente mayor a
cero.

1. Ho: p=0 h1: p>0. En nuestro caso la hipótesis nula = 0, indicaría que la correlación lineal obtenida no seria
significativa. En el caso de hipótesis 1, esta es siempre contraria a la nula, y por tanto indicaría que el valor
obtenido es mayor a cero y por tanto la correlación lineal obtenida es estadísticamente significativa.

2. Escogemos un nivel de significancia en este caso con un alfa al 5%.

3. Certificamos las condiciones de aplicación. Debemos suponer que la muestra fue realizada al azar y en el
contexto de una población para la cual la distribución de las dos variables corresponde a un modelo de la ley
normal.

4. Debemos determinar el valor crítico. Ecuación del test


5. Seleccionamos un tipo de test. En este caso unilateral

6. Calculo estadístico

7. Interpretación
Ejemplo: Supongamos que tenemos un coeficiente de correlación igual a 0,79 y una muestra que considera 10 pares de
datos.

✓ Entonces lo que debemos saber si nuestro t es mayor o menor a v. En el caso que t sea mayor a v, entonces se rechaza la
hipótesis nula (indicaría que la correlación lineal obtenida es significativa.).

Entonces al tener 10 pares de datos

v= 10-2 = 8. En la tabla buscamos al 5% de error el valor de v.


El valor nos da 1,860.

Ahora calculamos t

3,64

Constatamos que t 3,64 es mayor 1,86 por tanto se rechaza la idea de la hipótesis nula. Es decir sobre la base
de nuestra muestra a un nivel de significancia del 5%, en virtud de la regla de decisión (contrastar hipótesis), es
posible afirmar que el coeficiente de correlación lineal para toda la población es significativamente superior a
cero y por tanto la correlación lineal obtenida es estadísticamente significativa.
✓El modelo lineal describe el vínculo entre dos variables. Es
interesante encontrar la ecuación de la recta y’ = ax+b que
representaría de mejor manera el conjunto de puntos. Sea una recta
que atraviesa la nube de puntos y la caracteriza lo mejor posible.

✓Recta de regresión: recta de ecuación y’ = ax+b que constituye el


mejor ajuste lineal a una nube de puntos (x; y) sobre un gráfico
cartesiano.

✓La recta reduce al mínimo la suma de los cuadrados de las


diferencias entre los valores estimados por (y’) y los valores
observados (y) de la variable dependiente. Llamada también recta
de los mínimos cuadrados.
Para estimar una recta de regresión debemos suponer que el Y’ no es conocido
En la recta Y’ = a1X + b1 es necesario calcular a1 y b1

Para esto debemos considerar la noción de co varianza entre X e Y la cual mide la tendencia de
X e Y a variar en su conjunto , es decir a co variar.

RECUERDE CLASES ANTERIORES:


Desviación estándar: promedio de desviación de las puntuaciones con respecto a la media que se expresa
en las unidades originales de medición de la distribución.

Varianza: Es la desviación estándar al cuadrado. Se utiliza para análisis inferenciales (para probar hipótesis
y estimar parámetros).

Co varianza = promedio de los productos menos promedios de los promedios. Presenta el grado de variación
conjunta entre 2 variables.
Si es positiva, tendríamos que esperar que a altos valores de una de las variables analizadas, exista una
tendencia a que podamos observar valores altos en la otra variable. Mismo si hay bajos en una podríamos
esperar lo mismo para la otra.
Si es negativa, sería inversa, a medida que los valores de una variable son altos, los de la otra variable deberían
ser bajos y viceversa.
Es posible utilizar la recta de regresión según las siguientes
condiciones:

• La nube de puntos muestra que los datos tienen tendencia


a agruparse en torno a una recta, es decir, la dispersión de
puntos en torno a la recta de regresión es débil.

• El valor del coeficiente de correlación lineal se aleja


suficientemente de cero.
• En la regresión buscamos una recta que se ajuste lo mejor posible
a nuestra nube de puntos. Es decir que minimiza la suma de las
mas cortas distancias de todos los puntos a la recta.

• Los residuos van a ser esa diferencia, es la distancia que se genera


entre el punto y la recta en cuestión que se ajusta. Mientras mas
pequeña es la suma de los cuadrados de los residuos, mejor es el
ajuste de la recta a la nube de puntos.

• El residuo nos entrega una idea del ajuste de la recta a la nube de


puntos. Gracias al estudio de los residuos podemos interpretar qué
está pasando.
Obtener recta Y’ = a1X + b1
Esto lo explicamos
anteriormente en la
Pendiente covarianza
de Y’ reforzando:
Ordenada (eje y) al origen
Si a1 es positivo, X e Y
tienden a variar en el
mismo sentido. Para trazar la recta sobre la nube de puntos dos
= covarianza (X,Y)/varianza de X puntos son necesarios:
Si a1 es negativo X e Y • Primer punto tiene coordenada X= mx, Y =my
tienden a variar en • Segundo punto tiene coordenada X =0, Y = b1
sentido inverso.
Obtener Recta X’ = a2X + b2
Si a1 es vecino de 0, X
Pendiente e Y no co varían.
de X’ (independencia de X
e Y).

Abscisa (eje x) al origen


Para trazar la recta sobre la nube:
= covarianza (X,Y)/varianza de Y • Primer punto X= mx, Y =my
• Segundo punto X =b2, Y = 0
Ejemplo de PIB por habitante y la importancia relativa en el sector terciario. Caso la EU,

• Se plantea la hipótesis que existe una relación estadística entre el % de empleo en el sector terciario y la
riqueza promedio de los habitantes, traduciéndose en el avance o retraso económico en 15 países de la EU.

• Se puede partir de la base, tanto que el sector terciario explica el PIB como el PIB explique el sector terciario.
y pib por
País x sector terciario habitante Para calcular las ecuaciones necesitamos:
Alemania 60,8 126
Austria 60,6 122
Belgica 69,1 112
Y: PIB X: Sector
Dinamarca 68,5 140 suma 1.503,00 970,70
España 60,5 65 promedio 100,20 64,71
Filandia 64,6 89 varianza 1.088,56 30,04
France 68,1 117 desvia estandar 32,99 5,48
Grecia 56,4 46
Irlanda 60,2 71 Covarianza 119,00 119,00
Italia 60,4 92
Luxemburgo 70,9 168
Holanda 72,8 108
Portugal 56,3 46
Reino Unido 70,5 87
Suecia 71 114
Obtener recta Y’ = a1X + b1
1ra recta:
Pendiente: a1 = covarianza/varianza x =119 / 30,04 = 3,96 Y: PIB X: Sector
suma 1.503,00 970,70
Pendiente: b1 = my-a1mx =100,20 - 3,96 x 64,71 = 156,01 promedio 100,20 64,71
varianza 1.088,56 30,04
Así ecuación : Y’ = 3,96X– 156,01 desvia estandar 32,99 5,48

Dibujo Covarianza 119,00 119,00


1er punto Y = my =100,02 la otra X = mx =64,71
2do punto X = 0 la otra Y = b1 = 156,01
150
Obtener Recta X’ = a2X + b2
2da recta:
130
Pendiente: a2 = covarianza/varianza y = 119 / 1088,56 = 0,11

Pendiente: b2 = mx-a2my =64,71 – 0,11 x 100,20 = 53,68 110

Así ecuación : X’ = 0,11Y – 53,68 90

Dibujo
70
1er punto Y = my = 100,02 la otra X = mx = 64,71
2do punto Y = 0 la otra X = b2 =53,68
50
55 57 59 61 63 65 67 69 71 73 75
Concluyendo:

• La regresión de Y e X supone que es el porcentaje de población activa en el sector terciario que, en la EU,
“explica” el PIB por habitante, es decir, el mas o menos fuerte ingreso promedio en los 15 países analizados.

• En la ecuación Y’ = a1X + b1, a1 se interpreta como el coeficiente promedio de proporcionalidad entre


valores de Y e X, Y como variable a estimar e X como variable conocida. Es decir cuando X aumente en una
unidad, Y aumenta en a1 unidad, bajo del valor constante b1. Así en le ejemplo: cuando el sector terciario X
aumenta 1 %, el PIB por habitante Y, aumenta un 3,96% bajo el valor constante -156,01.

ecuación : Y’ = 3,96X– 156,01


Residuos

Su cálculo es muy simple,: Paso 1: (3,96*60,80) =240,768

Para Alemania Paso 2: 240,768 - 156,01 = 84,758 Estimado


y pib por
País x sector terciario habitante Paso 3: 126 - 84,758 Real menos estimado
Alemania 60,8 126
Residual Alemania: 41,242
Serie cronológica
Definición:

• Una serie temporal es la sucesión de valores de una variable ordenada en el tiempo.

• Las unidades (individuos) estadísticos pueden tener una duración en un instante que varía
en el tiempo.

• Las variables temporales generalmente son cuantitativas continuas. Por ejemplo evolución
de precios en el consumo, tasa de desempleo, concentración de contaminación,
temperaturas diarias, etc.

Representación gráfica:

• Es uno de los elementos principales en las series de tiempo.

• Se presentan en un gráfico de 2 dimensiones. tiempo en eje “x” y valores en el eje “y”


además del paso de una curva que pasa por cada punto graficado. Fuente: Dumolard et al. 2003
Ejemplo concentraciones de Co2 entre 1974 y 1987
Co2
355

350

345

340

335

330

325

320

315

1981-1
1974-5
1974-10
1975-3
1975-8
1976-1
1976-6
1976-11
1977-4
1977-9
1978-2
1978-7
1978-12
1979-5
1979-10
1980-3
1980-8

1981-6
1981-11
1982-4
1982-9
1983-2
1983-7
1983-12
1984-5
1984-10
1985-3
1985-8
1986-1
1986-6
1986-11
1987-4
1987-9
Tendencia: ya sea al aumento o la disminución

Componentes de una Ciclos: pueden haber ciertos ciclos estacionarios


u otros en la serie
serie temporal
Aleatoriedad: puede existir una aleatoriedad en
la variación temporal de los datos analizados
Fuente: Dumolard et al. 2003
Estudio de la tendencia
Poner en evidencia la tendencia

• El gráfico va a rebelar si existe o no una tendencia en la serie temporal.

• Una serie temporal sin tendencia se podría indicar que es estacionaria. El


promedio y la varianza son idénticos a través del tiempo.

• Una serie no estacionaria, corresponde a la que manifiesta una tendencia


al aumento o disminución o si la varianza, de X, varía con el tiempo.

• Una serie temporal puede ser globalmente estacionaria pero presentar


fases sucesivas con tendencia. En ese caso se “corta” en varias series
temporales.
Fuente: Dumolard et al. 2003
Resumir la tendencia

Es posible resumir la tendencia, realizando una regresión. En este caso hay un linealidad por tanto no es
necesario transformar valores a escala logarítmica para regresión. Acá apreciamos claramente una tendencia al
aumento según año!!!!

Co2
355

350 Co2 = 0,121x + 329,33


R² = 0,8701
345

En 0,121 meses la
340
concentración de Co2 aumenta
335 en una unidad bajo el valor
329,33
330

325

320

315

1987-9
1974-5
1974-9
1975-1
1975-5
1975-9
1976-1
1976-5
1976-9
1977-1
1977-5
1977-9
1978-1
1978-5
1978-9
1979-1
1979-5
1979-9
1980-1
1980-5
1980-9
1981-1
1981-5
1981-9
1982-1
1982-5
1982-9
1983-1
1983-5
1983-9
1984-1
1984-5
1984-9
1985-1
1985-5
1985-9
1986-1
1986-5
1986-9
1987-1
1987-5
Fuente: Dumolard et al. 2003
Borrar la tendencia

Valores residuales nos permite estudiar variaciones cíclicas y aleatorias es decir lo que sucedía por ejemplo en el interior de un
año

mes

-Borrada la tendencia, se aprecia que hay un ciclo estacionario, con algunos valores máximos en cada año
(considerar que está por mes valores obtenidos).

-Podríamos según los meses del año, analizar en qué fecha se producen tales diferencias.

Fuente: Dumolard et al. 2003

También podría gustarte