Está en la página 1de 63

Correlación y Regresión Lineal

Mauricio Grotz

1
Temas

• Correlación
– Bivariada
– Análisis gráfico
– Fórmula (r-Pearson)
– Interpretación
• Regresión
– Lineal simple

2
3
Relación entre variables

¿Para qué sirve? Testear teorías, revelar


patrones
Las relaciones estadísticas se producen
cuando dos o más variables tienen a variar en
forma conjunta
Relaciones bivariadas (por ahora) entre
•Dos variables intervalares (correlación, gráfico dispersión)

4
Correlación vs Causalidad

X Y

monocausal
5
Relación entre variables

• Fuerza y dirección
– Variación conjunta de las variables

• Predicción
– Conocimiento de la relación entre variables
– Dado un cierto valor de X→posible valor de Y

6
Correlación

• Positiva: cuando aumentan los valores


una variable X, los valores de la variable Y
también aumentan

• Negativa: cuando aumentan los valores de


una variable X, disminuyen los de la
variable Y

7
Gráfico de dispersión
• Permite ver de manera simultánea los
valores de dos variables para cada unidad
de análisis
• Ejes (unidades de medida de cada
variable
– VD→eje ordenadas (Y)
– VI→eje abscisas (X)

8
9
10
https://elpais.com/internacional/2018/10/23/actualidad/1540291997_116759.html
11
12
Asociación lineal
• Gráfico de dispersión
– Patrón de la relación entre las variables
– Fuerza y dirección
• Asociación lineal
– El patrón de la relación puede describirse a
través de una línea recta
– Existen distintas formas

13
Asociación lineal: Dirección

14
Asociación lineal: Fuerza

15
16
17
Otros tipos de asociación

18
Asociación: resumen

• Positiva/Negativa
• Fuerte/Débil
• Lineal
• No lineal
• Inexistente

19
Correlación

• Mide la fuerza de la relación lineal entre


dos variables

– Lineal: los puntos, en un gráfico de


dispersión, tienden a estar en una línea recta
– Fuerza→posibilidad de predecir los valores
de una variable conociendo los valores de
otra variables

20
Correlación simple

• r-Pearson: coeficiente que indica la


dirección y fuerza de la asociación lineal
entre dos variables intervalares.

• Notación: “r” y toma valores entre -1 y 1


– r=1 →relación lineal perfecta y positiva
– r=-1 →relación lineal perfecta y negativa
– r=0 → no hay relación lineal (o es débil)
21
Fórmula
• “r” es un coeficiente (no tiene unidad de
medida)
• Fórmula: para n pares de valores de las
variables X e Y:

1 n
( xi − x ) ( yi − y )
r= 
n − 1 i =1 s x sy
22
Ejemplo

23
Interpretación
Interpretación: r2
• r2:Coeficiente de determinación
– Indica el porcentaje de variación (estadística)
de una variable atribuible a la variación de
otra variable
– Medida simétrica (independiente de cuál sea
conceptualmenta la VD ó la VI)

25
Significancia estadística
• Relación en la muestra vs relación en la
población (estadística inferencial)
• Hipótesis nula: r=0 (no hay asociación)
• Grados de libertad: n-2
• Nivel de significancia
• Conclusión
– p-valor<nivel de significancia→Rechazo H0

26
Significancia estadística

27
Correlación
• Siempre graficar los datos
• La relación entre las variables puede ser no-lineal
• Alta correlación no siempre significa relación lineal
perfecta
• Baja correlación no siempre implica que no hay
correlación
• Sensible a outliers

28
29
30
Análisis de regresión
• Correlación→unidades estandarizadas
• Regresión→volvemos a unidades de
medida original
– Objetivo: predecir valores de la variable
dependiente en base a los valores de otra
variables
– Respuesta a la pregunta ¿cuánto varía?
• Regresión lineal
– Línea que representa el patrón de asociación
– Línea de regresión→mejor ajuste
31
Regresión (Mínimos Cuadrados)
• Análisis de Regresión
– Estudio de los datos con el objetivo de detectar
como una (o más) variable(s) idependiente(s)
(predictores, regesores) están asociadas (y tal
vez “determinan”) con los valores de otra variable
(dependiente, respuesta)

• Regresión Lineal: es la más común (pero existen


otros tipos)
– Mecánica (simple)
– Interpretación (muy importante, más difícil)

32
Estimación Mínimos Cuadrados
Ordinarios (MCO)

33
34
Regresión Lineal
• Supuestos :
- Hay una relación lineal entre las variables (X e
Y)
- Y (continua), X (continua ó dicotómica)
- Relación aditiva

• Con la regresión se busca estimar cuánto cambia Y


cuando X cambia en una unidad:
–Idea clara de lo que se trata de estimar
–Teoría subyacente

35
Recta de regresión:
minimiza las distancias
al cuadrado Distancia
(mínimos cuadrados) Vertical entre
el cada punto
y la recta

36
Cálculos
• Recta: y = a + b (x)

a : constante (intercepto)→ a = y − b(x )


promedios

sy
b: pendiente→ b=r Desvíos estándar
sx (son siempre
positivos)

Determina
37
el signo
Modelo de Predicción
• Utilizando la recta de regresión puedo predecir
los valores de Y conociendo los valores de X:

–Valor predicho: yˆ = a + b( x)
–Residuo (error) e = y − yˆ
Es la distancia entre el valor observado de la variable
Y, y la recta de regresión. Error de predicción (lo que
no explica el modelo)

38
39
Error estándar de la recta
• Indica en qué medida los valores
predichos de la VD se alejan de los
valores reales de la VD

2
σ(𝑦 − 𝑦)

𝑠𝑒 =
𝑛−2

40
41
Modelo de Predicción
Supuestos:
1. Variable independiente: intervalar o
dicotómica
2. Variable dependiente: intervalar continua
3. Las variables no tienen error de medición
4. Efecto de la VI sobre la VD es lineal
5. El error no está correlacionado con la
variable independiente
42
43
Ejemplo

Con la regresión se busca estimar cuánto cambia Y


cuando X cambia en una unidad.
–Idea clara de lo que se trata de estimar
–Teoría subyacente

44
Regresión simple
¿El gasto público de un país depende
la fragmentación del sistema de
partidos?

VD: gasto público


VI: fragmentación

45
Preguntas
• ¿Cómo se relacionan las variables?
– Correlación
– Interpretación de la constante y la pendiente
• ¿Cuál sería el valor esperado de Y si X
fuera x? (predicción)
• ¿Qué tan seguros estamos de la
estimación? (bondad de ajuste, tests,
supuestos)

46
sc imf_exp gol_enep|| lfit imf_exp gol_enep
100
80
60
40
20

0 5 10 15
Effective Number of Electoral Parties

Government expenditure (Percent of GDP) Fitted values

47
Regresión simple
regress imf_exp gol_enep

Source | SS df MS Number of obs = 116


-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902

------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------

48
Regresión simple
regress imf_exp gol_enep
Intercepto: ¿cuál sería el % de gasto público en términos
del PIB, si el número efectivo de partidos es cero?
Source | SS df MS Number of obs = 116
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902

------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------

49
Regresión simple
Significancia estadística de la pendiente:
¿Hay relación estadísticamente significativa entre la VD y
la VI?

Source | SS df MS Number of obs = 116


-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902

------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------

50
Regresión simple
Pendiente: por cada unidad de incremento en el número
efectivo de partidos ¿qué pasa con el % de gasto
público/pib?
(!) ESPECIFICAR UNIDADES
Source | SS df MS Number of obs = 116
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902

------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------

51
¿Qué tan bueno es el Ajuste?
• R2: Medida de bondad de ajuste (calidad
global de la regresión)

• Qué porcentaje de la variación de VD


es explicada (o predicha), en sentido
estadístico, por la VI.

52
Bondad de Ajuste
Y X

53
Bondad de Ajuste
Y X

54
Bondad de Ajuste

Y=X

55
¿Qué tan bueno es el Ajuste?

varianza de los residuos (e)


r = 1−
2

varianza de los valores observados (y)

Numerador: variabilidad no explicada


Denominador: variabilidad total

56
57
Regresión simple

Coeficiente de determinación (r2)


¿Qué porcentaje de la variación de VD es explicada
(en sentido estadístico) por la VI?

58
Validación Modelo
1. Linealidad (gráfico de dispersión)
2. Normalidad de los residuos (histograma)
3. Heteroscedasticidad (residuos vs Y, X)
4. Multicolinealidad (signos, coeficientes)

59
Examinar los Residuos

60
Resumen
1. Mirar la correlación no es suficiente.
2. La regresión lineal ayuda a mostrar la tendencia
en la asociación entre X e Y.
3. Puede usarse para predicción.
4. Cuidado con las predicciones fuera del rango de
los datos.
5. La regresión simple puede calcularse a partir de
estadísticas descriptivas.
6. Siempre graficar los datos.
7. Correlación no implica causalidad. 61
62
63

También podría gustarte