5-Eytc-Correlación y Regresión-V4 PDF

Correlación y Regresión Lineal
Mauricio Grotz
1
Temas
• Correlación
– Bivariada
– Análisis gráfico
– Fórmula (r-Pearson)
– Interpretación
• Regresión
– Lineal simple
2
3
Relación entre variables
¿Para qué sirve? Testear teorías, revelar

patrones
Las relaciones estadísticas se producen
cuando dos o más variables tienen a variar en
forma conjunta
Relaciones bivariadas (por ahora) entre
•Dos variables intervalares (correlación, gráfico dispersión)
4
Correlación vs Causalidad
X Y
monocausal
5
Relación entre variables
• Fuerza y dirección
– Variación conjunta de las variables
• Predicción
– Conocimiento de la relación entre variables
– Dado un cierto valor de X→posible valor de Y
6
Correlación
• Positiva: cuando aumentan los valores

una variable X, los valores de la variable Y
también aumentan
• Negativa: cuando aumentan los valores de

una variable X, disminuyen los de la
variable Y
7
Gráfico de dispersión
• Permite ver de manera simultánea los
valores de dos variables para cada unidad
de análisis
• Ejes (unidades de medida de cada
variable
– VD→eje ordenadas (Y)
– VI→eje abscisas (X)
8
9
10
https://elpais.com/internacional/2018/10/23/actualidad/1540291997_116759.html
11
12
Asociación lineal
• Gráfico de dispersión
– Patrón de la relación entre las variables
– Fuerza y dirección
• Asociación lineal
– El patrón de la relación puede describirse a
través de una línea recta
– Existen distintas formas
13
Asociación lineal: Dirección
14
Asociación lineal: Fuerza
15
16
17
Otros tipos de asociación
18
Asociación: resumen
• Positiva/Negativa
• Fuerte/Débil
• Lineal
• No lineal
• Inexistente
19
Correlación
• Mide la fuerza de la relación lineal entre

dos variables
– Lineal: los puntos, en un gráfico de

dispersión, tienden a estar en una línea recta
– Fuerza→posibilidad de predecir los valores
de una variable conociendo los valores de
otra variables
20
Correlación simple
• r-Pearson: coeficiente que indica la

dirección y fuerza de la asociación lineal
entre dos variables intervalares.
• Notación: “r” y toma valores entre -1 y 1

– r=1 →relación lineal perfecta y positiva
– r=-1 →relación lineal perfecta y negativa
– r=0 → no hay relación lineal (o es débil)
21
Fórmula
• “r” es un coeficiente (no tiene unidad de
medida)
• Fórmula: para n pares de valores de las
variables X e Y:
1 n
( xi − x ) ( yi − y )
r= 
n − 1 i =1 s x sy
22
Ejemplo
23
Interpretación
Interpretación: r2
• r2:Coeficiente de determinación
– Indica el porcentaje de variación (estadística)
de una variable atribuible a la variación de
otra variable
– Medida simétrica (independiente de cuál sea
conceptualmenta la VD ó la VI)
25
Significancia estadística
• Relación en la muestra vs relación en la
población (estadística inferencial)
• Hipótesis nula: r=0 (no hay asociación)
• Grados de libertad: n-2
• Nivel de significancia
• Conclusión
– p-valor<nivel de significancia→Rechazo H0
26
Significancia estadística
27
Correlación
• Siempre graficar los datos
• La relación entre las variables puede ser no-lineal
• Alta correlación no siempre significa relación lineal
perfecta
• Baja correlación no siempre implica que no hay
correlación
• Sensible a outliers
28
29
30
Análisis de regresión
• Correlación→unidades estandarizadas
• Regresión→volvemos a unidades de
medida original
– Objetivo: predecir valores de la variable
dependiente en base a los valores de otra
variables
– Respuesta a la pregunta ¿cuánto varía?
• Regresión lineal
– Línea que representa el patrón de asociación
– Línea de regresión→mejor ajuste
31
Regresión (Mínimos Cuadrados)
• Análisis de Regresión
– Estudio de los datos con el objetivo de detectar
como una (o más) variable(s) idependiente(s)
(predictores, regesores) están asociadas (y tal
vez “determinan”) con los valores de otra variable
(dependiente, respuesta)
• Regresión Lineal: es la más común (pero existen

otros tipos)
– Mecánica (simple)
– Interpretación (muy importante, más difícil)
32
Estimación Mínimos Cuadrados
Ordinarios (MCO)
33
34
Regresión Lineal
• Supuestos :
- Hay una relación lineal entre las variables (X e
Y)
- Y (continua), X (continua ó dicotómica)
- Relación aditiva
• Con la regresión se busca estimar cuánto cambia Y

cuando X cambia en una unidad:
–Idea clara de lo que se trata de estimar
–Teoría subyacente
35
Recta de regresión:
minimiza las distancias
al cuadrado Distancia
(mínimos cuadrados) Vertical entre
el cada punto
y la recta
36
Cálculos
• Recta: y = a + b (x)
a : constante (intercepto)→ a = y − b(x )

promedios
sy
b: pendiente→ b=r Desvíos estándar
sx (son siempre
positivos)
Determina
37
el signo
Modelo de Predicción
• Utilizando la recta de regresión puedo predecir
los valores de Y conociendo los valores de X:
–Valor predicho: yˆ = a + b( x)
–Residuo (error) e = y − yˆ
Es la distancia entre el valor observado de la variable
Y, y la recta de regresión. Error de predicción (lo que
no explica el modelo)
38
39
Error estándar de la recta
• Indica en qué medida los valores
predichos de la VD se alejan de los
valores reales de la VD
2
σ(𝑦 − 𝑦)
ො
𝑠𝑒 =
𝑛−2
40
41
Modelo de Predicción
Supuestos:
1. Variable independiente: intervalar o
dicotómica
2. Variable dependiente: intervalar continua
3. Las variables no tienen error de medición
4. Efecto de la VI sobre la VD es lineal
5. El error no está correlacionado con la
variable independiente
42
43
Ejemplo
Con la regresión se busca estimar cuánto cambia Y

cuando X cambia en una unidad.
–Idea clara de lo que se trata de estimar
–Teoría subyacente
44
Regresión simple
¿El gasto público de un país depende
la fragmentación del sistema de
partidos?
VD: gasto público

VI: fragmentación
45
Preguntas
• ¿Cómo se relacionan las variables?
– Correlación
– Interpretación de la constante y la pendiente
• ¿Cuál sería el valor esperado de Y si X
fuera x? (predicción)
• ¿Qué tan seguros estamos de la
estimación? (bondad de ajuste, tests,
supuestos)
46
sc imf_exp gol_enep|| lfit imf_exp gol_enep
100
80
60
40
20
0 5 10 15
Effective Number of Electoral Parties
Government expenditure (Percent of GDP) Fitted values
47
Regresión simple
regress imf_exp gol_enep
Source | SS df MS Number of obs = 116

-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
Residual | 13548.8584 114 118.849635 R-squared = 0.0302
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
imf_exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
48
Regresión simple
regress imf_exp gol_enep
Intercepto: ¿cuál sería el % de gasto público en términos
del PIB, si el número efectivo de partidos es cero?
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
49
Regresión simple
Significancia estadística de la pendiente:
¿Hay relación estadísticamente significativa entre la VD y
la VI?

-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
50
Regresión simple
Pendiente: por cada unidad de incremento en el número
efectivo de partidos ¿qué pasa con el % de gasto
público/pib?
(!) ESPECIFICAR UNIDADES
-------------+---------------------------------- F(1, 114) = 3.55
Model | 421.662102 1 421.662102 Prob > F = 0.0622
-------------+---------------------------------- Adj R-squared = 0.0217
Total | 13970.5205 115 121.482787 Root MSE = 10.902
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
gol_enep | .8335792 .4425512 1.88 0.062 -.0431113 1.71027
_cons | 29.52902 2.113491 13.97 0.000 25.34221 33.71583
------------------------------------------------------------------------------
51
¿Qué tan bueno es el Ajuste?
• R2: Medida de bondad de ajuste (calidad
global de la regresión)
• Qué porcentaje de la variación de VD

es explicada (o predicha), en sentido
estadístico, por la VI.
52
Bondad de Ajuste
Y X
53
Bondad de Ajuste
Y X
54
Bondad de Ajuste
Y=X
55
¿Qué tan bueno es el Ajuste?
varianza de los residuos (e)

r = 1−
2
varianza de los valores observados (y)
Numerador: variabilidad no explicada

Denominador: variabilidad total
56
57
Regresión simple
Coeficiente de determinación (r2)

¿Qué porcentaje de la variación de VD es explicada
(en sentido estadístico) por la VI?
58
Validación Modelo
1. Linealidad (gráfico de dispersión)
2. Normalidad de los residuos (histograma)
3. Heteroscedasticidad (residuos vs Y, X)
4. Multicolinealidad (signos, coeficientes)
59
Examinar los Residuos
60
Resumen
1. Mirar la correlación no es suficiente.
2. La regresión lineal ayuda a mostrar la tendencia
en la asociación entre X e Y.
3. Puede usarse para predicción.
4. Cuidado con las predicciones fuera del rango de
los datos.
5. La regresión simple puede calcularse a partir de
estadísticas descriptivas.
6. Siempre graficar los datos.
7. Correlación no implica causalidad. 61
62
63

5-Eytc-Correlación y Regresión-V4 PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

5-Eytc-Correlación y Regresión-V4 PDF

Cargado por

Copyright:

Formatos disponibles

Correlación y Regresión Lineal

¿Para qué sirve? Testear teorías, revelar

• Positiva: cuando aumentan los valores

• Negativa: cuando aumentan los valores de

• Mide la fuerza de la relación lineal entre

– Lineal: los puntos, en un gráfico de

• r-Pearson: coeficiente que indica la

• Notación: “r” y toma valores entre -1 y 1

• Regresión Lineal: es la más común (pero existen

• Con la regresión se busca estimar cuánto cambia Y

a : constante (intercepto)→ a = y − b(x )

Con la regresión se busca estimar cuánto cambia Y

VD: gasto público

Government expenditure (Percent of GDP) Fitted values

Source | SS df MS Number of obs = 116

Source | SS df MS Number of obs = 116

• Qué porcentaje de la variación de VD

varianza de los residuos (e)

varianza de los valores observados (y)

Numerador: variabilidad no explicada

Coeficiente de determinación (r2)

También podría gustarte