Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema 2 Modelo de Regresion Simple
Tema 2 Modelo de Regresion Simple
1 Esperanza condicional
2 Modelo de regresión simple
3 Interpretación
4 Estimación
5 Supuestos de MCO
6 Distribución muestral de MCO
7 Homoscedasticidad
8 Contraste de hipótesis
9 Intervalo de confianza
Referencias: Cap. 4 y 5 de Stock and Watson, y cap. 2 de Angrist and
Pischke.
Perticara (MPP-UDP) Introducción y Repaso de Estadística 26 de agosto de 2022 1 / 54
Esperanza condicional
Esperanza condicional
La esperanza condicional E(y|x = u) es la esperanza de una
variable y en “grupos” definidos por otra variable x.
Ejemplos:
Tamaño de clase y notas
E(testscr|str = k) donde testscr es la nota en un examen
estandarizado y str es el ratio estudiantes-profesor.
Retornos de la educación
E(lwage|educ = k) donde lwage es log de salarios y educ son los
a–os de educación completados.
Discriminación racial en el mercado laboral
E(call_back|black = 1) y E(call_back|black = 0) donde call_back es
igual a 1 si el aspirante ha sido llamado para una entrevista y black
es igual a 1 para nombre asociados a personas de raza negra.
Esperanza condicional
La esperanza condicional E(y|x = u) es la esperanza de una
variable y en “grupos” definidos por otra variable x.
En forma matem‡tica,
X
E(y|x = u) = t Pr(y = t|x = u),
t
Esperanza condicional
Por cada valor que puede asumir x, podemos calcular una media
poblacional distinta para y. La colección de dichas medias como
función de x se denomina la función de esperanza condicional
E(y|x).
Ejemplo
Discriminación racial en el mercado laboral: podemos escribir la
función de esperanza condicional como
E(call_back|black)
= E(call_back|black = 0)
+ [E(call_back|black = 1) − E(call_back|black = 0)] × black
An important complement to the CEF is the law of iterated expectations. This law says that an
Perticara (MPP-UDP) Introducción y Repaso de Estadística 26 de agosto de 2022 5 / 54
Esperanza condicional
Covarianza
El modelo de regresión se relaciona con el concepto de
covarianza.
La covarianza entre y y x se define como
Notación:
yi es la variable dependiente,
xi es la variable explicativa, regresor o variable independiente,
β0 es el intercepto,
β1 es la pendiente,
ui es el error de la regresión (inobservado).
mı́n E[(yi − b0 − b1 xi )2 ]
b0 ,b1
β0 = E(yi ) − β1 E(xi ),
Cov(xi , yi )
β1 = .
Var(xi )
7.2
6.8
Log weekly earnings, $2003
6.6
6.4
6.2
5.8
0 2 4 6 8 10 12 14 16 18 20+
Years of completed education
Sample is limited to white men, age 40-49. Data is from Census IPUMS 1980, 5% sample.
Interpretación
E(yi |xi ) = β0 + β1 xi .
testscri = β0 + β1 stri + ui .
Interpretación
β0 = E(testscr|str = 0): No tiene interpretación relevante.
β1 = ∆ E(testscr|str)
∆str
Si el ratio estudiantes-profesor se incrementa en una unidad, la
nota se incrementa en promedio en β1 puntos.
wagei = β0 + β1 educi + ui .
Interpretación
β0 = E(wage|educ = 0): No tiene interpretación relevante.
β1 = ∆ E(wage|educ)
∆educ
Si el nivel educativo se incrementa en un año, el salario se
incrementa en promedio en β1 dólares al año.
Noten que como tengo un modelo lineal, si quiero saber cuánto
aumenta el salario cuando la educación cambia en 5 años, el
efecto será 5 ∗ β1 dólares al año.
call_backi = β0 + β1 blacki + ui .
Interpretación
β0 = E(call_back|black = 0) = Pr(call_back = 1|black = 0):
Probabilidad que una persona de raza blanca reciba una llamada
para una entrevista laboral.
Estamos utilizando que call_back es una variable Bernoulli igual 1
si la persona recibe una llamada del empleador, tenemos que
E(call_back|black = 0)
= 1 × Pr(call_back = 1|black = 0) + 0 × Pr(call_back = 0|black = 0)
= Pr(call_back = 1|black = 1).
call_backi = β0 + β1 blacki + ui .
Interpretación
β0 = E(call_back|black = 0): Probabilidad que una persona de raza
blanca reciba una llamada para una entrevista laboral.
β1 = E(call_back|black = 1) − E(call_back|black = 0) =
Pr(call_back = 1|black = 1) − Pr(call_back = 1|black = 0).
La diferencia en la probabilidad de recibir una llamada para una
entrevista laboral para una persona de raza negra y una persona
de raza blanca es de β1 ó β1 × 100 puntos porcentuales.
Estimación
β0 = E(yi ) − β1 E(xi ),
Cov(xi , yi )
β1 = .
Var(xi )
Call:
lm(formula = testscr ~ str)
Residuals:
Min 1Q Median 3Q Max
-47.727 -14.251 0.483 12.822 48.540
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 698.9330 9.4675 73.825 < 2e-16 ***
str -2.2798 0.4798 -4.751 2.78e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Interpretación
Retornos de la educación
Histograma de nivel educativo
Retornos de la educación
Gráfico de dispersión de log de salarios y nivel educativo
Retornos de la educación
> olsreg <- lm(wage ~ educ)
> summary(olsreg)
Call:
lm(formula = wage ~ educ)
Residuals:
Min 1Q Median 3Q Max
-149314 -39585 -10449 16588 304245
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -125008.9 6991.7 -17.88 <2e-16 ***
educ 13716.1 511.8 26.80 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Interpretación
Perticara (MPP-UDP) Introducción y Repaso de Estadística 26 de agosto de 2022 30 / 54
Estimación
Call:
lm(formula = call_back ~ black)
Residuals:
Min 1Q Median 3Q Max
-0.09651 -0.09651 -0.06448 -0.06448 0.93552
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.096509 0.005505 17.532 < 2e-16 ***
black -0.032033 0.007785 -4.115 3.94e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Interpretación
Perticara (MPP-UDP) Introducción y Repaso de Estadística 26 de agosto de 2022 31 / 54
Estimación
Medidas de ajuste: R2
Las medidas de ajuste buscan medir en que medida la regresión
lineal describe correctamente lo datos.
El R2 mide la proporción de la varianza muestral de yi explicada
por xi . El R2 se encuentra entre 0 y 1.
Definamos la predicción de yi como ŷi = β̂0 + β̂1 xi .
Definamos la predicción de ui como ûi = yi − ŷi
El R2 se define como
1 PN
(ŷi − ŷ¯i )2 1 PN 2
i=1 ûi
R = 1 Pi=1
2 N
N =1− 1
N
PN
(y − )2 − ȳi )2
N i=1 i ȳ i N i=1 (yi
Supuestos de MCO
yi = β0 + β1 xi + ui
Homoscedasticidad
Homoscedasticidad: La varianza de los inobservados no cambia
con las xi , Var(ui |xi ) = Var(ui ).
Una interpretación equivalente: La varianza de la variable
dependiente no cambia con las xi , Var(yi |xi ) = Var(yi ).
En la práctica es difícil que se cumpla
Bajo homoscedasticidad la varianza del estimador es
2
Var(β̂1 ) = N1 σσu2 .
x
Homoscedasticidad
Heteroscedasticidad
Call:
lm(formula = wage ~ educ)
Residuals:
Min 1Q Median 3Q Max
-149314 -39585 -10449 16588 304245
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -125008.9 6991.7 -17.88 <2e-16 ***
educ 13716.1 511.8 26.80 <2e-16 ***
t test of coefficients:
Contraste de hipótesis
Hipótesis nula: β1 = β1,0
β1,0 es un valor para β1 , el caso de mayor interés es cuando
β1,0 = 0.
Hipótesis alternativa: β1 ̸= β1,0
Estadístico t: En general,
β̂1 − β1,0
t= ∼ Normal(0, 1) bajo H0 ,
se(β̂1 )
q
donde se(β̂1 ) = Var(
d β̂1 ).
Contraste de hipótesis
Hipótesis nula: β1 = β1,0
β1,0 es un valor para β1 , el caso de mayor interés es cuando
β1,0 = 0.
Hipótesis alternativa: β1 ̸= β1,0
Estadístico t:
β̂1 − β1,0
t= ∼ Normal(0, 1) bajo H0 .
se(β̂1 )
t test of coefficients:
Intervalo de confianza
Utilizando el resultado de la distribución de t para muestras
grandes
β̂1 − β1
t= ∼ Normal(0, 1),
se(β̂1 )
obtenemos un intervalo de confianza para β1
Pr(−1,96 ≤ t ≤ 1,96) = 0,95
β̂1 − β1
⇐⇒ Pr(−1,96 ≤ ≤ 1,96) = 0,95
se(β̂1 )
⇐⇒ Pr(−1,96 × se(β̂1 ) ≤ β̂1 − β1 ≤ 1,96 × se(β̂1 )) = 0,95
⇐⇒ Pr(−β̂1 − 1,96 × se(β̂1 ) ≤ −β1 ≤ −β̂1 + 1,96 × se(β̂1 )) = 0,95
⇐⇒ Pr(β̂1 + 1,96 × se(β̂1 ) ≥ β1 ≥ β̂1 − 1,96 × se(β̂1 )) = 0,95
⇐⇒ Pr(β̂1 − 1,96 × se(β̂1 ) ≤ β1 ≤ β̂1 + 1,96 × se(β̂1 )) = 0,95
Perticara (MPP-UDP) Introducción y Repaso de Estadística 26 de agosto de 2022 48 / 54
Intervalo de confianza
Intervalo de confianza
Intepretación: el intervalo