Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión simple
Gabriel V. Montes-Rojas
Regresión simple
yi = β 0 + β 1 xi + ui , i = 1, 2, ..., n
Elementos básicos:
1 Muestra/datos {yi , xi }ni=1 .
2 Modelo lineal y = β 0 + β 1 x
y variable dependiente, lo que queremos explicar.
x variable independiente/de control/explicativa, cómo la vamos a explicar.
β 0 intercepto, valor de y cuando x = 0
β 1 = ∆y
∆x pendiente, cuánto se incrementa y al incrementarse x por 1
unidad.
3 u error o residuo, aquello que no podemos observar pero que afecta y .
Regresión simple
Democracia y crecimiento.
Datos de n paı́ses.
y variable dependiente, PBI per capita.
x variable independiente, ı́ndice de democracia.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
Regresión simple
Educación y salarios.
Datos de n individuos.
y variable dependiente, salario.
x variable independiente, años de educación.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
Regresión simple
Una forma de ver los modelos de regresión es la siguiente. Notemos que
cov (y , x )
β1 = ,
var (x )
bajo el supuesto de que cov (x, u ) = 0, o sea que la variable explicativa no tiene
relación con los errores.
La prueba es sencilla:
cov (x, u )
= β1 + = β1
var (x )
(porque cov (x, x ) = var (x ) y cov (u, x ) = 0) esto significa que β 1 mide cuanto
y se relaciona (covarı́a) con x, estandarizado por la varianza de x.
De la primera ecuación
ȳ = β̂ 0 + β̂ 1 x̄ (demostrar )
β̂ 0 = ȳ − β̂ 1 x̄.
De la segunda ecuación
n
∑ xi [yi − (ȳ − β̂1 x̄ ) − β̂1 xi ] = 0
i =1
n n
⇒ ∑ xi (yi − ȳ ) = β̂1 ∑ xi (xi − x̄ )
i =1 i =1
Finalmente,
n n n
∑ ai (bi − b̄ ) = ∑ bi (ai − ā) = ∑ (ai − ā)(bi − b̄ )
i =1 i =1 i =1
(¡demostrar!)
Resumiendo:
Teorema de Gauss-Markov
Teorema de Gauss-Markov
Insesgadez
Insesgadez
Para simplificar la notación escribimos E (.) en vez de E (.|x ), o sea que las esperanzas
incondicionales son en realidad esperanzas condicionales.
n n
∑i =1 (xi − x̄ )(yi − ȳ ) ∑i =1 (xi − x̄ )(yi )
E [ β̂ 1 ] = E = E
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
por la propiedad ∑ni=1 (xi − x̄ )(yi − ȳ ) = ∑ni=1 (xi − x̄ )yi .
n
∑i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
... = E
∑ni=1 (xi − x̄ )2
by Supuesto 1: Lineal en los parámetros y se relaciona con x a través de una función
lineal. O sea, y = β 0 + β 1 x + u.
Insesgadez
∑ni=1 (xi − x̄ )( β 0 + β 1 xi + 0)
... =
∑ni=1 (xi − x̄ )2
Luego de algo de álgebra...
∑ni=1 (xi − x̄ ) β 0 ∑n (x − x̄ ) β 1 xi ∑n (x − x̄ )2
... = n + i =n1 i = 0 + β 1 ni =1 i = β1
∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ )2
Sesgo
β̂ 0 = ȳ − β̂ 1 x̄
Usando esperanzas en los dos lados,
E [ β̂ 0 ] = E [ȳ ] − E [ β̂ 1 x̄ ]
Sabemos que E [ȳ ] = E [ β 0 + β − 1x̄ + ū ] = β 0 + β 1 x̄ + E [ū ] = β 0 + β 1 x̄ y que
E [ β̂ 1 x̄ ] = E [ β̂ 1 ]x̄ = β 1 x̄. Ası́ obtenemos,
E [ β̂ 0 ] = β 0 .
Predicción
σ2
Var ( β̂ 1 |x ) =
∑ni=1 (xi − x̄ )2
Prueba...
σ2
Var ( β̂ 1 |x ) =
∑ni=1 (xi − x̄ )2
Prueba: (para simplificar la notación var (.) corresponde a var (.|x ))
n n
∑i =1 (xi − x̄ )yi ∑i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var n = Var n
∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2
n n n
∑i =1 (xi − x̄ ) β 0 ∑i =1 (xi − x̄ ) β 1 xi ∑i =1 (xi − x̄ )ui
= Var n + Var n + Var n
∑i =1 (xi − x̄ )2 ∑i =1 (xi − x̄ )2 ∑i =1 (xi − x̄ )2
Var [∑ni=1 (xi − x̄ )ui ] ∑ni=1 (xi − x̄ )2 Var [ui ]
= =
(∑ni=1 (xi − x̄ )2 )2 (∑ni=1 (xi − x̄ )2 )2
∑ni=1 (xi − x̄ )2 σ2 σ2
= = n
(∑ni=1 (xi − x̄ )2 )2 ∑i =1 (xi − x̄ )2
Usamos
Supuesto 1: Modelo lineal en los parámetros y se relaciona
con x por una función lineal.
O sea, y = β 0 + β 1 x + u.
σ2
Var ( β̂ 1 ) =
∑ni=1 (xi − x̄ )2
Prueba:
∑ni=1 (xi − x̄ )yi ∑ni=1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
∑ni=1 (xi − x̄ ) β 0
n n
∑i =1 (xi − x̄ ) β 1 xi ∑i =1 (xi − x̄ )ui
= Var + Var + Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
Usamos
Propiedad de la varianza: Var [aX + bY ] =
a2 × Var [X ] + b 2 × Var [Y ] + 2ab × Cov [X , Y ], donde
Cov [X , Y ] = E [XY ] − E [X ]E [Y ]
Propiedad de la covarianza: Cov [a, Y ] = 0, donde a es una
constante y Y una variable aleatoria (también Cov [a, b ] = 0,
donde tanto a como b son constantes...)
σ2
Var ( β̂ 1 ) =
∑ni=1 (xi − x̄ )2
Prueba:
∑ni=1 (xi − x̄ )yi ∑ni=1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
∑ni=1 (xi − x̄ ) β 0
n n
∑i =1 (xi − x̄ ) β 1 xi ∑i =1 (xi − x̄ )ui
= Var + Var + Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
Usamos
Propiedad de la varianza: Var [a] = 0 donde a es una
constante.
Las X’s son consideradas como constantes.
σ2
Var ( β̂ 1 ) =
∑ni=1 (xi − x̄ )2
Prueba:
∑ni=1 (xi − x̄ )yi ∑ni=1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
∑ni=1 (xi − x̄ ) β 0
n n
∑i =1 (xi − x̄ ) β 1 xi ∑i =1 (xi − x̄ )ui
= Var + Var + Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
Usamos
Supuesto 2: Muestreo aleatorio {(yi , xi )}ni=1 es una muestra
aleatoria del modelo dado en el Supuesto 1.
Hacemos Var [∑ni=1 ui ] = ∑ni=1 Var [ui ] + ∑ni=1 ∑nj=1,j 6=i Cov [ui , uj ].
Pero, por la propiedad de muestreo aleatorio Cov [ui , uj ] = 0, i 6= j
Entonces, Var [∑ni=1 ui ] = ∑ni=1 Var [ui ].
σ2
Var ( β̂ 1 ) =
∑ni=1 (xi − x̄ )2
Prueba:
∑ni=1 (xi − x̄ )yi ∑ni=1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
∑ni=1 (xi − x̄ ) β 0
n n
∑i =1 (xi − x̄ ) β 1 xi ∑i =1 (xi − x̄ )ui
= Var + Var + Var
∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2 ∑ni=1 (xi − x̄ )2
Usamos
Supuesto 5: Homoscedasticidad Var (u |x ) = σ2
donde Var [ui ] = Var [ui |x ] = σ2 for all i = 1, 2, ..., n
Inferencia
β̂ 0 ∼ N ( β 0 , Var [ β̂ 0 ])
β̂ 1 ∼ N ( β 1 , Var [ β̂ 1 ])
Entonces,
( β̂ 0 − β 0 )/se ( β̂ 0 ) ∼ N (0, 1)
( β̂ 1 − β 1 )/se ( β̂ 1 ) ∼ N (0, 1)
H0 : β 1 = β 10 ,
y contrastemos con la hipótesis alternativa
HA : β 1 6= β 10
Un ejemplo MUY usado es H0 : β 1 = 0. ¿Hay relación entre y con x?
En la práctica tenemos que hacer inferencia acerca de si H0 es verdad o no usando β̂ 1 .
\
( β̂ 1 − β 10 )/se ( β̂ 1 ) ∼ tn−2
donde se (.) son los errores estándar (standard errors) y tn−2 es la distribución “t de
estudiante” (t-Student) con n − 2 grados de libertad.
Nota: Para obtener Var ( β̂) necesitamos estimar σ2 , la varianza del error. Usamos σ̂2 .
∑ni=1 û 2
σ̂2 =
n−2
El número 2 de los grados de libertad dice cuántos parámetros estamos estimando.
Por otro lado se
d (.) es el estimador del error estándar.
y = β 0 + β 1 x1 + β 2 x2 + β 3 x3 + u
wage = β 0 + β 1 educ + u
1976 Current Population Survey (CPS) de los Estados Unidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/wage1, clear
(para abrir la base de datos)
reg wage educ (para correr la regresión)
(errores estándar); < p − valor >; [t − valor ]; * significancia 10%; ** significancia 5%; *** significancia 1%;
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge2.html
Gráficos en STATA
Nube de puntos
scatter YVAR XVAR
(YVAR es la variable del eje vertical, XVAR es la variable del
eje horizontal)
Lı́nea (conecta los puntos)
sort XVAR
line YVAR XVAR
(YVAR es la variable del eje vertical, XVAR es la variable del
eje horizontal)
Ejemplo:
predict wage hat (para predecir los salarios, w
[ age = β̂ 0 + β̂ 1 educ)
scatter wage educ || line wage hat educ, xline(12.57) yline(5.90)
(hace un gráfico con la nube de puntos y la lı́nea de regresión)