Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión simple
Gabriel V. Montes-Rojas
Regresión simple
Un modelo de regresión simple es un estudio de la relación entre dos variables
(llamadas una dependiente y la otra independiente, x escalar) a través de la siguiente
forma:
yi = β 0 + β 1 xi + ui , i = 1, 2, ..., N
Elementos básicos:
1 Muestra o datos {xi , yi }N
i =1 = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}, muestra de
tamaño N.
2 Modelo lineal y = β 0 + β 1 x
y variable dependiente, lo que queremos explicar.
x variable independiente/de control/explicativa, cómo vamos a explicar la
variable dependiente.
β 0 intercepto, valor de y cuando x = 0
β 1 = ∆y
∆x pendiente, cuánto se incrementa y al incrementarse x por 1
unidad.
3 u error o residuo, aquello que no podemos observar pero que afecta y .
β0 + β1 x
∆y
∆y
β1 = ∆x
∆x
β0
β0 = β0 + β1 0
Modelo de regresión yi = β 0 + β 1 xi + ui
y
· ·
E [y |x ] = β 0 + β 1 x
· · · · ·
· · · ·
· · ·
β 0 + β 1 xi · · · · ·
· · ·
ui
· · · ·
yi ⊙ · ·
(x , y )
· · i i
xi x
Gabriel Montes-Rojas Regresión simple
Regresión simple: introducción
Propiedades estadı́sticas de MCO
Software
Regresión simple
Democracia y crecimiento.
Datos de N paı́ses.
y variable dependiente, PBI per capita.
x variable independiente, ı́ndice de democracia.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
Regresión simple
Educación y salarios.
Datos de N individuos.
y variable dependiente, salario.
x variable independiente, años de educación.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
N
N −1 ∑ xi (yi − β̂0 − β̂1 xi ) = 0 (2)
i =1
De la primera ecuación
ȳ = β̂ 0 + β̂ 1 x̄ (demostrar )
Notación: x̄ = N −1 ∑N
i =1 xi = N
−1 (x + x + x + ... + x ) (promedio)
1 2 3 n
Entonces,
β̂ 0 = ȳ − β̂ 1 x̄.
De la segunda ecuación
N
∑ xi [yi − (ȳ − β̂1 x̄ ) − β̂1 xi ] = 0
i =1
N N
⇒ ∑ xi (yi − ȳ ) = β̂1 ∑ xi (xi − x̄ )
i =1 i =1
Finalmente,
∑N
i =1 xi (yi − ȳ ) ∑N (x − x̄ )(yi − ȳ )
β̂ 1 = N
= i =1 N i
∑ i =1 i i
x ( x − x̄ ) ∑i =1 (xi − x̄ )2
El siguiente resultado lo vamos a usar muchas veces: dada una secuencia {ai , bi }N
i =1
de variables, tenemos que
N N N
∑ ai (bi − b̄ ) = ∑ bi (ai − ā) = ∑ (ai − ā)(bi − b̄ )
i =1 i =1 i =1
(¡demostrar!)
Resumiendo:
∑N
i =1 (xi − x̄ )(yi − ȳ )
β̂ 1 =
∑Ni =1 (xi − x̄ )
2
∑N
i =1 (xi − x̄ )(yi − ȳ )
β̂ 0 = ȳ − x̄
∑Ni =1 (xi − x̄ )
2
Simulación en STATA
¿Cómo simular datos de una regresión?
clear
gl N=100
set obs $N
gl beta0=1
gl beta1=1
gen u=rnormal(0,1)
gen x=rnormal(0,1)
gen y=$beta0+$beta1*x+u
reg y x
Estos datos no son replicables, cada simulación va a dar diferente. Para que sea
replicable hay que especificar una “semilla”. Para eso hay que poner al principio:
set seed 1
(en realidad cualquier número, que indica cómo se van a generar los datos aleatorios)
Teorema de Gauss-Markov
Teorema de Gauss-Markov
Supuesto 5: Homocedasticidad Var (u |x ) = σ2
(homo: igual, cedasticidad: varianza, lo contrario es
heterocedasticidad)
Insesgadez
Insesgadez
Para simplificar la notación escribimos E (.) en vez de E (.|x ), o sea que las esperanzas
incondicionales son en realidad esperanzas condicionales.
" # " #
∑N
i =1 (xi − x̄ )(yi − ȳ ) ∑N
i =1 (xi − x̄ )(yi )
E [ β̂ 1 ] = E =E
∑Ni =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
por la propiedad ∑N N
i =1 (xi − x̄ )(yi − ȳ ) = ∑i =1 (xi − x̄ )yi .
" #
∑Ni =1 (xi − x̄ )( β 0 + β 1 xi + ui )
... = E
∑Ni =1 (xi − x̄ )
2
∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + E [ui ])
... =
∑Ni =1 (xi − x̄ )
2
Insesgadez
∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + 0)
... =
∑Ni =1 (xi − x̄ )
2
∑N
i =1 (xi − x̄ ) β 0 ∑N (x − x̄ ) β 1 xi ∑N
i =1 (xi − x̄ )
2
... = N
+ i =N1 i = 0 + β1 N = β1
∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2
Insesgadez
β̂ 0 = ȳ − β̂ 1 x̄
Usando esperanzas en los dos lados,
E [ β̂ 0 ] = E [ȳ ] − E [ β̂ 1 x̄ ]
Sabemos que E [ȳ ] = E [ β 0 + β 1 x̄ + ū ] = β 0 + β 1 x̄ + E [ū ] = β 0 + β 1 x̄ y que
E [ β̂ 1 x̄ ] = E [ β̂ 1 ]x̄ = β 1 x̄. Ası́ obtenemos,
E [ β̂ 0 ] = β 0 .
clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
global NM=max($N,$M)
set obs $NM
global b0=1 /*valor verdadero del intercepto*/
global b1=1 /*valor verdadero de la pendiente*/
gen beta0=.
gen beta1=.
forvalues j=1(1)$M {
cap drop x y u
gen x=rnormal(0,1) if n<=$N
gen u=rnormal(0,1) if n<=$N
gen y=$b0+$b1*x+u if n<=$N
reg y x
replace beta0= b[ cons] in ‘j’
replace beta1= b[x] in ‘j’
}
summ beta0 beta1
Predicción
y
E\
[y |x ] = β̂ 0 + β̂ 1 x
· ·
E [y |x ] = β 0 + β 1 x
· · · · ·
(xi , ŷi )
β̂ 0 + β̂ 1 xi = ŷi · ⊙· · ·
· · ·
β 0 + β 1 xi · · · · ·
ûi
· · ·
ui
· · · ·
yi ⊙ · ·
(x , y )
· · i i
xi x
σ2
Var ( β̂ 1 |x ) =
∑N
i =1 (xi − x̄ )2
Prueba...
σ 2 N −1 ∑ N 2
i =1 xi
Var ( β̂ 0 |x ) =
∑N
i =1 (xi − x̄ )
2
Prueba...
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 2 = 2
∑Ni =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
N
∑i =1 (xi − x̄ )2 ∑i =1 xi − x̄ )2
(
Usamos
Supuesto 1: Modelo lineal en los parámetros y se relaciona
con x por una función lineal.
O sea, y = β 0 + β 1 x + u.
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )
Usamos
Propiedad de la varianza: Var [aX + bY ] =
a2 × Var [X ] + b 2 × Var [Y ] + 2ab × Cov [X , Y ], donde
Cov [X , Y ] = E [XY ] − E [X ]E [Y ]
Propiedad de la covarianza: Cov [a, Y ] = 0, donde a es una
constante y Y una variable aleatoria (también Cov [a, b ] = 0,
donde tanto a como b son constantes...)
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )
Usamos
Propiedad de la varianza: Var [a] = 0 donde a es una
constante.
Las X’s son consideradas como constantes.
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )
Usamos
Supuesto 2: Muestreo aleatorio {(yi , xi )}N
i =1 es una muestra
aleatoria del modelo dado en el Supuesto 1.
Hacemos Var [∑N N N N
i =1 ui ] = ∑i =1 Var [ui ] + ∑i =1 ∑j =1,j ̸=i Cov [ui , uj ].
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )
Usamos
Supuesto 5: Homoscedasticidad Var (u |x ) = σ2
donde Var [ui ] = Var [ui |x ] = σ2 for all i = 1, 2, ..., n
σ 2 N −1 ∑ N 2
i =1 xi
Var ( β̂ 0 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
Var ( β̂ 0 ) = Var ȳ − x̄ β̂ 1 = Var [ȳ ] + Var x̄ β̂ 1 − 2Cov ȳ , x̄ β̂ 1
" #
N N
σ2 x̄
2
Cov ∑ yi , ∑ (xi − x̄ )yi
= + x̄ Var β̂ 1 − 2
N N ∑N i =1 (xi − x̄ )
2
i =1 i =1
N
σ2 σ2 x̄
= + x̄ 2 N −2 N
σ2 ∑ (xi − x̄ )
N ∑i =1 (xi − x̄ )2 N ∑i =1 (xi − x̄ )2 i =1
σ 2 ∑N
i =1 (xi − x̄ )
2 σ2
= + x̄ 2 N
N ∑N i =1 (xi − x̄ )
2 ∑i =1 (xi − x̄ )2
Nota: En la parte azul estamos usando Cov (aY , bX ) = abCov (Y , X ). Notar que ∑N N
i =1 yi = ∑i =1 ( β 0 + β 1 xi + ui ).
También que por muestras aleatorias Cov (ui , uj ) = 0 si i ̸= j. Entonces solo las observaciones con el mismo i no
tienen covarianza 0.
N
Var ( β̃ 1 ) = Var ( β̂ 1 ) + σ2 ∑ di2 .
i =1
2σ2 xi
2σ2 ci = i = 1, ..., N,
∑N 2
i =1 xi
xi
tal que ci∗ = y el estimador óptimo es
∑N 2
i = 1 xi
N
∑N
i =1 xi yi
β̂∗ = ∑ ci∗ yi =
∑N 2
= β̂ MCO .
i =1 i =1 xi
Inferencia
β̂ 0 ∼ N ( β 0 , Var [ β̂ 0 ])
β̂ 1 ∼ N ( β 1 , Var [ β̂ 1 ])
Entonces,
( β̂ 0 − β 0 )/se ( β̂ 0 ) ∼ N (0, 1)
( β̂ 1 − β 1 )/se ( β̂ 1 ) ∼ N (0, 1)
p
donde se () = Var () es el error estándar (standard error).
Inferencia
Prueba de normalidad de β̂ 1 .
De la prueba de la varianza más arriba usamos el siguiente resultado algebraico
∑N
i =1 (xi − x̄ )ui
β̂ 1 = β 1 + .
∑Ni =1 (xi − x̄ )
2
fβ̂1
β̂ 1
β1
H0 : β 1 = β 10 ,
y contrastemos con la hipótesis alternativa
HA : β 1 > β 10 o HA : β 1 < β 10 o HA : β 1 ̸= β 10
β̂ 1 − β 10
∼ tN −2
\
se ( β̂ )
1
Nota: Para obtener Var ( β̂ 1 ) necesitamos estimar σ2 , la varianza del error. Usamos
∑N 2
i =1 ûi
σ̂2 = N −2 . Se puede probar que E [σ̂2 ] = σ2 (estimador insesgado).
y = β 0 + β 1 x1 + β 2 x2 + β 3 x3 + u
β̂ − β 10
Modelo en una dirección: H0 : β 1 = β 10 , Z = q1
\
var ( β̂ 1 )
HA : β 1 > β 10 HA : β 1 < β 10
P [Z > zα ] = α P [Z < −zα ] = α
fZ fZ
⊙ ⊙
0 zα −zα 0
El nivel de significancia (para el caso de rechazo en una dirección) corresponde al area
naranja. En este caso α es la probabilidad en una cola de la distribución.
β̂ − β 10
Modelo en dos direcciones: H0 : β 1 = β 10 , HA : β 1 ̸= β 10 , Z = q1 ,
\
var ( β̂ 1 )
P [|Z | > zα/2 ] = α
fZ
⊙ ⊙
−zα/2 0 zα/2
El nivel de significancia (para el caso de rechazo en dos direcciones) corresponde al
area naranja. En este caso α es la probabilidad en las colas de la distribución.
β̂ − β 10
Modelo en dos direcciones: H0 : β 1 = β 10 , HA : β 1 ̸= β 10 , Z = q1 ,
\
var ( β̂ 1 )
β̂obs − β 10
P [|Z | > zα/2 ] = α, z obs = q1
\
var ( β̂ 1 )
|z obs | > zα/2 |z obs | < zα/2
fZ fZ
· ⊙ ⊙ · ⊙ · · ⊙
−zα/2 0 zα/2 −zα/2 0 zα/2
El p-valor corresponde al area azul en cada figura, P [|Z | > |z obs |] = p − valor . En la
figura derecha se rechaza la hipótesis nula, en la figura izquierda no.
wage = β 0 + β 1 educ + u
1976 Current Population Survey (CPS) de los Estados Unidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/wage1, clear
(para abrir la base de datos)
reg wage educ (para correr la regresión)
(errores estándar); < p − valor >; [t − valor ]; * significancia 10%; ** significancia 5%; *** significancia 1%;
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge2.html
Gráficos en STATA
Nube de puntos
scatter wage educ
(wage es la variable del eje vertical, educ es la variable del eje horizontal)
Lı́nea (conecta los puntos)
sort educ
line wagehat educ
(wage es la variable del eje vertical, educ es la variable del eje horizontal)
Ejemplo:
reg wage educ
predict wagehat (para predecir los salarios, w
[age = β̂ 0 + β̂ 1 educ)
scatter wage educ || line wagehat educ, xline(12.57) yline(5.90)
(hace un gráfico con la nube de puntos y la lı́nea de regresión)
Regresiones en R
Para usar modelos en R ver Kleiber y Zeileis (2008) Applied Econometrics with
R.
El comando básico es
lm ( Yvar ˜ Xvar , d a t a=d a t a b a s e )
donde database es una base de datos data.frame mientras que Y y X son
variables. También pueden ser vectores de iguales dimensiones.
Para evaluar los coeficientes
summary ( lm ( Yvar ˜ Xvar , d a t a=d a t a b a s e ) )
Regresiones en R
Call :
lm ( f o r m u l a = wage ˜ educ , d a t a = wage1 )
Coefficients :
( Intercept ) educ
−0.9049 0.5414
Regresiones en R
Para el gráfico
abline ( results )