Regresion Simple

Regresión simple: introducción
Propiedades estadı́sticas de MCO

Software
Regresión simple
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas Regresión simple

Software
Regresión simple
Un modelo de regresión simple es un estudio de la relación entre dos variables
(llamadas una dependiente y la otra independiente, x escalar) a través de la siguiente
forma:
yi = β 0 + β 1 xi + ui , i = 1, 2, ..., N
Elementos básicos:
1 Muestra o datos {xi , yi }N
i =1 = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}, muestra de
tamaño N.
2 Modelo lineal y = β 0 + β 1 x
y variable dependiente, lo que queremos explicar.
x variable independiente/de control/explicativa, cómo vamos a explicar la
variable dependiente.
β 0 intercepto, valor de y cuando x = 0
β 1 = ∆y
∆x pendiente, cuánto se incrementa y al incrementarse x por 1
unidad.
3 u error o residuo, aquello que no podemos observar pero que afecta y .

Software
Modelo de función lineal

y
β0 + β1 x
∆y
∆y
β1 = ∆x
∆x
β0
β0 = β0 + β1 0

Software
Modelo de regresión yi = β 0 + β 1 xi + ui
y
· ·
E [y |x ] = β 0 + β 1 x
· · · · ·
· · · ·
· · ·
β 0 + β 1 xi · · · · ·
· · ·
ui
· · · ·
yi ⊙ · ·
(x , y )
· · i i
xi x
Software
Regresión simple
Democracia y crecimiento.
Datos de N paı́ses.
y variable dependiente, PBI per capita.
x variable independiente, ı́ndice de democracia.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
PBIpercapi = β 0 + β 1 Democraciai + ui , i = 1, 2, ..., N

Software
Regresión simple
Educación y salarios.
Datos de N individuos.
y variable dependiente, salario.
x variable independiente, años de educación.
β 0 intercepto, valor de y cuando x = 0.
∆y
β1 = ∆x pendiente, cuánto se incrementa y al incrementarse x por 1 unidad.
u error o residuo, aquello que no podemos observar pero que afecta y .
Salarioi = β 0 + β 1 Educi + ui , i = 1, 2, ..., N

Software
Mı́nimos cuadrados ordinarios
¿Cómo estimamos β 0 and β 1 ?

Tomemos los residuos (recordar que son no observables...), ui ≡ yi − β 0 − β 1 xi ,
i = 1, 2, ..., n.
Ahora....
Cuadrados..: ∑N 2 N
i ui = ∑i (yi − β 0 − β 1 xi )
2
N
+Mı́nimos...: β 0 y β 1 que minimiza ∑i (yi − β 0 − β 1 xi )2
+Ordinarios... puede ser más complicado...
= Mı́nimos cuadrados ordinarios (MCO)
OLS en inglés: Ordinary Least Squares

Software
Método de los momentos: Mı́nimos cuadrados ordinarios
Otra forma de ver MCO es que sale de “momentos poblacionales”.
Momentos en la población Momentos en la muestra

E [u ] = E [y − β 0 − β 1 x ] = 0 N −1 ∑ Ni =1 (yi − β̂ 0 − β̂ 1 xi ) = 0
E [xu ] = E [x (y − β 0 − β 1 x )] = 0 N −1 ∑ N
i =1 xi (yi − β̂ 0 − β̂ 1 xi ) = 0
Sistema de 2 ecuaciones y 2 incógnitas... se puede resolver.

β es un parámetro, β̂ un estimador. β es un valor fijo (no lo sabemos...), β̂ una
variable aleatoria (depende de cada muestra...).
Conceptos a repasar: esperanza o valor esperado E [·]. Esperanza incondicional
vs. esperanza condicional.
Notación: ∑N
i =1 xi = x1 + x2 + x3 + ... + xN (sumatoria).

Software
Consideremos las dos condiciones de primer orden, derivadas de ∑N

i (yi − β 0 − β 1 xi )
2
con respecto a β 0 and β 1 :

N
N −1 ∑ (yi − β̂0 − β̂1 xi ) = 0 (1)
i =1
N
N −1 ∑ xi (yi − β̂0 − β̂1 xi ) = 0 (2)
i =1
De la primera ecuación
ȳ = β̂ 0 + β̂ 1 x̄ (demostrar )
Notación: x̄ = N −1 ∑N
i =1 xi = N
−1 (x + x + x + ... + x ) (promedio)
1 2 3 n
Entonces,
β̂ 0 = ȳ − β̂ 1 x̄.

Software
De la segunda ecuación
N
∑ xi [yi − (ȳ − β̂1 x̄ ) − β̂1 xi ] = 0
i =1
N N
⇒ ∑ xi (yi − ȳ ) = β̂1 ∑ xi (xi − x̄ )
i =1 i =1
Finalmente,
∑N
i =1 xi (yi − ȳ ) ∑N (x − x̄ )(yi − ȳ )
β̂ 1 = N
= i =1 N i
∑ i =1 i i
x ( x − x̄ ) ∑i =1 (xi − x̄ )2
El siguiente resultado lo vamos a usar muchas veces: dada una secuencia {ai , bi }N
i =1
de variables, tenemos que
N N N
∑ ai (bi − b̄ ) = ∑ bi (ai − ā) = ∑ (ai − ā)(bi − b̄ )
i =1 i =1 i =1
(¡demostrar!)

Software
Resumiendo:
∑N
i =1 (xi − x̄ )(yi − ȳ )
β̂ 1 =
∑Ni =1 (xi − x̄ )
2
∑N
i =1 (xi − x̄ )(yi − ȳ )
β̂ 0 = ȳ − x̄
∑Ni =1 (xi − x̄ )
2

Software
Simulación en STATA
¿Cómo simular datos de una regresión?
Vamos a simular una muestra de datos {yi , xi }N

i =1 para yi = β 0 + β 1 xi + ui con
β 0 = β 1 = 1 con xi ∼ iid Normal (0, 1), ui ∼ iid Normal (0, 1), y con N = 100.
clear
gl N=100
set obs $N
gl beta0=1
gl beta1=1
gen u=rnormal(0,1)
gen x=rnormal(0,1)
gen y=$beta0+$beta1*x+u
reg y x
Estos datos no son replicables, cada simulación va a dar diferente. Para que sea
replicable hay que especificar una “semilla”. Para eso hay que poner al principio:
set seed 1
(en realidad cualquier número, que indica cómo se van a generar los datos aleatorios)

Teorema de Gauss-Markov
Insesgadez
Inferencia
Software
Contrastes de hipótesis
Supuesto 1: Lineal en los parámetros y se relaciona con x a

traves de una función lineal, yi = β 0 + β 1 xi + ui .
Supuesto 2: Muestra aleatoria {(yi , xi )}N
i =1 es una muestra
aleatoria del modelo del Supuesto 1.
Supuesto 3: Variación muestral en x: ∑N 2
i =1 (xi − x̄ ) ̸ = 0
Supuesto 4: Media condicional cero E (u |x ) = 0.
MCO es insesgado Si los Supuestos 1-4 se cumplen, entonces

E ( β̂ 0 |x ) = β 0 and E ( β̂ 1 |x ) = β 1

Insesgadez
Inferencia
Software
Supuesto 5: Homocedasticidad Var (u |x ) = σ2
(homo: igual, cedasticidad: varianza, lo contrario es
heterocedasticidad)
Teorema de Gauss-Markov: Si los Supuestos 1-5 se cumplen, el

estimador MCO ( β̂ 0 , β̂ 1 ) es el mejor estimador lineal insesgado
(MELI) de ( β 0 , β 1 ). Nota: MEJOR= menor varianza (repasar
concepto de varianza V [·]). Se llama EFICIENTE a un estimador
que cumple esta propiedad. En inglés: best linear unbiased
estimator (BLUE).
La prueba la vemos más adelante.

Nota: Lineal se refiere a que el estimador es lineal en los datos (en realidad afı́n). En particular, β̂ = ∑N
i =1 ci yi
donde {ci }N N
i =1 deben ser determinados. Clave acá es que estamos condicionando en x, con lo cual {ci }i =1 puede
ser función de {xi }N
i =1 .

Insesgadez
Inferencia
Software
Johann Carl Friedrich Gauss (1777-1855)

Insesgadez
Inferencia
Software
Andrey Andreyevich Markov (1856–1922)

Insesgadez
Inferencia
Software
Insesgadez
Los estimadores MCO β̂ 0 y β̂ 1 son insesgados.

Esto es, E [ β̂ 0 |x ] = β 0 y E [ β̂ 1 |x ] = β 1 .
La prueba se puede hacer en pocos pasos.... a continuación.

Insesgadez
Inferencia
Software
Insesgadez
Para simplificar la notación escribimos E (.) en vez de E (.|x ), o sea que las esperanzas
incondicionales son en realidad esperanzas condicionales.
" # " #
∑N
i =1 (xi − x̄ )(yi − ȳ ) ∑N
i =1 (xi − x̄ )(yi )
E [ β̂ 1 ] = E =E
∑Ni =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
por la propiedad ∑N N
i =1 (xi − x̄ )(yi − ȳ ) = ∑i =1 (xi − x̄ )yi .
" #
∑Ni =1 (xi − x̄ )( β 0 + β 1 xi + ui )
... = E
∑Ni =1 (xi − x̄ )
2
by Supuesto 1: Lineal en los parámetros y se relaciona con x a través de una función

lineal. O sea, y = β 0 + β 1 x + u.
∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + E [ui ])
... =
∑Ni =1 (xi − x̄ )
2
por propiedades de la esperanza. (Notemos que E [ui ] es en realidad E [ui |x ].)

E [ ∑N N
i =1 (.)] = ∑i =1 E [(.)]
E [ β 0 + β 1 xi + ui ] = β 0 + β 1 xi + E [ui ]

Insesgadez
Inferencia
Software
Insesgadez
Por el Supuesto 4: Media Condicional Cero E (u |x ) = 0.
∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + 0)
... =
∑Ni =1 (xi − x̄ )
2
Luego de algo de álgebra...
∑N
i =1 (xi − x̄ ) β 0 ∑N (x − x̄ ) β 1 xi ∑N
i =1 (xi − x̄ )
2
... = N
+ i =N1 i = 0 + β1 N = β1
∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2 ∑i =1 (xi − x̄ ) 2
Entonces probamos que E [ β̂ 1 ] = β 1

Insesgadez
Inferencia
Software
Insesgadez
Probar que E [ β̂ 0 |x ] = β 0 es más fácil.

De la primera condición de momento de MCO
β̂ 0 = ȳ − β̂ 1 x̄
Usando esperanzas en los dos lados,
E [ β̂ 0 ] = E [ȳ ] − E [ β̂ 1 x̄ ]
Sabemos que E [ȳ ] = E [ β 0 + β 1 x̄ + ū ] = β 0 + β 1 x̄ + E [ū ] = β 0 + β 1 x̄ y que
E [ β̂ 1 x̄ ] = E [ β̂ 1 ]x̄ = β 1 x̄. Ası́ obtenemos,
E [ β̂ 0 ] = β 0 .

Insesgadez
Inferencia
Software
Simulación insesgadez 1 en STATA
clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
global NM=max($N,$M)
set obs $NM
global b0=1 /*valor verdadero del intercepto*/
global b1=1 /*valor verdadero de la pendiente*/
gen beta0=.
gen beta1=.
forvalues j=1(1)$M {
cap drop x y u
gen x=rnormal(0,1) if n<=$N
gen u=rnormal(0,1) if n<=$N
gen y=$b0+$b1*x+u if n<=$N
reg y x
replace beta0= b[ cons] in ‘j’
replace beta1= b[x] in ‘j’
}
summ beta0 beta1

Insesgadez
Inferencia
Software
Simulación insesgadez 2 en STATA

clear
set more off
global N=100 /*tama~
no de la muestra*/
global M=100 /*nro de simulaciones*/
set obs $N
global b0=1 /*valor verdadero del intercepto*/
global b1=1 /*valor verdadero de la pendiente*/
cap program drop regsim

program define regsim, rclass
cap drop x y* u
gen x=rnormal(0,1)
gen u=rnormal(0,1)
gen y=$b0+$b1*x+u
reg y x
return scalar b0MCO = b[ cons]
return scalar b1MCO = b[x]
end
bootstrap b0MCO=r(b0MCO) b1MCO=r(b1MCO), notable reps($M): regsim

mat list e(b bs)

Insesgadez
Inferencia
Software
Predicción
ŷi = β̂ 0 + β̂ 1 xi es el valor de predicción de y dado xi , esto es, un estimador de

E (y |xi ).
ûi = yi − ŷi es el residuo de la regresión o error de predicción para la
observación i, o sea un estimador de yi − β 0 − β 1 xi .
Usar gráficos para distinguir claramente yi , ŷi , ui , ûi .

Insesgadez
Inferencia
Software
y
E\
[y |x ] = β̂ 0 + β̂ 1 x
· ·
E [y |x ] = β 0 + β 1 x
· · · · ·
(xi , ŷi )
β̂ 0 + β̂ 1 xi = ŷi · ⊙· · ·
· · ·
β 0 + β 1 xi · · · · ·
ûi
· · ·
ui
· · · ·
yi ⊙ · ·
(x , y )
· · i i
xi x

Insesgadez
Inferencia
Software
Varianza de los estimadores MCO
¡¡Todo estimador se merece su varianza!!
σ2
Var ( β̂ 1 |x ) =
∑N
i =1 (xi − x̄ )2
Prueba...
σ 2 N −1 ∑ N 2
i =1 xi
Var ( β̂ 0 |x ) =
∑N
i =1 (xi − x̄ )
2
Prueba...
Pregunta: Var ( β 1 |x )=??

Insesgadez
Inferencia
Software

σ2
Var ( β̂ 1 |x ) =
∑N
i =1 (xi − x̄ )2
Prueba: (para simplificar la notación Var (.) corresponde a Var (.|x ))
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
Var ( β̂ 1 ) = Var = Var
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
" # " # " #

∑N
i =1 (xi − x̄ ) β 0 ∑N
i =1 (xi − x̄ ) β 1 xi ∑N
i =1 (xi − x̄ )ui
= Var + Var + Var
∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 2 = 2
∑Ni =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
N
∑i =1 (xi − x̄ )2 ∑i =1 xi − x̄ )2
(

Insesgadez
Inferencia
Software
Usamos
Supuesto 1: Modelo lineal en los parámetros y se relaciona
con x por una función lineal.
O sea, y = β 0 + β 1 x + u.

Insesgadez
Inferencia
Software
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
" # " # " #

∑N
i =1 (xi − x̄ ) β 0 ∑Ni =1 (xi − x̄ ) β 1 xi ∑Ni =1 (xi − x̄ )ui
= Var + Var + Var
∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 2 = 2
∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )

Insesgadez
Inferencia
Software
Usamos
Propiedad de la varianza: Var [aX + bY ] =
a2 × Var [X ] + b 2 × Var [Y ] + 2ab × Cov [X , Y ], donde
Cov [X , Y ] = E [XY ] − E [X ]E [Y ]
Propiedad de la covarianza: Cov [a, Y ] = 0, donde a es una
constante y Y una variable aleatoria (también Cov [a, b ] = 0,
donde tanto a como b son constantes...)

Insesgadez
Inferencia
Software
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
" # " # " #

∑N
i =1 (xi − x̄ ) β 0 ∑Ni =1 (xi − x̄ ) β 1 xi ∑N i =1 (xi − x̄ )ui
= Var + Var + Var
∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 0+0+ 2 = 2
∑Ni =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )

Insesgadez
Inferencia
Software
Usamos
Propiedad de la varianza: Var [a] = 0 donde a es una
constante.
Las X’s son consideradas como constantes.

Insesgadez
Inferencia
Software
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
" # " # " #

∑N
= Var + Var + Var
∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 2 = 2
∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )

Insesgadez
Inferencia
Software
Usamos
Supuesto 2: Muestreo aleatorio {(yi , xi )}N
i =1 es una muestra
aleatoria del modelo dado en el Supuesto 1.
Hacemos Var [∑N N N N
i =1 ui ] = ∑i =1 Var [ui ] + ∑i =1 ∑j =1,j ̸=i Cov [ui , uj ].
Pero, por la propiedad de muestreo aleatorio Cov [ui , uj ] = 0, i ̸= j

Entonces, Var [∑N N
i =1 ui ] = ∑i =1 Var [ui ].

Insesgadez
Inferencia
Software
σ2
Var ( β̂ 1 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:
" # " #
∑N
i =1 (xi − x̄ )yi ∑N
i =1 (xi − x̄ )( β 0 + β 1 xi + ui )
∑Ni =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
" # " # " #

∑N
= Var + Var + Var
∑N i =1 (xi − x̄ )
2 ∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
h i
Var ∑N i =1 (xi − x̄ )ui ∑N 2
i =1 (xi − x̄ ) Var [ui ]
= 2 = 2
∑N i =1 (xi − x̄ )
2 ∑Ni =1 (xi − x̄ )
2
∑N (x − x̄ )2 σ2 σ2
= i =1 i 2 = N
∑N 2 ∑i =1 (xi − x̄ )2
i =1 (xi − x̄ )

Insesgadez
Inferencia
Software
Usamos
Supuesto 5: Homoscedasticidad Var (u |x ) = σ2
donde Var [ui ] = Var [ui |x ] = σ2 for all i = 1, 2, ..., n

Insesgadez
Inferencia
Software
σ 2 N −1 ∑ N 2
i =1 xi
Var ( β̂ 0 ) =
∑N
i =1 (xi − x̄ )
2
Prueba:

Var ( β̂ 0 ) = Var ȳ − x̄ β̂ 1 = Var [ȳ ] + Var x̄ β̂ 1 − 2Cov ȳ , x̄ β̂ 1
" #
N N
σ2 x̄
2
Cov ∑ yi , ∑ (xi − x̄ )yi

= + x̄ Var β̂ 1 − 2
N N ∑N i =1 (xi − x̄ )
2
i =1 i =1
N
σ2 σ2 x̄
= + x̄ 2 N −2 N
σ2 ∑ (xi − x̄ )
N ∑i =1 (xi − x̄ )2 N ∑i =1 (xi − x̄ )2 i =1
σ 2 ∑N
i =1 (xi − x̄ )
2 σ2
= + x̄ 2 N
N ∑N i =1 (xi − x̄ )
2 ∑i =1 (xi − x̄ )2
Nota: En la parte azul estamos usando Cov (aY , bX ) = abCov (Y , X ). Notar que ∑N N
i =1 yi = ∑i =1 ( β 0 + β 1 xi + ui ).
También que por muestras aleatorias Cov (ui , uj ) = 0 si i ̸= j. Entonces solo las observaciones con el mismo i no
tienen covarianza 0.

Insesgadez
Inferencia
Software
Prueba del Teorema de Gauss-Markov (i)
Ahora podemos probar el Teorema de Gauss-Markov. Vamos a probarlo para β̂ 1 .

Primero tenemos que definir los estimadores lineales. Nos vamos a centrar en
los estimadores que tienen la forma ∑N N
i =1 ci yi donde {ci }i =1 puede ser una
secuencia de constantes o que dependan de xi .
Definamos los estimadores lineales como
(xi −x̄ )
β̃ 1 = ∑N c y
i =1 i i = N
∑ i =1 N (x −x̄ )2 + di yi = β̂ 1 + ∑N N
i =1 di yi donde {di }i =1
∑j =1 j
marcan las diferencias con el estimador MCO. Notar que si di = 0 ∀i entonces
estamos con el estimador MCO.
Para que el estimador sea insesgado necesitamos E [ β̃ 1 ] = β 1 y dado que MCO
ya lo es, entonces, E [∑N i =1 di yi ] = 0. Ahora para eso
E [ ∑N N N
i =1 di ( β 0 + β 1 xi + ui )] = β 0 ∑i =1 di + β 1 ∑i =1 di xi = 0.
Para que esto se cumpla tiene que darse que ∑N N
i =1 di = 0 y que ∑i =1 di xi = 0.

Insesgadez
Inferencia
Software
Prueba del Teorema de Gauss-Markov (ii)

Calculemos ahora la varianza de β̃ 1
" ! #
N
(xi − x̄ )
Var ( β̃ 1 ) = Var ∑ ∑N 2
+ di yi
i =1 j =1 (xj − x̄ )
!
N N
(xi − x̄ )di
= Var ( β̂ 1 ) + σ 2
∑ di2 + 2σ 2
∑ ∑N 2
.
i =1 i =1 j =1 (xj − x̄ )
Sin embargo, de los resultados anteriores tenemos que x̄ ∑N

i =1 di = 0 y que
∑Ni =1 di xi = 0 con lo que,
N
Var ( β̃ 1 ) = Var ( β̂ 1 ) + σ2 ∑ di2 .
i =1
Dado que el segundo término es no negativo tenemos entonces
Var ( β̃ 1 ) ≥ Var ( β̂ 1 ). QED

Insesgadez
Inferencia
Software
Prueba alternativa y constructiva del Teorema de

Gauss-Markov (i)
Supongamos un modelo de regresión sin constante o sin ordenada al origen,

yi = xi β + ui (ver Guı́a de Ejercicios, Pregunta 2), con los supuestos de
∑N
i =1 xi yi
Gauss-Markov para este caso. Ahora tenemos β̂ MCO = .
∑N 2
i = 1 xi
Considerando la familia de estimadores lineales ∑N i =1 ci yi queremos encontrar

N 2 N
{ ci } N
i =1 tal que minimiza la varianza del estimador, Var ( ∑i =1 ci yi ) = σ ∑i =1 ci
2
sujeto a que es insesgado,

E ( ∑N N N N
i =1 ci yi ) = ∑i =1 ci xi β + ∑i =1 ci E (ui ) = ∑i =1 ci xi β = β, usando la esperanza
cero del error (condicional).
Podemos plantear el problema como un lagrangiano,
" #
N N
L=σ 2
∑ ci2 + λ ( ∑ ci xi β) − β .
i =1 i =1

Insesgadez
Inferencia
Software
Prueba alternativa y constructiva del Teorema de

Gauss-Markov (ii)
Tomando derivadas con respecto a {ci }N
i =1 , tenemos
2σ2 ci = λxi β i = 1, ..., N,

N
∑ ci xi β = β.
i =1
λxi β
De las primeras condiciones obtenemos ci = 2σ2
, tal que reemplazando en la
λxi2 β2 2σ2
última, ∑N
i =1 2σ2
= β, despejando, λ =
β ∑N 2.
i =1 xi
Entonces, reemplazando arriba,
2σ2 xi
2σ2 ci = i = 1, ..., N,
∑N 2
i =1 xi
xi
tal que ci∗ = y el estimador óptimo es
∑N 2
i = 1 xi
N
∑N
i =1 xi yi
β̂∗ = ∑ ci∗ yi =
∑N 2
= β̂ MCO .
i =1 i =1 xi

Insesgadez
Inferencia
Software
Inferencia
¡ β̂ 0 y β̂ 1 son variables aleatorias! Necesitamos su distribución para poder hacer

inferencia.
Supuesto 6: Normalidad u es independiente de x y u ∼ N (0, σ2 ).
Distribución normal: Bajo los supuestos 1-6,
β̂ 0 ∼ N ( β 0 , Var [ β̂ 0 ])
β̂ 1 ∼ N ( β 1 , Var [ β̂ 1 ])
Entonces,
( β̂ 0 − β 0 )/se ( β̂ 0 ) ∼ N (0, 1)
( β̂ 1 − β 1 )/se ( β̂ 1 ) ∼ N (0, 1)
p
donde se () = Var () es el error estándar (standard error).

Insesgadez
Inferencia
Software
Inferencia
Prueba de normalidad de β̂ 1 .
De la prueba de la varianza más arriba usamos el siguiente resultado algebraico
∑N
i =1 (xi − x̄ )ui
β̂ 1 = β 1 + .
∑Ni =1 (xi − x̄ )
2
Entonces, la distribución de β̂ 1 depende de la suma de variables aleatorias normales

(xi − x̄ )ui : la suma de normales es normal ergo β̂ 1 va a ser normal. Notar que
E [(xi − x̄ )ui |x ] = 0 y Var [(xi − x̄ )ui |x ] = (xi − x̄ )2 σ2 . Por el Supuesto 2 (muestra
aleatoria) Cov (ui , uj ) = 0, i ̸= j. De los resultados de la media E [ β̂ 1 ] = β 1 .
Ası́, β̂ 1 ∼ N ( β 1 , Var [ β̂ 1 ]).
fβ̂1
β̂ 1
β1

Insesgadez
Inferencia
Software

Insesgadez
Inferencia
Software
Contrastes de hipótesis (tests)
Los estimadores de MCO son variables aleatorias. Dependiendo de la muestra lo que

estimamos podrı́a estar cerca o lejos de los parámetros de la población. Lo importante
es cuán cerca o lejos.
Consideremos la hipótesis nula
H0 : β 1 = β 10 ,
y contrastemos con la hipótesis alternativa
HA : β 1 > β 10 o HA : β 1 < β 10 o HA : β 1 ̸= β 10
(una dirección, dos direcciones)

Un ejemplo muy usado es H0 : β 1 = 0. ¿Hay relación de x con y ? Si la pendiente es
cero entonces no hay relación. Esto corresponde a analizar la significatividad de la
variable x.
En la práctica tenemos que hacer inferencia acerca de si H0 es verdad o no usando β̂ 1 .

Insesgadez
Inferencia
Software

Si H0 es verdad, entonces β̂ 1 deberı́a estar cerca de β 10 . Pero ¿por cuánto? ¿Cuán
cerca es cerca?
Bajo H0 : β 1 = β 10 y asumiendo que u tiene distribución normal N (0, σ2 ), tenemos el

siguiente resultado importante
β̂ 1 − β 10
∼ tN −2
\
se ( β̂ )
1
donde se (.) son los errores estándar (standard errors) y tN −2 es la distribución “t de

estudiante” (t-Student) con N − 2 grados de libertad. El número 2 de los grados de
libertad dice
q cuántos parámetros estamos estimando. Por otro lado
\ \
se ( β̂ ) = Var ( β̂ ) es el estimador del error estándar.
1 1
Nota: Para obtener Var ( β̂ 1 ) necesitamos estimar σ2 , la varianza del error. Usamos
∑N 2
i =1 ûi
σ̂2 = N −2 . Se puede probar que E [σ̂2 ] = σ2 (estimador insesgado).

Insesgadez
Inferencia
Software

Insesgadez
Inferencia
Software
Paso 1: ¿Qué hipótesis?

En general queremos ver la significatividad estadı́stica (statistical significance)
de un coeficiente de regresión. O sea, H0 : β 1 = 0 en el modelo
y = β 0 + β 1 x + u. Si el parámetro es 0 significa que x no tiene ningún efecto
sobre y o decimos informalmente que x no es significativa.
También puede haber hipótesis nulas compuestas H0 : β 2 = 0, β 3 = 0 en el
modelo (ver más adelante)
y = β 0 + β 1 x1 + β 2 x2 + β 3 x3 + u

Insesgadez
Inferencia
Software
Paso 2: Nivel de significancia, α. En general, se aceptan estos valores:

α = .1, α = .05, α = .01
Cuanto mas pequeño es α mas confianza se tiene en los resultados. Estos
niveles se eligen de acuerdo a los usos y costumbres del area de estudio. α = .05
es el más usado.
En Estadı́stica se llama Error de Tipo I al error de rechazar H0 cuando es verdadera.

Dado que estamos trabajando con variables aleatorias siempre podemos cometer
errores. α es este error.
Bajo H0 , S = β̂ 1 − β 10 deberı́a estar cercano a 0. Entonces, la evidencia de que

esto no es cierto deberı́a estar asociado a un alto valor de S. Llamemos a Sα o
Sα/2 a los valores crı́ticos.
- Modelo en una dirección: HA : β 1 > β 10 (o HA : β 1 < β 10 ). Entonces tenemos
P [S > Sα ] = α (o P [S < Sα ] = α).
- Modelo en dos direcciones: HA : β 1 ̸= β 10 . Entonces tenemos dos valores
1
crı́ticos tal que P [S > Sα/2 > 0] = α/2 y P [S < Sα/22 < 0] = α/2. Si la
1 2
distribución de S es simétrica, Sα/2 = −Sα/2 .

Insesgadez
Inferencia
Software
β̂ − β 10
Modelo en una dirección: H0 : β 1 = β 10 , Z = q1
\
var ( β̂ 1 )
HA : β 1 > β 10 HA : β 1 < β 10
P [Z > zα ] = α P [Z < −zα ] = α
fZ fZ
⊙ ⊙
0 zα −zα 0
El nivel de significancia (para el caso de rechazo en una dirección) corresponde al area
naranja. En este caso α es la probabilidad en una cola de la distribución.

Insesgadez
Inferencia
Software
β̂ − β 10
Modelo en dos direcciones: H0 : β 1 = β 10 , HA : β 1 ̸= β 10 , Z = q1 ,
\
var ( β̂ 1 )
P [|Z | > zα/2 ] = α
fZ
⊙ ⊙
−zα/2 0 zα/2
El nivel de significancia (para el caso de rechazo en dos direcciones) corresponde al
area naranja. En este caso α es la probabilidad en las colas de la distribución.

Insesgadez
Inferencia
Software
Paso 3: Mirar el p − valor .

El p-valor (para hipótesis en dos direcciones) es P [| β̂ 1 − β 10 | > | β̂obs
1 − β 10 |]
bajo la hipótesis nula, donde β̂obs
1 es el valor observado, es decir, en la muestra,
y β̂ 1 la variable aleatoria dada por el estimador.
Intuitivamente nos dice qué probabilidad hay de encontrar un valor que nos de
más evidencia de rechazo que el realmente observado. Si esta probabilidad es
pequeña, entonces tenemos un valor muy distinto al que se asume en H0 .
REGLA:
Si p − valor < α entonces rechazar la hipótesis nula.
Si p − valor ≥ α entonces aceptar (propiamente dicho no rechazar) la hipótesis
nula.

Insesgadez
Inferencia
Software
β̂ − β 10
Modelo en dos direcciones: H0 : β 1 = β 10 , HA : β 1 ̸= β 10 , Z = q1 ,
\
var ( β̂ 1 )
β̂obs − β 10
P [|Z | > zα/2 ] = α, z obs = q1
\
var ( β̂ 1 )
|z obs | > zα/2 |z obs | < zα/2
fZ fZ
· ⊙ ⊙ · ⊙ · · ⊙
−zα/2 0 zα/2 −zα/2 0 zα/2
El p-valor corresponde al area azul en cada figura, P [|Z | > |z obs |] = p − valor . En la
figura derecha se rechaza la hipótesis nula, en la figura izquierda no.

Insesgadez
Inferencia
Software
Ejemplo: Si la hipótesis nula es H0 : β 1 = 0 en el modelo y = β 0 + β 1 x + u,

entonces
Si p − valor < α, rechazar ⇒ β 1 ̸= 0, x tiene un efecto lineal sobre y . Se dice
que x es estadı́sticamente significativa.
Si p − valor ≥ α, aceptar ⇒ β 1 = 0, x no tiene efecto lineal sobre y . Se dice
que x no es estadı́sticamente significativa.

Insesgadez
Inferencia
Software
Si la hipótesis es H0 : β 2 = 0, β 3 = 0 para modelos de regresión múltiple (ver

más adelante) y = β 0 + β 1 x1 + β 2 x2 + β 3 x3 + u, entonces
Si p − valor < α, rechazar ⇒ β 2 ̸= 0 o β 3 ̸= 0, x2 y x3 tienen conjuntamente un
efecto lineal sobre y . Se dice que x2 y x3 son estadı́sticamente significativas.
Si p − valor ≥ α, aceptar ⇒ β 2 = 0 y β 3 = 0, x2 y x3 no tienen un efecto lineal
sobre y . Se dice que x2 y x3 no son estadı́sticamente significativas.

Insesgadez
Inferencia
Software
Paso 3 (alternativo): Mirar el estimador dividido el error estándar.

Muchos trabjos empı́ricos reportan los coeficientes estimados y los errores
β̂ 1
estándar de esos estimadores. La idea es que \
tiene aproximadamente una
se ( β̂ 1 )
distribución normal, y para un α = 0.05 el valor crı́tico es 2 (en dos direcciones,
en una variable aleatoria Z ∼ N (0, 1), P [Z > 1.96] = 0.025, y
0.025 + 0.025 = 0.05).
REGLA:
| β̂ 1 |
Si se ( β̂ 1 )
> 2 entonces rechazar la hipótesis nula. Se dice que x es
estadı́sticamente significativa.
| β̂ 1 |
Si se ( β̂ 1 )
≤ 2 entonces aceptar la hipótesis nula. Se dice que x no es
estadı́sticamente signficativa.

STATA
R
Software
Ejemplo: Retornos a la educación
wage = β 0 + β 1 educ + u
1976 Current Population Survey (CPS) de los Estados Unidos
use http://fmwww.bc.edu/ec-p/data/wooldridge/wage1, clear
(para abrir la base de datos)
reg wage educ (para correr la regresión)

STATA
R
Software
Ejemplo: Retornos a la educación
wage = −.905+ .541∗∗∗ educ

(.685) (.053)
< 0.187 > < 0.000 >
[−1.321] [10.2]
(errores estándar); < p − valor >; [t − valor ]; * significancia 10%; ** significancia 5%; *** significancia 1%;
¿Qué significa β̂ 1 = .541? cada año de educación incrementa el salario horario

en promedio 54 centavos de dólar.
¿Es estadı́sticamente significativo? Ver el p-valor.
Esto tiene implı́cita la hipótesis H0 : β 1 = 0. se ( β̂ 1 ) = .053,
β̂ 1 .541
se ( β̂ 1 )
= .053 = 10.2. Rechazar con el p-valor de 0.000.
¿Qué significa β̂ 0 = −.905? ¿Es significativo?

STATA
R
Software
¿Cómo aparecen los resultados en STATA?
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge2.html

STATA
R
Software
Otros comandos en STATA
Para obtener estadı́sticos de la base de datos tipear:

summ
(reporta para todas las variables: nro. de observaciones, promedio, desviaciones
estándar, mı́nimo, máximo)
summ wage educ
(sólo para las variables especificadas)
Más información para una variable (mediana, cuantiles, asimetrı́a, curtosis)
summ wage, detail
(en wage va la variable de interés)
Valor predicho, ŷ , de una regresión,
reg wage educ
predict wagehat
(en wagehat va el nombre que se le quiere dar a la nueva variable)
(nota: antes hay que correr la regresión)
Residuos de la regresión, û = y − ŷ
predict wageresid, resid
(en wageresid va el nombre que se le quiere dar a la nueva variable)

STATA
R
Software

STATA
R
Software
Gráficos en STATA
Nube de puntos
scatter wage educ
(wage es la variable del eje vertical, educ es la variable del eje horizontal)
Lı́nea (conecta los puntos)
sort educ
line wagehat educ
(wage es la variable del eje vertical, educ es la variable del eje horizontal)

STATA
R
Software
Ejemplo:
reg wage educ
predict wagehat (para predecir los salarios, w
[age = β̂ 0 + β̂ 1 educ)
scatter wage educ || line wagehat educ, xline(12.57) yline(5.90)
(hace un gráfico con la nube de puntos y la lı́nea de regresión)

STATA
R
Software
Regresiones en R
Para usar modelos en R ver Kleiber y Zeileis (2008) Applied Econometrics with
R.
El comando básico es
lm ( Yvar ˜ Xvar , d a t a=d a t a b a s e )
donde database es una base de datos data.frame mientras que Y y X son
variables. También pueden ser vectores de iguales dimensiones.
Para evaluar los coeficientes
summary ( lm ( Yvar ˜ Xvar , d a t a=d a t a b a s e ) )

STATA
R
Software
Regresiones en R
Ejemplo de wage1 del libro de Wooldridge:

i n s t a l l . packages ( ” w o o l d r i d g e ” )
l i b r a r y ( wooldridge )
lm ( wage ˜ educ , d a t a=wage1 )
Call :
lm ( f o r m u l a = wage ˜ educ , d a t a = wage1 )
Coefficients :
( Intercept ) educ
−0.9049 0.5414

STATA
R
Software
Regresiones en R
Para el gráfico
r e s u l t s<−lm ( wage ˜ educ , d a t a=wage1 )
p l o t ( wage1 $ educ , wage1 $wage )
abline ( results )

Regresion Simple

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Simple

Cargado por

Copyright:

Formatos disponibles

Regresión simple: introducción

Propiedades estadı́sticas de MCO

Gabriel Montes-Rojas Regresión simple

Gabriel Montes-Rojas Regresión simple

Modelo de función lineal

Gabriel Montes-Rojas Regresión simple

PBIpercapi = β 0 + β 1 Democraciai + ui , i = 1, 2, ..., N

Gabriel Montes-Rojas Regresión simple

Salarioi = β 0 + β 1 Educi + ui , i = 1, 2, ..., N

Gabriel Montes-Rojas Regresión simple

Mı́nimos cuadrados ordinarios

¿Cómo estimamos β 0 and β 1 ?

Gabriel Montes-Rojas Regresión simple

Método de los momentos: Mı́nimos cuadrados ordinarios

Otra forma de ver MCO es que sale de “momentos poblacionales”.

Momentos en la población Momentos en la muestra

Sistema de 2 ecuaciones y 2 incógnitas... se puede resolver.

Gabriel Montes-Rojas Regresión simple

Consideremos las dos condiciones de primer orden, derivadas de ∑N

con respecto a β 0 and β 1 :

Gabriel Montes-Rojas Regresión simple

Gabriel Montes-Rojas Regresión simple

Gabriel Montes-Rojas Regresión simple

Vamos a simular una muestra de datos {yi , xi }N

Gabriel Montes-Rojas Regresión simple

Supuesto 1: Lineal en los parámetros y se relaciona con x a

MCO es insesgado Si los Supuestos 1-4 se cumplen, entonces

Gabriel Montes-Rojas Regresión simple

Teorema de Gauss-Markov: Si los Supuestos 1-5 se cumplen, el

La prueba la vemos más adelante.

Gabriel Montes-Rojas Regresión simple

Johann Carl Friedrich Gauss (1777-1855)

Gabriel Montes-Rojas Regresión simple

Andrey Andreyevich Markov (1856–1922)

Gabriel Montes-Rojas Regresión simple

Los estimadores MCO β̂ 0 y β̂ 1 son insesgados.

Gabriel Montes-Rojas Regresión simple

by Supuesto 1: Lineal en los parámetros y se relaciona con x a través de una función

por propiedades de la esperanza. (Notemos que E [ui ] es en realidad E [ui |x ].)

Gabriel Montes-Rojas Regresión simple

Por el Supuesto 4: Media Condicional Cero E (u |x ) = 0.

Luego de algo de álgebra...

Entonces probamos que E [ β̂ 1 ] = β 1

Gabriel Montes-Rojas Regresión simple

Probar que E [ β̂ 0 |x ] = β 0 es más fácil.

Gabriel Montes-Rojas Regresión simple

Simulación insesgadez 1 en STATA

Gabriel Montes-Rojas Regresión simple

Simulación insesgadez 2 en STATA

cap program drop regsim

bootstrap b0MCO=r(b0MCO) b1MCO=r(b1MCO), notable reps($M): regsim

Gabriel Montes-Rojas Regresión simple

ŷi = β̂ 0 + β̂ 1 xi es el valor de predicción de y dado xi , esto es, un estimador de

Gabriel Montes-Rojas Regresión simple

Gabriel Montes-Rojas Regresión simple

Varianza de los estimadores MCO

¡¡Todo estimador se merece su varianza!!

Pregunta: Var ( β 1 |x )=??

Gabriel Montes-Rojas Regresión simple

Varianza de los estimadores MCO

" # " # " #

Gabriel Montes-Rojas Regresión simple