03 Reg

Microeconometría
Jorge Catepillan
August 18, 2022
Universidad de Piura
Regresión Lineal
Clase Pasada
• Nos interesa entender la relación ”causal” entre una variable X e Y.
1
Clase Pasada
• Asumimos que la relación entre estas dos variables es de la forma:
Yi = β0 + β1 Xi + Ui
1
Clase Pasada
• En este caso, entendemos la relación causal como cuanto cambia Yi cuando

cambia Xi y todo lo demás está constante.
1
Clase Pasada
• En este caso, entendemos la relación causal como cuanto cambia Yi cuando

cambia Xi y todo lo demás está constante.
• Esto es β1 .
1
Propiedades que nos interesan
• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este

caso, a partir de Yi y Xi ).
2

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir

de una muestra de (Yi , Xi , i = 1, ..., n).
2


• Inferencia: A partir de los datos, que nos dicen los test estadísticos?
2


• Inferencia: A partir de los datos, que nos dicen los test estadísticos?
• Para todo esto necesitamos supuestos.
2
Supuestos I
• Linealidad: Yi = β0 + β1 Xi + Ui
3
Supuestos I
• Exogenidad: E[Ui |Xi ] = 0
3
Supuestos I
• Sin multicolinealidad: Var(Xi ) > 0
3
Supuestos I
3
Supuestos I

cov(Yi ,Xi )
Esto permite identificar β1 = Var(Xi )
3
Supuesto II
• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de

observaciones de la muestra)
4
Supuesto II

4
Supuesto II

Esto permite estimar
∑
N
(xi − x̄)(yi − ȳ)
\
Cov(Xi , Yi ) i=1
β̂1 = =
\)
Var(X ∑
N
i (xi − x̄)2
i=1
4
Estimación
Bajo los supuestos, β̂1 es:
• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la

n→∞
estimación es parecida a β1 .
5
Estimación
Bajo los supuestos, β̂1 es:
• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la

n→∞
estimación es parecida a β1 .
• Insesgado: E[β̂1 ] = β1 . Es decir, si repetimos muchas veces el muestreo, el

promedio de los estimadores va a ser similar a β1 , aún cuando n sea
pequeño.
5
Inferencia
• Nos interesa, a partir de la data, hacer Test de Hipótesis sobre las incognitas
que nos interesan.
6
Inferencia
que nos interesan.
• En este caso, β1 , que es el efecto causal.
6
Inferencia
que nos interesan.
• En este caso, β1 , que es el efecto causal.
• Sin embargo, eso requiere que hagamos más supuestos, pues necesitamos
saber algo sobre la distribución de los datos que nos permita realizar los
test!
6
Inferencia
Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a

partir de eso realizar los test.
• El ejemplo clasico es cuando se asume que los errores se distribuyen en

forma nomal.
7
Inferencia


forma nomal.
• En econometría moderna, no se ocupa mucho este supuesto.
7
Inferencia


forma nomal.
• En econometría moderna, no se ocupa mucho este supuesto.
• Por qué creen?
7
Inferencia
Estrategia 2: asumir ciertos supuestos que permitan aproximar las

distribucuiones de interes:
• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,

subsampling)
8
Inferencia
Estrategia 2: asumir ciertos supuestos que permitan aproximar las

distribucuiones de interes:
• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,

subsampling)
• Aproximación utilizando el Teorema Central del Límite y la Ley de los

Grandes Números. Esta es la que ocuparemos en el curso.
8
Supuestos III
• Errores homocedasticos: Var(Ui |X) = σ 2
9
Supuestos III
• Errores no correlacionados: E[Ui Uj |X] = 0
9
Supuestos III
• Errores no correlacionados: E[Ui Uj |X] = 0
• Cuartos momentos acotados: 0 < E[Y4i ], E[X4i ] < K
9
Inferencia
Con todos los supuestos anteriores, podemos obtener la convergencia en

distribución de:
√
n(β̂1 − β1 ) → N(0, σ 2 /Var(Xi ))
Pues:
[∑ ] ∑
√ (xi − x̄)2 −1 √ (xi − x̄)ui
n(β̂1 − β1 ) = n
n n
[∑ ]−1 [ ∑ ∑ ]
(xi − x̄)2 √ (xi − µx )ui √ ui
= n + (µx − x̄) n
n n n
10
Inferencia
Usando la Ley de los Grande Números:

∑
(xi −x̄)2
• plim n = Var(Xi )
11
Inferencia

∑
(xi −x̄)2
• plim(µx − x̄) = 0
11
Inferencia

∑
(xi −x̄)2
• plim(µx − x̄) = 0
11
Inferencia

∑
(xi −x̄)2
• plim(µx − x̄) = 0
Ocupando el Teorema Central del Límite

√ ∑
• n nui converge en distribución a una normal N(0, σ 2 )
11
Inferencia

∑
(xi −x̄)2
• plim(µx − x̄) = 0

√ ∑
√ ∑
(xi −µx )ui
• n n converge en distribución a una normal N(0, Var((xi − µx )ui )
11
Inferencia

∑
(xi −x̄)2
• plim(µx − x̄) = 0

√ ∑
√ ∑
(xi −µx )ui
• n n converge en distribución a una normal N(0, Var((xi − µx )ui )
• Bajo los supuestos, Var((xi − µx )ui ) = σ 2 Var(X)
11
Inferencia
• Si observáramos σ, con la distribución del estadístico, podemos testear

hipótesis sobre β1 .
12
Inferencia

• Sin embargo, probablemente no conocemos σ 2 , por lo que hay que

estimarlo.
12
Inferencia


estimarlo.
• Llamemos Ûi = Yi − β̂0 − β̂1 XI
12
Inferencia


estimarlo.
• Llamemos Ûi = Yi − β̂0 − β̂1 XI
• El estimador:
∑
n
û2i
2 i=1
σ̂ =
n−2
Es insesgado y consistente!
12
Estimador de la varianza
• Primero: ûi = ui − ū − (xi − x̄)(β̂1 − β1 )
ûi = yi − β̂0 − xi β̂1 ]

= yi − ȳ + x̄β̂1 − xi β̂1
= yi − ȳ − (xi − x̄)β̂1
= (xi − x̄)β1 + ui − ū − (xi − x̄)β̂1
= ui − ū − (xi − x̄)(β̂1 − β1 )
13
∑ ∑ ∑ 2
i −x̄)(ui −ū))
• Segundo: û2i = (ui − ū)2 − ( (x∑
(xi −x̄)2
∑ ∑
û2i =(ui − ū − (xi − x̄)(β̂1 − β1 ))2
∑
= (ui − ū)2 − 2(ui − ū)(xi − x̄)(β̂1 − β1 ) + (xi − x̄)2 (β̂1 − β1 )2
∑ ∑ ∑
= (ui − ū)2 − 2(β̂1 − β1 ) (ui − ū)(xi − x̄) + (β̂1 − β1 )2 (xi − x̄)2
∑ ∑
Pero ocupando que β̂1 − β1 = (xi − x̄)(ui − ū)/ (xi − x̄)2 llegamos a la
expresión:
∑ ∑ ∑
( (xi − x̄)(ui − ū))2
û2i = (ui − ū)2 − ∑
(xi − x̄)2
14
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
15
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
∑
(ui −ū)2
• n converge en probabilidad a σ 2
15
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
∑
(ui −ū)2
n
• n−2 converge a 1
15
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
∑
(ui −ū)2
n
∑
(xi −x̄)(ui −ū)
• n converge en probabilidad a 0.
15
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
∑
(ui −ū)2
n
∑
(xi −x̄)(ui −ū)
∑
(xi −x̄)2
• n converge en probailidad a Var(Xi ).
15
• Consistencia:
(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n
∑
(ui −ū)2
n
∑
(xi −x̄)(ui −ū)
∑
(xi −x̄)2
• n converge en probailidad a Var(Xi ).
∑ 2
û
• Finalmente, n−2i converge en probabilidad a σ2.
15
• Insesgado:
[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]

i i
E û2i |X =E 2
(ui − ū) |X − ∑
(xi − x̄)2
16
• Insesgado:
[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]

i i
E û2i |X =E 2
(ui − ū) |X − ∑
(xi − x̄)2
∑ [∑ 2 ] [∑ 2 ] [∑ ∑ ]
• E [ (ui − ū)2 |X] = E ui − nū2 |X = E ui |X − E ui uj |X /n =
∑∑ [ ]
nσ 2 − E ui uj |X /n = (n − 1)σ 2
16
• Insesgado:
[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]

i i
E û2i |X
=E 2
(ui − ū) |X − ∑
(xi − x̄)2
∑ [∑ 2 ] [∑ 2 ] [∑ ∑ ]
• E [ (ui − ū)2 |X] = E ui − nū2 |X = E ui |X − E ui uj |X /n =
∑∑ [ ]
nσ 2 − E ui uj |X /n = (n − 1)σ 2
[∑ ] [∑ ∑ ]
• E ( (xi − x̄)(ui − ū))2 |X = E (xi − x̄)(ui )(xj − x̄)(uj )|X =
∑∑ [ ] ∑
(xi − x̄)E ui uj |X (xj − x̄) = σ 2 (xi − x̄)2
16
• Insesgado:
[∑ ] ∑ [∑ 2 ]
E û2i |X E [ (ui − ū)2 |X] E ( (xi − x̄)(ui − ū)) |X
= − ∑
n−1 n−2 (n − 2) (xi − x̄)2
∑
nσ 2 − σ 2 σ 2 (xi − x̄)2
= − ∑
n−2 (n − 2) (xi − x̄)2
= σ2
17
Comentarios
• Dado el estimador de la varianza, entonces el estadístico:
β̂1 − β1
√ ∑
σ̂ 2 / (xi − x̄)2
De distribuye asintóticamente como una normal con media cero y varianza 1.
18
Comentarios
• Dado el estimador de la varianza, entonces el estadístico:
β̂1 − β1
√ ∑
σ̂ 2 / (xi − x̄)2
De distribuye asintóticamente como una normal con media cero y varianza 1.
• A partir de eso , podemos testear cosas como β1 = 0.
18
Comentario
Distribución exacta, errores normales.
• En MCO clásico, a veces se asumen errores normales.
19
Comentario
• Esto implica que βˆ1 es normal!
19
Comentario
• Sin embargo, la varianza puede ser desconocida.
19
Comentario
• Pero el estimador de la varinza se comporta como una Chi cuadrado de n-2

grados de libertad.
19
Comentario
• Pero el estimador de la varinza se comporta como una Chi cuadrado de n-2

grados de libertad.
• Bajo estos supuestos , el estadístico T es una T-student
19
Comentario

∑
• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )
20
Comentario

∑
2
• Se puede mostrar que (n − 2) σσ̂2 es una χ2n−2 independiente de βˆ1 − β1
20
Comentario

∑
2
• Luego,
βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
Es una t-student con n − 2 grados de libertad.
20
Comentario

∑
2
• Luego,
βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
• Esto es lo que reporta stata
20
Comentario

∑
2
• Luego,
βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
• Esto es lo que reporta stata
• Para n grande, esta distribución es muy similar a una normal.
20
Regresiones
• Linealidad: Yi = α + βXi + Ui
21
Regresiones
• Exogeneidad: E[Ui |X] = 0
21
Regresiones
• Sin multicolinealidad: var(Xi ) > 0
21
Regresiones
• IID: {Yi , Xi } muestra i.i.d.
21
Regresiones
• Homocedasticidad / sin correlación serial: E[U2i |Xi ] = σ 2 .

E[Ui Uj |Xk ] = 0, i ̸= j
21
Regresiones
• Homocedasticidad / sin correlación serial: E[U2i |Xi ] = σ 2 .

E[Ui Uj |Xk ] = 0, i ̸= j
• Cuartos momentos acotados: 0 < E[Y4i ], E[X4i ] < K, K ∈ R+
21
Regresiones
Supuesto Identificación Buena Estimación Inferencia

Linealidad x x x
Exogeneidad x x x
Var(Xi ) > 0 x x x
IID x x
Errores x
4tos Momentos x
22
Regresiones
Un ejemplo:
Supongamos que tenemos el siguiente modelo que cumple con todos los
supuestos.
Yi = β0 + β1 X1i + β2 X2i + Ui
Pero estimamos este modelo,
Yi = β0 + β1 X1i + Wi
¿Qué pasa con nuestro estimador de MCO? ¿Es consistente?
23
Regresiones
∑ 1
(xi − x̄1 )(yi − ȳ) Cov(X1i , Yi )
β̂1 = →
(x1i − x̄1 )2 Var(X1i )
Cov(X1i , β0 + β1 X1i + β2 X2i + Ui )
=
Var(X1i )
Cov(X1i , X2i )
= β1 + β2
Var(X1i )
24
Múltiples Regresores
Modelo con un regresor es útil para entender los conceptos, pero en la realidad:
• Podemos estar interesados en los efectos de tratamientos de más de una

dimensión.
25
Modelo con un regresor es útil para entender los conceptos, pero en la realidad:
• Podemos estar interesados en los efectos de tratamientos de más de una

dimensión.
• Puede que no sea posible identificar el efecto causal porque en los datos el
error se mueve con X, por lo que hay que controlar por más variables!
25
Dado yi ∈ R, xi ∈ Rk , i = 1, ..., n variables aleatorias.
• Queremos estudiar el modelo
yi = x′i β + ui
26
yi = x′i β + ui
• Es útil en este contexto ocupar la siguiente notación.

     
y1 x′1 u1
. .  . 
Y= .
. X= .
. U= . 
 . 
yn x′n un
nx1 nxk nxk
26
yi = x′i β + ui
• Es útil en este contexto ocupar la siguiente notación.

     
y1 x′1 u1
. .  . 
Y= .
. X= .
. U= . 
 . 
yn x′n un
nx1 nxk nxk
• Alternativamente, podemos escribir Y = Xβ + U
26
Supuestos
• Linealidad: yi = x′i β + ui = β0 + β1 x1i + ... + βn xni + ui
27
Supuestos
• Exogeneidad: E[ui |xi ] = 0, o E[ui |X] = 0
27
Supuestos
• Exogeneidad: E[ui |xi ] = 0, o E[ui |X] = 0
• No hay multicolinearidad: X′ X es invertible (el rango de X′ X es k), o E[xi x′i ] es

invertible.
27
Identificación
Supuestos
• De la linealidad:
E[xi yi ] = E[xi x′i ]β + E[xi ui ]
28
Identificación
Supuestos
• De exogeneidad:
E[xi ui ] = E[E[xi ui |xi ]] = E[xi E[ui |xi ]] = 0
28
Identificación
Supuestos
• De exogeneidad:
E[xi ui ] = E[E[xi ui |xi ]] = E[xi E[ui |xi ]] = 0
• De la invertibilidad:
β = E[xi x′i ]−1 E[xi yi ]
28
Estimación
Supuestos.
• Muestra i.i.d., (Xi , Yi ), i = 1, ..., N son independientes e idénticamente

distribuídos
• Esto permite estimar β con su análogo muestral.
( n
)−1 ( n )
∑ xi x′ ∑ x i yi
i
β̂ =
n n
i=1 i=1
• Equivalente en forma matricial a:
β̂ = (X′ X)−1 X′ Y
29
Estimación
Bajos los supuestos anteriores, el estimador es insesgado y consistente.
• Insesgado:
E[β̂|X] = (X′ X)−1 X′ E[Y|X] = (X′ X)−1 X′ E[Xβ + U|X] = β
30
Estimación
• Insesgado:
• Consistente:
( n
)−1 ( n )
β̂ = i
→ E[xi x′i ]−1 E[xi yi ] = β
n n
i=1 i=1
30
Estimación
• Insesgado:
• Consistente:
( n
)−1 ( n )
β̂ = i
→ E[xi x′i ]−1 E[xi yi ] = β
n n
i=1 i=1
• Lo anterior también se puede obtener utilizando:
β̂ = (X′ X)−1 X′ Y = (X′ X)−1 X′ (X′ β + U) = β + (X′ X)−1 X′ U
30
Inferencia
Supuestos
• Homocedasticidad: E[UU′ |X] = σ 2 Inxn
31
Inferencia
Supuestos
• Homocedasticidad: E[UU′ |X] = σ 2 Inxn
• Cuartos momentos acotados.
31
Inferencia
Bajo todos los supuestos anteriores,

• La varianza del estimador, condicional en X, es igual a:
Var(β̂) = Var(β + (X′ X)−1 X′ U) = E[(X′ X)−1 X′ UU′ X(X′ X)−1′ |X]
= (X′ X)−1 X′ E[UU′ |X]X(X′ X)−1
= σ 2 (X′ X)−1
32
Inferencia
Bajo todos los supuestos anteriores,

• La varianza del estimador, condicional en X, es igual a:
Var(β̂) = Var(β + (X′ X)−1 X′ U) = E[(X′ X)−1 X′ UU′ X(X′ X)−1′ |X]
= (X′ X)−1 X′ E[UU′ |X]X(X′ X)−1
= σ 2 (X′ X)−1
• El estadístico,
( n
)−1 ( n )
√ √ √ ∑ xi x′ ∑ xi ui
n(β̂ − β) = n(X′ X)−1 X′ U = n i
n n
i=1 i=1
Tiene una distribución asintótica normal con media cero y varianza
σ 2 E[xi x′i ]−1
32
Inferencia
Esta distribución se obtiene porque:

∑
n xi x′i
• plim n = E[xi x′i ]
i=1
33
Inferencia

∑
n xi x′i
i=1
√ ∑n
xi ui
• n n converge en distribución a una normal con media cero y varianza
i=1
E[xi ui ui x′i ] = E[u2i xi x′i ] = σ 2 E[xi x′i ] (Teorema Central del Límite)
33
Inferencia

∑
n xi x′i
i=1
√ ∑n
xi ui
• n n converge en distribución a una normal con media cero y varianza
i=1
E[xi ui ui x′i ] = E[u2i xi x′i ] = σ 2 E[xi x′i ] (Teorema Central del Límite)
√
• Por lo tanto n(β̂ − β) converge en distribución a una normal con media
cero y varianza σ 2 E[xi x′i ]−1 E[xi x′i ]E[xi x′i ]−1′ = σ 2 E[xi x′i ]−1
33
Cómo estimamos σ 2 ?
• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
∑ 2
∑
• U′ X/n = ui x′i /n converge en probabilidad a cero.
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
∑ 2
∑
∑
• X′ X/n = xi x′i /n converge en probabilidad a E[xi x′i ].
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
∑ 2
∑
∑
∑
• X′ U/n = xi ui /n ∗ n/(n − k) converge en probabilidad a cero.
34

• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
∑ 2
∑
∑
∑
• X′ U/n = xi ui /n ∗ n/(n − k) converge en probabilidad a cero.
• Por lo tanto, es consistente!
34
• Es insesgado? σ̂ 2 = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)
35
∑
• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)
35
∑
• E[U′ X(X′ X)−1 X′ U|X] ?
35
• Definamos la traza de una matriz como la suma de sus diagonales.
36
• Se puede mostrar que E[tr(A)] = trE[A].
36
• Se puede mostrar que tr(ABC) = tr(BCA) = tr(CAB)
36
• Se puede mostrar que tr(ABC) = tr(BCA) = tr(CAB)
• En el caso de U′ X(X′ X)−1 X′ U es un número, entonces es igual a

tr(U′ X(X′ X)−1 X′ U).
36
E[U′ X(X′ X)−1 X′ U|X] = E[tr(U′ X(X′ X)−1 X′ U)|X]

= E[tr(UU′ X(X′ X)−1 X′ )|X]
= tr(E[UU′ X(X′ X)−1 X′ |X])
= tr(E[UU′ |X]X(X′ X)−1 X′ )
= tr(σ 2 Inxn X(X′ X)−1 X′ )
= tr(σ 2 X′ X(X′ X)−1 )
= tr(σ 2 Ikxk )
= σ2k
37
Finalmente
• σ̂ 2 = Û′ Û/(n − k) = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)
38
Finalmente
∑
38
Finalmente
∑
• E[U′ X(X′ X)−1 X′ U|X] = σ 2 k
38
Finalmente
∑
• E[U′ X(X′ X)−1 X′ U|X] = σ 2 k
• Y E[σ̂ 2 |X] = σ 2
38
Otras Propiedades
Propiedades del estimador de MCO
Propiedad de álgebra lineal:
• Teorema: (Frisch–Waugh–Lovell) Supongamos que se realiza una regresión

de Y en X y en Z. Entonces el coeficiente asociado a X es igual que el que se
obtendría si hacemos una regresión de la parte de Y que no está explicada
por Z en la parte de X que no está explicada por Z.
39
Frisch–Waugh–Lovell
Definiciones previas, sea X una matriz
• Definamos Px = X(X′ X)−1 X′ como la matriz de proyección de X y Mx = I − Px

como la matriz aniquiladora de X.
40

• P′x = Px y Px Px = Px ; M′x = Mx y Mx Mx = Mx .
40

• Intuitivamente, multiplicar por Px proyecta cualquier matriz en el espacio

generado por las columnas de X, y Mx en el espacio ortogonal a las
columnas de X.
40

• Intuitivamente, multiplicar por Px proyecta cualquier matriz en el espacio

generado por las columnas de X, y Mx en el espacio ortogonal a las
columnas de X.
• Si A es una matriz y Px A = 0 se dice que A es ortogonal a X.
40
Volviendo a las regresiones
• El teorema de Frisch–Waugh–Lovell dice que en el modelo:
Y = Xβ + Zα + U
41
Y = Xβ + Zα + U
• Si hacemos la regresión de Y en X y en Z, entonces
β̂mco = (X′ Mz X)−1 X′ Mz Y
41
Y = Xβ + Zα + U
• Si hacemos la regresión de Y en X y en Z, entonces
β̂mco = (X′ Mz X)−1 X′ Mz Y

• Esto es equivalente a hacer una regresión en el modelo:
Mz Y = Mz Xβ + W
41
Demostración
• Primero, notar que los errores estimados son ortogonales a los regresores.
Asumiendo que solo tenemos regresores X, entoncs
Û = Y − Xβ̂ = Y − X(X′ X)−1 X′ Y = Mx Y
42
Demostración
• Primero, notar que los errores estimados son ortogonales a los regresores.
Asumiendo que solo tenemos regresores X, entoncs
Û = Y − Xβ̂ = Y − X(X′ X)−1 X′ Y = Mx Y
• Segundo, si hacemos una regresión en X y Z, se cumple la siguiente

identidad:
Y − Û = Xβ̂mco + Zα̂mco
42
Demostración
• Notar que Û es perpendicular a X y a Z! Multiplicando por X′ Mz en ambos

lados nos queda.
X′ Mz Y − X′ Mz Û = X′ Mz Xβ̂mco
43
Demostración

lados nos queda.
• Pero al ser Û perpendicular tanto a X como a Z, Mz Û = Û, pero X′ Û = 0 . Con

lo que tenemos la identidad,
X′ Mz Y = X′ Mz Xβ̂mco
43
Demostración

lados nos queda.
• Pero al ser Û perpendicular tanto a X como a Z, Mz Û = Û, pero X′ Û = 0 . Con

lo que tenemos la identidad,
X′ Mz Y = X′ Mz Xβ̂mco
• Que implica β̂mco = (X′ Mz X)−1 X′ Mz Y
43
Teorema de Gauss Markov
• Si se cumplen lo supuestos de linealidad, exogeneidad,

no-multicolinealidad, iid y homocedasticidad, entonces β̂mco es el estimador
lineal en Y e insesgados con menor varianza, en el sentido matricial.
44

• BLUE: Best Linear Unbiased Estimator.
44

• BLUE: Best Linear Unbiased Estimator.
• MELI: Mejor Estimador Lineal Insesgado
44
Demostración
• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir

A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.
45
Demostración

• La varianza de β̃ = AY condicional en X es:
Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )
45
Demostración

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )
• La varianza de β̂mco condicional en X es σ 2 (X′ X)−1
45
Demostración

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

• Luego:
Var(β̃) − Var(β̂mco ) = σ 2 DD′
45
Demostración

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

• Luego:
Var(β̃) − Var(β̂mco ) = σ 2 DD′
• Esta diferencia es una matriz semi definida positiva, lo que demuestra el
teorema.
45
Propiedades del estimador
Otras propiedades.
• β̂mco se obtiene también de minimizar las distancias al cuadrado

(formulación clásica)
∑
β̂mco ∈ arg max (yi − x′i β)2
β∈R
i
46
Otras propiedades.

∑
β∈R
i
• Si los errores se asumen normales, entonce β̂mco es el estimador de máxima

verosimilitud.
46
Otras propiedades.

∑
β∈R
i
• Si los errores se asumen normales, entonce β̂mco es el estimador de máxima

verosimilitud.
• Ocupando la condición E[xi (yi − x′i β)] = 0, β̂mco es el estimador de GMM.
46
Revisando los supuestos
Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,

independencia y homocedasticidad ):
• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con

problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.
47


• Endogeneidad: se puede dar por variables omitidas, o algún otro tipo de
problemas. Vamos a ver esto en las siguientes clases.
47


• Multicolinearidad: este supuesto es fácil de chequear.
47


• Muestra no i.i.d.: ¿Ejemplo?
47


• Muestra no i.i.d.: ¿Ejemplo?
• Heterocedasticidad: Principal problema es que dificulta la inferencia
estadística. MCO generalizado.
47
Evaluando regresiones
Evaluando estudios basados en regresiones
Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?
• Validación Interna: las conclusiones sobre los efectos causales y las

inferencias estadísticas son válidos para la población que se está
estudiando.
48

estudiando.
1. ¿Son los estimadores insesgados/consistentes ?
48

estudiando.
2. ¿Están correctos los test realizados?
48

estudiando.

• Validación Externa: las conclusiones se pueden generalizar a otras
poblaciones y situaciones distintas a la estudiada.
48

estudiando.

1. ¿Es la población de interés similar a la población del estudio?
48

estudiando.

1. ¿Es la población de interés similar a la población del estudio?
2. ¿Es el ”escenario”/marco legal/situación similar ?
48
Validación Externa
• Para esta validación, es necesario conocer a la población de estudio e

interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.
49
Validación Externa

• Si existen dos o más estudios en poblaciones similares pero diferentes (y

ambos están bien hechos), se puede chequear comparando los resultados.
49
Validación Externa


• Ej, meta-análisis.
49
Validación Externa


• ¿Revisión de la literatura?
49
Validación Externa


• ¿Revisión de la literatura?
• A veces es más fácil lidear con esto al momento de diseñar el estudio.
49
Validación Interna
En general, existen cinco razones por las cuales los estimadores podrían estar
sesgados o ser inconsistentes:
1. Variables omitidas
2. Especificación funcional errónea
3. Error de medición en las variables
4. Sesgo de selección en la muestra
5. Causalidad simultánea
Y dos razones por las que los test podrían no ser correctos:
1. Heterocedasticidad: La varianza de los errores no es constantes.

2. Correlación serial: Los errores están correlacionados entre si.
50
Validación Interna: Variables Omitidas
El sesgo por variables omitidas ocurre cuando una variable que determina a la
variable dependiente y está correlacionada con alguno de los regresores es
omitida de la regresión. ¿Cómo solucionarlo?
• ¿Si la variable omitida es ”observable”? Agregarla!
51
El sesgo por variables omitidas ocurre cuando una variable que determina a la
variable dependiente y está correlacionada con alguno de los regresores es
omitida de la regresión. ¿Cómo solucionarlo?
• ¿Si la variable omitida es ”observable”? Agregarla!
• ¿Si la variable omitida no es observable? Panel, RDD, IV, etc.
51
Agregar variables tiene ventajas y desventajas.
• Ventaja: podría eliminar el potencial sesgo de variables omitidas.
52
• Desventaja, podría hacer menos precisos los estimadores (varianza

aumenta). Ejemplo: ¿Qué pasa con la varianza del estimador de β cuando
corremos los siguientes modelos?
52

1. Yi = βXi + γZi + Ui
52

1. Yi = βXi + γZi + Ui
2. Yi = βXi + Wi
52
¿Cómo decidir si incluir o no un set de variables ”extras”?
1. Identificar el o los coeficientes de interés en la regresión (Ej. ratio de

alumnos por profesor).
2. ¿Cuáles son las variables que más podrían contribuir a un sesgo por
variables omitidas? Esto, antes de cualquier regresión, para determinar una
regresión ”base” y ”potenciales” variables que podrían ser incluidas.
3. Hacer la regresión base e ir agregando las variables ”potenciales”. Si los
resultados de la nueva regresión tiene esos coeficientes significativos o
impactan fuertemente en los coeficientes de la regresión base, incluirlos. Si
no, excluirlos.
4. Presentar todas las tablas y resultados.
53
54
Validación Interna: Error en la especificación funcional
• Esto se puede ver como un caso de variables omitidas, que implica sesgo en
los estimadores.
55
los estimadores.
• Se puede corregir observando la data y las estimaciones, y corrigiendo la

forma funcional.
55
los estimadores.

forma funcional.
• Si la variable es continua, se pueden ocupar técnicas de estimación no

lineales.
55
los estimadores.

forma funcional.
• Si la variable es continua, se pueden ocupar técnicas de estimación no

lineales.
• Si la variable dependiente es discreta, ocupar Logit , Probit u otros.
55
56
Validación Interna: Errores de Medición.
• Ejemplo: Supongamos que el siguiente modelo cumple con todos los

supuestos:
Pero en vez de observar Xi , observamos X̃i = Xi + Wi , con Wi i.i.d e

independiente de Ui y Xi .
¿Es consistente el estimador? ¿Cómo es la varianza?
57
• Ejemplo: Supongamos que el siguiente modelo cumple con todos los

supuestos:
Pero en vez de observar Xi , observamos X̃i = Xi + Wi , con Wi i.i.d e

independiente de Ui y Xi .
¿Es consistente el estimador? ¿Cómo es la varianza?
• Si ahora observamos Ỹi = Yi + Wi con Wi independiente. ¿Es consistente el

estimador? ¿Cómo es la varianza?
57
¿Cómo solucionarlos?
• Variables instrumentales!
58
¿Cómo solucionarlos?
• Variables instrumentales!
• Modelación del error de medición. Para eso hay que saber como se
comporta el error de medición.
58
Validación Interna: Sesgo de selección y pérdida de datos.
Este puede surgir por tres motivos:
1. Hay datos que se pierden de forma aleatoria. Ej. accidentalmente se

eliminó el 20% de la muestra.
2. Datos que se pierden debido a un proceso relacionado con los regresores.

Ej. si sólo se testean a las escuelas con un ratio de alumnos por profesor
mayor a cierto valor.
3. Algunos datos se pierden debido a un proceso relacionado con la variable

dependiente. Ej. sesgo del sobreviviente.
59
Sesgo del sobreviviente:
• Ejemplo, queremos saber si los fondos mutuos están rentando más que el
mercados.
60
mercados.
• Para eso, buscamos fondos mutuos que estén operando actualmente,

calculamos su retorno histórico, y lo comparamos con la rentabilidad del
índice de mercado.
60
mercados.
• Para eso, buscamos fondos mutuos que estén operando actualmente,

calculamos su retorno histórico, y lo comparamos con la rentabilidad del
índice de mercado.
• ¿Es esto una buena estrategia?
60
¿Cómo solucionarlo?
1. Hay datos que se pierden de forma aleatoria. Esto no es problema.
2. Datos que se pierden debido a un proceso relacionado con los regresores.

Si los supuestos se cumplen, no es problema. Sin embargo, los estimadores
son para la población que observamos.
3. Algunos datos se pierden debido a un proceso relacionado con la variable

dependiente. Si aún controlando por los regresores esto pesiste, genera un
sesgo en el estimador.
61
Validación Interna: Causalidad simultánea
Ejemplo: Oferta y Demanda.
Pd = β0 − β1 Qd + Ui
Po = γ0 + γ1 Qo + Vi
¿Qué obtenemos si hacemos una regresión entre Q y P. ? ¿ Cómo podríamos

estimar la demanda?
62
Validación Interna: Causalidad simultánea
Este sesgo aparece cuando hay una relación causal de X en Y , y de Y en X. Esto

hace que los errores estén correlacionados con los regresores.
Para solucionarlo, podemos ocupar variables instrumentales, o diseñar
experimentos que eliminen una dirección de causalidad.
63
Validación Interna: Problemas con los test estadísticos.
Para asegurarse de que los test que se ralizan sean los correctos, idealmente
hay que usar errores robustos al estimar las varianzas. Stata hace eso
automáticament.
Si hay correlación serial, es necesario modelarla para poder incluirla en los tests.
64

03 Reg

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

03 Reg

Cargado por

Copyright:

Formatos disponibles

Microeconometría

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

• En este caso, entendemos la relación causal como cuanto cambia Yi cuando

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

• En este caso, entendemos la relación causal como cuanto cambia Yi cuando

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir

• Para todo esto necesitamos supuestos.

• Exogenidad: E[Ui |Xi ] = 0

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de

Esto permite estimar

Bajo los supuestos, β̂1 es:

• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la

Bajo los supuestos, β̂1 es:

• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la

• Insesgado: E[β̂1 ] = β1 . Es decir, si repetimos muchas veces el muestreo, el

• En este caso, β1 , que es el efecto causal.

• En este caso, β1 , que es el efecto causal.

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a

• El ejemplo clasico es cuando se asume que los errores se distribuyen en

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a

• El ejemplo clasico es cuando se asume que los errores se distribuyen en

• En econometría moderna, no se ocupa mucho este supuesto.

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a

• El ejemplo clasico es cuando se asume que los errores se distribuyen en

• En econometría moderna, no se ocupa mucho este supuesto.

• Por qué creen?

Estrategia 2: asumir ciertos supuestos que permitan aproximar las

• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,

Estrategia 2: asumir ciertos supuestos que permitan aproximar las

• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,

• Aproximación utilizando el Teorema Central del Límite y la Ley de los

• Errores homocedasticos: Var(Ui |X) = σ 2

• Errores homocedasticos: Var(Ui |X) = σ 2

• Errores no correlacionados: E[Ui Uj |X] = 0

• Errores homocedasticos: Var(Ui |X) = σ 2

• Errores no correlacionados: E[Ui Uj |X] = 0

• Cuartos momentos acotados: 0 < E[Y4i ], E[X4i ] < K

Con todos los supuestos anteriores, podemos obtener la convergencia en

Usando la Ley de los Grande Números:

Usando la Ley de los Grande Números:

Usando la Ley de los Grande Números:

Usando la Ley de los Grande Números:

Ocupando el Teorema Central del Límite