Econometrics02 2022

Econometrı́a
Maestrı́a en Economı́a - Maestrı́a en Econometrı́a
Lecture 2
Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 1 / 80

Agenda
1 Variables Omitidas: Motivación
La Ecuación del Salario con Habilidad no Observada
Consecuencias de Ignorar la Presencia de Variables Omitidas
2 Soluciones al Problema de las Variables Omitidas
Variables “Proxy”
Variables Instrumentales
Mı́nimos Cuadrados en dos Etapas
3 El enfoque de la función de control para la endogeneidad
4 El Estimador de Wald
IV en el Modelo de Resultados Potenciales
5 Errores no Esféricos
Efectos de Reducir el Tamaño de las Clases
Propiedades de MCC en Presencia de Errores no Esféricos
Inferencia en Presencia de Errores no Esféricos
Mı́nimos Cuadrados Generalizados
Agenda
Sesgo por variables omitidas
¿Cuál es el retorno monetario a la

educación?
En promedio, personas con mayor
educación ganan más que personas menos
educadas.
Imagine, para empezar, que la educación
es una decisión binaria: “obtengo
educación primaria o universitaria”
Si la educación se asigna aleatoriamente,
entonces podrı́amos comparar el ingreso
promedio de quienes reciben educación
universitaria con aquellos que reciben
educación primaria.

En ausencia de aleatorización de la educación surgen dos potenciales sesgos al comparar

el ingreso laboral promedio de ambos grupos de educación.
Sesgos provocados por diferencias en caracterı́sticas observables entre ambos grupos (se
corrigen controlando por esas caracterı́sticas)
Sesgos provocados por diferencias en caracterı́sticas no observables entre ambos grupos.
Como ejemplo piense que un sesgo positivo surgirı́a si personas con mayor capacidad de
ingresos (más productivos, más hábiles, etc.) obtuvieran más educación.
En este caso la comparación del ingreso promedio de ambos grupos capturarı́a no solo el
retorno a la educación sino también las diferencias en habilidad.

La ecuación estructural tı́pica para el salario es como sigue,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + γh + v
donde x representa años de experiencia en el mercado de trabajo, s representa años de

educación formal y h es la habilidad natural del individuo. v es el error estructural que
satisface el supuesto de exogeneidad estricta: E (v |x, s, h) = 0.
La teorı́a económica establece un perfil salarial creciente y cóncavo en experiencia,
sugiriendo que β1 > 0 y β2 < 0 en la ecuación anterior. Además, la teorı́a del capital
humano sugiere una relación directa entre salario y educación (β3 > 0) y entre salario y
habilidad (γ > 0).

Empı́ricamente el problema para estimar una ecuación salarial como la anterior es que la
habilidad de una persona no es observable. Por lo tanto, la ecuación estimable es,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + u
donde u = γh + v . En este modelo, en general E (u|x, s) 6= 0 debido a la probable

correlación entre los años de educación y la habilidad de una persona.
En econometrı́a una variable explicativa xj se dice que es endógena si está correlacionada
con el error de la ecuación.
Empı́ricamente, la endogeneidad aparece frecuentemente cuando se presenta el problema
descripto para la ecuación del salario. Es decir cuando tenemos el denominado problema
de las variables omitidas.

Agenda
Mı́nimos Cuadrados Clásicos
Considere el siguiente modelo estructural,
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + γq + v (1)
donde E (v |x1 , x2 , . . . , xk , q) = 0 y q es la variable no observada.

Nuestro interés es estimar correctamente los β’s que son los efectos parciales de las
variables observadas manteniendo constantes el resto de las variables explicativas,
incluyendo a q.
El modelo que se podrı́a estimar es,
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u (2)
donde u = γq + v .
Sin pérdida de generalidad se puede asumir que E (q) = 0 de forma tal que E (u) = 0.

En este modelo si q está correlacionada con alguna de las variables explicativas, entonces
u estará correlacionado también y tenemos el problema de la endogeneidad.
Sabemos que si no se satisface (al menos) el supuesto de exogeneidad contemporánea
MCC no dará estimaciones consistentes de los parámetros.
Escribamos la proyección lineal de q en las k variables explicativas observadas como,
q = δ0 + δ1 x1 + δ2 x2 + · · · + δk xk + r (3)
donde, por definición de proyección lineal, E (r ) = 0 y Cov (xj , r ) = 0, j = 1, 2, . . . , k.

Sustituyendo la ecuación (3) en la (24) podemos ver que estimarı́a MCC aplicado sobre la
ecuación (2).

y = (β0 + γδ0 ) + (β1 + γδ1 )x1 + (β2 + γδ2 )x2 + · · · + (βk + γδk )xk + v + γr
donde el error v + γr cumple con el supuesto de exogeneidad estricta.
De la ecuación anterior surge claramente que MCC aplicado en (2) dará estimadores
consistentes, β̂j , de los parámetros βj + γδj .
Esta especificación es la más general que se puede tener. Muchas veces en la práctica la
variable omitida solo está relacionada con alguna de las variables explicativas observadas.
Esta especificación puede obtenerse haciendo ceros a los δj correspondientes en la
ecuación (3) arriba.

Volviendo al ejemplo del salario,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + γh + v
la teorı́a económica sugiere correlación entre s y h. Las personas con mayor habilidad
alcanzan una educación más alta. Supongamos que la relación entre la habilidad y la
educación es h = π0 + π1 s.
Si omitimos h en la estimación,
log (wage) = β0 + β1 x + β2 x 2 + β3 s + u
MCC dará un estimador de β3 sesgado y no consistente.

Reemplazando h en la ecuación del salario tenemos,
log (wage) = (β0 + π0 γ) + β1 x + β2 x 2 + (β3 + π1 γ)s + v
En este ejemplo particular, MCC da estimaciones insesgadas y consistentes de β1 y β2

pero no asi de β3 . Si π1 > 0 como sugiere la teorı́a económica, entonces MCC
sobre-estimará el coeficiente asociado con los retornos a la educación.

Agenda
Solución usando variables proxy
El problema de las variables omitidas puede ser solucionado si existe una variable proxy
para la variable no observada.
Los requerimientos formales para que una variable pueda ser considerada proxy de otra
son dos.
1 La variable proxy debe ser redundante en la ecuación estructural. Si w es una variable proxy
para q, el requerimiento de redundancia establece que E (y |x, q, w ) = E (y |x, q).
2 La correlación entre la variable omitida q y cada xj debe ser cero una vez que tomamos en
consideración w . En términos de una proyección lineal este supuesto establece que
L(q|1, x1 , . . . , xk , w ) = L(q|1, w ).
Es útil escribir el segundo punto en términos de una ecuación con error,
q = θ0 + θ1 w + r (4)
donde por definición E (r ) = 0 y Cov (w , r ) = 0. Si w es una variable proxy razonable de

q, entonces θ1 6= 0. La condición 2 de arriba establece además que Cov (xj , r ) = 0 ∀j.
Solución usando variables proxy
Para obtener una ecuación estimable podemos reemplazar (4) en (24),
y = (β0 + γθ0 ) + β1 x1 + β2 x2 + · · · + βk xk + γθ1 w + (γr + v )
donde, bajo los supuestos realizados, el error de la ecuación, γr + v , no está

correlacionado con xj , ∀j; redundancia establece que w no está correlacionado con v y
por definición w no está correlacionado con r .
Por lo tanto el error satisface el supuesto de exogeneidad contemporánea y MCC aplicados
en la ecuación anterior da estimaciones consistentes de (β0 + γθ0 ), β1 , . . . , βk y γθ1 .
Entonces, bajo los supuestos de variables proxy, MCC estima en forma consistente el
efecto parcial de las variables explicativas observadas (xj ). En particular, en el ejemplo del
salario empı́ricamente se utilizan los resultados de tests de inteligencia como proxy de
habilidad.

Agenda
Solución usando variables instrumentales
Las variables instrumentales son una forma de solucionar el problema de endogeneidad de

las variables explicativas. En este sentido, es una corrección más general que la de las
variables proxy porque no solo puede aplicarse en el caso de variables omitidas, sino en
cualquier caso en el que exista endogeneidad de algún regresor (i.e. error de medición en
variables explicativas, causalidad simultánea, etc.).
Considere el siguiente modelo,
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u (5)
donde E (u) = 0 y Cov (u, xj ) = 0, j = 1, 2, . . . , k − 1. En palabras, xk es

potencialmente endógena en (5).
Por lo tanto, MCC aplicados a (5) nos dará estimadores inconsistentes.

Para usar el enfoque de IV con xk endógena, necesitamos una variable observable z1 , que
no esté en (5) y que satisfaga dos condiciones:
1 z1 es una variable exógena en (5), es decir Cov (z1 , u) = 0.
6 0 en la proyección lineal de la variable endógena, xk , sobre todas las variables exógenas,
2 θ1 =
xk = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + rk (6)
donde, por definición, E (rk ) = 0 y rk no está correlacionado con x1 , x2 , . . . , xk−1 , z1 .

En palabras, z1 está parcialmente correlacionada con xk una vez que el resto de las
variables exógenas han sido tomadas en cuenta.
Cuando z1 satisface estas dos condiciones se dice una variable instrumental para xk . La
proyección lineal (6) se denomina ecuación de forma reducida para la variable endógena
xk .

Reemplazando (6) en (5) tenemos,
y = α0 + α1 x1 + α2 x2 + · · · + αk−1 xk−1 + λ1 z1 + v (7)
donde v = u + βk rk , αj = βj + βk δj y λ1 = βk θ1 .
Por nuestros supuestos, v no está correlacionado con ninguna de las variables explicativas
de (7) y por lo tanto MCC estima consistentemente los parámetros de la ecuación
reducida de y .
Algunas veces, estimar los parámetros de la ecuación reducida (7) tiene interés en si
mismo pero en general se trata de estimar en forma consistente los parámetros de (5).
Los supuestos hechos para IV también lo permiten.

Para ver esto formalmente, escribamos (5) como,
y = xβ + u
donde x = (1, x1 , . . . , xk ) y β 0 = (β0 , β1 , . . . , βk ) son de dimensión 1 × k + 1.

Definamos el vector de variables exógenas z = (1, x1 , . . . , xk−1 , z1 ) y el vector de
parámetros de la ecuación reducida δ 0 = (δ0 , δ1 , . . . , δk−1 , θ1 ).
Bajo los supuestos de (5) y el supuesto de que la variable instrumental z1 es exógena se
cumplen las siguientes condiciones de ortogonalidad:
E (z 0 u) = 0.

Por lo tanto,
z 0y = z 0 xβ + z 0 u ⇒ E (z 0 y ) = E (z 0 x)β + E (z 0 u)
⇒ E (z 0 y ) = E (z 0 x)β (8)
Donde E (z 0 x) es de dimensión k + 1 × k + 1, y E (z 0 y ) es de dimensión k + 1 × 1.

La última expresión representa un sistema de k + 1 ecuaciones lineales con k + 1
incógnitas. El sistema tiene una solución única si y solo sı́ la matriz E (z 0 x) tiene rango
completo (i.e. rango E (z 0 x) = k + 1).

Note que x = zπ + r con
 
1 0 ··· 0 δ0

 0 1 ··· 0 δ1 

π=
 .. .. . . .. .. 
 . . . . . 

 0 0 ··· 1 δk−1 
0 0 ··· 0 θ1
y r = (0, . . . , 0, rk ).
Entonces E (z 0 x) = E (z 0 (zπ + r )) = E (z 0 z)π de forma tal que para que E (z 0 x) tenga
rango completo necesitamos que E (z 0 z) tenga rango k + 1, que es un supuesto estándar,
y que π tenga rango k + 1 que está garantizado por el supuesto 2 de IV (θ1 6= 0).
En este caso, la solución del sistema de ecuaciones está dada por:
β = [E (z 0 x)]−1 E (z 0 y )

Utilizando los análogos muestrales se obtiene el estimador de variables instrumentales,

n
!−1 n
1X 0 1X 0
β̂ = zi xi zi yi
n n
i=1 i=1
0 −1 0 0 −1 0
= (z x) z y = (z x) z (xβ + u)
0 −1 0
= β + (z x) zu (9)
Usando la WLLN,
n
!
1X 0 p
zi xi −→ E (z 0 x)
n
i=1
que bajo los supuestos de IV tiene rango completo.

Además,
n
1X 0 p
zi ui −→ E (z 0 u) = 0
n
i=1
y el estimador de IV es consistente.
Volviendo al ejemplo de la ecuación de salarios, la omisión de la habilidad (h) provoca que
la variable que mide educación (s) sea endógena en el modelo. Para obtener estimaciones
consistentes en la ecuación salarial necesitamos un instrumento para s.
Card(1995), por ejemplo, utiliza una variable binaria que indica si una persona creció en el
vecindario de una universidad como variable instrumental de años de educación.

Agenda
Considere nuevamente la ecuación (5) con todos sus supuestos. Es decir, suponga que
existe endogeneidad potencial de xk .
Supongamos que tenemos más de una variable instrumental para xk . En particular,
supongamos que z1 , z2 , . . . , zM son variables tal que,
Cov (zh , u) = 0, h = 1, 2, . . . , M. (10)
cada zh es exógena en la ecuación (5).

Si cada una de estas variables tiene alguna correlación parcial con xk , tenemos M
potenciales instrumentos.
En realidad, hay muchos más que M porque cualquier combinación lineal de
x1 , x2 , . . . , xk−1 , z1 , z2 , . . . , zM no tiene correlación con u. Qué instrumento deberı́amos
utilizar?
Bajo ciertos supuestos Mı́nimos cuadrados en dos etapas (2SLS) es el estimador de IV
más eficiente.
Definamos el vector de variables exógenas como antes,

z = (1, x1 , x2 , . . . , xk−1 , z1 , z2 , . . . , zM ) un vector de dimensión 1 × L con L = k + M.
Definamos la proyección lineal de la variable endógena sobre todas las variables exógenas,
xk = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + · · · + θM zM + rk (11)
donde, por definición, E (rk ) = 0 y rk no está correlacionado con ninguna de las variables
en el lado derecho de la ecuación.
Como ninguna combinación lineal de z está correlacionada con u
xk∗ = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + · · · + θM zM (12)
tampoco lo estará.
Si observáramos xk∗ podrı́amos utilizarla como instrumento para xk en (5).

Sin embargo, si no existen dependencias lineales exactas entre las variables exógenas se
podrı́an estimar en forma consistente por MCC los parámetros de (11) y definir para cada
observación i,
x̂i,k = δ̂0 + δ̂1 xi,1 + · · · + δ̂k−1 xi,k−1 + θ̂1 zi,1 + · · · + θ̂M zi,M (13)
Ahora para cada observación i definamos el vector x̂i ≡ (1, xi,1 , . . . , xi,k−1 , x̂i,k ) y
estimemos por IV,
n
!−1 n
X X
0
β̂ = x̂i x x̂i0 y = (x̂ 0 x)−1 x̂ 0 y . (14)
i=1 i=1
Este estimador IV es también un estimador de MCC.
x̂ = z δ̂ = z(z 0 z)−1 z 0 x = Pz x
con Pz una matriz idempotente y simétrica.

Por lo tanto, x̂ 0 x = x 0 Pz x = (Pz x)0 Pz x = x̂ 0 x̂. Reemplazando esta última expresión en

(14) se obtiene,
β̂ = (x̂ 0 x̂)−1 x̂ 0 y . (15)
El término, mı́nimos cuadrados en dos etapas viene de este procedimiento.
Entonces β̂ se puede obtener con los siguientes pasos
1 Obtenga x̂k de la regresión de xk sobre x1 , . . . , xk−1 , z1 , . . . , zM . Este paso se denomina
regresión de la primera etapa.
2 Estime por MCC una regresión de y sobre x1 , . . . , xk−1 , x̂k . Esta es la regresión de la
segunda etapa.
El estimador de 2SLS y el de IV son idénticos si solo existe un instrumento para xk .

En términos generales podemos resumir los resultados de 2SLS como sigue. Considere el
modelo,
y = xβ + u
donde x es de dimensión 1 × k y varios elementos de x pueden estar potencialmente
correlacionados con u.
Supuesto 1: Para algún vector 1 × L, z, E (z 0 u) = 0.
Note que el supuesto de exogeneidad estricta E (u|z) = 0 implica el supuesto 1.
Supuesto 2: (a) rango E (z 0 z) = L; (b) rango E (z 0 x) = k.
Técnicamente, la parte (a) del supuesto 2 es necesaria pero no especialmente importante.
La parte (b) del supuesto es la realmente importante porque es la condición de rango que
permite la identificación de los parámetros del modelo.

Definamos el vector de variables exógenas como antes,

z = (1, x1 , x2 , . . . , xk−1 , z1 , z2 , . . . , zM ) un vector de dimensión 1 × L con L = k + M.
Definamos la proyección lineal de x sobre z como x = x ∗ + r con
x ∗ = zπ = z[E (z 0 z)]−1 E (z 0 x) y r = (0, . . . , 0, rk ).
0
Entonces, multiplicando el modelo por x ∗ y tomando esperanzas tenemos,
0 0 0 0
E (x ∗ y ) = E (x ∗ x)β + E (x ∗ u) = E (x ∗ x)β
0 0 0
y β está identificado por β = [E (x ∗ x)]−1 E (x ∗ y ) si E (x ∗ x) no es singular.
0
Ahora E (x ∗ x) = π 0 E (z 0 x) = E (z 0 x)0 [E (z 0 z)]−1 E (z 0 x) y esta matriz no es singular si
E (z 0 x) tiene rango k, lo que está garantizado si se cumple el supuesto 2 (b).

El estimador de 2SLS se puede escribir con la ecuación (14) o con,

n
! n
!−1 n
!−1
X X X
β̂ =  xi0 zi zi0 zi zi0 xi 
i=1 i=1 i=1
n
! n
!−1 n
!
X X X
× xi0 zi zi0 zi zi0 yi
i=1 i=1 i=1

n
! n
!−1 n
!−1
X X X
= β +  n−1 xi0 zi n−1 zi0 zi n−1 zi0 xi 
i=1 i=1 i=1
n
! n
!−1 n
!
X X X
× n−1 xi0 zi n−1 zi0 zi n−1 zi0 ui (16)
i=1 i=1 i=1

El estimador de 2SLS es consistente aplicando la WLLN a la ecuación anterior. Además

apropiadamente re-escalado es asintóticamente normal.
√
La normalidad
Pn asintótica de n(β̂ − β) se sigue de la normalidad asintótica de
n −1/2 0
i=1 zi ui , que sigue del CLT bajo el supuesto 1,
n
X
n−1/2 zi0 ui ∼ Normal(0, σ 2 E (z 0 z))
i=1
Si agregamos el supuesto de varianza de los errores esférica podemos derivar la matriz de

varianzas y covarianzas de los estimadores de 2SLS.
Supuesto 3: E (uu 0 |z) = σ 2 .
√ d
n(β̂ − β) −→ Normal(0, σ 2 {E (x 0 z)[E (z 0 z)]−1 E (z 0 x)}−1 ) (17)

La estimación de la matriz de varianzas y covarianzas asintótica de los estimadores de

2SLS se obtiene usando los análogos muestrales de las esperanzas y estimando
consistentemente σ 2 .
Definiendo los residuos de la estimación de 2SLS como,
ûi = yi − xi β̂, i = 1, 2, . . . , n.
La estimación consistente de σ 2 viene dada por,

n
X
σ̂ 2 = (n − k)−1 ûi2
i=1
Por lo tanto σ̂ 2 ( ni=1 x̂i0 x̂i )−1 = σ̂ 2 (x̂ 0 x̂)−1 es un estimador válido de la matriz de
P
varianzas y covarianzas de los estimadores de 2SLS.

Bajo los supuestos 1, 2 y 3, los estimadores de 2SLS son eficientes dentro de la clase de
todos los estimadores de IV que usan instrumentos lineales en z.
Es posible detectar la presencia de variables explicativas endógenas?
Test de Hausman (1978)
Idea: bajo la hipótesis nula de no existencia de endogeneidad, el estimador de MCC,
β̂MCC , y el estimador de variables instrumentales, β̂2SLS , son estimadores consistentes de
β, y el estimador de MCC es el más eficiente.
Si la hipótesis nula es falsa, el estimador de variables instrumentales, β̂2SLS , es el único
consistente.
Entonces, bajo la hipótesis nula ambos estimadores deberı́an diferir solo por error
muestral. Es decir, aceptar la hipótesis nula del test es evidencia en favor de exogeneidad.

Hausman sugiere utilizar un test de Wald. Supongamos que V2SLS es la matriz de

varianzas y covarianzas asintótica del estimador de variables instrumentales y VMCC es la
correspondiente al estimador de MCC. Entonces,
H = (β̂MCC − β̂2SLS )0 [V2SLS − VMCC ]−1 (β̂MCC − β̂2SLS ) ∼ χ2 (q)
donde q es la dimensión del vector β̂MCC .

Si hay una sola variable potencialmente endógena, xk , el estadı́stico de Hausman se
reduce a,
(β̂k,MCC − β̂k,2SLS )
tH = p ∼ Normal(0, 1)
Vk,2SLS − Vk,MCC

Función de Control
En general el método de la función de control se utiliza para manejar la endogeneidad en
modelos no lineales.
El enfoque de la función de control utiliza regresores adicionales para romper la
correlación entre las variables explicativas endógenas y los errores noobservables que
afectan la variable dependiente.
Como en el método de VI (o 2SLS) este enfoque también descansa en la existencia de
variables exógenas que no aparecen en la ecuación estructural.
Supongamos que y1 es la variable dependiente, y2 es una variable explicativa endógena y
z es un vector de dimensión 1 × L de variables exógenas (incluye un 1 en el primer
elemento para la constante).
Considere el siguiente modelo:
y1 = z1 δ 1 + α1 y2 + u1 (18)
con z1 un subconjunto 1 × L1 de z.
Las variables en z son exógenas en el mismo sentido qu con VI, es decir E (z0 u1 ) = 0.
Por lo tanto se puede estimar (δ 1 , α1 ) en forma consistente usando 2SLS (agregando la
condición de rango estándar).
En el método de la función de control la forma reducida de la variable endógena juega un
rol fundamental:
y2 = zπ2 + v2 (19)
0

E z v2 = 0 (20)
donde π2 es L × 1
En este modelo la endogenidad de y2 aparece si y solo si u1 está correlacionado con v2 .
Consideremos la proyección lineal de u1 sobre v2 :
u1 = ρ1 v2 + e1 (21)
donde ρ1 = E (v2 u1 ) /E v22 es el coeficiente poblacional.


Por definición E (v2 e1 ) = 0, y E (z0 e10 ) = 0 por que u1 y v2 no estan correlacionados con z.
Reemplazando (21) en (18) tenemos
y1 = z1 δ 1 + α1 y2 + ρ1 v2 + e1 (22)
donde v2 aparece como variable explicativa.

Note que e1 no está correlacionado con v2 ni con z y como y2 es una función lineal de z y
v2 , e1 tampoco está correlacionado con y2 .
La ecuación (22) sugiere una forma de estimar en forma consistente (δ 1 , α1 ): MCC
Único problema: no observamos v2
El procedimiento entonces involucra dos pasos:
1 Estimar por MCC la ecuación (19) y construir los residuos v̂2
2 Estimar por MCC la ecuación (22) reemplazando v2 por v̂2 .

Note que en el procedimiento anterior tenemos
y1 = z1 δ 1 + α1 y2 + ρ1 v2 + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ2 ) + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ2 ± zπ̂2 ) + e1
= z1 δ 1 + α1 y2 + ρ1 (y2 − zπ̂2 ) + e1 + ρ1 (zπ̂2 − zπ2 )
= z1 δ 1 + α1 y2 + ρ1 v̂2 + error (23)
donde error = e1 + ρ1 (zπ̂2 − zπ2 ) depende del error muestral de π̂2 , salvo que ρ1 = 0.
Esto implica que la matriz de varianzas y covarianzas de los coeficientes estimados en el
segundo paso del procedimiento deberá tomar en cuenta este error muestral.
La estimación por MCC de (23) es una ejemplo de estimador de la función de control.
La inclusión de los residuos v̂2 “controla” por la endogeneidad de y2 en la ecuación
original (aunque lo hace con error muestral porque π2 6= π̂2 ).
Como comparan los enfoques de 2SLS y función de control?

Se puede mostrar algebraicamente que los estimadores de (δ 1 , α1 ) son exactamente los
mismos.
La ecuación (23) provee otra forma de contrastar por endogeneidad: H0 : ρ1 = 0 versus
H1 : ρ1 6= 0 con un estadı́stico t de significatividad individual.
Se puede mostrar que este contrate es igual al test de Hausman que describimos para
variables instrumentales.

Agenda
El Estimador de Wald
Considere nuevamente el modelo de regresión causal
yu = β0 + β1 sT (u) + u (24)
donde u y sT (u) pueden estar correlacionados por la no existencia de variables de control.
Suponga que zu es una variable binaria que representa una aleatorización inicial de los
grupos de tratamiento y de control y que sT (u) = 1 representa a aquellos que
efectivamente reciben la intervención.
En este contexto la correlación entre u y sT (u) refleja la autoselección en el tratamiento.
En (24) sT (u) es una variable endógena y zu es su instrumento.
Si la aleatorización inicial se cumpliera observarı́amos: s = zs1 + (1 − z)s0 , donde
sj , j = 0, 1 son los resultados potenciales de la asignación.
Entonces,
y = y0 + s(y1 − y0 ) = y0 + [zs1 + (1 − z)s0 ](y1 − y0 )
= y0 + s0 (y1 − y0 ) + z(s1 − s0 )(y1 − y0 ) (25)
Estimación
Supuesto clave: z independiente de (y0 , y1 , s0 , s1 ).

Entonces:
E(y | z = 1) = E (y0 ) + E [s0 (y1 − y0 )] + E [(s1 − s0 ) (y1 − y0 )]
E(y | z = 0) = E (y0 ) + E [s0 (y1 − y0 )]

Por lo tanto
E(y | z = 1) − E(y | z = 0) = E [(s1 − s0 ) (y1 − y0 )] (26)

Estimación
Considere las siguientes definiciones:

I s0i = 0, s1i = 0: never takers (nunca toman el tratamiento sin importar el valor de zi )
I s0i = 0, s1i = 1: compliers (cumplen con el tratamiento solo cuando se les ofrece)
I s0i = 1, s1i = 0: defiers (cumplen con el tratamiento solo cuando no se les ofrece)
I s0i = 1, s1i = 1: always takers (toman el tratamiento sin importar el valor de zi )
Supuesto: no hay defiers que son las unidades de la población más difı́ciles de definir.
Note que se necesita observar s0 y s1 para saber, por ejemplo, quien es un complier y
quien no lo es, pero en la práctica solo uno de esos tratamientos potenciales se observa.

Estimación
La ecuación (26) se puede reescribir como
1 · E (y1 −y0 | s1 − s0 = 1) P (s1 − s0 = 1) +

(−1)E (y1 − y0 | s1 − s0 = −1) P (s1 − s0 = −1) +
0 · E (y1 − y0 | s1 − s0 = 0) P (s1 − s0 = 0) =
E (y1 − y0 | s1 − s0 = 1) P (s1 − s0 = 1) −
E (y1 − y0 | s1 − s0 = −1) P (s1 − s0 = −1) (27)
Como no hay “defiers” P (s1 − s0 = −1) = 0,
E(y | z = 1) − E(y | z = 0) = E (y1 − y0 | s1 − s0 = 1) P (s1 − s0 = 1)

Estimación
Imbens y Angrist (1994) definen,
E(y | z = 1) − E(y | z = 0)
τLATE = E (y1 − y0 | s1 − s0 = 1) =
P (s1 − s0 = 1)
E(y | z = 1) − E(y | z = 0)
=
P (s = 1 | z = 1) − P (s = 1 | z = 0)
E(y | z = 1) − E(y | z = 0) cov (y , z)
= = (28)
E (s | z = 1) − E (s | z = 0) cov (s, z)
La ecuación (28) es el estimador de Wald.

El estimador de Wald se puede recuperar de la estimación de variables instrumentales de
y sobre s usando como instrumento z.

Agenda
La Polı́tica
Recordemos el ejemplo de una polı́tica educativa que consiste en reducir el tamaño de las
clases en la educación primaria y su efecto sobre el aprendizaje de los alumnos.
La polı́tica es tener clases con menos alumnos por profesor. La variable que mide el
aprendizaje son las notas en pruebas estandarizadas de fin de año.
En la práctica, la implementación más común de esta medida se realiza en dos etapas:
1 1ra Etapa: se eligen aleatoriamente algunas escuelas de la población de escuelas.
2 2da Etapa: Se asignan aleatoriamente las escuelas elegidas en la primera etapa a los grupos
de tratamiento y de control.
En este contexto, los alumnos de una misma escuela o clase tienden a tener puntajes en
las pruebas que están correlacionados ya que están sujetos a algunas de las mismas
influencias ambientales y de origen familiar.

La Polı́tica
En términos matemáticos el modelo es
yi = α + βsi + ui (29)
donde yi es la nota del alumno i y si es la asignación aleatoria de la polı́tica.

Hasta ahora, para hacer inferencia estadı́stica, supusimos que ui tenı́a varianza constante
y covarianzas iguales a cero.
Lo que sucede con la implementación de la polı́tica es que ahora la cov (ui , uj ) 6= 0 si los
alumnos i y j pertenecen a la misma escuela.
¿Qué sucede con la inferencia en este modelo si pasa esto?

Agenda
Propiedades de MCC
Considere el siguiente modelo,
y = xβ + u, E (u|x) = 0, E (uu 0 |x) = σ 2 Ω. (30)
El estimador de MCC es,
β̂ = (x 0 x)−1 x 0 y
= β + (x 0 x)−1 x 0 u (31)
Los estimadores de MCC son insesgados y consistentes,
E (β̂|x) = β + (x 0 x)−1 x 0 E (u|x)

= β (32)
y aplicando la ley de expectativas iteradas, E (β̂) = β.

Propiedades de MCC
n
!−1 n
X X
β̂ = β+ n−1 xi0 xi n−1 xi0 ui
i=1 i=1
p 0 −1 0
−→ β + [E (x x)] E (x u)
p
−→ β (33)
donde la primera convergencia se obtiene aplicando la WLLN y la segunda sigue del
supuesto de exogeneidad estricta.
Apropiadamente re-escalado, los estimadores de MCC son asintóticamente normales,
n
!−1 n
√ X X
n(β̂ − β) = + n−1 xi0 xi n−1/2 xi0 ui
i=1 i=1
d
−→ Normal(0, [E (x 0 x)]−1 E (x 0 uu 0 x)[E (x 0 x)]−1 )
Propiedades de MCC
La matriz de varianzas y covarianzas asintótica de β̂ puede escribirse como,

√
Var [ n(β̂ − β)] = [E (x 0 x)]−1 E [E (x 0 uu 0 x|x)][E (x 0 x)]−1
= [E (x 0 x)]−1 E [x 0 E (uu 0 |x)x][E (x 0 x)]−1
= σ 2 [E (x 0 x)]−1 E [x 0 Ωx][E (x 0 x)]−1 (34)
Note que si la varianza de los errores fuera esférica, la ecuación anterior se reduce a la
matriz de varianzas y covarianzas asintótica que obtuvimos para MCC: σ 2 [E (x 0 x)]−1 .
Entonces, una consecuencia de la heterocedasticidad y/o de la correlación serial es que
matriz de varianzas y covarianzas asintótica convencional de MCC es incorrecta.

Agenda
Inferencia Estadı́stica
La inferencia estadı́stica convencional de MCC no es válida en presencia de errores no

esféricos.
Para poder hacer inferencia estadı́stica en este modelo necesitamos tests estadı́sticos
robustos ante la presencia de heterocedasticidad y/o correlación serial.
Para esto necesitamos estimar la matriz de varianzas y covarianzas asintótica de MCC
correcta, !−1 !−1
n n
! n
X X X
\
Var (β̂) = xi0 xi xi0 ûi ûi0 xi xi0 xi (35)
i=1 i=1 i=1
donde û son los residuos de la estimación por MCC. Esta es la matriz de varianzas y
covarianzas robusta ante la presencia de heterocedasticidad y correlación serial de White
(1980).

Inferencia Estadı́stica
La raiz cuadrada de los elementos de la diagonal principal de (35) son los errores estándar
robustos. Los estadı́sticos t se calculan de la forma usual con estos errores estándar
robustos.
Para realizar contrastes sobre combinación lineal de coeficientes el estadı́stico de Wald se
construye con la fórmula habitual,
W = (R β̂ − r )0 [R Var
\ (β̂)R 0 ]−1 (R β̂ − r )/#r (36)
\
donde Var (β̂) está definida por la ecuación (35)

Agenda
Una alternativa a la estimación por MCC y la inferencia estadı́stica robusta es utilizar el
método de mı́nimos cuadrados generalizados (MCG).
Considere la estimación del mismo modelo que antes,
y = xβ + u, E (u|x) = 0, E (uu 0 |x) = σ 2 Ω.
y asumamos por un momento que los elementos de Ω son conocidos.

Como Ω es definida positiva, su inversa también lo es. Por lo tanto, es posible encontrar
una matriz no singular P tal que:
Ω−1 = P 0 P. (37)
Premultiplicando (30) por P se obtiene,
y∗ = x∗ β + u∗ , (38)
donde y∗ = Py , x∗ = Px y u∗ = Pu.
El modelo transformado cumple con el supuesto de exogeneidad estricta,
E (u∗ |x∗ ) = E (u∗ |x) = E (Pu|x)

= PE (u|x) = 0
Además, de acuerdo con (37), Ω = P −1 (P 0 )−1 . Por lo tanto,
Var (u∗ ) = E (Puu 0 P 0 )

= σ 2 PΩP 0
= σ 2 PP −1 (P 0 )−1 P 0
= σ 2 In (39)
y el modelo transformado cumple con los supuestos del modelo de regresión lineal
múltiple y puede ser estimado por MCC.

El método de MCG minimiza,
RSS(β̂) = (y∗ − x∗ β̂)0 (y∗ − x∗ β̂)

= (y∗0 − β̂ 0 x∗0 )(y∗ − x∗ β̂)
= y∗0 y∗ − β̂ 0 x∗0 y∗ − y∗0 x∗ β̂ + β̂ 0 x∗0 x∗ β̂
= y∗0 y∗ − 2β̂ 0 x∗0 y∗ + β̂ 0 x∗0 x∗ β̂ (40)
El estimador de MCG es,
β̂ = (x∗0 x∗ )−1 x∗0 y∗

= (x 0 Ω−1 x)−1 x 0 Ω−1 y (41)
y usando la teorı́a desarrollada para MCC,
Var (β̂) = σ 2 (x∗0 x∗ )−1 = σ 2 (x 0 Ω−1 x)−1 ,

Una estimación consistente de la varianza del estimador de MCG es,
\
Var (β̂) = s 2 (x∗0 x∗ )−1 = s 2 (x 0 Ω−1 x)−1 , (42)
con,
s 2 = (y∗ − x∗ β̂)0 (y∗ − x∗ β̂)/(n − K )

= [P(y − x β̂)]0 [P(y − x β̂)]/(n − K )
= [(y − x β̂)]0 Ω−1 [(y − x β̂)]/(n − K ).
La raiz cuadrada de los elementos de la diagonal principal de (42) son los errores estándar
de los estimadores de MCG y pueden utilizarse para construir los estadı́sticos t.
Restricciones lineales del tipo H0 : Rβ = r pueden contrastarse utilizando el test de Wald,
W = (R β̂ − r )0 [Rs 2 (x 0 Ω−1 x)−1 R 0 ]−1 (R β̂ − r )/#r (43)

En términos generales, los resultados de MCG pueden resumirse de la siguiente manera.

Para mostrar consistencia necesitamos reforzar el supuesto 3 de no singularidad.
Supuesto 3’: Ω es positiva definida y E (x 0 Ω−1 x) no es singular.
Usando la WLLN,
n
X p
n−1 xi0 Ωxi −→ E (x 0 Ω−1 x) ≡ A
i=1
y por el supuesto 3’,

n
!−1
X p
n−1 xi0 Ωxi −→ A−1
i=1

Usando la WLLN y el supuesto de exogeneidad estricta,
n
−1
X p
n xi0 Ωui −→ E (x 0 Ω−1 u) = 0
i=1
Prueba:
vec[E (x 0 Ω−1 u)] = [E (u 0 ⊗ x 0 )]vec(Ω−1 )

= [E (u ⊗ x)0 ]vec(Ω−1 ) = 0
Por lo tanto,
β̂ = β + (n−1 x 0 Ω−1 x)−1 n−1 x 0 Ω−1 u

p
−→ β + A−1 E (x 0 Ω−1 u) = β (44)
y el estimador de MCG es consistente.

La distribución asintótica se obtiene desde,
√
n(β̂ − β) = (n−1 x 0 Ω−1 x)−1 n−1/2 x 0 Ω−1 u
d
−→ A−1 Normal(0, σ 2 A)
d
−→ Normal(0, σ 2 A−1 ) (45)
donde se utilizó el CLT para,

n
d
X
n−1/2 xi0 Ωui −→ Normal(0, σ 2 A)
i=1
con A ≡ E (x 0 Ω−1 x).

Por lo tanto, la matriz de varianzas y covarianzas asintótica del estimador de MCG es,
Var (β̂) = σ 2 A−1 /n

Mı́nimos Cuadrados Generalizados Estimados
Remark: Note que para poder obtener la consistencia del estimador de MCG es necesario
asumir que las variables explicativas son estrı́ctamente exógenas. Este supuesto es más
fuerte que el necesario para obtener consistencia de MCC que es, como vimos,
exogeneidad contemporánea.
Hasta ahora se asumió que Ω era conocida. En general, en la práctica, esto no es ası́ y se
necesita una estimación consistente de la misma.
El método que utiliza una estimación consistente de Ω es conocido como mı́nimos
cuadrados generalizados estimados (MCGE) ó feasible generalized least squares (FGLS).
Vamos a mostrar, en lo que sigue, que MCGE es asintóticamente equivalente a MCG.

El estimador de MCGE es,
β̃ = (x 0 Ω̂−1 x)−1 x 0 Ω̂−1 y

= β + (x 0 Ω̂−1 x)−1 x 0 Ω̂−1 u
Xn n
X
−1 0 −1 −1 −1
= β + (n xi Ω̂ xi ) n xi0 Ω̂−1 ui , ⇒
i=1 i=1
n n
√ X X
n(β̂ − β) = (n−1 xi0 Ω̂−1 xi )−1 n−1/2 xi0 Ω̂−1 ui (46)
i=1 i=1
Comparando el segundo término de (46) con el correspondiente a MCG tenemos,

n
X n
X n
X
−1/2
n xi0 Ω̂−1 ui −n −1/2
xi0 Ω−1 ui =n −1/2
xi0 (Ω̂−1 − Ω−1 )ui
i=1 i=1 i=1

Note que la ecuación anterior puede escribirse como,

n
" #
X
n−1/2 (ui ⊗ xi )0 vec(Ω̂−1 − Ω−1 ) = op (1) ⇒
i=1
n
X n
X
n−1/2 xi0 Ω̂−1 ui = n−1/2 xi0 Ω−1 ui + op (1) (47)
i=1 i=1
Usando el mismo argumento,

n
X n
X
−1
n xi0 Ω̂−1 xi =n −1
xi0 Ω−1 xi + op (1) (48)
i=1 i=1

Usando los resultados anteriores tenemos,
n n
! !
√ X X
n(β̃ − β) = n−1 xi0 Ω−1 xi n−1/2 xi0 Ω−1 ui + op (1)
i=1 i=1
√
= n(β̂ − β) + op (1)
√
⇒ n(β̃ − β̂) = op (1) (49)
√
que los estimadores de MCG y de MCGE son asintóticamente equivalentes ( n
asintóticamente equivalentes).
Empı́ricamente, la equivalencia asintótica de los estimadores de MCG y MCGE implica
que para realizar inferencia estadı́stica sobre β usando MCGE, no hay que preocuparse de
que Ω̂ sea un estimador de Ω.
En otras palabras,
√ d
n(β̃ − β) −→ Normal(0, σ 2 A−1 )
Bajo MCGE la estimación de A viene dada por,
n
X
−1
Ã ≡ n xi0 Ω̂xi
i=1
En general la estimación de Ω se hace imponiendo alguna estructura en la matriz (e.g.

heterocedasticidad o correlación serial).
Por ejemplo, si hay heterocedasticidad, una estimación consistente de A es,
m
X
Ã = Γ̂0 + ω(j, m)(Γ̂j + Γ̂0j ),
j=1
donde,
n
1 X 0 0
Γ̂j = xi ûi ûi−j xi−j , j = 0, 1, 2, . . . , m
n
i=j+1

ω(j, m) es una ventana a definir y m es un parámetro de truncamiento.

Por ejemplo,

1 j = 1, 2, . . . , m. uniform window
ω(j, m) = j
1 − m+1 , j = 1, 2, . . . , m. Bartlett (Newey-West) window
ûi (i = 1, 2, . . . , n) son los residuos de la estimación por MCC.

Cómo detectar la presencia de heterocedasticidad y/ó correlación serial en el modelo?
Vamos a desarrollar el test de White para detectar heterocedasticidad y el test de
Breusch-Godfrey para detectar correlación serial.

Test de White
H0 : No existe heterocedasticidad
H1 : Existe heterocedasticidad
Este contraste asume que la forma funcional de la heterocedasticidad es lineal en todas
las variables explicativas del modelo, sus cuadrados y sus productos cruzados.
Por ejemplo, suponga el siguiente modelo,
yi = α0 + α1 xi,1 + α2 xi,2 + ui
La forma funcional de la heterocedasticidad de White es,
σi2 = γ0 + γ1 xi,1 + γ2 xi,2 + γ3 xi,1

2 2
+ γ4 xi,2 + γ5 xi,1 xi,2

En este modelo la hipótesis nula se puede escribir como: H0 : γ1 = γ2 = · · · = γ5 = 0, y

la alternativa como, H1 : al menos un γi 6= 0, i = 1, 2, . . . , 5.
El procedimiento de White es como sigue:

1 Estimar el modelo original por MCC y obtener la serie de residuos y de sus cuadrados.
2 Estimar la ecuación de la forma funcional de la varianza reemplazando la variable
dependiente por la serie de residuos al cuadrado obtenida en el paso anterior.
3 Construir el estadı́stico LM = n × R 2 ∼ χ2q . El R 2 es el de la regresión del Paso 2 y q es el
número de parámetros iguales a cero en la hipótesis nula.

Heterocedasticidad: procedimiento de White
Suponga el siguiente modelo estructural,
yi = α0 + α1 xi,1 + α2 xi,2 + ui (50)
Entonces, la forma funcional de la heterocedasticidad de White es,

2
σi2 = γ0 + γ1 xi,1 + γ2 xi,2 + γ3 xi,1 2
+ γ4 xi,2 + γ5 xi,1 xi,2 (51)
FGLS White
1. Estimar (50) por OLS y obtener las estimaciones de los parámetros del modelo.
2. Calcular los residuos del modelo y elevarlos al cuadrado, ûi2 .
3. Estimar (51) por OLS usando ûi2 como proxy de σi2 .
4. Usar las estimaciones de la regresión auxiliar y obtener las variancias ajustadas como:
ûbi2 ≡ σ̂i2 = γ̂0 + γ̂1 xi,1 + γ̂2 xi,2 + γ̂3 xi,1

2 2
+ γ̂4 xi,2 + γ̂5 xi,1 xi,2

Heterocedasticidad: procedimiento de White
FGLS White (Cont.)

5. Transformar las variables de (51) dividiendolas por σ̂i2 y estimar por OLS,
2 2
ûi2 1 xi,1 xi,2 xi,1 xi,2 xi,1 xi,2
= γ 0 2 + γ 1 2 + γ2 2 + γ 3 2 + γ 4 2 + γ5 + νi
σ̂i2 σ̂i σ̂i σ̂i σ̂i σ̂i σ̂i2
6. Con los γ̃’s de la estimación anterior calcular
ûi2
c
≡ σ̃i2 = γ̃0 + γ̃1 xi,1 + γ̃2 xi,2 + γ̃3 xi,1
2 2
+ γ̃4 xi,2 + γ̃5 xi,1 xi,2
σ̂i2
1
7. Usar σ̃i como ponderadores para estimar (50).

Correlación serial de orden uno

Supongamos el mismo modelo de antes,
yi = α0 + α1 xi,1 + α2 xi,2 + ui
En este modelo, la correlación serial de orden uno se especifica como:
ui = ρui−1 + i , |ρ| < 1.

Test de Breusch-Godfrey
H0 : No existe correlación serial de orden uno (ρ = 0)

H1 : Existe correlación serial de orden uno (ρ 6= 0)
El procedimiento de Breusch-Godfrey es como sigue:

1 Estimar el modelo original por MCC y obtener la serie de residuos y la serie de residuos
rezagada una observación.
2 Estime una ecuación auxiliar que tenga como variable dependiente a la serie de residuos del
paso anterior y como variables independientes a todas las variables explicativas del modelo
original más la serie de residuos rezagada una observación.
3 Construir el estadı́stico LM = (n − 1) × R 2 ∼ χ2q=1 . El R 2 es el de la regresión del Paso 2 y
q = 1 es el número de parámetros iguales a cero en la hipótesis nula.
Si se rechazara la hipótesis nula una estimación consistente viene dada por el
procedimiento de Cochrane-Orcutt.

Procedimiento de Cochrane-Orcutt
Considere el mismo modelo de los ejemplos anteriores,
yi = α0 + α1 xi,1 + α2 xi,2 + ui (52)
ui = ρui−1 + i , |ρ| < 1. (53)

1 Estimar el modelo original (52) por MCC y obtener la serie de residuos,
ûi = yi − α̂0 − α̂1 xi,1 − α̂2 xi,2 , y la serie de residuos rezagada una observación, ûi−1 .
2 Estimar la ecuación (53) por MCC, reemplazando a ui y ui−1 por ûi y ûi−1 , respectivamente.
Obtener ρ̂.
3 Transforme las variables del siguiente modo: yi∗ = yi − ρ̂yi−1 , xi,1 ∗
= xi,1 − ρ̂xi−1,1 ,
∗ ∗
xi,2 = xi,2 − ρ̂xi−1,2 y c = 1 − ρ̂.
4 Estimar por MCC el modelo transformado,
yi∗ = α0 c ∗ + α1 xi,1
∗ ∗
+ α2 xi,2 + ui∗
ˆ 0 , α̂
y obtenga nuevos estimadores α̂ ˆ 1 , α̂
ˆ2.
Procedimiento de Cochrane-Orcutt (continuación)

5 Construir nuevos residuos ûˆi = yi − α̂
ˆ 0 − α̂
ˆ 1 xi,1 − α̂
ˆ 2 xi,2 y sus rezagos ûˆi−1 .
6 Vuelva al Paso 2 y repita el procedimiento.
7 El procedimiento termina cuando en dos iteraciones sucesivas el valor estimado para ρ es el
mismo.
Los estimadores obtenidos con este procedimiento son insesgados, consistentes y
asintóticamente eficientes.
Remark: Tanto el test de Breusch-Godfrey como la corrección de Cochrane-Orcutt
pueden generalizarse a correlación serial de orden mayor a uno.

Econometrics02 2022

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Econometrics02 2022

Cargado por

Copyright:

Formatos disponibles

Econometrı́a

Maestrı́a en Economı́a - Maestrı́a en Econometrı́a

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 1 / 80

¿Cuál es el retorno monetario a la

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 4 / 80

En ausencia de aleatorización de la educación surgen dos potenciales sesgos al comparar

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 5 / 80

La ecuación estructural tı́pica para el salario es como sigue,

donde x representa años de experiencia en el mercado de trabajo, s representa años de

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 6 / 80

donde u = γh + v . En este modelo, en general E (u|x, s) 6= 0 debido a la probable

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 7 / 80

Considere el siguiente modelo estructural,

donde E (v |x1 , x2 , . . . , xk , q) = 0 y q es la variable no observada.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 9 / 80

donde, por definición de proyección lineal, E (r ) = 0 y Cov (xj , r ) = 0, j = 1, 2, . . . , k.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 10 / 80

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 11 / 80

Volviendo al ejemplo del salario,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 12 / 80

Reemplazando h en la ecuación del salario tenemos,

log (wage) = (β0 + π0 γ) + β1 x + β2 x 2 + (β3 + π1 γ)s + v

En este ejemplo particular, MCC da estimaciones insesgadas y consistentes de β1 y β2

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 13 / 80

donde por definición E (r ) = 0 y Cov (w , r ) = 0. Si w es una variable proxy razonable de

Para obtener una ecuación estimable podemos reemplazar (4) en (24),

y = (β0 + γθ0 ) + β1 x1 + β2 x2 + · · · + βk xk + γθ1 w + (γr + v )

donde, bajo los supuestos realizados, el error de la ecuación, γr + v , no está

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 16 / 80

Las variables instrumentales son una forma de solucionar el problema de endogeneidad de

donde E (u) = 0 y Cov (u, xj ) = 0, j = 1, 2, . . . , k − 1. En palabras, xk es

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 18 / 80

xk = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + rk (6)

donde, por definición, E (rk ) = 0 y rk no está correlacionado con x1 , x2 , . . . , xk−1 , z1 .

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 19 / 80

Reemplazando (6) en (5) tenemos,

y = α0 + α1 x1 + α2 x2 + · · · + αk−1 xk−1 + λ1 z1 + v (7)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 20 / 80

Para ver esto formalmente, escribamos (5) como,

donde x = (1, x1 , . . . , xk ) y β 0 = (β0 , β1 , . . . , βk ) son de dimensión 1 × k + 1.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 21 / 80

Donde E (z 0 x) es de dimensión k + 1 × k + 1, y E (z 0 y ) es de dimensión k + 1 × 1.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 22 / 80

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 23 / 80

Utilizando los análogos muestrales se obtiene el estimador de variables instrumentales,

que bajo los supuestos de IV tiene rango completo.

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 24 / 80

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 25 / 80

Cov (zh , u) = 0, h = 1, 2, . . . , M. (10)

cada zh es exógena en la ecuación (5).

Definamos el vector de variables exógenas como antes,

xk = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + · · · + θM zM + rk (11)

xk∗ = δ0 + δ1 x1 + · · · + δk−1 xk−1 + θ1 z1 + · · · + θM zM (12)

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 28 / 80

Este estimador IV es también un estimador de MCC.

con Pz una matriz idempotente y simétrica.

Por lo tanto, x̂ 0 x = x 0 Pz x = (Pz x)0 Pz x = x̂ 0 x̂. Reemplazando esta última expresión en

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 30 / 80

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 31 / 80

Definamos el vector de variables exógenas como antes,

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 32 / 80

Martı́n González Rozada (UTDT) ECONOMETRIA Tercer Trimestre, 2022 33 / 80

El estimador de 2SLS es consistente aplicando la WLLN a la ecuación anterior. Además