Está en la página 1de 46

El problema de la endogeneidad

Variables proxy
Variables instrumentales

Endogeneidad

Gabriel V. Montes-Rojas

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Sesgo por variables omitidas

Supongamos el modelo verdadero o estructural es

y = β 0 + β 1 x1 + β 2 x2 + v ,

donde E (v |x1 , x2 ) = 0 satisface los supuestos de Gauss-Markov, pero estimamos (lo


llamamos modelo estimado)

y = γ0 + γ1 x1 + e,
donde E (e |x1 ) = 0. Entonces decimos que omitimos x2 (es decir, deberı́a estar pero
no la usamos, x2 es una variable omitida).

Teorema: E (γ̂1 |x1 , x2 ) = β 1 + β 2 × δ̂12 donde δ̂12 es el coeficiente de la regresión de


x2 en x1 , es decir, x2 = δ0 + δ12 x1 + w . β 2 × δ̂12 es el sesgo por variables omitidas.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Sesgo por variables omitidas

El sesgo por variables omitidas es entonces, β 2 × δ̂12 .


signo ( β 2 ) signo (δ̂12 ) signo (Sesgo ) Coefs. Efecto
+ + + γ1 > β 1 Sobre-estimación
+ - - γ1 < β 1 Sub-estimación
- + - γ1 < β 1 Sub-estimación
- - + γ1 > β 1 Sobre-estimación
Si β 2 = 0 o δ̂12 = 0 entonces no hay sesgo por omitir x2 .
Ejemplo 1: y = wage, x1 = educ, x2 = habilidad. En este caso β 2 > 0, δ̂12 > 0,
entonces en STATA cuando hacemos reg wage educ estamos sobre estimando el
efecto de educación.
Ejemplo 2: y = crec.PBI , x1 = gasto pub/PBI , x2 = PBI inicial. Muchas veces
escuchamos que mayor gasto público conlleva menor crecimiento, γ1 < 0. Pero
se omite que el gasto público depende de riqueza (δ̂12 > 0) y la tasa de
crecimiento está negativamente asociado a PBI inicial (modelo de Solow,
β 2 < 0). Entonces γ1 < β 1 .

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Sesgo por variables omitidas

Prueba:
Para simplificar la notación escribimos E (.) en vez de E (.|x1 , x2 ), o sea que las
esperanzas son en realidad esperanzas condicionales.
" # " #
∑N
i =1 (x1i − x̄1 )(yi − ȳ ) ∑Ni =1 (xi − x̄ )(yi )
E [γ̂1 ] = E =E
∑N
i =1 (x1i − x̄1 )
2 ∑N i =1 (x1i − x̄1 )
2

" #
∑Ni =1 (x1i − x̄1 )( β 0 + β 1 x1i + β 2 x2i + vi )
=E
∑N i =1 (x1i − x̄1 )
2

∑N
i =1 (x1i − x̄1 )( β 0 + β 1 x1i + β 2 x2i + E [vi ])
=
∑Ni =1 (x1i − x̄1 )
2

∑N
i =1 (x1i − x̄1 )( β 1 x1i + β 2 x2i ) ∑N (x − x̄1 )(x2i − x̄2 )
= N
= β 1 + β 2 i =1 N1i = β 1 + β 2 δ̂12
∑i =1 (x1i − x̄1 ) 2 ∑i =1 (x1i − x̄1 )2

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Regresión simple
Una forma de interpretación
Una forma de ver los modelos de regresión es la siguiente. Notemos que para el
modelo y = γ0 + γ1 x1 + e,

Cov (y , x1 )
γ1 = ,
Var (x1 )

bajo el supuesto Cov (x1 , e ) = 0, o sea que la variable explicativa no tiene


relación con los errores.
La prueba es sencilla:

Cov (y , x1 ) Cov (γ0 + γ1 x1 + e, x1 ) γ1 Cov (x1 , x1 ) + Cov (x1 , e )


= =
Var (x1 ) Var (x1 ) Var (x1 )

Cov (x1 , e )
= γ1 + = γ1
Var (x1 )
(porque Cov (x1 , x1 ) = Var (x1 ) y Cov (e, x1 ) = 0) Esto significa que γ1 mide
cuánto y se relaciona con x, estandarizado por la varianza de x.
p Cov (y ,x1 )
Ver la equivalencia con la teorı́a asintótica: γ̂1 → Var (x1 )
, cuando N → ∞.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Sesgo por variables omitidas (cont.)

Entonces el sesgo por variables omitidas lo podemos ver como

Cov (y , x1 ) Cov ( β 0 + β 1 x1 + β 2 x2 + v , x1 )
γ1 = =
Var (x1 ) Var (x1 )

Cov (x2 , x1 )
= β1 + β2 = β 1 + Sesgo.
Var (x1 )
Cov (x2 ,x1 )
¿Cómo se interpreta δ12 = Var (x1 )
?
p Cov (y ,x1 )
Ver la equivalencia con la teorı́a asintótica: γ̂1 → Var (x1 )
, cuando N → ∞.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Simulación de variables omitidas en STATA

clear
set more off
set obs 100
gen x1=rnormal(0,1)
gen x2=rnormal(0,1)+x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u

reg y x1 x2
reg y x1

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Sobre-especificación: agregar variables irrelevantes


Si el modelo verdadero o estructural es

y = γ0 + γ1 x1 + e
donde E (e |x1 , x2 ) = 0 satisface los supuestos de Gauss-Markov, pero se estima
(modelo estimado)

y = β 0 + β 1 x1 + β 2 x2 + v ,

donde E (v |x1 , x2 ) = 0, entonces decimos que x2 es una variable irrelevante para


estimar γ1 (es decir, no deberı́a estar en el modelo).
Teorema: E ( β̂ 1 ) = γ1 . Teorema: Var (γ̂1 ) >=< Var ( β̂ 1 ).

RESULTADO: Agregar variables irrelevantes no afecta la insesgadez de los


estimadores MCO. Si las variables irrelevantes no se correlacionan con x1 entonces
se reduce la varianza, si están correlacionados entonces lo puede aumentar o
disminuir. 2
La razón es que Var ( β̂ j ) = SCT (σ1v −R 2 ) , j = 1, 2, ..., K , donde SCTj es la suma de
j j
cuadrados totales de xj , Rj2 es el R 2 de regresar xj en todas las demás variables
(cuanto más variables mayor será Rj2 ). Sin embargo, σv2 es la varianza del error
resultante.
Gabriel Montes-Rojas Problemas
El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

El problema de la endogeneidad

En Econometrı́a la endogeneidad tiene una definición particular:

Una variable xj es endógena si Cov (xj , error ) ̸= 0 en el modelo a


estimar.

Una variable xj es exógena si Cov (xj , error ) = 0 en el modelo a


estimar.

¿Qué error? Veamos...

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

El problema de la endogeneidad
Consideremos el modelo estructural

log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v


Nuestro interés es estimar β 1 y β 2 . Sin embargo, abil (ability en inglés) no se
puede observar. Por ello obtendrı́amos estimadores sesgados (por variables
omitidas).
En la práctica tenemos este modelo:

log(wage ) = β 0 + β 1 educ + β 2 exper + u

donde u ≡ β 3 abil + v .
En este caso podemos argumentar que: Cov (educ, u ) ̸= 0, Cov (exper , u ) ̸= 0,
siempre y cuando Cov (educ, abil ) ̸= 0, Cov (exper , abil ) ̸= 0. Es decir educ y
exper son variables endógenas.
Otra forma de verlo es que en el modelo estimado con la variable omitida abil,

log(wage ) = γ0 + γ1 educ + γ2 exper + e,

los parámetros γ no van a ser los β.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

El problema de la endogeneidad

En el modelo anterior planteamos

abil = δ0 + δ1 educ + δ2 exper + r .

Podemos expresar el sesgo por endogeneidad o variables omitidas a partir de


reemplazar abil en la ecuación estructural,

log (wage ) = ( β 0 + β 3 δ0 ) + ( β 1 + β 3 δ1 )educ + ( β 2 + β 3 δ2 )exper + ( β 3 r + v ).

En este caso, los parámetros γ del modelo con la variable omitida abil son
γ0 = β 0 + β 3 δ0 , γ1 = β 1 + β 3 δ1 , γ2 = β 2 + β 3 δ2 . También el error es
e = β3 r + v .

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

El problema de la endogeneidad

Para resumir podemos plantear el siguiente modelo simple y = β 0 + β 1 x + u


donde Cov (x, u ) ̸= 0, es decir, es endógena.
Entonces, por regla general el modelo estimado va a obtener

Cov (y , x ) Cov ( β 0 + β 1 x + u, x )
=
Var (x ) Var (x )
Cov (u, x )
= β1 + = β 1 + Sesgo Endogeneidad.
Var (x )
Siempre que se pueda conviene explicar el sesgo por endogeneidad como un
sesgo por variables omitidas.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

El problema de la endogeneidad
Consideremos un modelo estructural general:

y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + β q q + v ,
E (v |x1 , x2 , ..., xK , q ) = 0.
Supongamos que q es no observable. Entonces forma parte del error.
Asumamos sin pérdida de generalidad que E (q ) = 0 (como hay un intercepto no
es ningún problema)

y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u,

u ≡ βq q + v .
Ahora consideremos la proyección de q en x como

q = δ0 + δ1 x1 + ... + δK xK + r ,

donde por definición E (r ) = 0, Cov (xj , r ) = 0, j = 1, 2, ..., K .


Entonces,

y = ( β 0 + β q δ0 ) + ( β 1 + β q δ1 )x1 + ( β 2 + β q δ2 )x2 + ... + ( β K + β q δK )xK + ( β q r + v ),

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Errores de medición en los regresores

Supongamos que queremos estimar el siguiente modelo, yi = β 0 + β 1 xi∗ + vi ,


donde Cov (x ∗ , v ) = 0.
Sin embargo, la variable x observada es xi = xi∗ + wi donde w ∼ (0, σw2 ) es un
error de medición aditivo. Se asume que cov (w , v ) = cov (w , x ∗ ) = 0.
Planteemos el modelo yi = β 0 + β 1 xi∗ + vi = β 0 + β 1 (xi − wi ) + vi =
β 0 + β 1 xi + (vi − β 1 wi ) = β 0 + β 1 xi + ui , donde ui = vi − β 1 wi es el nuevo
término del error (notar que Cov (x, u ) ̸= 0).
El modelo estimado es y = γ0 + γ1 x + e con E (e |x ) = 0, tal que

Cov (y , x ) Cov ( β 0 + β 1 x ∗ + v , x ∗ + w ) σ2∗


γ1 = = ∗
= β1 2 x 2
Var (x ) Var (x + w ) σx ∗ + σw

σx2∗
Notar que 0 ≤ σx2∗ +σw2 ≤ 1, sesgo de atenuación (attenuation bias).

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Errores de medición en la variable dependiente

Supongamos que queremos estimar el siguiente modelo, yi∗ = β 0 + β 1 xi + vi ,


donde Cov (x, v ) = 0.
Sin embargo, la variable y observada es yi = yi∗ + wi donde w ∼ (0, σw2 ) es un
error de medición. Se asume que cov (w , x ) = 0.
Planteemos el modelo yi = γ0 + γ1 xi + ei , donde ui es el nuevo término del
error tal que E (e |x ) = 0.

Cov (y , x ) Cov (y ∗ + w , x ) Cov ( β 0 + β 1 x + v + w , x )


γ1 = = = = β1 .
Var (x ) Var (x ) Var (x )

Notar que errores de medición de la variable dependiente no afectan la


estimación, es decir, sigue siendo insesgado.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad

Soluciones

Hay 3 posibles soluciones:


1 Agregar la variable no observada.
2 Encontrar una variable proxy.
3 Encontrar una variable instrumental.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad
Proxy perfecta
Variables proxy
Proxy imperfecta
Variables instrumentales

Variables proxy: proxy perfecta

Consideremos el modelo

log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v

Tomemos x = (educ, exper ).


Una potencial variable proxy para abil es IQ.
La variable proxy perfecta deberı́a satisfacer lo siguiente:
1 abil = α0 + α3 IQ+v3 , donde v3 no esta correlacionado con educ, exper y
IQ.
2 v no esta correlacionado con educ, exper y abil. Otra forma de expresarlo
es E (log (wage )|x, abil, IQ ) = E (log (wage )|x, abil ), y decimos que la
proxy es irrelevante para explicar los salarios una vez que las variables
observables x y la variable abil son usadas.
Entonces podemos estimar
log (wage ) = ( β 0 + β 3 α0 ) + β 1 educ + β 2 exper + β 3 α3 IQ + (v + β 3 v3 ).

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad
Proxy perfecta
Variables proxy
Proxy imperfecta
Variables instrumentales

Ejemplo: IQ como proxy para habilidad


use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear
reg lwage educ exper tenure married south urban black
reg lwage educ exper tenure married south urban black IQ
gen educIQ=educ*IQ
reg lwage educ exper tenure married south urban black IQ educIQ

Variables (1) (2) (3)


educ .065 .054 .018
(.006) (.007) (.041)
exper .014 .014 .014
(.002) (.002) (.003)
tenure .012 .011 .011
(.002) (.002) (.002)
married .199 .200 .201
(.039) (.039) (.039)
south -.091 -.080 -.080
(.026) (.026) (.026)
urban .184 .182 .184
(.027) (.027) (.027)
black -.188 -.143 -.147
(.038) (.039) (.040)
IQ - .0036 -.0009
(.0010) (.0052)
educIQ - - -.00034
(.00038)

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad
Proxy perfecta
Variables proxy
Proxy imperfecta
Variables instrumentales

Sesgo potencial usando una proxy: proxy imperfecta

Asumamos por el contrario que

abil = α0 + α1 educ + α2 exper + α3 IQ + v3

⇒ log (wage ) = ( β 0 + β 3 α0 ) + ( β 1 + β 3 α1 )educ


+( β 2 + β 3 α2 )exper + β 3 α3 IQ + (v + β 3 v3 )
En este caso, IQ se define como una variable proxy imperfecta. Como puede verse
MCO con proxy imperfecta tiene sesgo.

Ejercicio: Comparar ( β 1 + β 3 α1 ) con ( β 1 + β 3 δ1 ) obtenido en el problema de variables


omitidas.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales

Consideremos la siguiente regresión:

y = β0 + β1 x + u
donde Cov (x, u ) ̸= 0 (o sea, x is endógena).
Una variable instrumental (VI) z deberı́a satisfacer:
1 Exogeneidad. No estar correlacionada con el error: Cov (z, u ) = 0
2 Relevancia. Estar correlacionada con la variable endógena: Cov (x, z ) ̸= 0
La condición de exogeneidad se puede ver a veces como condición de exclusión, donde
el instrumento solo afecta la ecuación estructural a través de la variable endógena.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales
¿Cómo podrı́amos estimar β 1 usando z?
Notar que

Cov (z, y )
β1 =
Cov (z, x )
¿Por qué?

Cov (z, y ) = Cov (z, β 0 + β 1 x + u )


= Cov (z, β 0 ) + Cov (z, β 1 x ) + Cov (z, u )

Entonces podemos plantear el siguiente estimador de β 1 usando variables


instrumentales:

\
Cov (z, y ) 1
∑N
i =1 (zi − z̄ )(yi − ȳ )
β̂VI
1 = = N
,
\
Cov (z, x )
1
N ∑N
i =1 (zi − z̄ )(xi − x̄ )

p Cov (z,y )
y notar que β̂VI
1 → Cov (z,x )
= β 1 cuando N → ∞.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales como ecuaciones estructurales


El modelo de VI es en realidad un sistema de ecuaciones estructurales o forma
estructural tal que

( 1 ) x = η0 + η1 z + r ,
(2) y = β 0 + β 1 x + u,
donde Cov (z, u ) = Cov (z, r ) = 0. La endogeneidad implica que Cov (u, r ) ̸= 0.
Reemplazando (1) en (2), tenemos la forma reducida

y = ( β 0 + β 1 η0 ) + ( β 1 η1 )z + (u + β 1 r ) = π0 + π1 z + error .
Notar entonces que β 1 se puede estimar como el ratio del coeficiente de regresión de y
en z (π1 = β 1 η1 ) y del coeficiente de regresión de x en z (η1 ). De hecho comprobar
que

∑N
i =1 (zi −z̄ )(yi −ȳ ) Cov (z,y )
π̂1 ∑Ni =1 (zi −z̄ )
2 p Var (z )
β̂VI
1 = = → β1 = ,
η̂1 ∑N
i =1 (zi −z̄ )(xi −x̄ ) Cov (z, x )Var (z )
∑Ni =1 (zi −z̄ )
2

cuando N → ∞.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

VI como un estimador en dos etapas


Consideremos la regresión simple

y = β 0 + β 1 x + u.

Consideremos la siguiente regresión auxiliar (etapa 1): x = η0 + η1 z + r .


Construir los valores predichos x̂ ≡ η0 + η1 z. Notemos que x = x̂ + r and
Cov (x,z )
η1 = Var (z ) .
Notemos que x̂, que es una función de z y la podemos escribir con x (z ), no está
correlacionado con r (por construcción) y también Cov (x̂, u ) = 0 (porque es
función de z).
Consideremos otra regresión (etapa 2):

y = β 0 + β 1 (x̂ + r ) + u = β 0 + β 1 x̂ + v ,

donde v ≡ β 1 r + u y Cov (x̂, v ) = Cov (x̂, β 1 r + u ) = 0. Entonces,


 
Cov (x,z )
Cov (y , x̂ ) Cov (y , η0 + η1 z ) Cov y , Var (z ) z
= =  
Var (x̂ ) Var (η0 + η1 z ) Var
Cov (x,z )
z
Var (z )

Cov (z, y )
= = β1 .
Cov (z, x )

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales - Estimador de Wald

Supongamos un caso particular donde z es una variable dummy donde hay N1


observaciones con z = 1 y N0 con z = 0, tal que N0 + N1 = N. Definamos
ȳ1 = N11 ∑N 1 N 1 N
i =1 yi 1[zi = 1], ȳ0 = N0 ∑i =1 yi 1[zi = 0], x̄1 = N1 ∑i =1 xi 1[zi = 1],
x̄0 = N10 ∑N
i =1 xi 1[zi = 0].
Mostrar que
ȳ1 − ȳ0
β̂VI
1 = .
x̄1 − x̄0
Esto se conoce como el estimador de Wald, uno de los primeros intentos de usar VI.
Prueba: Tomemos el numerador del estimador de VI.

N N 
N0 N

∑ (zi − z̄ )(yi − ȳ ) = ∑ zi (yi − ȳ ) = N1 ȳ1 − N1 ȳ = N1 ȳ1 − N1 N 0
ȳ + 1 ȳ1
N
i =1 i =1

N12 N N N 2 + N0 N1 − N12 N N N N
= (N1 − )ȳ − 0 1 ȳ0 = 1 ȳ1 − 0 1 ȳ0 = 0 1 (ȳ1 − ȳ0 ).
N 1 N N N N
Haciendo lo mismo para el denominador llegamos al resultado.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales en regresión múltiple

Consideremos el modelo

y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u

donde Cov (xK , u ) ̸= 0 (o sea, xK es endógena) y Cov (xj , u ) = 0, j = 1, 2, ..., K − 1 (el


resto son exógenas).
Una variable instrumental z debe satisfacer dos condiciones:
1 Exogeneidad. No estar correlacionada con el error: Cov (z, u ) = 0
2 Relevancia. Estar correlacionada con la variable endógena. Más formalmente,
consideremos la proyección lineal de xK en todas las variables exógenas (las
exógenas originales más el instrumento):

xK = η0 + η1 x1 + ... + ηK −1 xK −1 + θz + rK ,

donde por definición E (rK ) = 0 y rK no está correlacionado con x1 , x2 , ..., xK −1 .


El supuesto importante es que θ ̸= 0.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Variables instrumentales en regresión múltiple

Usando el Teorema de Frisch-Waugh-Lovell, siempre podemos simplificar el modelo de


regresión múltiple como

ỹ = β K x̃K + ũ
x̃K = θ z̃ + r˜K

donde las variables con ˜ son los residuos de una regresión en (1, x1 , x2 , ..., xK −1 ).
Siempre podemos entonces analizar un modelo de muchas variables en base a
regresiones simples.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Identificación de VI
Consideremos el modelo de regresión

y = x β + u.

Definamos z ≡ (1, x1 , ..., xK −1 , z ), como el vector de todas las variables


exógenas.
Hay entonces K + 1 condiciones de ortogonalidad:

E (z ′ u ) = 0.

Multiplicamos el modelo de regresión por z ′ , y tomando esperanzas

[E (z ′ x )] β = E (z ′ y ),
donde E (z ′ x ) es una matriz (K + 1) × (K + 1) y E (z ′ y ) es (K + 1) × 1. Este
sistema tiene una única solución si y sólo si la primera matriz tiene rango K + 1,
entonces
β = [E (z ′ x )]−1 E (z ′ y ).
El estimador de variables instrumentales de β es
! −1 !
N N
β̂ VI = N −1 ∑ z i′ x i N −1 ∑ z i′ yi = (Z ′ X ) −1 (Z y )
i =1 i =1

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Muchos instrumentos

Cuando hay más de un instrumento (digamos M, (z1 , z2 , ..., zM )) el estimador


más eficiente es el de mı́nimos cuadrados en dos etapas (two-stage least
squares, 2SLS):
! −1 !
N N

β̂ 2SLS = N −1
∑ x̂ i′ x i N −1
∑ x̂ i′ yi = (X̂ X )−1 (X̂ y )
i =1 i =1

donde
xK = η0 + η1 x1 + ... + ηK −1 xK −1 + θ1 z1 + ... + θM zM + rK

x̂K = η̂0 + η̂1 x1 + ... + η̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM


Notemos que X̂ = Z (Z ′ Z )−1 Z ′ X = P Z X , es una proyección de x en el espacio
de z ≡ (x1 , ..., xK −1 , z1 , ..., zM ), donde P Z es la matriz de proyección. Entonces,
′ ′
X̂ X̂ = X̂ X . Ası́ el estimador 2SLS es un estimador de MCO donde x̂ se usa en

vez de x. O sea, β̂ 2SLS = (X̂ X̂ )−1 (X̂ y )

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Contrastes para relevancia - Instrumentos débiles

La condición de relevancia de los instrumentos, es decir que estén


correlacionados con la(s) variable(s) endógena(s) se puede chequear
directamente de la primera etapa.
O sea, tomemos

x̂K = η̂0 + η̂1 x1 + ... + η̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM ,


entonces chequeamos que H0 : θ1 = ... = θM = 0.
Una regla es la siguiente: si el estadı́stico F para testear la hipótesis de que los
coeficientes de los instrumentos son 0 en la variable endógena es menor a 10,
entonces los instrumentos son débiles (weak IV). Si es mayor a 10 son fuertes.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Weak IV (avanzado)

Supongamos el siguiente modelo (para simplificar de una sola variable y un


instrumento, sin constante):
Primera etapa: xi = θzi + vi ,
Segunda etapa: yi = βxi + ui ,
donde x y z son escalares, E [u ] = E [v ] = 0, E [z ′ u ] = E [z ′ v ] = 0, Corr [u, v ] = ρ
(endogeneidad), E [z ′ x ] ̸= 0 (instrumentos válidos), E [z ′ z ] ̸= 0 y (x, z, u, v ) tienen
momentos cuartos finitos.

β̂IV = (EN x̂ ′ x̂ )−1 EN x̂ ′ y ,

con x̂i = θ̂zi , θ̂ = (EN z ′ z )−1 EN z ′ x y usando para secuencia {ai }N i =1 EN a =


1
N ∑N
i ai (
es decir EN es un operador que calcula promedios).

θ + (EN z ′ z )−1 (EN z ′ v ) (EN z ′ u )



β̂IV − β =
(θ + (EN z ′ z )−1 (EN z ′ v ))2 (EN z ′ z )
θ (EN z ′ u ) + (EN z ′ z )−1 (EN z ′ v )(EN z ′ u )
= .
θ2 EN z z + 2θEN z v + (EN z z ) (EN z v )
′ ′ ′ −1 ′ 2

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Weak IV (avanzado)

Entonces asumiendo Ez ′ v = Ez ′ u = 0,
√ Gn z ′ u d
N ( β̂IV − β) = + op (1) → Normal 0, θ −2 E [(z ′ u )2 ]/(E [z ′ z ])−2 ,

θEz ′ z
Acá estamos haciendo uso de:
Ley de los grandes números, usando para secuencia iid {ai }N
i =1
p
EN a = 1
N ∑N
i ai → E ( a ) ;
Teorema central del lı́mite, usando para secuencia iid {ai }N
i =1
√ d
GN a = N N1 ∑N i ai → Normal (E (a), V (a));
op (1) significa que se hace 0 en probabilidad.
Notar que θ afecta la varianza del estimador. ¡Si θ = 0 la varianza es infinita! (en
realidad no se podrı́a derivar el resultado dado que estamos dividiendo por algo que es
0)

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Weak IV (avanzado)

Staiger y Stock (1997 Econometrica) y Stock y Yogo √ (2005) método derivan la regla
del estadı́stico F = 10 (muy famoso). Usan θ = c/ N (local to zero asymptotics)

θ + (EN z ′ z )−1 (EN z ′ v ) (EN z ′ u ) ( EN z ′ u )



β̂IV − β = = .
N z z + EN z v
2 ′ ′
(θ + (EN z z ) (EN z v )) (EN z z )
′ − 1 ′ ′ θE

Multiplicando numerador y denominador por n,

Gn z ′ u
β̂IV − β = .
cEN z ′ z + Gn z ′ v

Ratio de dos variables aleatorias entonces β̂IV − β no converge en probabilidad.... sino


al ratio de dos normales, distribución de Cauchy. Es decir, converge en distribución.

La regla se deriva encontrando cuánto tiene que ser el valor F de MCO de la primera
etapa para que (i) para un α = 5% de significatividad; (ii) el sesgo sea menor a 10% en
porcentage de β̂IV − β relativo a β̂OLS − β. F = 10 es para menor a ese 10% de sesgo.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Contrastes para endogeneidad

El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con


variable exógenas.
La estimación de modelos 2SLS es más demandante en términos
computacionales.
Entonces es importante chequear primero si hay endogeneidad para evitar usar
un estimator ineficiente innecesariamente.
Tomemos el modelo

y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + u
donde y2 es (potencialmente) endógena; z1 and z2 son variables explicativas exógenas;
z3 and z4 son IV. Para contrastar por endogeneidad:
1 y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2 y construir los residuos v̂2
2 y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + δ1 v̂2 + error
3 Contrastar por la significancia estadı́stica de v̂2 , H0 : δ1 = 0.
4 Si rechazamos la hipótesis nula entonces hay evidencia que u y v2 están
correlacionados y y2 es endógena.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Contrastes para endogeneidad

Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en


la comparación de β̂ 2SLS y β̂ OLS . (La misma idea se ve en datos en panel para
comparar RE y FE.)
Bajo la hipótesis nula de exogeneidad, H0 : E (x ′ u ) = 0. Entonces,
1 Ambos estimadores son consistentes para β.
2 Entonces la hipótesis nula se puede redefinir con H0 : β̂ 2SLS = β̂ OLS .
3 Bajo H0 (y asumiendo homoscedasticidad)
√  ′

Avar [ N ( β̂ 2SLS − β̂ OLS )] = σ2 [E (x ∗ x ∗ )]−1 − [E (x ′ x ]−1 .
4 Dado que MCO es más eficiente, entonces la varianza es definida semipositiva.
5 En particular,

′ a
DWH = ( β̂ 2SLS − β̂ OLS )′ [(X̂ X̂ )−1 − (X ′ X )]( β̂ 2SLS − β̂ OLS )/σ̂2 ∼ χ2L−K

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Contraste para la validez de los instrumentos

Requerimiento importante: Necesitamos más variables instrumentales que variables


endógenas.

1 Supongamos que en el modelo anterior usamos 2SLS con z3 como la única


variable instrumental. Llamemos a este estimador IV3.
2 Computar û3 = y1 − β̂IV 3 IV 3 IV 3 IV 3
0 − β̂ 1 y2 − β̂ 2 z1 − β̂ 3 z2 .
3 Correr la regresión auxiliar û3 = δ0 + δ1 z1 + δ2 z2 + δ4 z4 .
4 Chequer la significancia de z4 .
5 Esto nos da un contraste válido para la validez de z4 como VI. Pero tenemos
que asumir que z3 es una VI válida.
6 Este mismo procedimiento lo podemos hacer al revés: usar z4 para chequear por
la validez de z3

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Contraste para la validez de los instrumentos


Contraste de Sargan-Hansen

1 Si tenemos más VIs que variables endógenas, entonces el modelo esta


sobre-identificado (over-identified).
2 Consideremos H0 : todas las VIs son exógenas. Si rechazamos entonces alguna
de las VIs es endógena.
3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û.
4 Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas,
constante).
a
5 Computar NRu2 ∼ χ2L−K , donde Ru2 es el de la última regresión.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

VI en STATA

Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la


existencia de 2 VI: z1, z2
ivregress 2sls y (x1=z1 z2) x2
ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera
etapa)
estat firststage (significancia de los instrumentos - necesitamos F > 10)
También podemos usar
reg x1 z1 z2 x2
test z1 z2
Siempre hay que ver que el estadı́stico F sea grande.
estat overid (validez de los instrumentos)
estat endogenous (exogeneidad de todas las variables)

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

VI en STATA

Para entender VI se puede correr un estimador en dos etapas a mano para


reproducir

ivregress 2sls y (x1=z1 z2) x2


Los mismos coeficientes se pueden obtener con

reg x1 z1 z2 x2
predict x1hat
reg y x1hat x2
Notar que los errores estándar son diferentes. ¿Por qué?

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Ejemplos en la web

http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge9.html
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html
https://www.stata.com/manuals13/rivregress.pdf

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Supuestos para identificación y consistencia de 2SLS

Supuesto 2SLS.1: Para un vector 1 × L z, E (z ′ u ) = 0 (en este caso L = M + K ,


asumiendo M instrumentos y K − 1 variables exógenas con una constante).

Supuesto 2SLS.2: (a) rango E (z ′ z ) = L; (b) rango E (z ′ x ) = K + 1.


Una condición necesaria para estas condiciones es que L ≥ K + 1, o sea, más
instrumentos que variables endógenas.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Identificación

Identificación: Si asumimos que E (z ′ z ) es no singular definamos la proyección


x ∗ = z Π, donde Π = [E (z ′ z )]−1 E (z ′ x ) es una matriz L × (K + 1). Multiplicando por

x ∗ , y tomando esperanzas tenemos
′ ′ ′ ′
E (x ∗ y ) = E (x ∗ x ) β + E (x ∗ u ) = E (x ∗ x ) β
′ ′
Ası́ β esta identificado por β = [E (x ∗ x )]−1 E (x ∗ y ). Para esto necesitamos que

E (x ∗ x ∗ ) sea no singular. Pero

E (x ∗ x ) = E (Π′ z ′ x ) = E (x ′ z )[E (z ′ z )]−1 E (z ′ x )
Entonces esta matriz es no singular si E (z ′ x ) tiene rango K + 1 (Supuesto 2SLS.2b).
Para esto también necesitamos E (z ′ z ) no singular y entonces con rango L (Supuesto
2SLS.2a).

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Consistencia de 2SLS

 ! ! −1 !  −1
N N N
β̂ 2SLS =  N −1 ∑ x i′ z i N −1
∑ z i′ z i N −1
∑ z i′ x i 
i =1 i =1 i =1

! ! −1 !
N N N
N −1
∑ x i′ z i N −1
∑ z i′ z i N −1
∑ z i′ yi
i =1 i =1 i =1

Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim β̂ 2SLS = β.


Prueba: Ley de los grandes números y teorema de Slutsky.

Gabriel Montes-Rojas Problemas


El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA

Normalidad asintótica de 2SLS

Supuesto 2SLS.3: E (u 2 z ′ z ) = σ2 E (z ′ z ), donde σ2 = E (u 2 ).

Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3,


√ d
N ( β̂ 2SLS − β) → N 0, σ2 ([E (x ′ z )][E (z ′ z )]−1 [E (z ′ x )]) .


Gabriel Montes-Rojas Problemas

También podría gustarte