Endogeneidad

El problema de la endogeneidad
Variables proxy
Variables instrumentales
Endogeneidad
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas Problemas

El problema de la endogeneidad Variables omitidas
Variables proxy Variables irrelevantes
Variables instrumentales Endogeneidad



Sesgo por variables omitidas
Supongamos el modelo verdadero o estructural es
y = β 0 + β 1 x1 + β 2 x2 + v ,
donde E (v |x1 , x2 ) = 0 satisface los supuestos de Gauss-Markov, pero estimamos (lo

llamamos modelo estimado)
y = γ0 + γ1 x1 + e,
donde E (e |x1 ) = 0. Entonces decimos que omitimos x2 (es decir, deberı́a estar pero
no la usamos, x2 es una variable omitida).
Teorema: E (γ̂1 |x1 , x2 ) = β 1 + β 2 × δ̂12 donde δ̂12 es el coeficiente de la regresión de

x2 en x1 , es decir, x2 = δ0 + δ12 x1 + w . β 2 × δ̂12 es el sesgo por variables omitidas.

El sesgo por variables omitidas es entonces, β 2 × δ̂12 .

signo ( β 2 ) signo (δ̂12 ) signo (Sesgo ) Coefs. Efecto
+ + + γ1 > β 1 Sobre-estimación
+ - - γ1 < β 1 Sub-estimación
- + - γ1 < β 1 Sub-estimación
- - + γ1 > β 1 Sobre-estimación
Si β 2 = 0 o δ̂12 = 0 entonces no hay sesgo por omitir x2 .
Ejemplo 1: y = wage, x1 = educ, x2 = habilidad. En este caso β 2 > 0, δ̂12 > 0,
entonces en STATA cuando hacemos reg wage educ estamos sobre estimando el
efecto de educación.
Ejemplo 2: y = crec.PBI , x1 = gasto pub/PBI , x2 = PBI inicial. Muchas veces
escuchamos que mayor gasto público conlleva menor crecimiento, γ1 < 0. Pero
se omite que el gasto público depende de riqueza (δ̂12 > 0) y la tasa de
crecimiento está negativamente asociado a PBI inicial (modelo de Solow,
β 2 < 0). Entonces γ1 < β 1 .

Prueba:
Para simplificar la notación escribimos E (.) en vez de E (.|x1 , x2 ), o sea que las
esperanzas son en realidad esperanzas condicionales.
" # " #
∑N
i =1 (x1i − x̄1 )(yi − ȳ ) ∑Ni =1 (xi − x̄ )(yi )
E [γ̂1 ] = E =E
∑N
i =1 (x1i − x̄1 )
2 ∑N i =1 (x1i − x̄1 )
2
" #
∑Ni =1 (x1i − x̄1 )( β 0 + β 1 x1i + β 2 x2i + vi )
=E
∑N i =1 (x1i − x̄1 )
2
∑N
i =1 (x1i − x̄1 )( β 0 + β 1 x1i + β 2 x2i + E [vi ])
=
∑Ni =1 (x1i − x̄1 )
2
∑N
i =1 (x1i − x̄1 )( β 1 x1i + β 2 x2i ) ∑N (x − x̄1 )(x2i − x̄2 )
= N
= β 1 + β 2 i =1 N1i = β 1 + β 2 δ̂12
∑i =1 (x1i − x̄1 ) 2 ∑i =1 (x1i − x̄1 )2

Regresión simple
Una forma de interpretación
Una forma de ver los modelos de regresión es la siguiente. Notemos que para el
modelo y = γ0 + γ1 x1 + e,
Cov (y , x1 )
γ1 = ,
Var (x1 )
bajo el supuesto Cov (x1 , e ) = 0, o sea que la variable explicativa no tiene

relación con los errores.
La prueba es sencilla:
Cov (y , x1 ) Cov (γ0 + γ1 x1 + e, x1 ) γ1 Cov (x1 , x1 ) + Cov (x1 , e )

= =
Var (x1 ) Var (x1 ) Var (x1 )
Cov (x1 , e )
= γ1 + = γ1
Var (x1 )
(porque Cov (x1 , x1 ) = Var (x1 ) y Cov (e, x1 ) = 0) Esto significa que γ1 mide
cuánto y se relaciona con x, estandarizado por la varianza de x.
p Cov (y ,x1 )
Ver la equivalencia con la teorı́a asintótica: γ̂1 → Var (x1 )
, cuando N → ∞.

Sesgo por variables omitidas (cont.)
Entonces el sesgo por variables omitidas lo podemos ver como
Cov (y , x1 ) Cov ( β 0 + β 1 x1 + β 2 x2 + v , x1 )
γ1 = =
Var (x1 ) Var (x1 )
Cov (x2 , x1 )
= β1 + β2 = β 1 + Sesgo.
Var (x1 )
Cov (x2 ,x1 )
¿Cómo se interpreta δ12 = Var (x1 )
?
p Cov (y ,x1 )
Ver la equivalencia con la teorı́a asintótica: γ̂1 → Var (x1 )
, cuando N → ∞.

Simulación de variables omitidas en STATA
clear
set more off
set obs 100
gen x1=rnormal(0,1)
gen x2=rnormal(0,1)+x1
gen u=rnormal(0,1)
gen y=1+1*x1+1*x2+u
reg y x1 x2
reg y x1

Sobre-especificación: agregar variables irrelevantes

Si el modelo verdadero o estructural es
y = γ0 + γ1 x1 + e
donde E (e |x1 , x2 ) = 0 satisface los supuestos de Gauss-Markov, pero se estima
(modelo estimado)
y = β 0 + β 1 x1 + β 2 x2 + v ,
donde E (v |x1 , x2 ) = 0, entonces decimos que x2 es una variable irrelevante para

estimar γ1 (es decir, no deberı́a estar en el modelo).
Teorema: E ( β̂ 1 ) = γ1 . Teorema: Var (γ̂1 ) >=< Var ( β̂ 1 ).
RESULTADO: Agregar variables irrelevantes no afecta la insesgadez de los

estimadores MCO. Si las variables irrelevantes no se correlacionan con x1 entonces
se reduce la varianza, si están correlacionados entonces lo puede aumentar o
disminuir. 2
La razón es que Var ( β̂ j ) = SCT (σ1v −R 2 ) , j = 1, 2, ..., K , donde SCTj es la suma de
j j
cuadrados totales de xj , Rj2 es el R 2 de regresar xj en todas las demás variables
(cuanto más variables mayor será Rj2 ). Sin embargo, σv2 es la varianza del error
resultante.
En Econometrı́a la endogeneidad tiene una definición particular:
Una variable xj es endógena si Cov (xj , error ) ̸= 0 en el modelo a

estimar.
Una variable xj es exógena si Cov (xj , error ) = 0 en el modelo a

estimar.
¿Qué error? Veamos...

Consideremos el modelo estructural
log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v

Nuestro interés es estimar β 1 y β 2 . Sin embargo, abil (ability en inglés) no se
puede observar. Por ello obtendrı́amos estimadores sesgados (por variables
omitidas).
En la práctica tenemos este modelo:
log(wage ) = β 0 + β 1 educ + β 2 exper + u
donde u ≡ β 3 abil + v .
En este caso podemos argumentar que: Cov (educ, u ) ̸= 0, Cov (exper , u ) ̸= 0,
siempre y cuando Cov (educ, abil ) ̸= 0, Cov (exper , abil ) ̸= 0. Es decir educ y
exper son variables endógenas.
Otra forma de verlo es que en el modelo estimado con la variable omitida abil,
log(wage ) = γ0 + γ1 educ + γ2 exper + e,
los parámetros γ no van a ser los β.

En el modelo anterior planteamos
abil = δ0 + δ1 educ + δ2 exper + r .
Podemos expresar el sesgo por endogeneidad o variables omitidas a partir de

reemplazar abil en la ecuación estructural,
log (wage ) = ( β 0 + β 3 δ0 ) + ( β 1 + β 3 δ1 )educ + ( β 2 + β 3 δ2 )exper + ( β 3 r + v ).
En este caso, los parámetros γ del modelo con la variable omitida abil son
γ0 = β 0 + β 3 δ0 , γ1 = β 1 + β 3 δ1 , γ2 = β 2 + β 3 δ2 . También el error es
e = β3 r + v .

Para resumir podemos plantear el siguiente modelo simple y = β 0 + β 1 x + u

donde Cov (x, u ) ̸= 0, es decir, es endógena.
Entonces, por regla general el modelo estimado va a obtener
Cov (y , x ) Cov ( β 0 + β 1 x + u, x )
=
Var (x ) Var (x )
Cov (u, x )
= β1 + = β 1 + Sesgo Endogeneidad.
Var (x )
Siempre que se pueda conviene explicar el sesgo por endogeneidad como un
sesgo por variables omitidas.

Consideremos un modelo estructural general:
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + β q q + v ,
E (v |x1 , x2 , ..., xK , q ) = 0.
Supongamos que q es no observable. Entonces forma parte del error.
Asumamos sin pérdida de generalidad que E (q ) = 0 (como hay un intercepto no
es ningún problema)
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u,
u ≡ βq q + v .
Ahora consideremos la proyección de q en x como
q = δ0 + δ1 x1 + ... + δK xK + r ,
donde por definición E (r ) = 0, Cov (xj , r ) = 0, j = 1, 2, ..., K .

Entonces,
y = ( β 0 + β q δ0 ) + ( β 1 + β q δ1 )x1 + ( β 2 + β q δ2 )x2 + ... + ( β K + β q δK )xK + ( β q r + v ),

Errores de medición en los regresores
Supongamos que queremos estimar el siguiente modelo, yi = β 0 + β 1 xi∗ + vi ,

donde Cov (x ∗ , v ) = 0.
Sin embargo, la variable x observada es xi = xi∗ + wi donde w ∼ (0, σw2 ) es un
error de medición aditivo. Se asume que cov (w , v ) = cov (w , x ∗ ) = 0.
Planteemos el modelo yi = β 0 + β 1 xi∗ + vi = β 0 + β 1 (xi − wi ) + vi =
β 0 + β 1 xi + (vi − β 1 wi ) = β 0 + β 1 xi + ui , donde ui = vi − β 1 wi es el nuevo
término del error (notar que Cov (x, u ) ̸= 0).
El modelo estimado es y = γ0 + γ1 x + e con E (e |x ) = 0, tal que
Cov (y , x ) Cov ( β 0 + β 1 x ∗ + v , x ∗ + w ) σ2∗

γ1 = = ∗
= β1 2 x 2
Var (x ) Var (x + w ) σx ∗ + σw
σx2∗
Notar que 0 ≤ σx2∗ +σw2 ≤ 1, sesgo de atenuación (attenuation bias).

Errores de medición en la variable dependiente
Supongamos que queremos estimar el siguiente modelo, yi∗ = β 0 + β 1 xi + vi ,

donde Cov (x, v ) = 0.
Sin embargo, la variable y observada es yi = yi∗ + wi donde w ∼ (0, σw2 ) es un
error de medición. Se asume que cov (w , x ) = 0.
Planteemos el modelo yi = γ0 + γ1 xi + ei , donde ui es el nuevo término del
error tal que E (e |x ) = 0.
Cov (y , x ) Cov (y ∗ + w , x ) Cov ( β 0 + β 1 x + v + w , x )

γ1 = = = = β1 .
Var (x ) Var (x ) Var (x )
Notar que errores de medición de la variable dependiente no afectan la

estimación, es decir, sigue siendo insesgado.

Soluciones
Hay 3 posibles soluciones:

1 Agregar la variable no observada.
2 Encontrar una variable proxy.
3 Encontrar una variable instrumental.

Proxy perfecta
Variables proxy
Proxy imperfecta
Variables proxy: proxy perfecta
Consideremos el modelo
log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v
Tomemos x = (educ, exper ).

Una potencial variable proxy para abil es IQ.
La variable proxy perfecta deberı́a satisfacer lo siguiente:
1 abil = α0 + α3 IQ+v3 , donde v3 no esta correlacionado con educ, exper y
IQ.
2 v no esta correlacionado con educ, exper y abil. Otra forma de expresarlo
es E (log (wage )|x, abil, IQ ) = E (log (wage )|x, abil ), y decimos que la
proxy es irrelevante para explicar los salarios una vez que las variables
observables x y la variable abil son usadas.
Entonces podemos estimar
log (wage ) = ( β 0 + β 3 α0 ) + β 1 educ + β 2 exper + β 3 α3 IQ + (v + β 3 v3 ).

Proxy perfecta
Variables proxy
Proxy imperfecta
Ejemplo: IQ como proxy para habilidad

use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear
reg lwage educ exper tenure married south urban black
reg lwage educ exper tenure married south urban black IQ
gen educIQ=educ*IQ
reg lwage educ exper tenure married south urban black IQ educIQ
Variables (1) (2) (3)

educ .065 .054 .018
(.006) (.007) (.041)
exper .014 .014 .014
(.002) (.002) (.003)
tenure .012 .011 .011
(.002) (.002) (.002)
married .199 .200 .201
(.039) (.039) (.039)
south -.091 -.080 -.080
(.026) (.026) (.026)
urban .184 .182 .184
(.027) (.027) (.027)
black -.188 -.143 -.147
(.038) (.039) (.040)
IQ - .0036 -.0009
(.0010) (.0052)
educIQ - - -.00034
(.00038)

Proxy perfecta
Variables proxy
Proxy imperfecta
Sesgo potencial usando una proxy: proxy imperfecta
Asumamos por el contrario que
abil = α0 + α1 educ + α2 exper + α3 IQ + v3
⇒ log (wage ) = ( β 0 + β 3 α0 ) + ( β 1 + β 3 α1 )educ

+( β 2 + β 3 α2 )exper + β 3 α3 IQ + (v + β 3 v3 )
En este caso, IQ se define como una variable proxy imperfecta. Como puede verse
MCO con proxy imperfecta tiene sesgo.
Ejercicio: Comparar ( β 1 + β 3 α1 ) con ( β 1 + β 3 δ1 ) obtenido en el problema de variables

omitidas.

El problema de la endogeneidad Estimador en dos etapas
Variables proxy Weak IV
Variables instrumentales STATA
Consideremos la siguiente regresión:
y = β0 + β1 x + u
donde Cov (x, u ) ̸= 0 (o sea, x is endógena).
Una variable instrumental (VI) z deberı́a satisfacer:
1 Exogeneidad. No estar correlacionada con el error: Cov (z, u ) = 0
2 Relevancia. Estar correlacionada con la variable endógena: Cov (x, z ) ̸= 0
La condición de exogeneidad se puede ver a veces como condición de exclusión, donde
el instrumento solo afecta la ecuación estructural a través de la variable endógena.

¿Cómo podrı́amos estimar β 1 usando z?
Notar que
Cov (z, y )
β1 =
Cov (z, x )
¿Por qué?
Cov (z, y ) = Cov (z, β 0 + β 1 x + u )

= Cov (z, β 0 ) + Cov (z, β 1 x ) + Cov (z, u )
Entonces podemos plantear el siguiente estimador de β 1 usando variables

instrumentales:
\
Cov (z, y ) 1
∑N
i =1 (zi − z̄ )(yi − ȳ )
β̂VI
1 = = N
,
\
Cov (z, x )
1
N ∑N
i =1 (zi − z̄ )(xi − x̄ )
p Cov (z,y )
y notar que β̂VI
1 → Cov (z,x )
= β 1 cuando N → ∞.

Variables instrumentales como ecuaciones estructurales

El modelo de VI es en realidad un sistema de ecuaciones estructurales o forma
estructural tal que
( 1 ) x = η0 + η1 z + r ,
(2) y = β 0 + β 1 x + u,
donde Cov (z, u ) = Cov (z, r ) = 0. La endogeneidad implica que Cov (u, r ) ̸= 0.
Reemplazando (1) en (2), tenemos la forma reducida
y = ( β 0 + β 1 η0 ) + ( β 1 η1 )z + (u + β 1 r ) = π0 + π1 z + error .
Notar entonces que β 1 se puede estimar como el ratio del coeficiente de regresión de y
en z (π1 = β 1 η1 ) y del coeficiente de regresión de x en z (η1 ). De hecho comprobar
que
∑N
i =1 (zi −z̄ )(yi −ȳ ) Cov (z,y )
π̂1 ∑Ni =1 (zi −z̄ )
2 p Var (z )
β̂VI
1 = = → β1 = ,
η̂1 ∑N
i =1 (zi −z̄ )(xi −x̄ ) Cov (z, x )Var (z )
∑Ni =1 (zi −z̄ )
2
cuando N → ∞.

VI como un estimador en dos etapas

Consideremos la regresión simple
y = β 0 + β 1 x + u.
Consideremos la siguiente regresión auxiliar (etapa 1): x = η0 + η1 z + r .

Construir los valores predichos x̂ ≡ η0 + η1 z. Notemos que x = x̂ + r and
Cov (x,z )
η1 = Var (z ) .
Notemos que x̂, que es una función de z y la podemos escribir con x (z ), no está
correlacionado con r (por construcción) y también Cov (x̂, u ) = 0 (porque es
función de z).
Consideremos otra regresión (etapa 2):
y = β 0 + β 1 (x̂ + r ) + u = β 0 + β 1 x̂ + v ,
donde v ≡ β 1 r + u y Cov (x̂, v ) = Cov (x̂, β 1 r + u ) = 0. Entonces,

Cov (x,z )
Cov (y , x̂ ) Cov (y , η0 + η1 z ) Cov y , Var (z ) z
= =
Var (x̂ ) Var (η0 + η1 z ) Var
Cov (x,z )
z
Var (z )
Cov (z, y )
= = β1 .
Cov (z, x )

Variables instrumentales - Estimador de Wald
Supongamos un caso particular donde z es una variable dummy donde hay N1

observaciones con z = 1 y N0 con z = 0, tal que N0 + N1 = N. Definamos
ȳ1 = N11 ∑N 1 N 1 N
i =1 yi 1[zi = 1], ȳ0 = N0 ∑i =1 yi 1[zi = 0], x̄1 = N1 ∑i =1 xi 1[zi = 1],
x̄0 = N10 ∑N
i =1 xi 1[zi = 0].
Mostrar que
ȳ1 − ȳ0
β̂VI
1 = .
x̄1 − x̄0
Esto se conoce como el estimador de Wald, uno de los primeros intentos de usar VI.
Prueba: Tomemos el numerador del estimador de VI.
N N
N0 N

∑ (zi − z̄ )(yi − ȳ ) = ∑ zi (yi − ȳ ) = N1 ȳ1 − N1 ȳ = N1 ȳ1 − N1 N 0
ȳ + 1 ȳ1
N
i =1 i =1
N12 N N N 2 + N0 N1 − N12 N N N N
= (N1 − )ȳ − 0 1 ȳ0 = 1 ȳ1 − 0 1 ȳ0 = 0 1 (ȳ1 − ȳ0 ).
N 1 N N N N
Haciendo lo mismo para el denominador llegamos al resultado.

Variables instrumentales en regresión múltiple
Consideremos el modelo
y = β 0 + β 1 x1 + β 2 x2 + ... + β K xK + u
donde Cov (xK , u ) ̸= 0 (o sea, xK es endógena) y Cov (xj , u ) = 0, j = 1, 2, ..., K − 1 (el

resto son exógenas).
Una variable instrumental z debe satisfacer dos condiciones:
1 Exogeneidad. No estar correlacionada con el error: Cov (z, u ) = 0
2 Relevancia. Estar correlacionada con la variable endógena. Más formalmente,
consideremos la proyección lineal de xK en todas las variables exógenas (las
exógenas originales más el instrumento):
xK = η0 + η1 x1 + ... + ηK −1 xK −1 + θz + rK ,
donde por definición E (rK ) = 0 y rK no está correlacionado con x1 , x2 , ..., xK −1 .

El supuesto importante es que θ ̸= 0.

Variables instrumentales en regresión múltiple
Usando el Teorema de Frisch-Waugh-Lovell, siempre podemos simplificar el modelo de

regresión múltiple como
ỹ = β K x̃K + ũ
x̃K = θ z̃ + r˜K
donde las variables con ˜ son los residuos de una regresión en (1, x1 , x2 , ..., xK −1 ).
Siempre podemos entonces analizar un modelo de muchas variables en base a
regresiones simples.

Identificación de VI
Consideremos el modelo de regresión
y = x β + u.
Definamos z ≡ (1, x1 , ..., xK −1 , z ), como el vector de todas las variables

exógenas.
Hay entonces K + 1 condiciones de ortogonalidad:
E (z ′ u ) = 0.
Multiplicamos el modelo de regresión por z ′ , y tomando esperanzas
[E (z ′ x )] β = E (z ′ y ),
donde E (z ′ x ) es una matriz (K + 1) × (K + 1) y E (z ′ y ) es (K + 1) × 1. Este
sistema tiene una única solución si y sólo si la primera matriz tiene rango K + 1,
entonces
β = [E (z ′ x )]−1 E (z ′ y ).
El estimador de variables instrumentales de β es
! −1 !
N N
β̂ VI = N −1 ∑ z i′ x i N −1 ∑ z i′ yi = (Z ′ X ) −1 (Z y )
i =1 i =1

Muchos instrumentos
Cuando hay más de un instrumento (digamos M, (z1 , z2 , ..., zM )) el estimador

más eficiente es el de mı́nimos cuadrados en dos etapas (two-stage least
squares, 2SLS):
! −1 !
N N
′
β̂ 2SLS = N −1
∑ x̂ i′ x i N −1
∑ x̂ i′ yi = (X̂ X )−1 (X̂ y )
i =1 i =1
donde
xK = η0 + η1 x1 + ... + ηK −1 xK −1 + θ1 z1 + ... + θM zM + rK
x̂K = η̂0 + η̂1 x1 + ... + η̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM

Notemos que X̂ = Z (Z ′ Z )−1 Z ′ X = P Z X , es una proyección de x en el espacio
de z ≡ (x1 , ..., xK −1 , z1 , ..., zM ), donde P Z es la matriz de proyección. Entonces,
′ ′
X̂ X̂ = X̂ X . Ası́ el estimador 2SLS es un estimador de MCO donde x̂ se usa en
′
vez de x. O sea, β̂ 2SLS = (X̂ X̂ )−1 (X̂ y )

Contrastes para relevancia - Instrumentos débiles
La condición de relevancia de los instrumentos, es decir que estén

correlacionados con la(s) variable(s) endógena(s) se puede chequear
directamente de la primera etapa.
O sea, tomemos
x̂K = η̂0 + η̂1 x1 + ... + η̂K −1 xK −1 + θ̂1 z1 + ... + θ̂M zM ,

entonces chequeamos que H0 : θ1 = ... = θM = 0.
Una regla es la siguiente: si el estadı́stico F para testear la hipótesis de que los
coeficientes de los instrumentos son 0 en la variable endógena es menor a 10,
entonces los instrumentos son débiles (weak IV). Si es mayor a 10 son fuertes.

Weak IV (avanzado)
Supongamos el siguiente modelo (para simplificar de una sola variable y un

instrumento, sin constante):
Primera etapa: xi = θzi + vi ,
Segunda etapa: yi = βxi + ui ,
donde x y z son escalares, E [u ] = E [v ] = 0, E [z ′ u ] = E [z ′ v ] = 0, Corr [u, v ] = ρ
(endogeneidad), E [z ′ x ] ̸= 0 (instrumentos válidos), E [z ′ z ] ̸= 0 y (x, z, u, v ) tienen
momentos cuartos finitos.
β̂IV = (EN x̂ ′ x̂ )−1 EN x̂ ′ y ,
con x̂i = θ̂zi , θ̂ = (EN z ′ z )−1 EN z ′ x y usando para secuencia {ai }N i =1 EN a =

1
N ∑N
i ai (
es decir EN es un operador que calcula promedios).
θ + (EN z ′ z )−1 (EN z ′ v ) (EN z ′ u )

β̂IV − β =
(θ + (EN z ′ z )−1 (EN z ′ v ))2 (EN z ′ z )
θ (EN z ′ u ) + (EN z ′ z )−1 (EN z ′ v )(EN z ′ u )
= .
θ2 EN z z + 2θEN z v + (EN z z ) (EN z v )
′ ′ ′ −1 ′ 2

Weak IV (avanzado)
Entonces asumiendo Ez ′ v = Ez ′ u = 0,
√ Gn z ′ u d
N ( β̂IV − β) = + op (1) → Normal 0, θ −2 E [(z ′ u )2 ]/(E [z ′ z ])−2 ,

θEz ′ z
Acá estamos haciendo uso de:
Ley de los grandes números, usando para secuencia iid {ai }N
i =1
p
EN a = 1
N ∑N
i ai → E ( a ) ;
Teorema central del lı́mite, usando para secuencia iid {ai }N
i =1
√ d
GN a = N N1 ∑N i ai → Normal (E (a), V (a));
op (1) significa que se hace 0 en probabilidad.
Notar que θ afecta la varianza del estimador. ¡Si θ = 0 la varianza es infinita! (en
realidad no se podrı́a derivar el resultado dado que estamos dividiendo por algo que es
0)

Weak IV (avanzado)
Staiger y Stock (1997 Econometrica) y Stock y Yogo √ (2005) método derivan la regla
del estadı́stico F = 10 (muy famoso). Usan θ = c/ N (local to zero asymptotics)
θ + (EN z ′ z )−1 (EN z ′ v ) (EN z ′ u ) ( EN z ′ u )

β̂IV − β = = .
N z z + EN z v
2 ′ ′
(θ + (EN z z ) (EN z v )) (EN z z )
′ − 1 ′ ′ θE
√
Multiplicando numerador y denominador por n,
Gn z ′ u
β̂IV − β = .
cEN z ′ z + Gn z ′ v
Ratio de dos variables aleatorias entonces β̂IV − β no converge en probabilidad.... sino

al ratio de dos normales, distribución de Cauchy. Es decir, converge en distribución.
La regla se deriva encontrando cuánto tiene que ser el valor F de MCO de la primera
etapa para que (i) para un α = 5% de significatividad; (ii) el sesgo sea menor a 10% en
porcentage de β̂IV − β relativo a β̂OLS − β. F = 10 es para menor a ese 10% de sesgo.

Contrastes para endogeneidad
El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con

variable exógenas.
La estimación de modelos 2SLS es más demandante en términos
computacionales.
Entonces es importante chequear primero si hay endogeneidad para evitar usar
un estimator ineficiente innecesariamente.
Tomemos el modelo
y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + u
donde y2 es (potencialmente) endógena; z1 and z2 son variables explicativas exógenas;
z3 and z4 son IV. Para contrastar por endogeneidad:
1 y2 = π0 + π1 z1 + π2 z2 + π3 z3 + π4 z4 + v2 y construir los residuos v̂2
2 y1 = β 0 + β 1 y2 + β 2 z1 + β 3 z2 + δ1 v̂2 + error
3 Contrastar por la significancia estadı́stica de v̂2 , H0 : δ1 = 0.
4 Si rechazamos la hipótesis nula entonces hay evidencia que u y v2 están
correlacionados y y2 es endógena.

Contrastes para endogeneidad
Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en

la comparación de β̂ 2SLS y β̂ OLS . (La misma idea se ve en datos en panel para
comparar RE y FE.)
Bajo la hipótesis nula de exogeneidad, H0 : E (x ′ u ) = 0. Entonces,
1 Ambos estimadores son consistentes para β.
2 Entonces la hipótesis nula se puede redefinir con H0 : β̂ 2SLS = β̂ OLS .
3 Bajo H0 (y asumiendo homoscedasticidad)
√ ′

Avar [ N ( β̂ 2SLS − β̂ OLS )] = σ2 [E (x ∗ x ∗ )]−1 − [E (x ′ x ]−1 .
4 Dado que MCO es más eficiente, entonces la varianza es definida semipositiva.
5 En particular,
′ a
DWH = ( β̂ 2SLS − β̂ OLS )′ [(X̂ X̂ )−1 − (X ′ X )]( β̂ 2SLS − β̂ OLS )/σ̂2 ∼ χ2L−K

Contraste para la validez de los instrumentos
Requerimiento importante: Necesitamos más variables instrumentales que variables

endógenas.
1 Supongamos que en el modelo anterior usamos 2SLS con z3 como la única

variable instrumental. Llamemos a este estimador IV3.
2 Computar û3 = y1 − β̂IV 3 IV 3 IV 3 IV 3
0 − β̂ 1 y2 − β̂ 2 z1 − β̂ 3 z2 .
3 Correr la regresión auxiliar û3 = δ0 + δ1 z1 + δ2 z2 + δ4 z4 .
4 Chequer la significancia de z4 .
5 Esto nos da un contraste válido para la validez de z4 como VI. Pero tenemos
que asumir que z3 es una VI válida.
6 Este mismo procedimiento lo podemos hacer al revés: usar z4 para chequear por
la validez de z3

Contraste para la validez de los instrumentos

Contraste de Sargan-Hansen
1 Si tenemos más VIs que variables endógenas, entonces el modelo esta

sobre-identificado (over-identified).
2 Consideremos H0 : todas las VIs son exógenas. Si rechazamos entonces alguna
de las VIs es endógena.
3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û.
4 Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas,
constante).
a
5 Computar NRu2 ∼ χ2L−K , donde Ru2 es el de la última regresión.

VI en STATA
Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la

existencia de 2 VI: z1, z2
ivregress 2sls y (x1=z1 z2) x2
ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera
etapa)
estat firststage (significancia de los instrumentos - necesitamos F > 10)
También podemos usar
reg x1 z1 z2 x2
test z1 z2
Siempre hay que ver que el estadı́stico F sea grande.
estat overid (validez de los instrumentos)
estat endogenous (exogeneidad de todas las variables)

VI en STATA
Para entender VI se puede correr un estimador en dos etapas a mano para

reproducir
ivregress 2sls y (x1=z1 z2) x2

Los mismos coeficientes se pueden obtener con
reg x1 z1 z2 x2
predict x1hat
reg y x1hat x2
Notar que los errores estándar son diferentes. ¿Por qué?

Ejemplos en la web
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge9.html
http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html
https://www.stata.com/manuals13/rivregress.pdf

Supuestos para identificación y consistencia de 2SLS
Supuesto 2SLS.1: Para un vector 1 × L z, E (z ′ u ) = 0 (en este caso L = M + K ,

asumiendo M instrumentos y K − 1 variables exógenas con una constante).
Supuesto 2SLS.2: (a) rango E (z ′ z ) = L; (b) rango E (z ′ x ) = K + 1.

Una condición necesaria para estas condiciones es que L ≥ K + 1, o sea, más
instrumentos que variables endógenas.

Identificación
Identificación: Si asumimos que E (z ′ z ) es no singular definamos la proyección

x ∗ = z Π, donde Π = [E (z ′ z )]−1 E (z ′ x ) es una matriz L × (K + 1). Multiplicando por
′
x ∗ , y tomando esperanzas tenemos
′ ′ ′ ′
E (x ∗ y ) = E (x ∗ x ) β + E (x ∗ u ) = E (x ∗ x ) β
′ ′
Ası́ β esta identificado por β = [E (x ∗ x )]−1 E (x ∗ y ). Para esto necesitamos que
′
E (x ∗ x ∗ ) sea no singular. Pero
′
E (x ∗ x ) = E (Π′ z ′ x ) = E (x ′ z )[E (z ′ z )]−1 E (z ′ x )
Entonces esta matriz es no singular si E (z ′ x ) tiene rango K + 1 (Supuesto 2SLS.2b).
Para esto también necesitamos E (z ′ z ) no singular y entonces con rango L (Supuesto
2SLS.2a).

Consistencia de 2SLS
 ! ! −1 !  −1
N N N
β̂ 2SLS =  N −1 ∑ x i′ z i N −1
∑ z i′ z i N −1
∑ z i′ x i 
i =1 i =1 i =1
! ! −1 !
N N N
N −1
∑ x i′ z i N −1
∑ z i′ z i N −1
∑ z i′ yi
i =1 i =1 i =1
Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim β̂ 2SLS = β.

Prueba: Ley de los grandes números y teorema de Slutsky.

Normalidad asintótica de 2SLS
Supuesto 2SLS.3: E (u 2 z ′ z ) = σ2 E (z ′ z ), donde σ2 = E (u 2 ).
Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3,

√ d
N ( β̂ 2SLS − β) → N 0, σ2 ([E (x ′ z )][E (z ′ z )]−1 [E (z ′ x )]) .


Endogeneidad

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Endogeneidad

Cargado por

Copyright:

Formatos disponibles

El problema de la endogeneidad

Gabriel Montes-Rojas Problemas

Gabriel Montes-Rojas Problemas

Gabriel Montes-Rojas Problemas

Gabriel Montes-Rojas Problemas

Sesgo por variables omitidas

Supongamos el modelo verdadero o estructural es

donde E (v |x1 , x2 ) = 0 satisface los supuestos de Gauss-Markov, pero estimamos (lo

Teorema: E (γ̂1 |x1 , x2 ) = β 1 + β 2 × δ̂12 donde δ̂12 es el coeficiente de la regresión de

Gabriel Montes-Rojas Problemas

Sesgo por variables omitidas

El sesgo por variables omitidas es entonces, β 2 × δ̂12 .

Gabriel Montes-Rojas Problemas

Sesgo por variables omitidas

Gabriel Montes-Rojas Problemas

bajo el supuesto Cov (x1 , e ) = 0, o sea que la variable explicativa no tiene

Cov (y , x1 ) Cov (γ0 + γ1 x1 + e, x1 ) γ1 Cov (x1 , x1 ) + Cov (x1 , e )

Gabriel Montes-Rojas Problemas

Sesgo por variables omitidas (cont.)

Entonces el sesgo por variables omitidas lo podemos ver como

Gabriel Montes-Rojas Problemas

Simulación de variables omitidas en STATA

Gabriel Montes-Rojas Problemas

Sobre-especificación: agregar variables irrelevantes

donde E (v |x1 , x2 ) = 0, entonces decimos que x2 es una variable irrelevante para

RESULTADO: Agregar variables irrelevantes no afecta la insesgadez de los

En Econometrı́a la endogeneidad tiene una definición particular:

Una variable xj es endógena si Cov (xj , error ) ̸= 0 en el modelo a

Una variable xj es exógena si Cov (xj , error ) = 0 en el modelo a

¿Qué error? Veamos...

Gabriel Montes-Rojas Problemas

log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v

log(wage ) = β 0 + β 1 educ + β 2 exper + u

log(wage ) = γ0 + γ1 educ + γ2 exper + e,

los parámetros γ no van a ser los β.

Gabriel Montes-Rojas Problemas

En el modelo anterior planteamos

abil = δ0 + δ1 educ + δ2 exper + r .

Podemos expresar el sesgo por endogeneidad o variables omitidas a partir de

log (wage ) = ( β 0 + β 3 δ0 ) + ( β 1 + β 3 δ1 )educ + ( β 2 + β 3 δ2 )exper + ( β 3 r + v ).

Gabriel Montes-Rojas Problemas

Para resumir podemos plantear el siguiente modelo simple y = β 0 + β 1 x + u

Gabriel Montes-Rojas Problemas

donde por definición E (r ) = 0, Cov (xj , r ) = 0, j = 1, 2, ..., K .

y = ( β 0 + β q δ0 ) + ( β 1 + β q δ1 )x1 + ( β 2 + β q δ2 )x2 + ... + ( β K + β q δK )xK + ( β q r + v ),

Gabriel Montes-Rojas Problemas

Errores de medición en los regresores

Supongamos que queremos estimar el siguiente modelo, yi = β 0 + β 1 xi∗ + vi ,

Cov (y , x ) Cov ( β 0 + β 1 x ∗ + v , x ∗ + w ) σ2∗

Gabriel Montes-Rojas Problemas

Errores de medición en la variable dependiente

Supongamos que queremos estimar el siguiente modelo, yi∗ = β 0 + β 1 xi + vi ,

Cov (y , x ) Cov (y ∗ + w , x ) Cov ( β 0 + β 1 x + v + w , x )

Notar que errores de medición de la variable dependiente no afectan la

Gabriel Montes-Rojas Problemas

Hay 3 posibles soluciones:

Gabriel Montes-Rojas Problemas

Variables proxy: proxy perfecta

log(wage ) = β 0 + β 1 educ + β 2 exper + β 3 abil + v

Tomemos x = (educ, exper ).

Gabriel Montes-Rojas Problemas

Ejemplo: IQ como proxy para habilidad