Microeconometr Ia II Soluciones de Los Ejercicios Te Oricos

Microeconometrı́a II
Soluciones de los ejercicios teóricos

Florian Chávez-Juárez
CIDE - Otoño 2019

Versión del 14 de agosto de 2019
Índice
1 MCO: Mı́nimos cuadrados ordinarios (repaso) 3
Ejercicio 1 Derivar el estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Ejercicio 2 MCO sin intercepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Ejercicio 3 Efectos no-lineales y el método delta . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 4 Estimador por momentos vs. MCO . . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 5 Heterogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejercicio 6 GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Gráficos causales 9
Ejercicio 7 Construir/dibujar gráficos causales . . . . . . . . . . . . . . . . . . . . . . . . . 9
Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar . . . . . . . . . . 10
Ejercicio 9 Los diferentes efectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3 Variables instrumentales (IV) 10

Ejercicio 10 El estimador de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Ejercicio 11 Prueba ad-hoc de la validez de los instrumentos . . . . . . . . . . . . . . . . . . 11
Ejercicio 12 Varianza del estimador IV e instrumentos débiles . . . . . . . . . . . . . . . . . 11
Ejercicio 13 First stage regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Ejercicio 14 Efecto de computadores sobre la calificación . . . . . . . . . . . . . . . . . . . . 12
Ejercicio 15 Error de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Ejercicio 16 Simultaneidad: Modelo Keynesiano . . . . . . . . . . . . . . . . . . . . . . . . . 15
Ejercicio 17 Error de medición y endogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . 16
4 SUR y SEM 17
Ejercicio 18 Notación de modelos con múltiples ecuaciones. . . . . . . . . . . . . . . . . . . 17
Ejercicio 19 Identificación de un modelo SEM . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Datos de panel 20
Ejercicio 20 Estimar DiD por MCO con interacciones . . . . . . . . . . . . . . . . . . . . . . 20
1
Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019
Ejercicio 21 Inversión de capital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Ejercicio 22 Primeras diferencias y efectos fijos . . . . . . . . . . . . . . . . . . . . . . . . . 22
Ejercicio 23 Efectos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6 Modelos de variables limitadas 25

Ejercicio 24 Regresión lineal por MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Ejercicio 25 Máxima verosimilitud: distribución de Poisson . . . . . . . . . . . . . . . . . . . 27
Ejercicio 26 Probit: estimador MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Ejercicio 27 Efectos marginales en el modelo probit . . . . . . . . . . . . . . . . . . . . . . . 28
Ejercicio 28 Normalización en el modelo probit . . . . . . . . . . . . . . . . . . . . . . . . . 29
Ejercicio 29 Error estándar de efectos marginales . . . . . . . . . . . . . . . . . . . . . . . . 30
Ejercicio 30 Dı́as en el hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Ejercicio 31 Patentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ejercicio 32 Truncado, top-coded o censurado? . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ejercicio 33 Función de ahorro de las familias . . . . . . . . . . . . . . . . . . . . . . . . . . 32
Ejercicio 34 Admisión al CIDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Ejercicio 35 Efectos marginales en el modelo tobit . . . . . . . . . . . . . . . . . . . . . . . 34
Ejercicio 36 Efectos marginales en el modelo two-part . . . . . . . . . . . . . . . . . . . . . 35
Ejercicio 37 Modelo de selección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
7 Métodos no paramétricos 37
Ejercicio 38 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 39 Densidad por núcleos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 40 Estimador Nadaraya-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Versión del 14 de agosto de 2019 Página 2

1 MCO: Mı́nimos cuadrados ordinarios (repaso)

Ejercicio 1 Derivar el estimador MCO
a)
Definimos la suma de los errores cuadrado como:
N
X
S(β0 , β0 ) = (yi − β0 − β1 xi )2 (1)
i=1
Derivamos ésta expresión con respecto a β0 y β1 y obtenemos las condiciones de primer orden:
N
∂S(β0 , β0 ) X
= −2 (yi − β0 − β1 xi ) = 0 (2)
∂β0 i=1
N
∂S(β0 , β1 ) X
= −2 xi (yi − β0 − β1 xi ) = 0 (3)
∂β1 i=1
Usamos primero (2)

N
X N
X
yi − N β̂0 − β̂1 xi = 0 (4)
i=1 i=1
N
X N
X
yi − β̂1 xi = N β̂0 (5)
i=1 i=1
N N
1 X 1 X
yi − β̂1 xi = β̂0 (6)
N i=1 N i=1
β̂0 = ȳ − β1 x̄ (7)
Ahora podemos manipular (3) y sustituir β̂0 por la expresión que encontramos:
N
X N
X N
X
xi yi − β̂0 xi −β̂1 (x2i ) = 0 (8)
i=1 i=1 i=1
| {z }
=N x̄
N
X N
X
xi yi − ȳN x̄ + β̂1 N x̄2 − β̂1 (x2i ) = 0 (9)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ − β̂1 (x2i − x̄2 ) = 0 (10)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ = β̂1 (x2i − x̄2 ) (11)
i=1 i=1
N
X N
X
(xi − x̄)(yi − ȳ) = β̂1 (xi − x̄)2 (12)
i=1 i=1
PN
i=1 (xi − x̄)(yi − ȳ)
β̂1 = PN (13)
2
i=1 (xi − x̄)

Si dividimos el numerador y el denominador por (n − 1) obtenemos:

PN
(n − 1)−1 i=1 (xi − x̄)(yi − ȳ) Cov(y, x)
β̂1 = PN = (14)
(n − 1)−1
i=1 (xi − x̄)
2 V ar(x)
b)
Usando la notación matricial, los cálculos son exactamente los mismos. Empezamos definiendo ε2 :
S(β) = (y − Xβ)0 (y − Xβ) = y 0 y − 2y 0 Xβ + β 0 X 0 Xβ (15)
Calculamos la primera derivada con respecto a β y la igualamos a cero y resolvemos por β:
∂S(β)
= −2(X 0 y − X 0 X β̂) = 0 (16)
∂β
X 0 y = X 0 X β̂ (17)
(X 0 X)−1 X 0 y = β̂ (18)
Para hacer este cálculo tuvimos que invertir X 0 X, lo cual es únicamente posible si rank(X 0 X) = K o
en otras palabras si no hay colinealidad perfecta entre los vectores en X.
Ejercicio 2 MCO sin intercepto

a)
El estimador de MCO de β está dado por la solución del problema de optimización:
n
X
mı́n (yi − β̂xi )2 (19)
α̂β̂ i=1
La condición de primer orden está dada por:

n n
δ X X
(yi − β̂xi )2 = −2xi (yi − β̂xi ) = 0 (20)
δ β̂ i=1 i=1
Ordenando:
Pn
xi yi
β̂ = Pi=1
n 2 (21)
i=1 xi
b)
Sustituyendo yi = βxi + ui en el estimador anterior:
Pn Pn Pn
xi yi xi (βxi + ui xi ui
β̂ = Pi=1
n 2 = i=1
P n 2 = β + Pi=1
n 2 (22)
x
i=1 i x
i=1 i i=1 xi
Y tomando valor esperado:

Pn
x E[u ]
E[β̂] = β + Pn i 2 i = β
i=1
(23)
i=1 xi

c)
Utilizando
Pn
xi ui
β̂ = β + Pi=1
n 2 (24)
i=1 xi
Obteniendo la varianza del estimador,
V ar(β̂) = E[(β̂ − E[β̂])2 ] = E[(β̂ − β)2 ] (25)
Y
" P 2 #
n
xi ui
E[(β̂ − β)2 ] = E i=1
Pn 2 (26)
i=1 xi
 
n X
n
1 X
Pn E xj uj  (27)
( i=1 x2i )2 i=1 j=1
n
n X
1 X
Pn xi xj E(ui uj ) (28)
( i=1 x2i )2 i=1 j=1
Como E(ui uj ) = 0 para todo i 6= j, se tiene:
X n
n X n
X n
X n
X
xi xj E(ui uj ) = xi xi E(ui ui ) = x2i E(u2i ) = σ 2 x2i (29)
i=1 j=1 i=1 i=1 i=1
Y
Pn
σ2 x2 σ2
V ar(β̂) = E[(β̂ − β)2 ] = Pn i=12 i2 = Pn 2 (30)
( i=1 xi ) i=1 xi
Y la desviación estándar es igual a:

σ
q
SE(β̂) = V ar(β̂) = pPn (31)
i=1 x2i
d)
σ puede estimarse de los residuales:
v
u n
u 1 X 2
σ̂ = t u (32)
n − 1 i=1 i
Un estimador de SE(β̂) está dado por:
\ σ̂ β̂ σ̂ σ̂
SE(β̂) = pPn =√ q P = =√ (33)
√ ˆ i)
q
2
i=1 xi
1 n ˆ i) nSE(x
n n i=1 x2i n V ar(x

Ejercicio 3 Efectos no-lineales y el método delta

a)
Manipulando la ecuación (1) de tal forma que:
wage = exp {β0 + β1 educ + β2 married + zγ + u}

Aplicando el operador esperanza y condicionando sobre married, educ y z
E(wage|married, educy, z) = exp {β0 + β1 educ + β2 married + zγ} · E(exp(u)|X)

Definamos E(exp(u)|X) = δ0 .Observemos que married es un variable binaria, si:
married = 1 exp (β2 ) · exp {β0 + β1 educ + zγ} · δ0 (2)

married = 0 exp {β0 + β1 educ + zγ} · δ0 (3)
Definamos exp {β0 + β1 educ + zγ} = γ0 .Si estamos interesados en la diferencia porcentual sobre el
salario de estar o no casado, entonces, tomemos la diferencia entre (2) y (3), de tal forma que:
γ0 δ0 exp (β2 ) − γ0 δ0 γ0 δ0 [exp (β2 ) − 1]

× 100 = × 100 = 100 × [exp (β2 ) − 1] = θ2
γ0 δ 0 γ0 δ 0
b)
Usando el método delta
g(β2 ) = 100 × [exp (β2 ) − 1] = θ2

∂g
= 100 × exp (β2 )
∂β2
Por lo tanto,
∂g
se(θ̂2 ) = · se(β̂2 ) = [100 × exp (β2 )] · se(β̂2 )
∂β2
Ejercicio 4 Estimador por momentos vs. MCO

a)
1
Pn 1
Pn 1
Pn
yi i=1 E[yi ] xi
E[β̄] = E n
1
Pni=1 = n
1
P n = β n
1
Pi=1
n =β (34)
n i=1 xi n x
i=1 i n i=1 xi
La varianza de β̄ está dada por:
1
Pn 1
Pn 1
Pn
yi n2 i=1 V ar(yi ) n2 i=1 V ar(βxi + ui )
V ar(β̄) = V ar n
1
Pni=1 = Pn 2 = Pn 2 (35)
1
i=1 xi
1
n n i=1 xi n2 ( i=1 xi )
Pn Pn 2
i=1 V ar(ui ) i=1 σ nσ 2 σ2
V ar(β̄) = P n = n 2 = n 2 = n 2 (36)
( i=1 xi )2 1
P P P
( i=1 xi ) ( i=1 xi ) n ( i=1 xi )

Retomando la varianza del estimador por MCO:
σ2
V ar(β̂) = Pn (37)
i=1 x2i
Pn 2 Pn Pn 1
Pn 2
Como ( i=1 xi ) ≤ n i=1 x2i , se sigue que i=1 x2i ≥ n ( i=1 xi ) , y el estimador por MCO tiene
menor varianza.
b)
Denotando el estimador MCO usando m observaciones para β̄. Por la fórmula usual:
Pm
xi yi
β̄ = Pi=1
m 2 (38)
i=1 xi
El cual es lineal en yi , y:
Pm Pm
i=1 xi E[yi ] i=1 xi βxi
E[β̄] = Pm 2 = P m 2 =β (39)
i=1 xi i=1 xi
La varianza del estimador de MCO usando n observaciones está dado por:
σ2
V ar(β̂) = Pn (40)
i=1 x2i
Se sigue que:
σ2
V ar(β̄) = Pm (41)
i=1 x2i
Pm Pn
x2i es débilmente creciente con m, se sigue que mx2i ≤ x2i y
P
Como i=1 i=1 i=1
V ar(β̄) ≥ V ar(β̂) (42)
Ejercicio 5 Heterogeneidad
a)
2
Por definición V ar(u|X) = E(u2 |X) − [E(u|X)] = σ 2 , dado que X = (1, x1 , ..., xk ) considera un
intercepto, entonces E(u) = 0 y sumado a que por hipótesis se tiene que E(u) 6= E(u|X) 6= 0 entonces,
E(u2 |X) 6= V ar(u|X).
b)
Para la estimación basta con tener que E(X 0 u) = 0 para asegurar consistencia en los estimadores.
Sin embargo, si E(u2 |X) 6= V ar(u|X), no es posible sostener el supuesto de homogeneidad en varianza
E(u2 X 0 X) = σ 2 E(X 0 X) donde E(u2 |X) = σ 2 teniendo en consecuencia que los estimadores β̂LS no
sean eficientes.

Ejercicio 6 GLS
a)
Primero calculamos los momentos de X y y. Recuerda que la matriz X tiene un primer vector de
unos (la constante, la llamamos x0 ) y un vector con la variable x1 . Por lo tanto los elementos en la
diagonal de la matriz X 0 X representan x2j . Los elementos fuera de la diagonal son x0 x1 y dado que
P P
P
x0 tiene únicamente el valor 1, el elemento es simplemente x1 = N x¯1 . Ahora usamos la propiedad
Sxx = x0 x − N x̄2 y obtenemos todos los valores necesarias. Vemos el ejemplo para Sxx en la primera
x0 x1 N1 = 300
P
muestra. Obtenemos la media de x usando 50 = 6. Ahora obtenemos directamente Sxx :
Sxx = x0 x − nx̄2 = 2100 − 50 × 62 = 300 (43)
Hacemos el mismo cálculo para los demás elementos y para las dos muestras para obtener la siguiente
tabla de los momentos:
β̂0 β̂1 Sxx Syy Sxy
Muestra 1 6 6 300 300 200
Muestra 2 6 6 300 1000 400
Obtenemos ahora los parámetros de las dos regresiones. El cálculo para la primera muestra es:
−1
0 −1 0 50 300 300 2
β̂ = (X X) Xy= = 2 (44)
300 2100 2000 3
Ahora podemos calcular la suma de los errores cuadrados para obtener la R2 y las s2 (vemos el cálculo
para la muestra 1):
e0 e y 0 y − β̂ 0 X 0 y 166.66 4
R2 = 1 − =1− =1− = (45)
Syy Syy 300 9
e0 e 166.66
s2 = = = 3.472 (46)
N −K 50 − 2
Los resultados numéricos para las dos muestras son:
ȳ x̄ R2 s2
2 4
Muestra 1 2 3 9 3.472
4 16
Muestra 2 -2 3 30 9.722
b)
Primero definimos las matices X 0 X, X 0 y y y 0 y para el conjunto de las dos muestras:

0 100 600 0 600
y 0 y = 4900

XX= Xy= (47)
600 4200 4200
Hacemos exactamente los mismos cálculos como en el punto a) y obtenemos:

ȳ x̄ R2 s2
6
Muestra 1 +2 0 1 13 7.142
Podemos observar que la estimación por MCO usando la muestra conjunta produce estimadores de β
que son justamente el promedio de las estimaciones individuales de cada muestra.

c)

Primero definimos la matriz X como una matriz en bloques: X = X1 X2 y Ω̂ = s21 s22 ⊗ I50
Vimos que s2m1 < s2m2 , ası́ que queremos estimar el modelo por FGLS para tomar en cuenta la
heterocedasticidad. Ahora podemos desarrollar:
β̂F GLS = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y (48)
0 h 1 i −1 0 h i y
1 1 1 1
= X1 X2 s21
⊗ I50 s22
⊗ I50 X1 X2 X1 X2 s21
⊗ I50 s22
⊗ I50 (49)
y2
−1
1 0 1 1 0 1
= X X1 + 2 X20 X2 X y1 + 2 X20 y2 (50)
s21 1 s2 s21 1 s2
d)
Dado que en este ejercicio X10 X1 = X20 X2 , podemos simplificar la expresión para βF GLS :
−1
1 1 0 1 0 1 0
β̂F GLS = + 2 X2 X2 X y1 + 2 X2 y2 (51)
s21 s2 s21 1 s2
−1
1 1 50 300 1 300 1 300 0.9469
= + + = (52)
3.472 9.722 300 2100 3.472 2000 9.722 2200 0.8422
2 Gráficos causales
Ejercicio 7 Construir/dibujar gráficos causales
Este ejercicio no tiene una solución única. A continuación se presenta una propuesta de solución.
a)
Educación Habilitad
de los padres cognitiva
Ingreso
Ingreso de
Educación
los padres
b)
Estatus general de salud Esperanza de vida
Preferencias por la salud* Fumar

Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar

a. Sı́, porque al no controlar por X podemos capturar una relación espuria entre D y Y que va vı́a
X
b. No, porque desbloquearı́amos el efecto vı́a X
c. No, porque bloquearı́amos el efecto indirecto vı́a X.
d. En este caso no podemos hacer nada. Incluyendo o excluyendo X no permite identificar el efecto.
Tenemos una relación cı́clica.
e. No es necesario incluir X. Aquı́ X es algo que influye D, pero si queremos tener el efecto de D
sobre Y , no importa a qué se debe el cambio en D.
f. No es necesario incluir X porque es una variable que no tiene relación con Y .
g. No es necesario incluir X para identificar el efecto causal de D sobre Y . Sin embargo, al incluir
podemos potencialmente obtener un estimador más preciso ya que quitamos la heterogeneidad
en Y que se debe a X. La decisión en este caso depende mucho del contexto.
h. No hay que incluir X porque es una variable que depende de Y .
Ejercicio 9 Los diferentes efectos

a. E[C|A, B, D]: Aquı́ controlamos por todas las variables que también influyen directamente en C.
No incluimos E porque su efecto va vı́a A, ası́ que al incluir A ya está en la regresión.
b. E[C|A, B]: Tenemos que incluir B para excluir el efecto indirecto de A vı́a B hacia C. Podrı́amos
incluir D como variable de control, pero no es relevante para la identificación.
c. E[C|A]: Ahora no debemos incluir B porque queremos estimar el efecto total que consiste en
el efecto directo, pero también el efecto que va vı́a B. Nuevamente podrı́amos incluir D como
variable de control, pero no afecta la identificación.
d. E[B|E]: No incluimos A porque nos interesamos al efecto de E sobre B, ası́ que al incluir A
interrumpimos la cadena de causalidad. No incluimos C en este caso porque desbloquearı́a el
efecto vı́a C que no forma parte del efecto total de E sobre B. D es irrelevante para el efecto que
queremos estimar, ası́ que no lo incluimos.
3 Variables instrumentales (IV)

Ejercicio 10 El estimador de Wald
Empezamos con la expresión general del estimador 2SLS:
PN PN
i=1 (zi − z̄)(yi − ȳ) i=1 (zi )(yi − ȳ)
β̂1 = PN = PN (53)
i=1 (zi − z̄)(xi − x̄) i=1 (zi )(xi − x̄)

podemos eliminar z̄ porque se trata de una variable binaria y la suma no se ve afectada con este
cambio. Ahora definimos como n1 el número de observaciones para las cuales z = 1. Obtenemos
n1 ȳ1 − n1 ȳ
(54)
n1 x̄1 − n1 x̄
n0 n1
Ahora remplazamos ȳ = n ȳ0 + n ȳ1 lo cual nos da:
n0 n1
n1 (ȳ1 − n ȳ0 − n ȳ1 ) n1 ( nn0 ȳ1 − n0
n ȳ0 )
n1 n0
n (ȳ1 − ȳ0 ) ȳ1 − ȳ0
β̂1 = n0 n1 = = = (55)
n1 (x̄1 − n x̄0 − n x̄1 ) n1 ( nn0 x̄1 − n0
n x̄0 )
n1 n0
n (x̄1 − x̄0 ) x̄1 − x̄0
Ejercicio 11 Prueba ad-hoc de la validez de los instrumentos

Sabemos que: x1 es exógeno, cov(x2 , q) 6= 0, z debe ser redundante en la ecuación estructural (6) y
además si z es una variable instrumental válida para x2 , entonces están parcialmente correlacionadas
y se cumple que la proyección lineal de x2 sobre x1 y z es,
x2 = αx1 + θz + rk
Cumpliendo que θ 6= 0 y cov(z, rk ) = cov(z, u) = 0.Ahora bien, si cov(z, q) 6= 0 deja de ser un
instrumento válido ya que rk contendrı́a la relación que existe entre z y q, provocando que cov(z, rk ) 6=
0. Por otra parte, aún cuando z y x1 son variables exógenas, la cov(x2 , v) 6= 0 en la regresión propuesta
en (7), lo cual indica que dicha regresión también sufre de un problema de endogeneidad, provocando
que los parámetros β0 , β1 , β2 y φ estén sesgados y no sean consistentes, por lo que no es posible realizar
una prueba de hipótesis sobre φ en donde el estadı́stico t asociado sea fiable.
Ejercicio 12 Varianza del estimador IV e instrumentos débiles

a)
√ n o−1
a 2 0 0 −1 0
Como punto de referencia, recordemos que N β̂ − β ∼ N 0, σ E (x z) · E (z z) E (z x) .
−1 −1 −1
Ahora bien, veamos que β̂ = (z 0 x) z 0 y = (z 0 x) z 0 (xβ + u) = β + (z 0 x) z 0 u, reescribiendo:
−1 √ √
−1 −1
β̂ − β = (z 0 x) z0u ⇒ N β̂ − β = N (z 0 x) z 0 u = N −1/2 N (z 0 x) z 0 u
√ −1 −1/2 0
N β̂ − β = N −1 z 0 x N z u
h√ i −1 −1/2 0 −1

Avar N β̂ − β = N −1 z 0 x N z V ar(u) N −1/2 z N −1 z 0 x
Sabemos que V ar(u) = σ 2 , lo que implica que

 
h√ 0
" #
zi2
P
i zz 1 1
Avar N β̂ − β = σ2 = σ2
 
z0 x 2
2 
N N
P
z i xi
N N
Utilizando el principio de analogı́a

h√ i σz2 σ2
Avar N β̂ − β = σ 2 2 =
[σz ρzx σx ] ρzx σx2

b)
Por el teorema 5.3 (Wooldrige, 2002) sabemos que los estimados de 2SLS (IV) son eficientes dentro
de la clase de estimadores que usan instrumentos lineales. Por lo tanto, si comparamos la varianza
asintótiva obtenida en (a) con la varianza asintótica usual del teorema de Gauss-Markov no existe
diferencia alguna, dado que ambos estimadores alcanza cota Cramer-Rao.
c)
La varianza asintótica del estimador de IV diverge, dado que es necesario que z esté parcialmente
correlacionado con x, para que sea un instrumento válido.
Ejercicio 13 First stage regression

Utilizando el procedimiento alternativo para la primera etapa de 2SLS:
x∗3 = γ0 + γ1 z + v2 = x̃3 + v2
Donde x̃3 es la proyección lineal de x3 sobre z (sin utilizar las otras variables exógenas x1 y x2 ).
Sustituyendo la ecuación 11 en la ecuación 9, tenemos:
.
y = β0 + β1 x1 + β2 x2 + β3 [x̃3 + v2 ] + u
= β0 + β1 x1 + β2 x2 + β3 x̃3 + [β3 v2 + u]
Definamos a w = [β3 v2 + u] como el error compuesto del procedimiento alternativo y la ecuación 9.

Recordemos que el supuesto clave para que β̂2SLS = (β̂0 β̂1 β̂3 ) sean consistentes y insesgados es que
cada variable (x1 , x2 y x̃3 ) sea ortogonal a w. Veamos que por construcción cov( x̃3 , v2 ) = 0 y por
hipótesis cov( xi , u) = 0 para i = 1, 2. Sin embargo, el problema está en que la cov( xi , v2 ) 6= 0 debido
a que las demás variables exógenas no fueron incluidas en la ecuación 11. Por lo tanto, β̂2SLS está
sesgado y no es consistente en general, es decir:
h i h i
p lı́m β̂2SLS = β + (X̂ 0 X)−1 E X̂w con E X̂w 6= 0
y
E(β̂2SLS ) 6= β
Debido a que E(w|X̂) 6= 0 donde X̂ = (x1 x2 x̃3 ).
Ejercicio 14 Efecto de computadores sobre la calificación

a. La literature encontró en varios estudios que el estatus socio-económico tiene impacto en los
resultados de los alumnos. El error u en la regresión contiene, entre otras cosas, el ingreso de
la familia que tiene un efecto positivo sobre el GPA. Al mismo tiempo, es muy probable que el
ingreso de la familia tiene una correlación positiva con la presencia de una computadora en casa.
b. El ingreso de los padres tiene una correlación positiva con PC porque familias más ricas pueden
comprar más fácilmente una computadora. Por lo tanto la condición de correlación entre el
instrumento potencial y la variable endógena queda satisfecha. Sin embargo, eso no significa que

podrı́a ser un instrumento. El problema en este case es que el ingreso de la familia también
tiene un efecto sobre GPA (que no va únicamente a través de P C), por lo tanto la condición de
exogeneidad del instrumento no está satisfecha y no podemos usar el ingreso de la familia como
instrumento. Si el ingreso de la familia fuera la única variable omitida, la podrı́amos incluir como
variable de control y obtener el efecto causal de P C sobre el GPA.
c. En un caso interesante porque se trata de un experimento natural que podemos a priori explotar
para identificar el efecto causal. La idea es que los alumnos que recibieron un voucher tienen
mayor probabilidad de tener una computadora hoy. Es una condición que podemos verificar
fácilmente analizando los datos. La condición de exogeneidad del instrumento deberı́a estar sa-
tisfecha, por lo menos si la distribución de vouchers realmente fue aleatorio. Si por alguna razón
alumnos de familias con poco ingreso tenı́an mayor probabilidad de recibir un voucher, entonces
el instrumento tendrı́a correlación con u y por lo tanto no podrı́amos identificar el efecto.
Suponiendo que la distribución fue realmente aleatoria, tendrı́amos que definir una variable
voucher que toma el valor de 1 si el alumno recibió el voucher y cero en el caso opuesto. Usarı́amos
dicha variable binaria para instrumentar la variable (binaria) PC. OJO: dado que la variable
endógena es una variable binaria, no podemos usar el 2SLS!! Una buena alternativa es usar el
estimador de Wald:
E[GP A|voucher = 1] − E[GP A|voucher = 0]

β̂IV,W ald = (56)
E[P C|voucher = 1] − E[P C|voucher = 0]
Ejercicio 15 Error de medición

a)
La relación que nos interesa verdaderamente es:
y = β0 + β1 x + u (57)
pero únicamente observamos w = x + v. Si ponemos w en la ecuación (57) obtenemos:
y = β0 + β1 w + u − β1 v (58)
| {z }
≡ε
podemos ver de inmediato que E[wε] 6= 0 porque Corr(w, v) > 0. Aunque ya podemos concluir que β̂
será sesgado, vamos a desarrollar la expresión para ver si logramos identificar la dirección del sesgo.
PN
(wi − w̄)(yi − ȳ)
β̂1 = i=1 PN (59)
2
i=1 (wi − w̄)
remplazamos yi por la expresión en ecuación (58):
PN
(wi − w̄)(εi − ε̄)
β̂1 = β1 + i=1 PN (60)
2
i=1 (wi − w̄)
Dividimos el numerador y el denominador por N y tomamos el lı́mite de probabilidad (plim). Usando
E[ε] = 0 podemos simplificar:
1
PN
(wi − w̄)(εi − ε̄) E[wi εi ]
plim β̂1 = β1 + N 1 i=1
PN = β1 + (61)
i=1 (wi − w̄)2 V ar(wi )
N | {z }
sesgo

Analizamos el segso con más detalle:

E[wi εi ] E[(xi + vi )(ui − β1 vi ) −β1 σv2
= = 2 (62)
V ar(wi ) V ar(xi + vi ) σx + σv2
Poniendo (62) en (61):
σ2

plim β̂1 = β1 1− 2 v 2 (63)
σx + σv
Podemos sacar dos conclusiones de ésta expresión:
Si σv2 6= 0 tenemos un estimador no consistente de β1
El sesgo siempre va hacia cero, quiere decir que |β̂1 | < |β1 |
b)
Para ésta pregunta usamos la notación de momentos para describir el estimador IV en el modelo
con una variable explicativa. En el caso de general, el estimador βIV se puede escribir como:
cov(y, z)
βIV = (64)
cov(x, z)
En nuestro caso no observamos x, pero únicamente w = x + v, ası́ que el estimador se vuelve:
cov(y, z) cov(βx + u, z)
βIV = = (65)
cov(w, z) cov(x + v, z)
bajo el supuesto E[uz] = E[vz] = 0 obtenemos:
βσxz
plim β̂IV = =β (66)
σxz
Entonces, si el instrumento no tiene correlación con el error de medición, podemos obtener un estimador
no sesgado!
c)
Como en el punto anterior, usamos nuevamente la notación con las covarianza. Ahora no observamos
z directamente, si no z̃ = z + ξ:
cov(y, z̃) cov(βx + u, z + ξ)
βIV = = (67)
cov(w, z̃) cov(x + v, z + ξ)
βcov(x, z) + βcov(x, ξ) + cov(u, z) + cov(u, ξ)
= (68)
cov(x, y) + cov(x, ξ) + cov(v, z) + cov(v, ξ)
Además de la condición de E[uz] = E[vz] = 0 necesitamos ahora E[ξu] = E[ξv] = E[ξx] = 0. Si dichas
condiciones están satisfechas, todas las covarianzas con excepción de cov(x, z) son iguales a cero y por
lo tanto la ecuación 68 se convierte en:
βcov(x, z)
βIV = =β (69)
cov(x, z)

Lo que nos muestra eso es que también con un instrumento que tiene un error de medición podemos
obtener un estimador insesgado. Lo único que necesitamos es que este error de medición no tenga
ninguna relación con algún otro elemento, lo cual parece razonable si pensamos en un verdadero error
de medición. A lo mejor podrı́a no cumplirse si pensamos que el error de medición se genera por
sobre- o sub-estimación de las respuestas de las personas y las personas que sobre-estiman x también
sobre-estiman z. En este caso cov(v, ξ) 6= 0 y seguimos con un sesgo.
d)
Este ejercicio describe un problema recurrente en la investigación empı́rica: tenemos más de un
problema econométrico y tenemos un trade-off entre dos soluciones. Aquı́ tenemos en primer lugar un
problema de una variable omitida, porque no podemos observar qi . Al no incluir la variable, vamos a
tener un sesgo en la estimación de nuestro parámetro de interés β1 . Ya vimos que usar un instrumento
puede ser una buena solución, pero no siempre es posible. Al seguir la recomendación del econometrista
e incluir la variable proxy t = q + v corremos el riesgo de un sesgo que se debe al error de medición
v. Vimos que eso puede sesgar la estimación de β2 . El punto crucial aquı́ es que nos interesamos sobre
todo a la estimación no sesgada de β1 . Si ponemos la expresión t = θ0 + θ1 q + v en la regresión,
obtenemos:
y = (β0 + γθ0 ) + β1 x1 + β2 θ0 q + (β2 v + u) (70)
Vemos de inmediato que no vamos a poder identificar β0 y β2 , lo cual no es muy problemático si no

son parámetros de interés. Para que E[β̂1 ] = β1 necesitamos que Cov(β2 v + u, x1 ) = 0. Dado que
Cov(x1 , u) = 0 según el supuesto general del modelo, es suficiente que Cov(v, x1 ) = 0. Entonces, si el
error de medición de la variable proxy de x2 no tiene correlación con la variable de interés x1 , podemos
obtener una estimación no sesgada de β1 .
Ejercicio 16 Simultaneidad: Modelo Keynesiano

a)
Como se puede observar, It es exógena. Sin embargo, tanto Ct como Yt son determinadas simultánea-
mente. Por lo tanto, se tiene un modelo de ecuaciones simultáneas de forma estructural. Como Ct influye
Yt no se puede suponer que Yt y et no estén correlacionadas. Por lo tanto, el estimador MCO de β2
será sesgado e inconsistente. La forma reducida se obtiene cuando las variables endógenas Ct y Yt se
expresen como función de la variable exógena It y el término de error. Despejando para Ct y Yt , se
obtiene la ecuación de forma reducida:
β1 1 1
Yt = + It + et (71)
1 − β2 1 − β2 1 − β2
β1 β2 1
Ct = + It + et (72)
1 − β2 1 − β2 1 − β2
b)
De las ecuaciones anteriores se sigue que

1 1 σ2
Cov(Yt , et ) = Cov(It , et ) + V ar(et ) = (73)
1 − β2 1 − β2 1 − β2
Asimismo,
Cov(Yt , et )
plimβ̂2 = β2 + (74)
V ar(Yt )
Donde:

1 1 1
V ar(Yt ) = V ar It + et = (V ar(It ) + σ 2 ) (75)
1 − β2 1 − β2 (1 − β2 )2
Con lo cual se obtiene:
σ2
plimβ̂2 = β2 + (1 − β2 ) (76)
V ar(It ) + σ 2 )
Como 0 < β2 < 1 y σ 2 > 0, el estimador de MCO sobre estimará la verdadera propensión marginal a
consumir, β2 .
c)
Una variable exógena que tiene un efecto en la variable endógena puede ser usada como instrumento,
mostrando que se excluye de la ecuación que está siendo estimada. En este modelo simple, se puede
inferir que la inversión It puede ser un instrumento válido para el ingreso Yt .
Ejercicio 17 Error de medición y endogeneidad

a)
Al introducir x∗t = xt − et en yt = β0 + β1 x∗t + ut :
yt = β0 + β1 (xt − et ) + ut = β0 + β1 xt + ut − β1 et (77)
Sustituyendo vt = ut − β1 et y como ut no está correlacionado con x∗t y et ; entonces, ut no está
correlacionado con xt . Como et no está correlacionada con x∗t
E(xt et ) = E[(x∗t + et )et ] = E(x∗t et ) + E(e2t ) = σe2 (78)
Por lo tanto, con vt definida anteriormente,
Cov(xt , vt ) = Cov(xt , ut ) − β1 Cov(xt , et ) = −β1 σe2 < 0 (79)
Y −β1 σe2 < 0 cuando β1 > 0. Como la variable explicativa y el error tienen covarianza negativa, el
estimador de MCO de β1 tiene sesgo hacia abajo.
b)
Recordando los supuestos:
E(x∗t−1 ut ) = E(et−1 ut ) = E(x∗t−1 et ) = E(et−1 et ) = 0 (80)
E(xt−1 ut ) = E(xt−1 et ) = 0 (81)

Entonces,
E(xt−1 vt ) = E(xt−1 ut ) − β1 E(xt−1 et ) = 0 (82)

c)
La mayorı́a de las series de tiempo están correlacionadas positivamente en el tiempo, algunas excep-
ciones ocurren cuando la serie representa la primera diferencia o series en cambios porcentuales.
d)
Con los supuestos, xt−1 es exógena en
yt = β0 + β1 xt + vt (83)
Asimismo, xt−1 estará frecuentemente correlacionada con xt . Esto sugiere que se puede estimar la
ecuación por variables instrumentales, donde xt−1 es la variable instrumental de xt .
4 SUR y SEM
Ejercicio 18 Notación de modelos con múltiples ecuaciones.
Empezamos analizando la notación inicial
y1 = β10 + β11 x1 + β12 x2 + u1 (84)

y2 = β20 + β21 x1 + β22 x2 + u2 (85)
Cabe señalar que dicha expresión ya usa una notación matricial:

y1 X1 u1
z }| { z }| { β1 z }| {
  
y11 1 x11 x21 
 z }| {  u11 

 y12  1 x12 x2n  β10
    u12 
 
 .  = . ..  β11 +  ..  (86)
  
..
 ..   .. . .  β  . 
12
y1n 1 x1n x2n u1n
  
y21 1 x11 x21  
 
u21

 y22  1 x12 x2n  β20
    u22 
 
 .  = . β + (87)
  
.. .. 21 . 
 ..   ..  .. 
 
. .  β
22
y2n 1 x1n x2n | {z } u2n
| {z } | {z } β2 | {z }
y2 X2 u2
Vemos que la matriz X es la misma en ambas ecuaciones, mientras que las demás matrices son distintas.
Ahora podemos empilar todas las matrices y obtenemos:

y1 X1 0 β1 u
= + 1 (88)
y2 0 X2 β2 u2
|{z} | {z } | {z } | {z }
≡y ≡X ≡β ≡u
y = Xβ + u (89)
lo cual nos da la notación más sencilla. La matrices en la ecuación (89) tienen las siguientes dimensiones:
y(2n×1) = X(2n×2k) β(2k×1) + u(2n×1) (90)

Ejercicio 19 Identificación de un modelo SEM

a)
       
1 0 0 y1 β11 β12 β13 x1 u1
α21 1 1 − α21  y2  + β21 β22 0  x2  = u2  (91)
α31 α32 1 y3 β31 β32 β33 x3 u3
| {z } | {z } | {z } | {z } | {z }
A Y B X U
b)
      
1 0 0 c11 c12 c13 β11 β12 β13 0 0 0
α21 1 1 − α21  c21 c22 c23  + β21 β22 0  = 0 0 0 (92)
α31 α32 1 c31 c32 c33 β31 β32 β33 0 0 0
c)
g=1
 
1 0 0
0 1 0
 
0
 0 1

p01 Φ1 = λ1 ⇔

α11 α12 α13 β11 β12 β13  = 1 0 0 (93)
0 0 0
 
0 0 0
0 0 0
g=2
 
0 1 0
1 0 0
 
0
 1 0

p02 Φ2 = λ2 ⇔

α21 α22 α23 β21 β22 β23  = 1 1 0 (94)
0 0 0
 
0 0 0
0 0 1
g=3
 
0
0
 
1
 
p03 Φ3 = λ3 ⇔

α31 α32 α33 β31 β32 β33   = 1 (95)
0
 
0
0

d)
Si usamos la condición del orden, obtenemos los siguientes resultados:
g Rg G Condición del orden Conclusión

1 3 3 pasa puede estar identificada
2 3 3 pasa puede estar identificada
3 2 3 no pasa no está identificada
En el caso de la ecuación 3 podemos decir con certeza que no está identificada. Para las primeras dos
ecuaciones todavı́a no podemos decir nada, porque la condición del orden es únicamente necesaria,
pero no suficiente!
e)
Ahora aplicamos el método de las ’estructuras equivalentes’. Definimos la matriz M como:
 
m11 m12 m13
m21 m22 m23  (96)
m31 m32 m33
Entonces, M A = A y M B = B nos da respectivamente:
m11 + m12 α21 + m13 α31 m12 + m13 α32 m12 (1 − α21 ) + m13
   
1 0 0
m21 + m22 α21 + m23 α31 m22 + m23 α32 m22 (1 − α21 ) + m23  = α21 1 1 − α21 
m31 + m32 α21 + m33 α31 m32 + m33 α32 m32 (1 − α21 ) + m33 α31 α32 1
(97)
   
β31 m13 + β21 m12 + β11 m11 β32 m13 + β22 m12 + β12 m11 β33 m13 + β13 m11 β11 β12 β13
β31 m23 + β21 m22 + β11 m21 β32 m23 + β22 m22 + β12 m21 β33 m23 + β13 m21 = β21
  β22 0 
β31 m33 + β21 m32 + β11 m31 β32 m33 + β22 m32 + β12 m31 β33 m33 + β13 m31 β31 β32 β33
(98)
Podemos sacar todos los elementos A(i, j) 6= αij y obtenemos un sistema de ecuaciones:


 m11 + m12 α21 + m13 α31 = 1 (a)





 m 12 + m13 α32 = 0 (b)

m12 (1 − α21 ) + m13 = 0 (c)



m22 + m23 α32 = 1 (d) (99)

m22 (1 − α21 ) + m23 = 1 − α21 (e)









 m32 (1 − α21 ) + m33 = 1 (f )

β33 m23 + β13 m21 = 0 (g)

Si combinamos la (b) y (c), podemos concluir que m12 = 0 y que m13 = 0. Usando este resultado en
(a), vemos que m11 = 1. Entonces pudimos identificar todos los elementos de la primera ecuación de
nuestro sistema.
Para la segunda ecuación de nuestro sistema tenemos también 3 ecuaciones. Las ecuaciones (d) y (e)
vienen de las restricciones sobre A y la ecuación (g) viene de la restricción en B. Podemos combinar

(d) y (e) para obtener primero m23 = 0. Usando este resultado en (e) obtenemos m22 = 1 y luego
poniendo eso en (f) nos permite ver que m21 = 0. Podemos concluir que la ecuación 2 está identificada.
Lo ’bonito’ de este enfoque es que podemos ver de inmediato de donde viene la identificación. Mientras
que para la primera ecuación no se requiere ninguna restricción sobre B, la identificación de la segunda
ecuación se puede comprobar únicamente cuando usamos la restricción en B también (no podrı́amos
identificar los elementos sin la ecuación (g)).
Para la tercera ecuación tenemos únicamente (f) con 3 variables desconocidas. Es imposible resolver
identificar los elementos y por lo tanto la ecuación 3 no está identificada. Este resultado ya obtuvimos
con la condición del orden.
Entonces, la conclusión es que únicamente la primera y la segunda ecuación están identificadas y que
el sistema en general no está identificado.
5 Datos de panel
Ejercicio 20 Estimar DiD por MCO con interacciones
a)
Para evitar todo tipo de confusión, empezamos definiendo cada variable en el modelo1 .
(
1 Grupo de tratamiento (siempre 1, también antes del tratamiento
D= (100)
0 Grupo de contról
(
0 Periodo antes del tratamiento
T = (101)
1 Periodo después del tratamiento
Nos da los siguientes valores de T y D:
Pre-tratamiento Post-tratamiento
Grupo de contról D = 0, T=0 D=0,T=1
Grupo de tratamiento D = 1, T=0 D=1,T=1
Ahora, estimamos la siguiente ecuación
Y = α0 + α1 D + α2 T + α3 DT + Xβ + u (102)
donde X es una matriz de variable de contról y β los parámetros correspondientes.

Podemos calcular los valores esperados de los diferentes elementos vistos en clase:
E[Y0C |X] = α0 + Xβ (103)

E[Y1C |X] = α0 + α2 + Xβ (104)
E[Y0T |X] = α0 + α1 + Xβ (105)
E[Y1T |X] = α0 + α1 + α2 + α3 + Xβ (106)
1 Algunos autores usan una notación ligeramente diferente, lo cual puede resultar en una confusión importante

Calculamos ahora el cambio esperado de cada grupo a lo largo del tiempo:
∆C = E[Y1C |X] − E[Y0C |X] = (α0 + α2 + Xβ) − (α0 + Xβ) (107)

= α2 (108)
∆T = E[Y1T |X] − E[Y0T |X] = (α0 + α1 + α2 + α3 + Xβ) − (α0 + α1 + Xβ) (109)
= α2 + α3 (110)
Y finalmente, podemos calcular la diferencia en dichos cambios:
αDiD = ∆T − ∆C = α2 + α3 − α2 = α3 (111)
entonces, el efecto causal del tratamiento se estima simplemente por α3 , el parámetro del término de
interacción.
b)
α2 es la tendencı́a temporal que hubiera occurido sin tratamiento. α0 captura el nivel de Y para el
grupo de control durante el periodo antes del tratamiento y α1 nos indica la diferencia que habı́a entre
los dos grupos antes del tratamiento.
Nota que en el caso de experimentos, se supone normalmente que α1 = 0. Usando el modelo DiD no
tenemos que hacer dicho supuesto porque estimamos el parámetro α1 .
Ejercicio 21 Inversión de capital

a)
Las decisiones de inversión se ven afectadas por las condiciones macroeconómicas (internacionales y
nacionales) por lo que es importante reconocer dichos factores a través de interceptos no fijos a lo largo
del tiempo. Por ejemplo, al estudiar las decisión de inversión para los EE.UU. serı́a correcto reconocer
un cambio estructural en los datos para las fechas posteriores a las crisis económica de 2008.
b)
El término Ci busca reconocer efectos no-observados pero constantes en el tiempo que afecten las
decisiones de inversión, podrı́an deberse a caracterı́sticas particulares de los paı́ses. Por ejemplo: condi-
ciones polı́ticas, criminalidad o corrupción podrı́an ser factores que afecten la confianza empresarial, o
leyes fiscales acomodaticias para ciertos sectores de la población que afecten directamente a la decisión
de inversión y/o a las variables exógenas, como la tasa impositiva. En el último ejemplo, si los datos
fuesen de corte transveral ¿cómo se tendrı́a que proseguir con la variable de impuestos?
c)
La teorı́a macroeconómica clásica señala que un impuesto al capital (inversión), consumo, ingre-
so, etc. distorsionan las decisión intertemporal de los agentes, que en última instancia provoca una
reasignación en su selección de consumo, inversión y oferta de trabajo. Por lo tanto, δ1 < 0, si todo
permanece constante, una mayor tasa impositiva provocará una disminución en la inversión.
d)
Al inicio correrı́a pooled OLS con matriz de varianza-covarianza robusta (heterocedasticidad y auto-
correlación), harı́a un análisis preliminar de los residuos del modelos (para detectar posibles violaciones

a los supuestos del modelo clásico) y revisarı́a si los signos de los parámetros coinciden con la intuición
económica del modelo. Después correrı́a el modelos de efectos fijos bajo los supuestos de estricta exoge-
neidad de las variables independientes; si los residuales del modelo están serialmente correlacionados
proseguirı́a a aplicar el método de primeras diferencias y volverı́a a estima el modelo y adicionalmente
harı́a una prueba de autocorrelación a los residuales diferenciados, de no ser ası́, recuperarı́a de la
matriz de varianza-covarianza robusta a heterocedasticidad para proseguir con la labor de inferencia.
e)
Dado que los desastres obedecen a situaciones naturales, ajenas a las decisiones de los agentes, la
condición de exogeneidad se cumple con certeza. Sin embargo, un cambio permanente en la polı́tica
fiscal modifica el estado estable de las decisiones de consumo e inversión de los agentes, haciendo
que la condición de exogeneidad no se cumpliera necesariamente. Otra posibilidad es que los agentes
resuelvan su problema de optimización, considerando a su expectativa de polı́tica fiscal como una
restricción adicional a su problema de optimización, lo cual harı́a que nuevamente, la condición de
exogeneidad fallara en nuestro modelo de efectos fijos.
Ejercicio 22 Primeras diferencias y efectos fijos

a) FE = FD si T=2
Para simplificar la notación, omitimos el ı́ndice i en la ecuación y usamos t = {0, 1}. Empezamos
con el modelo por efectos fijos y reemplazamos los promedios por su expresión completa:
y1 − ȳ = (x1 − x̄)β1 + u1 − ū (112)

y1 + y0 x1 + x0 u1 + u0
y1 − = (x1 − )β1 + u1 − (113)
2 2 2
y1 − y0 x1 − x0 u1 − u0
=( )β1 + − (114)
2 2 2
y1 − y0 = (x1 − x0 )β1 + (u1 − u0 ) (115)
∆y1 = ∆x1 β1 + ∆u1 (116)
lo cual es simplemente el estimador por primeras diferencias!
b) Mostrar que E[β̂] = β

Dado que el modelo se estima por MCO, la prueba es muy similar al modelo estándar.
"P #
N
i=1 (xi1 − xi0 )(yi1 − yi0 )
E[β̂] = E PN (117)
2
i=1 (xi1 − xi0 )
Reemplazamos y1 y y0 por sus valores reales:

"P #
N
i=1 (x i1 − x i0 )(αi + x i1 β + u i1 − αi − x i0 β − u i0 )
E[β̂] = E PN (118)
2
i=1 (xi1 − xi0 )
" PN #
1 2 2
N i=1 (xi1 β + xi1 ui1 − xi1 xi0 β − xi1 ui0 − xi0 xi1 β − xi0 ui1 + xi0 β + xi0 ui0 )
=E 1
PN (119)
2
N i=1 (xi1 − xi0 )
Podemos eliminar todos los elementos con ui0 y ui1 porque suponemos que E[xit uis ] = 0 ∀t, s = 0, 1.
Nos quedamos con:

" PN #
β N1 i=1 (xi1 − xi0 )
2
E[β̂] = E 1
PN
=β (120)
2
N i=1 (xi1 − xi0 )
c) FE vs FD cuando T=3
Como para el caso de T = 2, usamos una notación simplificada. Ahora tenemos t = {1, 2, 3} y
hacemos el cálculo para t = 2. Hacemos los mismos pasos que hicimos antes:
y2 − ȳ = (x2 − x̄)β1 + u2 − ū (121)

y1 + y2 + y3 x1 + x2 + x3 u1 + u2 + u3
y2 − = (x2 − )β1 + u2 − (122)
3 3 3
∆y2 = ∆x2 β1 + ∆u2 − ∆y3 + ∆x3 β1 + ∆u3 (123)
| {z } | {z }
Estimador FD diferencia
Nota que E[∆y3 + ∆x3 β1 + ∆u3 ] = 0
d)
Ver punto b), para ambos modelos hay que seguir exactamente los mismos pasos.
Ejercicio 23 Efectos aleatorios

a)
E[eit ] = E[vit − λv¯i ] = E[vit ] − λE[v̄i ] = 0 porque E[vit ] = 0
b)
V ar[vit − λv̄i ] = V ar[vit ] + λ2 V ar[v̄i ] − 2λCov[vit , v̄i ] (124)

= σv2 2
+ λ E[v̄i ] − 2λE[vit v̄i ] (125)
2
Sabemos que σv2 = E[vit ] = σa2 + σu2 . Además tenemos:
T
1X
E[vit v̄i ] = E[vit vis ] (126)
T s=1
1 2
{E[vit vi1 ] + .. + E[vit
= ] + .. + E[vit viT ]} (127)
T
1
= {σa2 + .. + (σa2 + σu2 ) + .. + σa2 } (128)
T
σ2
= σa2 + u (129)
T
PT σ2
y equivalente podemos mostrar que E[v̄i2 ] = T1 t=1 E(vit v̄i ) = σa2 + Tu . Eso nos permite modificar la
expresión (125):
σu2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + ) − 2λ(σa2 + u ) (130)
T T

√ 2 2
η σu σu
Ahora definimos λ = 1 − √
γ donde η ≡ T y γ ≡ σa2 + T lo cual nos simplifica la notación:
σ2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + u ) − 2λ(σa2 + u ) (131)
T T
√ √ 2
η η
= (σa2 + σu2 ) − 2 1 − √ γ+γ 1− √ (132)
γ γ
√
√ √ η η
= (σa2 + σu2 ) − 2γ + 2 η γ + (1 − 2 √ + )γ (133)
γ γ
√ √ √ √
= (σa2 + σu2 ) − 2γ + 2 η γ + γ − 2 η γ + η (134)
= (σa2 + σu2 ) +η−γ (135)
σu2 σu2
= (σa2 + σu2 ) + − σa2 − = σu2 (136)
T T
c)
La propiedad muestra que los errores son homoscedasticos, lo cual es una condición para que el
estimador por pooled OLS proporcione errores estándares correctos.
d)
Tenemos que mostrar que E[eit eis ] = 0 ∀ s 6= t. La prueba es bastante similar al ejercicio anterior:
E[eit eis ] = E[(vit − λv̄i )(vis − λv̄i )] (137)

2
= E(vit vis ) − λE(v̄i vis ) − λE(vit v¯i ) + λ E(v̄i2 ) (138)
σu2 σu2

2 2 2 2
= σa − 2λ σa + + λ σa + (139)
T T
√ √ 2
η η
= σa2 − 2 1 − √ γ+ 1− √ γ (140)
γ γ
√ √ √ √
= σa2 − 2γ + 2 η γ + γ − 2 η γ + η (141)
= σa2 +η−γ (142)
σu2 σu2
= σa2 + − σa2 − =0 (143)
T T
e)
La propiedad muestra que no tenemos correlación serial (serial correlation), lo cual es importante
para que podamos estimar el modelo transformado por pooled OLS y obtener los errores estándares
correctos.
f)
Recordemos que los supuestos básico para implementar el modelo de efectos aleatorios son:
E(uit |xi , ci ) = 0 para todo t e independencia entre el efecto aleatorio y las variables independientes.
También se requiere que E(ui u0i |xi , ci ) = σu2 y E(c2i |xi ) = σc2 para asegurar que E(vi vi0 |xi ) = E(vi vi0 ),
lo que implica que las varianzas condicionales sean constantes y las covarianzas cero. Con base a lo
anterior, podemos decir que Ω = σu2 IT + σc2 JT JT0 (donde JT es un vector de unos con T renglones) y
con ello, utilizar sus estimadores muestrales para construir la matriz Ω̂, poderar y utilizar el estimador
de beta para efectos aleatorios.

Sin embargo, ¿Qué pasa si Ω̂ 6= E(vi vi0 )? puede emplearse un método alternativo de FGLS tomando
como herramienta los residuos de regresión lineal de pooled effects de tal forma que
N
X
Ω̂ = N −1 (ei,pooled )(e0i,pooled ) (144)
i=1
matriz que ponderará todas las observaciones de las variables independiente y la variable dependiente,
utiliando los residuales al cuadrado de la regresión por pooled effects. En términos asintóticos, este
último procedimiento es igual o mejor en términos de eficiencia (Entonces, ¿Por qué no proseguir
siempre por RE FGLS?).
6 Modelos de variables limitadas

Ejercicio 24 Regresión lineal por MV
a)
Para poder estimar el modelo de la regresión simple por máxima verosimilitud, tenemos que suponer
una distribución del término de error. Suponemos que ui ∼ N ID(0, σ 2 ) donde N ID significa normally
and independently distributed. Ahora podemos describir la función de densidad de yi :
(yi − β0 − β1 xi )2

2 1
f (yi |xi ; β0 , β1 , σ ) = √ exp − (145)
2πσ 2 2σ 2
Gracias al supuesto de independencia, podemos obtener fácilmente la distribución conjunta de y1 , ..., yN :
2 Y N
(yi − β0 − β1 xi )2

2 1
f (yi |xi ; β0 , β1 , σ ) = √ exp − (146)
2πσ 2 i=1
2σ 2
Ahora podemos definir la función de log-verosimilitud tomando el logaritmo de la función de densidad
conjunta y cambiando los argumentos de la función a β0 , β1 y σ 2 :
N
N 1 X (yi − β0 − β1 xi )2
log L(β0 , β1 , σ 2 ) = − log(2πσ 2 ) − − (147)
2 2 i=1 σ2
Vemos que la primera parte de la expresión no depende de β0 y β − 1, ası́ que podemos maximizar
únicamente la segunda parte. Nos da exactamente el mismo cálculo como para el estimador MCO, ası́
que βM V = βM CO (ver el capı́tulo de MCO para los detalles del cálculo).
2
Para obtener el estimador σM V definimos primero el error ui = yi − β̂0 − β̂1 xi y obtenemos la función
de log-verosimilitud:
N
N 1 X u2i
log L(β0 , β1 , σ 2 ) = − log(2πσ 2 ) − − (148)
2 2 i=1 σ 2
calculamos la primera derivada con respecto a σ 2 y obtenemos la condición de primer orden:

N
N 2π 1 X u2i
− 2
+ =0 (149)
2 2πσ 2 i=1 σ 4
resolvemos por σ 2 :
N
2 1 X 2
σ̂M V = u (150)
N i=1 i

b)
Como ya vimos en la parte a), el estimador de β0 y de β1 por máxima verosimilitud es equivalente
al estimador por MCO. Al contrario, el estimador de σ 2 nos da otra expresión si lo estimamos por
máxima verosimilitud:
β̂M V = β̂M CO (151)

N N
2 1 X 1 X
σ̂M V = ε2i < σ̂M
2
CO = ε2i (152)
N i=1
N −k i=1
c)
La solución más sencilla es calcular el estimador no sesgado de σ 2 y después compararlo con el
estimador por MV.
Los residuos de la estimación por mı́nimos cuadrados se pueden escribir como:
u = M y = M [Xβ + ε] = M ε (153)
donde M es una matriz de proyección y por definición tenemos M X = 0. Un estimador de σ 2 será

basado en la suma de los residuos cuadrados:
u0 u = ε0 M ε (154)
Tomamos el valor esperado:
E[u0 u] = E[ε0 M ε] (155)
dado que ε0 M ε es una matriz 1 × 1, el único elemento es igual a la traza (trace). Podemos usar la
propiedades de la traza para obtener:
E[tr(ε0 M ε)|X] = E[tr(M ε0 ε)|X] (156)
dado que M es una función de X, podemos sacar M del valor esperado:
tr(M E[ε0 ε]) = tr(M σ 2 I) = σ 2 tr(M ) (157)
Ahora tenemos que calcular tr(M ). Sabemos que M = IN − X(X 0 X)−1 X 0 , entonces:
tr(IN − X(X 0 X)−1 X 0 ) = tr(IN ) − tr(X(X 0 X)−1 X 0 ) = tr(IN ) − tr(Ik ) = N − k (158)
Por lo tanto:
E[u0 u|X] = (n − k)σ 2 (159)

1
σ2 = E[u0 u|X] (160)
N −k
2 2
Ahora es fácil mostrar que E[σ̂M V ] 6= σ :
"N #
1 X 1 1 N −k 2
2
E[σ̂M V]= E ε2i = E[u0 u|X] = (N − k)σ 2 = σ < σ2 (161)
N i=1
N N N

Ejercicio 25 Máxima verosimilitud: distribución de Poisson

Definimos primero la función de log-verosimilitud:
N
X
log L(λ) = [−λ + yi ln(λ) − ln(yi !)] (162)
i=1
Podemos ignorar el último elemento de la expresión, porque no depende de nuestro parámetro de

interés λ. Calculamos la condición de primer orden:
N
X yi
−1 + =0 (163)
i=1
λ
PN
i=1 yi
=N (164)
λ
N
1 X
λ̂ = yi (165)
N i=1
A notar que en este ejercicio estamos viendo el estimador de la distribución de Poisson, no estamos
viendo el estimador de la regresión de Poisson. Vamos a ver dicha regresión más adelante. La idea del
estimador es muy similar a lo que hicimos aquı́, se recomienda hacerlo como ejercicio adicional a la
hora de ver el modelo de la regresión de Poisson.
Ejercicio 26 Probit: estimador MV

Podemos expresar la probabilidad condicional del modelo probit como2 :
x0i α
0
∗ 0 0 ui xi α
P (yi = 1) = P (yi ≥ 0) = P (xi α + ui ≥ 0) = P (ui ≥ −xi α) = P ≥− =Φ (166)
σ σ σ
Entonces, podemos describir la probabilidad en función de la densidad normal estándar:


1 con probabilidad p = Φ x0i α

i σ
yi = (167)
0 con probabilidad 1 − pi
Lo cual nos permite construir la función de densidad y luego la función de verosimilitud:

y 0 1−yi
x0i α i

xi α
P (Yi = yi ) = Φ 1−Φ (168)
σ σ
N 0
y i
0 1−yi
2
Y xi α xi α
L(y; α, σ ) = Φ 1−Φ (169)
i=1
σ σ
Ahora tomamos el logaritmo natural para obtener la función de log-verosimilitud:

N 0 0
X xi α xi α
ln L(y, α, σ 2 ) = yi ln Φ + (1 − yi ) ln 1 − Φ (170)
i=1
σ σ
2 Usamos α en lugar de β aquı́ porque después haremos un cambio de sı́mbolo

α
Vemos que no podemos identificar α y σ de manera separada. Por lo tanto definimos β = σ y obtene-
mos:
N
X
ln L(y, β) = {yi ln [Φ (x0i β)] + (1 − yi ) ln [1 − Φ (x0i β)]} (171)
i=1
lo cual podemos derivar con respecto a β para obtener la condición de primer orden:
d ln L
(y, β) = 0 (172)
dβ
N
Φ0 (x0i β) Φ0 (x0i β)
X
⇔ yi xi − (1 − yi ) xi = 0 (173)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N
φ(x0i β) φ(x0i β)
X
⇔ yi x i − (1 − yi ) x i =0 (174)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N
[yi − Φ(x0i β)] φ(x0i β)xi
X
⇔ ≈0 (175)
i=1
Φ(x0i β) [1 − Φ(x0i β)]
dicha expresión no tiene una solución analı́tica, por lo tanto indicamos el sı́mbolo de una aproximación
(≈). Se requiere una optimización numérica para obtener una estimación de β.
Ejercicio 27 Efectos marginales en el modelo probit

a)
Primero, es importante acordarse que los parámetros del modelo probit no son los efectos marginales,
ası́ que no podemos interpretar directamente el valor del parámetro. Lo que sı́ podemos interpretar es
la significáncia y la dirección del efecto.
En este caso observamos un efecto de 0.02 para la variable age, lo cual nos indica que a mayor edad,
la probabilidad de estar en una situación de desempleo es mayor.
El efecto negativo de la variable tenure nos indica que a mayor antigüedad en el empleo, menor es la
probabilidad de estar en desempleo.
Dado que las dos variables tienen la misma unidad (años), podemos decir algo sobre el tamaño relativo
del efecto. Vemos que el efecto negativo de la edad es aproximadamente el doble del efecto positivo
de antigüedad. Ası́ que la probabilidad de desempleo de una persona que sigue en el mismo empleo
aumenta porque el efecto de la edad es mayor al efecto de la antigüedad.
b)
P [unemployed|edad = 40, tenure = 15] = Φ(−1.5 + 0.02 × 40 − 0.01 × 15) (176)

= Φ(−0.85) = 0.1977 = 19.77 % (177)
c)

∂P (X) ∂P (X)
Edad Tenure z P (X) = Φ(z) ∂edad = 0.02φ(z) ∂tenure = −0.01φ(z)
Persona 1 55 10 -0.5 0.309 0.70 % -0.35 %
Persona 2 26 5 -1.03 0.152 0.47 % -0.23 %
Persona 3 45 12 -0.72 0.236 0.62 % -0.31 %
AME 0.596 % -0.30 %
Promedio 42 9 -0.75 0.227 0.60 % -0.30 %
En las primeras tres lı́neas de la tabla calculamos primero el argumento de la densidad normal. Después
obtenemos el efecto marginal multiplicando la densidad evaluada en el argumento calculado y el coefi-
ciente estimado. Nos da un efecto marginal para cada individuo y cada indicador. Para obtener el AME
(average marginal effect) simplemente calculamos el promedio de los efectos marginales individuales.
La otra manera de calcular el efecto marginal es primero calcular el promedio de cada caracterı́stica
(edad y antiguedad). Luego se calcula nuevamente el argumento z para el promedio y se calcula el
efecto marginal de la misma manera como para los individuos. Obtenemos el marginal effect at the
mean (MEM).
En este caso podemos observar que los dos efectos marginales son casi idénticos y la conclusión económi-
ca no depende de la manera de calcular los efectos marginales.
La interpretación económica aquı́ es que con cada año más de edad, la probabilidad de estar en
desempleo aumenta de 0.6 %. Con cada año de antigüedad baja de 0.3 %.
Ejercicio 28 Normalización en el modelo probit

Empezamos con los supuestos que normalmente tenemos y consideramos el siguiente modelo:
P (Y = 1|X) = P (y ∗ > 0|X) = Φ (α + β1 x1 + β2 x2 ) (178)
con
y ∗ = α + β1 x1 + β2 x2 + ε (179)
ε ∼ N (0, 1) (180)
Vemos ahora que se puede generalizar el supuesto de ε ∼ N (0, 1) a ε ∼ N (a, σ 2 ).
a)
Consideramos primero ε ∼ N (0, σ 2 ), ası́ que nuestro modelo cambia a
y ∗ = α + β1 x 1 + β2 x 2 + σ 2 ε (181)
y∗ α β1 β2
2
= 2 + 2 x1 + 2 x2 + ε (182)
σ σ σ σ
vemos que cada parámetro se divide por una constante. Dado que el parámetro es algo que tenemos
que estimar de todas formas, podemos redefinir cada razón por otro coeficiente:
y∗
= δ 0 + δ 1 + δ 2 x2 + ε (183)
σ2
y∗
además, dado que y ∗ no tiene ninguna escala definida, tenemos y ∗ ∼
= σ2 Por lo tanto, el modelo en
(183) es equivalente al modelo en (179).

b)
Ahora vemos lo que pasa si en lugar de suponer
P (y = 1|X) = P (y ∗ > 0|X) (184)
suponemos
P (y = 1|X) = P (y ∗ > a|X) (185)
Nuestro modelo ahora es:
P (y ∗ > a|X) = P (α + β1 x1 + β2 x2 + ε > a|X) (186)

 
= P α − a +β1 x1 + β2 x2 + ε > 0|X  (187)

| {z }
≡β0
= P (β0 + β1 x1 + β2 x2 + ε > 0|X) (188)
β0 es igual de desconocido como lo fue α, ası́ que este modelo transformado es exactamente equivalente
al modelo anterior!.
Ejercicio 29 Error estándar de efectos marginales

Tenemos el modelo:

P (Y\
= 1|X) = Φ α̂ + β̂1 x1 + β̂2 x2 (189)
a) Efecto marginal
∂ P (Y\= 1|X)
= φ α̂ + β̂1 x1 + β̂2 x2 β̂1 ≡ γ̂1 ≡ h1 (β) (190)
∂x1
b) Varianza de γ̂1
K 2
∂h1 (β)
V ar(γ̂1 ) ∼
X
= V ar(β̂k ) (191)
βk
k=1
h i2
= V ar(β̂1 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x1 + φ(α̂ + β̂1 x1 + β̂2 x2 )
h i2
+ V ar(β̂2 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x2 (192)
Ejercicio 30 Dı́as en el hospital

a)
No es buena idea estimar una regresión log-lineal por MCO en este caso. Hay principalmente dos
razones porque no deberı́amos estimar este modelo:

a. Mucha gente no va al hospital durante un año, ası́ que seguramente tenemos muchas observaciones
con el valor cero. Sin embargo, el logaritmo natural no está definido para el valor de cero, ası́
que perderı́amos todas las observaciones con cero dı́as en el hospital. Nos causarı́a un sesgo de
muestra importante porque perderı́amos a la gente más sana de la población.
b. Tı́picamente una variable como dı́as en el hospital tiene una concentración de valores cerca de
cero. Si usamos un modelo diseñado por este tipo de variables, podemos obtener una estimación
más eficiente.
b)
El modelo Poisson resuelve precisamente los problemas anteriormente mencionados. Por un lado no
tiene ningún problema en incluir los valores cero y de otro lado se puede esperar que la estimación sea
más eficiente, ya que la distribución de Poisson tiene una concentración de valores chicos.
c)
El modelo Poisson (debido a la distribución de Poisson) tiene la restricción de E[dias|X] = V ar[dias|X].
Podrı́amos estimar un modelo binomial negativo.
Ejercicio 31 Patentes
a) La variable patents es una variable de recuento, ası́ que es preferible estimar la ecuación con un
modelo para datos de recuento en lugar de tomar un modelo lineal. En este caso la regresión Poisson
es un buen candidato.
b) El parámetro β1 es el coeficiente de log(sales) y no de sales, por lo tanto tenemos que interpretarlo

como una elasticidad. Entonces, β1 es la elasticidad de E[patents|sales, RD] con respecto a sales.
c) Usamos la regla de la cadena para obtener la derivada parcial de exp[β0 + β1 log(sales) + β2 RD +

β3 RD2 ] con respecto a RD:
∂E[patents|sales, RD]
= (β2 + 2β3 RD) × exp[β0 + β1 log(sales) + β2 RD + β3 RD2 ] (193)
∂RD
Ejercicio 32 Truncado, top-coded o censurado?

a. El número de horas de trabajo al dı́a es una variable censurada, tanto en el mı́nimo de cero
(nadie puede trabajar menos de cero horas) como en el máximo de 24 horas. Por supuesto, el
lı́mite inferior es mucho más relevante en este caso, porque nadie trabaja realmente 24 horas al
dı́a. Sin embargo, si uno toma encuestas, hay gente que indica un número muy alto de horas de
trabajo por dı́a/semana, ası́ que en un estudio empı́rico hay que analizar ambos lı́mites.
b. Es el tı́pico ejemplo de una variable truncada en el lı́mite superior (valor máximo que reporta
la encuesta). También es una variable censurada en el lı́mite inferior, porque nadie puede ganar
un salario negativo.
c. El gasto no puede ser negativo, ası́ que tenemos una variable censurada en cero.

d. Es el ejemplo de una variable truncada, porque sı́ existe gente que gana menos de 400.000 pesos,
pero no aparecen en la base de datos, si no hacen su declaración de impuestos.
e. Es una variable censurada en cero, porque no se paga un impuesto negativo (por lo menos si
nos enfocamos únicamente en el ISR y no consideramos subsidios como impuestos negativos).
f. La calificación del alumno es una variable censurada en ambos lı́mites, tı́picamente en cero y
diez.
Ejercicio 33 Función de ahorro de las familias

a) MCO no tiene sesgo, porque estamos eligiendo la muestra basándonos en una variable exógena.
La función de regresión para la población es la misma como para la sub-población de edad > 25. Eso
se debe al supuesto que nuestra relación entre ’sav’ y las variables explicativas es la correcta. Por lo
tanto, al quitar una parte del soporte de una variable X, no deberı́a cambiar la relación. A continuación
se presenta un ejemplo (datos aleatorios) de este fenómeno. Como podemos observar, la regresión sin
y con las observaciones abajo de 25 años es la misma.
12000
10000
savings
8000
6000
4000
20 40 60 80
edad
Observaciones edad<=25 Observaciones edad>25

MCO edad>25 MCO muestra total
El problema de la selección de muestra requiere que la selección se hace sobre el ahorro. Por ejemplo,
si pedimos a un banco datos sobre gente que tiene una cuenta de ahorro, vamos a tener una muestra
sesgada, ya que gente sin ahorros (o con poco), tal vez tiene menos probabilidad de tener una cuenta
de ahorros.

b) Si suponemos que el estatus civil y el número de hijos influye sav únicamente a través del tamaño
del hogar (hhsize), entonces estamos nuevamente en una situación de selección por variables exógenas.
Ası́ que en términos de sesgo no hay problema. Sin embargo, si tenemos únicamente una muestra de
parejas casadas sin niños, ya no tenemos variación en la variable hhsize. Para todas las observaciones
tenemos hhsize = 2. Como consecuencia, ya no podemos estimar identificar/estimar el parámetro β2 .
La constante que estimamos será β0 + 2β2 . Suponiendo que tenemos suficiente variación en las demás
variables y que la muestra es suficientemente representativa, podemos todavı́a estimar los parámetros
β1 , β3 y β4 .
c) En este caso la selección de la muestra se hace en función de la variable dependiente, lo cual causa
un problema. La estimación de los β será sesgada y no consistente. En lugar de un modelo lineal,
tenemos que usar un modelo de regresión truncada.
Como para el inciso a), presento a continuación un ejemplo con datos simulados. Aquı́ eliminé las
observaciones con un valor mayor a 10mil. Vemos que en este caso las regresiones sı́ cambian y por lo
tanto sı́ tenemos un sesgo.
12000
10000
savings
8000
6000
4000
20 40 60 80
edad
Observaciones edad<=25 Observaciones edad>25

MCO savings <=10K MCO muestra total
Ejercicio 34 Admisión al CIDE

Este ejercicio nos muestra que no podemos discutir la calidad de un estimador únicamente basándonos
en propiedades estadı́sticas. La respuesta a la pregunta depende en primer lugar del objetivo del

estudio.
Si el objetivo del estudio es analizar el comportamiento de los candidatos del CIDE, es perfectamente
correcto usar la muestra que se propone. Se puede estimar un modelo por MCO, logit o probit y uno
obtiene estimadores no sesgados para la población “CIDE”.
Lo que no podemos hacer con la muestra es hacer una inferencia sobre la población total (todos los
candidatos a licenciaturas en México por ejemplo).
Otro problema potencial ocurre si el objetivo es hacer pronósticos para el futuro. Para poder hacer eso,
se requiere hacer el supuesto que las caracterı́sticas de los candidatos que aplican al CIDE no cambia
de un año a otro, lo cual puede ser un supuesto razonable en el corto plazo. .
Ejercicio 35 Efectos marginales en el modelo tobit

a) Efecto marginal de la variable latente
Calcular el efecto marginal de la variable latente es muy sencillo, pero tı́picamente no de mucho
interés. Sabemos que el modelo de la variable latente es simplemente un regresión lineal del tipo
y ∗ = Xβ + u y por lo tanto el efecto marginal de xj es simplemente βj .
Efecto parcial de y para y > 0

Tenemos que encontrar una expresión para E[y|y > 0, X]. Para eso vamos a usar la siguiente pro-
piedad de la distribución normal estándar:
φ(c)
Si z ∼ N (0, 1) ⇒ E[z|z > c] = (194)
1 − Φ(c)
En nuestro caso tenemos que aplicar una pequeña transformación para obtener una distribución normal
estándar:
E[y|y > 0, X] = Xβ + E[u|u > −Xβ] (195)

u u −Xβ
= Xβ + σE | > (196)
σ σ σ

φ −Xβσ φ Xβ
σ
= Xβ + σ = Xβ + σ (197)
−Xβ Xβ
1−Φ σ Φ σ
| {z }
≡λ( Xβ
σ )

Xβ
= Xβ + σλ (198)
σ
Ahora podemos calcular el efecto marginal

∂E[y|y > 0, X] d Xβ
= βj + βj λ (199)
∂xj dxj σ
φ(c) dΦ(c)
usamos el hecho de que λ(c) = Φ(c) , dc = φ(c) y dφ(c)
dc = −cφ(c), se puede mostrar que dλ(c)
dc =
−λ(c) [c + λ(c)] Entonces podemos escribir:

∂E[y|y > 0, X] Xβ Xβ Xβ
= βj 1 − λ +λ (200)
∂xj σ σ σ
Podemos observar que el efecto marginal no depende únicamente de βj , pero de todo el vector β y
también de σ.

c) Efecto parcial de la probabilidad de y > 0

Comparado al efecto marginal que calculamos en el punto b), es muy sencillo calcular el efecto
marginal (o la probabilidad marginal) de P (y > 0). Tenemos la expresión

Xβ
P (y > 0|X) = Φ (201)
σ
y por lo tanto el efecto marginal es simplemente:

∂P (y > 0|X) βj Xβ
= φ (202)
∂xj σ σ
d) Efecto marginal de y
Ahora nos interesamos al efecto marginal de y sin condicionar a y > 0. Empezamos definiendo el
valor esperado E[y|X]:

Xβ
E[y|X] = P (y > 0|X) × E[y|y > 0, X] = Φ × E[y|y > 0, X] (203)
σ
Usamos la regla del producto y obtenemos:
∂E(y|X) ∂P (y > 0|X) ∂E[y|y > 0, X]
= × E[y|y > 0, X] + P (y > 0|X) × (204)
∂xj ∂xj ∂xj
Ahora usamos los resultados en las ecuaciones (200) y (202). Para simplificar la notación, definimos
c = Xβ
σ .
∂E(y|X) βj
= φ(c) × (Xβ + σλ(c)) + Φ(c) × βj {1 − λ(c) [c + λ(c)]} (205)
∂xj σ
= βj {cφ(c) + φ(c)λ(c) + Φ(c) − c Φ(c)λ(c) − Φ(c)λ(c) λ(c)} (206)
| {z } | {z }
φ(c) φ(c)

Xβ
= βj Φ (207)
σ
Ésta expresión se puede comparar a los efectos marginales de un modelo lineal.
Vemos que si P (y > 0) → 1 el efecto marginal va hacia βj .
Ejercicio 36 Efectos marginales en el modelo two-part

Empezamos describiendo E[y|x] del modelo two-part donde usamos un modelo probit en la primera
parte y una regresión lineal en la segunda parte:
E[y|x] = Φ(Xβ) × Zγ (208)

Ahora es relativamente fácil calcular los efectos marginales con respecto a la variable j:
∂E[y|X]
a. ∂xj = βj φ(X̄β) × γj WRONG; REQUIRES CHAIN RULE
∂E[y|y>0,X]
b. ∂xj = γj
∂P [y>0|X]
c. ∂xj = βj φ(X̄β)
Con este ejercicio vemos que una ventaja práctica del modelo en dos partes es que el cáculo de efectos
marginales es muy sencillo.

Ejercicio 37 Modelo de selección

a)
Primero usamos la ecuación de selección zi∗ = wi0 γ+vi que vimos en clase para definir E[yi |yi observado]:
E[yi |yi observado] = E[yi |z ∗ > 0] (209)

= E[yi |wi0 γ + vi > 0] (210)
= E[yi |vi > −wi0 γ] (211)
= x0i β + E[ui |vi > −wi0 γ] (212)
Hasta aquı́ no hemos usado el supuesto de normalidad bivariada. Para que una regresión lineal por
MCO de la ecuación de interés nos de resultados sin sesgo, necesitamos que E[ui |vi > −wi0 γ] = 0. Ahora
introducimos el supuesto de normalidad bivariada y usamos el teorema para analizar este elemento
con más detalle:
−wi0 γ

0
E[yi |yi observado] = xi β + ρuv σu λi (213)
σv
wi0γ
−wi0 γ
φ( σv )
donde λ σv = w0 γ
se conoce como inverse Mill’s ratio o el caso particular del modelo Heckit
Φ( σiv )
como Heckman’s lambda.
Vemos que el segundo elemento de la ecuación (213) tiene dos parámetros que podemos juntar defi-
niendo βλ = ρuv σu :
−wi0 γ

E[yi |yi observado] = x0i β + βλ λi (214)
σv
b)
Primero definimos y|z ∗ > 0:
y|z ∗ > 0 = E[yi |yi observado] + ui (215)

−wi0 γ

∗ 0
y|z > 0 = xi β + βλ λi + ui (216)
σv
Vemos que ahora podemos considerar el problema de selección como un problema de una variable
omitida. Si corremos una regresión MCO del tipo yi = x0i β + ui obtenemos un sesgo en la estimación
de β debido a la exclusión de la lambda de Heckman. Teóricamente hay dos condiciones en las cuales,
el estimador MCO puede dar resultados sin sesgo:
a. Si βλ = 0, lo cual es equivalente a decir que ρuv = 0, no tememos un sesgo, porque el término

desaparece en la ecuación (216). Cuando usamos el estimador de Heckman, se puede hacer una
simple prueba estadı́stica para ver si βλ 6= 0.
0
−w γ
b. La otra situación en la cual no tenemos un sesgo con MCO es cuando λi σvi no tiene
correlación con X. Si consideramos el ejemplo del mercado laboral donde queremos estimar
el salario de mujeres. La condición implicarı́a que la probabilidad de trabajar (margen extensivo)
es independiente de las caracterı́sticas que determinan el salario. También se puede decir que
los determinantes de la decisión de trabajar son independientes de los factores que explican el
salario! No es muy probable!

7 Métodos no paramétricos
Ejercicio 38 Histograma
La manera más fácil de crear un histograma es primero calcular una tabla de frecuencias. Definimos
primero las casillas:
Casilla Observaciones Frecuencia Densidad
1
2-4 2.4 1 8
2
4-6 4.2, 4.4 2 8
3
6-8 6.1, 7.3, 7.6 3 8
2
8-10 8.1, 9.7 2 8
Ahora simplemente dibujamos las densidades en función de las casillas para obtener el histograma:
.2
.15
Density
.1.05
0
2 4 6 8 10
x
Ejercicio 39 Densidad por núcleos

En este caso particular es relativamente fácil calcular la densidad por núcleos porque estamos usando
el núcleo uniforme (o rectangular). Si por ejemplo queremos calcular la densidad para x = 5 podemos
ver cuántas observaciones se encuentran en el intervalo [x − h, x + h]. Usando h = 2 simplemente
contamos el número de observaciones en el intervalo [3, 7]. En este caso hay tres observaciones y por
lo tanto podemos calcular:
1
f (x = 5) = (0.5 + 0.5 + 0.5) = .09375 (217)
2∗8
el mismo ejercicio se puede hacer para x = 5.5, donde tomamos todas las observaciones en el intervalo
[3.5, 7.5]:
1 1
f (x = 5) = (4 × 0.5) = (218)
2∗8 8

Si hacemos este ejercicio para muchos puntos en el intervalo x = [0, 12] obtenemos la función de
densidad por núcleos:
Kernel density estimate

.15
.1
Density
.05
0
0 5 10 15
x
kernel = rectangle, bandwidth = 2.0000
Las densidades exactas se muestran en la siguiente tabla:

x f(x) x f(x) x f(x)
0 0 4 0.09375 8 0.15625
0.5 0.03125 4.5 0.09375 8.5 0.125
1 0.03125 5 0.09375 9 0.125
1.5 0.03125 5.5 0.125 9.5 0.09375
2 0.03125 6 0.15625 10 0.0625
2.5 0.09375 6.5 0.125 10.5 0.03125
3 0.09375 7 0.125 11 0.03125
3.5 0.09375 7.5 0.125 11.5 0.03125
12 0
Ejercicio 40 Estimador Nadaraya-Watson

a)
Como en el caso del estimador de densidad por núcleos tenemos que decidir en que puntos calculamos
E[Y |X]. Una forma natural de hacerlo es usar los valores reales de X. Tomamos el ejemplo de x = 4
y calculamos K(u) = 21 1(|u| < 1) para cada valor de x tomando h = 2:
x 1 2 3 4 5 6 7 8
u -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0
K(u) 0 0 0.5 0.5 0.5 0 0 0

En el caso del ancho de banda de 2:

0.5 × (2 + 2.5 + 3)
E[Y |x = 4, h = 2] = = 2.5 (219)
0.5 × 3
Y el mismo cálculo para el ancho de banda de 3:
0.5 × (1.5 + 2 + 2.5 + 3 + 2.5)

E[Y |x = 4, h = 3] = = 2.3 (220)
0.5 × 5
Tenemos que hacer éste cálculo para cada valor de x para obtener el estimador Nadaraya-Watson que
se muestra en el siguiente gráfico:
Estimadores Nadaraya-Watson
3.00
2.67 2.67
2.50
2.50 2.50 2.50 2.50
2.30 2.33 2.33

y, E[y|x]
2.25
2.00
2.00
1.75
1.50
1.50 1.50
1.25
1.00
0 2 4 6 8
x
Observaciones Estimador NW (h=2)

Estimador NW (h=3)
b)
Vemos que el estimador con h = 2 nos da una curva que se acerca mucho más a los datos. Podemos
calcular el RMSE para ambos estimadores y vemos que RM SE(h = 2) = 0.191 < RM SE(h = 3) =
0.299. Sin embargo, cabe mencionar que este ejercicio usa datos que normalmente no permiten hacer
un análisis razonable con el estimador NW. Tı́picamente es útil usar este estimador cuando tenemos
un gran número de observaciones.
c)
Para que todavı́a haya más de una observación que se toma en cuenta, necesitamos h > 1, porque
para h ≤ 1 tenemos K(u) > 0 únicamente en x = x0 , ası́ que el estimador reproducirı́a simplemente el
vector x!

Microeconometr Ia II Soluciones de Los Ejercicios Te Oricos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Microeconometr Ia II Soluciones de Los Ejercicios Te Oricos

Cargado por

Copyright:

Formatos disponibles

Microeconometrı́a II

Soluciones de los ejercicios teóricos

CIDE - Otoño 2019

3 Variables instrumentales (IV) 10

Ejercicio 21 Inversión de capital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

6 Modelos de variables limitadas 25

Versión del 14 de agosto de 2019 Página 2

1 MCO: Mı́nimos cuadrados ordinarios (repaso)

Usamos primero (2)

Versión del 14 de agosto de 2019 Página 3

Si dividimos el numerador y el denominador por (n − 1) obtenemos:

S(β) = (y − Xβ)0 (y − Xβ) = y 0 y − 2y 0 Xβ + β 0 X 0 Xβ (15)

Calculamos la primera derivada con respecto a β y la igualamos a cero y resolvemos por β:

Ejercicio 2 MCO sin intercepto

La condición de primer orden está dada por:

Y tomando valor esperado:

Versión del 14 de agosto de 2019 Página 4

Obteniendo la varianza del estimador,

V ar(β̂) = E[(β̂ − E[β̂])2 ] = E[(β̂ − β)2 ] (25)

Como E(ui uj ) = 0 para todo i 6= j, se tiene:

Y la desviación estándar es igual a:

Un estimador de SE(β̂) está dado por:

Versión del 14 de agosto de 2019 Página 5

Ejercicio 3 Efectos no-lineales y el método delta

wage = exp {β0 + β1 educ + β2 married + zγ + u}

E(wage|married, educy, z) = exp {β0 + β1 educ + β2 married + zγ} · E(exp(u)|X)

married = 1 exp (β2 ) · exp {β0 + β1 educ + zγ} · δ0 (2)

γ0 δ0 exp (β2 ) − γ0 δ0 γ0 δ0 [exp (β2 ) − 1]

g(β2 ) = 100 × [exp (β2 ) − 1] = θ2

Ejercicio 4 Estimador por momentos vs. MCO

La varianza de β̄ está dada por:

Versión del 14 de agosto de 2019 Página 6

Retomando la varianza del estimador por MCO:

La varianza del estimador de MCO usando n observaciones está dado por:

V ar(β̄) ≥ V ar(β̂) (42)

Versión del 14 de agosto de 2019 Página 7

Sxx = x0 x − nx̄2 = 2100 − 50 × 62 = 300 (43)

Hacemos exactamente los mismos cálculos como en el punto a) y obtenemos:

Versión del 14 de agosto de 2019 Página 8

Estatus general de salud Esperanza de vida

Preferencias por la salud* Fumar

Versión del 14 de agosto de 2019 Página 9

Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar

b. No, porque desbloquearı́amos el efecto vı́a X

c. No, porque bloquearı́amos el efecto indirecto vı́a X.

f. No es necesario incluir X porque es una variable que no tiene relación con Y .

h. No hay que incluir X porque es una variable que depende de Y .

Ejercicio 9 Los diferentes efectos

3 Variables instrumentales (IV)

Versión del 14 de agosto de 2019 Página 10

Ejercicio 11 Prueba ad-hoc de la validez de los instrumentos

Ejercicio 12 Varianza del estimador IV e instrumentos débiles

h√  i −1  −1/2 0    −1

Sabemos que V ar(u) = σ 2 , lo que implica que

Utilizando el principio de analogı́a

Versión del 14 de agosto de 2019 Página 11

Ejercicio 13 First stage regression

Definamos a w = [β3 v2 + u] como el error compuesto del procedimiento alternativo y la ecuación 9.

Ejercicio 14 Efecto de computadores sobre la calificación

Versión del 14 de agosto de 2019 Página 12

E[GP A|voucher = 1] − E[GP A|voucher = 0]

Ejercicio 15 Error de medición

Versión del 14 de agosto de 2019 Página 13

h√ i −1 −1/2 0 −1