Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice
1 MCO: Mı́nimos cuadrados ordinarios (repaso) 3
Ejercicio 1 Derivar el estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Ejercicio 2 MCO sin intercepto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Ejercicio 3 Efectos no-lineales y el método delta . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 4 Estimador por momentos vs. MCO . . . . . . . . . . . . . . . . . . . . . . . . . 6
Ejercicio 5 Heterogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Ejercicio 6 GLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Gráficos causales 9
Ejercicio 7 Construir/dibujar gráficos causales . . . . . . . . . . . . . . . . . . . . . . . . . 9
Ejercicio 8 Interpretar gráficos causales para decidir que modelo estimar . . . . . . . . . . 10
Ejercicio 9 Los diferentes efectos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 SUR y SEM 17
Ejercicio 18 Notación de modelos con múltiples ecuaciones. . . . . . . . . . . . . . . . . . . 17
Ejercicio 19 Identificación de un modelo SEM . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5 Datos de panel 20
Ejercicio 20 Estimar DiD por MCO con interacciones . . . . . . . . . . . . . . . . . . . . . . 20
1
Microeconometrı́a II Soluciones de los ejercicios teóricos Otoño 2019
7 Métodos no paramétricos 37
Ejercicio 38 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 39 Densidad por núcleos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Ejercicio 40 Estimador Nadaraya-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Derivamos ésta expresión con respecto a β0 y β1 y obtenemos las condiciones de primer orden:
N
∂S(β0 , β0 ) X
= −2 (yi − β0 − β1 xi ) = 0 (2)
∂β0 i=1
N
∂S(β0 , β1 ) X
= −2 xi (yi − β0 − β1 xi ) = 0 (3)
∂β1 i=1
Ahora podemos manipular (3) y sustituir β̂0 por la expresión que encontramos:
N
X N
X N
X
xi yi − β̂0 xi −β̂1 (x2i ) = 0 (8)
i=1 i=1 i=1
| {z }
=N x̄
N
X N
X
xi yi − ȳN x̄ + β̂1 N x̄2 − β̂1 (x2i ) = 0 (9)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ − β̂1 (x2i − x̄2 ) = 0 (10)
i=1 i=1
N
X N
X
xi yi − ȳN x̄ = β̂1 (x2i − x̄2 ) (11)
i=1 i=1
N
X N
X
(xi − x̄)(yi − ȳ) = β̂1 (xi − x̄)2 (12)
i=1 i=1
PN
i=1 (xi − x̄)(yi − ȳ)
β̂1 = PN (13)
2
i=1 (xi − x̄)
b)
Usando la notación matricial, los cálculos son exactamente los mismos. Empezamos definiendo ε2 :
∂S(β)
= −2(X 0 y − X 0 X β̂) = 0 (16)
∂β
X 0 y = X 0 X β̂ (17)
(X 0 X)−1 X 0 y = β̂ (18)
Para hacer este cálculo tuvimos que invertir X 0 X, lo cual es únicamente posible si rank(X 0 X) = K o
en otras palabras si no hay colinealidad perfecta entre los vectores en X.
Ordenando:
Pn
xi yi
β̂ = Pi=1
n 2 (21)
i=1 xi
b)
Sustituyendo yi = βxi + ui en el estimador anterior:
Pn Pn Pn
xi yi xi (βxi + ui xi ui
β̂ = Pi=1
n 2 = i=1
P n 2 = β + Pi=1
n 2 (22)
x
i=1 i x
i=1 i i=1 xi
c)
Utilizando
Pn
xi ui
β̂ = β + Pi=1
n 2 (24)
i=1 xi
Y
" P 2 #
n
xi ui
E[(β̂ − β)2 ] = E i=1
Pn 2 (26)
i=1 xi
n X
n
1 X
Pn E xj uj (27)
( i=1 x2i )2 i=1 j=1
n
n X
1 X
Pn xi xj E(ui uj ) (28)
( i=1 x2i )2 i=1 j=1
X n
n X n
X n
X n
X
xi xj E(ui uj ) = xi xi E(ui ui ) = x2i E(u2i ) = σ 2 x2i (29)
i=1 j=1 i=1 i=1 i=1
Y
Pn
σ2 x2 σ2
V ar(β̂) = E[(β̂ − β)2 ] = Pn i=12 i2 = Pn 2 (30)
( i=1 xi ) i=1 xi
d)
σ puede estimarse de los residuales:
v
u n
u 1 X 2
σ̂ = t u (32)
n − 1 i=1 i
\ σ̂ β̂ σ̂ σ̂
SE(β̂) = pPn =√ q P = =√ (33)
√ ˆ i)
q
2
i=1 xi
1 n ˆ i) nSE(x
n n i=1 x2i n V ar(x
b)
Usando el método delta
∂g
se(θ̂2 ) = · se(β̂2 ) = [100 × exp (β2 )] · se(β̂2 )
∂β2
1
Pn 1
Pn 1
Pn
yi i=1 E[yi ] xi
E[β̄] = E n
1
Pni=1 = n
1
P n = β n
1
Pi=1
n =β (34)
n i=1 xi n x
i=1 i n i=1 xi
1
Pn 1
Pn 1
Pn
yi n2 i=1 V ar(yi ) n2 i=1 V ar(βxi + ui )
V ar(β̄) = V ar n
1
Pni=1 = Pn 2 = Pn 2 (35)
1
i=1 xi
1
n n i=1 xi n2 ( i=1 xi )
Pn Pn 2
i=1 V ar(ui ) i=1 σ nσ 2 σ2
V ar(β̄) = P n = n 2 = n 2 = n 2 (36)
( i=1 xi )2 1
P P P
( i=1 xi ) ( i=1 xi ) n ( i=1 xi )
σ2
V ar(β̂) = Pn (37)
i=1 x2i
Pn 2 Pn Pn 1
Pn 2
Como ( i=1 xi ) ≤ n i=1 x2i , se sigue que i=1 x2i ≥ n ( i=1 xi ) , y el estimador por MCO tiene
menor varianza.
b)
Denotando el estimador MCO usando m observaciones para β̄. Por la fórmula usual:
Pm
xi yi
β̄ = Pi=1
m 2 (38)
i=1 xi
El cual es lineal en yi , y:
Pm Pm
i=1 xi E[yi ] i=1 xi βxi
E[β̄] = Pm 2 = P m 2 =β (39)
i=1 xi i=1 xi
σ2
V ar(β̂) = Pn (40)
i=1 x2i
Se sigue que:
σ2
V ar(β̄) = Pm (41)
i=1 x2i
Pm Pn
x2i es débilmente creciente con m, se sigue que mx2i ≤ x2i y
P
Como i=1 i=1 i=1
Ejercicio 5 Heterogeneidad
a)
2
Por definición V ar(u|X) = E(u2 |X) − [E(u|X)] = σ 2 , dado que X = (1, x1 , ..., xk ) considera un
intercepto, entonces E(u) = 0 y sumado a que por hipótesis se tiene que E(u) 6= E(u|X) 6= 0 entonces,
E(u2 |X) 6= V ar(u|X).
b)
Para la estimación basta con tener que E(X 0 u) = 0 para asegurar consistencia en los estimadores.
Sin embargo, si E(u2 |X) 6= V ar(u|X), no es posible sostener el supuesto de homogeneidad en varianza
E(u2 X 0 X) = σ 2 E(X 0 X) donde E(u2 |X) = σ 2 teniendo en consecuencia que los estimadores β̂LS no
sean eficientes.
Ejercicio 6 GLS
a)
Primero calculamos los momentos de X y y. Recuerda que la matriz X tiene un primer vector de
unos (la constante, la llamamos x0 ) y un vector con la variable x1 . Por lo tanto los elementos en la
diagonal de la matriz X 0 X representan x2j . Los elementos fuera de la diagonal son x0 x1 y dado que
P P
P
x0 tiene únicamente el valor 1, el elemento es simplemente x1 = N x¯1 . Ahora usamos la propiedad
Sxx = x0 x − N x̄2 y obtenemos todos los valores necesarias. Vemos el ejemplo para Sxx en la primera
x0 x1 N1 = 300
P
muestra. Obtenemos la media de x usando 50 = 6. Ahora obtenemos directamente Sxx :
Hacemos el mismo cálculo para los demás elementos y para las dos muestras para obtener la siguiente
tabla de los momentos:
β̂0 β̂1 Sxx Syy Sxy
Muestra 1 6 6 300 300 200
Muestra 2 6 6 300 1000 400
Obtenemos ahora los parámetros de las dos regresiones. El cálculo para la primera muestra es:
−1
0 −1 0 50 300 300 2
β̂ = (X X) Xy= = 2 (44)
300 2100 2000 3
Ahora podemos calcular la suma de los errores cuadrados para obtener la R2 y las s2 (vemos el cálculo
para la muestra 1):
e0 e y 0 y − β̂ 0 X 0 y 166.66 4
R2 = 1 − =1− =1− = (45)
Syy Syy 300 9
e0 e 166.66
s2 = = = 3.472 (46)
N −K 50 − 2
Los resultados numéricos para las dos muestras son:
ȳ x̄ R2 s2
2 4
Muestra 1 2 3 9 3.472
4 16
Muestra 2 -2 3 30 9.722
b)
Primero definimos las matices X 0 X, X 0 y y y 0 y para el conjunto de las dos muestras:
0 100 600 0 600
y 0 y = 4900
XX= Xy= (47)
600 4200 4200
c)
Primero definimos la matriz X como una matriz en bloques: X = X1 X2 y Ω̂ = s21 s22 ⊗ I50
Vimos que s2m1 < s2m2 , ası́ que queremos estimar el modelo por FGLS para tomar en cuenta la
heterocedasticidad. Ahora podemos desarrollar:
β̂F GLS = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y (48)
0 h 1 i −1 0 h i y
1 1 1 1
= X1 X2 s21
⊗ I50 s22
⊗ I50 X1 X2 X1 X2 s21
⊗ I50 s22
⊗ I50 (49)
y2
−1
1 0 1 1 0 1
= X X1 + 2 X20 X2 X y1 + 2 X20 y2 (50)
s21 1 s2 s21 1 s2
d)
Dado que en este ejercicio X10 X1 = X20 X2 , podemos simplificar la expresión para βF GLS :
−1
1 1 0 1 0 1 0
β̂F GLS = + 2 X2 X2 X y1 + 2 X2 y2 (51)
s21 s2 s21 1 s2
−1
1 1 50 300 1 300 1 300 0.9469
= + + = (52)
3.472 9.722 300 2100 3.472 2000 9.722 2200 0.8422
2 Gráficos causales
Ejercicio 7 Construir/dibujar gráficos causales
Este ejercicio no tiene una solución única. A continuación se presenta una propuesta de solución.
a)
Educación Habilitad
de los padres cognitiva
Ingreso
Ingreso de
Educación
los padres
b)
d. En este caso no podemos hacer nada. Incluyendo o excluyendo X no permite identificar el efecto.
Tenemos una relación cı́clica.
e. No es necesario incluir X. Aquı́ X es algo que influye D, pero si queremos tener el efecto de D
sobre Y , no importa a qué se debe el cambio en D.
g. No es necesario incluir X para identificar el efecto causal de D sobre Y . Sin embargo, al incluir
podemos potencialmente obtener un estimador más preciso ya que quitamos la heterogeneidad
en Y que se debe a X. La decisión en este caso depende mucho del contexto.
b. E[C|A, B]: Tenemos que incluir B para excluir el efecto indirecto de A vı́a B hacia C. Podrı́amos
incluir D como variable de control, pero no es relevante para la identificación.
c. E[C|A]: Ahora no debemos incluir B porque queremos estimar el efecto total que consiste en
el efecto directo, pero también el efecto que va vı́a B. Nuevamente podrı́amos incluir D como
variable de control, pero no afecta la identificación.
d. E[B|E]: No incluimos A porque nos interesamos al efecto de E sobre B, ası́ que al incluir A
interrumpimos la cadena de causalidad. No incluimos C en este caso porque desbloquearı́a el
efecto vı́a C que no forma parte del efecto total de E sobre B. D es irrelevante para el efecto que
queremos estimar, ası́ que no lo incluimos.
podemos eliminar z̄ porque se trata de una variable binaria y la suma no se ve afectada con este
cambio. Ahora definimos como n1 el número de observaciones para las cuales z = 1. Obtenemos
n1 ȳ1 − n1 ȳ
(54)
n1 x̄1 − n1 x̄
n0 n1
Ahora remplazamos ȳ = n ȳ0 + n ȳ1 lo cual nos da:
n0 n1
n1 (ȳ1 − n ȳ0 − n ȳ1 ) n1 ( nn0 ȳ1 − n0
n ȳ0 )
n1 n0
n (ȳ1 − ȳ0 ) ȳ1 − ȳ0
β̂1 = n0 n1 = = = (55)
n1 (x̄1 − n x̄0 − n x̄1 ) n1 ( nn0 x̄1 − n0
n x̄0 )
n1 n0
n (x̄1 − x̄0 ) x̄1 − x̄0
x2 = αx1 + θz + rk
Cumpliendo que θ 6= 0 y cov(z, rk ) = cov(z, u) = 0.Ahora bien, si cov(z, q) 6= 0 deja de ser un
instrumento válido ya que rk contendrı́a la relación que existe entre z y q, provocando que cov(z, rk ) 6=
0. Por otra parte, aún cuando z y x1 son variables exógenas, la cov(x2 , v) 6= 0 en la regresión propuesta
en (7), lo cual indica que dicha regresión también sufre de un problema de endogeneidad, provocando
que los parámetros β0 , β1 , β2 y φ estén sesgados y no sean consistentes, por lo que no es posible realizar
una prueba de hipótesis sobre φ en donde el estadı́stico t asociado sea fiable.
−1 √ √
−1 −1
β̂ − β = (z 0 x) z0u ⇒ N β̂ − β = N (z 0 x) z 0 u = N −1/2 N (z 0 x) z 0 u
√ −1 −1/2 0
N β̂ − β = N −1 z 0 x N z u
b)
Por el teorema 5.3 (Wooldrige, 2002) sabemos que los estimados de 2SLS (IV) son eficientes dentro
de la clase de estimadores que usan instrumentos lineales. Por lo tanto, si comparamos la varianza
asintótiva obtenida en (a) con la varianza asintótica usual del teorema de Gauss-Markov no existe
diferencia alguna, dado que ambos estimadores alcanza cota Cramer-Rao.
c)
La varianza asintótica del estimador de IV diverge, dado que es necesario que z esté parcialmente
correlacionado con x, para que sea un instrumento válido.
x∗3 = γ0 + γ1 z + v2 = x̃3 + v2
Donde x̃3 es la proyección lineal de x3 sobre z (sin utilizar las otras variables exógenas x1 y x2 ).
Sustituyendo la ecuación 11 en la ecuación 9, tenemos:
.
y = β0 + β1 x1 + β2 x2 + β3 [x̃3 + v2 ] + u
= β0 + β1 x1 + β2 x2 + β3 x̃3 + [β3 v2 + u]
E(β̂2SLS ) 6= β
Debido a que E(w|X̂) 6= 0 donde X̂ = (x1 x2 x̃3 ).
b. El ingreso de los padres tiene una correlación positiva con PC porque familias más ricas pueden
comprar más fácilmente una computadora. Por lo tanto la condición de correlación entre el
instrumento potencial y la variable endógena queda satisfecha. Sin embargo, eso no significa que
podrı́a ser un instrumento. El problema en este case es que el ingreso de la familia también
tiene un efecto sobre GPA (que no va únicamente a través de P C), por lo tanto la condición de
exogeneidad del instrumento no está satisfecha y no podemos usar el ingreso de la familia como
instrumento. Si el ingreso de la familia fuera la única variable omitida, la podrı́amos incluir como
variable de control y obtener el efecto causal de P C sobre el GPA.
c. En un caso interesante porque se trata de un experimento natural que podemos a priori explotar
para identificar el efecto causal. La idea es que los alumnos que recibieron un voucher tienen
mayor probabilidad de tener una computadora hoy. Es una condición que podemos verificar
fácilmente analizando los datos. La condición de exogeneidad del instrumento deberı́a estar sa-
tisfecha, por lo menos si la distribución de vouchers realmente fue aleatorio. Si por alguna razón
alumnos de familias con poco ingreso tenı́an mayor probabilidad de recibir un voucher, entonces
el instrumento tendrı́a correlación con u y por lo tanto no podrı́amos identificar el efecto.
Suponiendo que la distribución fue realmente aleatoria, tendrı́amos que definir una variable
voucher que toma el valor de 1 si el alumno recibió el voucher y cero en el caso opuesto. Usarı́amos
dicha variable binaria para instrumentar la variable (binaria) PC. OJO: dado que la variable
endógena es una variable binaria, no podemos usar el 2SLS!! Una buena alternativa es usar el
estimador de Wald:
podemos ver de inmediato que E[wε] 6= 0 porque Corr(w, v) > 0. Aunque ya podemos concluir que β̂
será sesgado, vamos a desarrollar la expresión para ver si logramos identificar la dirección del sesgo.
PN
(wi − w̄)(yi − ȳ)
β̂1 = i=1 PN (59)
2
i=1 (wi − w̄)
remplazamos yi por la expresión en ecuación (58):
PN
(wi − w̄)(εi − ε̄)
β̂1 = β1 + i=1 PN (60)
2
i=1 (wi − w̄)
Dividimos el numerador y el denominador por N y tomamos el lı́mite de probabilidad (plim). Usando
E[ε] = 0 podemos simplificar:
1
PN
(wi − w̄)(εi − ε̄) E[wi εi ]
plim β̂1 = β1 + N 1 i=1
PN = β1 + (61)
i=1 (wi − w̄)2 V ar(wi )
N | {z }
sesgo
σ2
plim β̂1 = β1 1− 2 v 2 (63)
σx + σv
Podemos sacar dos conclusiones de ésta expresión:
El sesgo siempre va hacia cero, quiere decir que |β̂1 | < |β1 |
b)
Para ésta pregunta usamos la notación de momentos para describir el estimador IV en el modelo
con una variable explicativa. En el caso de general, el estimador βIV se puede escribir como:
cov(y, z)
βIV = (64)
cov(x, z)
En nuestro caso no observamos x, pero únicamente w = x + v, ası́ que el estimador se vuelve:
cov(y, z) cov(βx + u, z)
βIV = = (65)
cov(w, z) cov(x + v, z)
bajo el supuesto E[uz] = E[vz] = 0 obtenemos:
βσxz
plim β̂IV = =β (66)
σxz
Entonces, si el instrumento no tiene correlación con el error de medición, podemos obtener un estimador
no sesgado!
c)
Como en el punto anterior, usamos nuevamente la notación con las covarianza. Ahora no observamos
z directamente, si no z̃ = z + ξ:
cov(y, z̃) cov(βx + u, z + ξ)
βIV = = (67)
cov(w, z̃) cov(x + v, z + ξ)
βcov(x, z) + βcov(x, ξ) + cov(u, z) + cov(u, ξ)
= (68)
cov(x, y) + cov(x, ξ) + cov(v, z) + cov(v, ξ)
Además de la condición de E[uz] = E[vz] = 0 necesitamos ahora E[ξu] = E[ξv] = E[ξx] = 0. Si dichas
condiciones están satisfechas, todas las covarianzas con excepción de cov(x, z) son iguales a cero y por
lo tanto la ecuación 68 se convierte en:
βcov(x, z)
βIV = =β (69)
cov(x, z)
Lo que nos muestra eso es que también con un instrumento que tiene un error de medición podemos
obtener un estimador insesgado. Lo único que necesitamos es que este error de medición no tenga
ninguna relación con algún otro elemento, lo cual parece razonable si pensamos en un verdadero error
de medición. A lo mejor podrı́a no cumplirse si pensamos que el error de medición se genera por
sobre- o sub-estimación de las respuestas de las personas y las personas que sobre-estiman x también
sobre-estiman z. En este caso cov(v, ξ) 6= 0 y seguimos con un sesgo.
d)
Este ejercicio describe un problema recurrente en la investigación empı́rica: tenemos más de un
problema econométrico y tenemos un trade-off entre dos soluciones. Aquı́ tenemos en primer lugar un
problema de una variable omitida, porque no podemos observar qi . Al no incluir la variable, vamos a
tener un sesgo en la estimación de nuestro parámetro de interés β1 . Ya vimos que usar un instrumento
puede ser una buena solución, pero no siempre es posible. Al seguir la recomendación del econometrista
e incluir la variable proxy t = q + v corremos el riesgo de un sesgo que se debe al error de medición
v. Vimos que eso puede sesgar la estimación de β2 . El punto crucial aquı́ es que nos interesamos sobre
todo a la estimación no sesgada de β1 . Si ponemos la expresión t = θ0 + θ1 q + v en la regresión,
obtenemos:
β1 1 1
Yt = + It + et (71)
1 − β2 1 − β2 1 − β2
β1 β2 1
Ct = + It + et (72)
1 − β2 1 − β2 1 − β2
b)
De las ecuaciones anteriores se sigue que
1 1 σ2
Cov(Yt , et ) = Cov(It , et ) + V ar(et ) = (73)
1 − β2 1 − β2 1 − β2
Asimismo,
Cov(Yt , et )
plimβ̂2 = β2 + (74)
V ar(Yt )
Donde:
1 1 1
V ar(Yt ) = V ar It + et = (V ar(It ) + σ 2 ) (75)
1 − β2 1 − β2 (1 − β2 )2
Con lo cual se obtiene:
σ2
plimβ̂2 = β2 + (1 − β2 ) (76)
V ar(It ) + σ 2 )
Como 0 < β2 < 1 y σ 2 > 0, el estimador de MCO sobre estimará la verdadera propensión marginal a
consumir, β2 .
c)
Una variable exógena que tiene un efecto en la variable endógena puede ser usada como instrumento,
mostrando que se excluye de la ecuación que está siendo estimada. En este modelo simple, se puede
inferir que la inversión It puede ser un instrumento válido para el ingreso Yt .
b)
Recordando los supuestos:
E(x∗t−1 ut ) = E(et−1 ut ) = E(x∗t−1 et ) = E(et−1 et ) = 0 (80)
c)
La mayorı́a de las series de tiempo están correlacionadas positivamente en el tiempo, algunas excep-
ciones ocurren cuando la serie representa la primera diferencia o series en cambios porcentuales.
d)
Con los supuestos, xt−1 es exógena en
yt = β0 + β1 xt + vt (83)
Asimismo, xt−1 estará frecuentemente correlacionada con xt . Esto sugiere que se puede estimar la
ecuación por variables instrumentales, donde xt−1 es la variable instrumental de xt .
4 SUR y SEM
Ejercicio 18 Notación de modelos con múltiples ecuaciones.
Empezamos analizando la notación inicial
Vemos que la matriz X es la misma en ambas ecuaciones, mientras que las demás matrices son distintas.
Ahora podemos empilar todas las matrices y obtenemos:
y1 X1 0 β1 u
= + 1 (88)
y2 0 X2 β2 u2
|{z} | {z } | {z } | {z }
≡y ≡X ≡β ≡u
y = Xβ + u (89)
lo cual nos da la notación más sencilla. La matrices en la ecuación (89) tienen las siguientes dimensiones:
1 0 0 y1 β11 β12 β13 x1 u1
α21 1 1 − α21 y2 + β21 β22 0 x2 = u2 (91)
α31 α32 1 y3 β31 β32 β33 x3 u3
| {z } | {z } | {z } | {z } | {z }
A Y B X U
b)
1 0 0 c11 c12 c13 β11 β12 β13 0 0 0
α21 1 1 − α21 c21 c22 c23 + β21 β22 0 = 0 0 0 (92)
α31 α32 1 c31 c32 c33 β31 β32 β33 0 0 0
c)
g=1
1 0 0
0 1 0
0
0 1
p01 Φ1 = λ1 ⇔
α11 α12 α13 β11 β12 β13 = 1 0 0 (93)
0 0 0
0 0 0
0 0 0
g=2
0 1 0
1 0 0
0
1 0
p02 Φ2 = λ2 ⇔
α21 α22 α23 β21 β22 β23 = 1 1 0 (94)
0 0 0
0 0 0
0 0 1
g=3
0
0
1
p03 Φ3 = λ3 ⇔
α31 α32 α33 β31 β32 β33 = 1 (95)
0
0
0
d)
Si usamos la condición del orden, obtenemos los siguientes resultados:
En el caso de la ecuación 3 podemos decir con certeza que no está identificada. Para las primeras dos
ecuaciones todavı́a no podemos decir nada, porque la condición del orden es únicamente necesaria,
pero no suficiente!
e)
Ahora aplicamos el método de las ’estructuras equivalentes’. Definimos la matriz M como:
m11 m12 m13
m21 m22 m23 (96)
m31 m32 m33
m11 + m12 α21 + m13 α31 m12 + m13 α32 m12 (1 − α21 ) + m13
1 0 0
m21 + m22 α21 + m23 α31 m22 + m23 α32 m22 (1 − α21 ) + m23 = α21 1 1 − α21
m31 + m32 α21 + m33 α31 m32 + m33 α32 m32 (1 − α21 ) + m33 α31 α32 1
(97)
β31 m13 + β21 m12 + β11 m11 β32 m13 + β22 m12 + β12 m11 β33 m13 + β13 m11 β11 β12 β13
β31 m23 + β21 m22 + β11 m21 β32 m23 + β22 m22 + β12 m21 β33 m23 + β13 m21 = β21
β22 0
β31 m33 + β21 m32 + β11 m31 β32 m33 + β22 m32 + β12 m31 β33 m33 + β13 m31 β31 β32 β33
(98)
Podemos sacar todos los elementos A(i, j) 6= αij y obtenemos un sistema de ecuaciones:
m11 + m12 α21 + m13 α31 = 1 (a)
m 12 + m13 α32 = 0 (b)
m12 (1 − α21 ) + m13 = 0 (c)
m22 + m23 α32 = 1 (d) (99)
m22 (1 − α21 ) + m23 = 1 − α21 (e)
m32 (1 − α21 ) + m33 = 1 (f )
β33 m23 + β13 m21 = 0 (g)
Si combinamos la (b) y (c), podemos concluir que m12 = 0 y que m13 = 0. Usando este resultado en
(a), vemos que m11 = 1. Entonces pudimos identificar todos los elementos de la primera ecuación de
nuestro sistema.
Para la segunda ecuación de nuestro sistema tenemos también 3 ecuaciones. Las ecuaciones (d) y (e)
vienen de las restricciones sobre A y la ecuación (g) viene de la restricción en B. Podemos combinar
(d) y (e) para obtener primero m23 = 0. Usando este resultado en (e) obtenemos m22 = 1 y luego
poniendo eso en (f) nos permite ver que m21 = 0. Podemos concluir que la ecuación 2 está identificada.
Lo ’bonito’ de este enfoque es que podemos ver de inmediato de donde viene la identificación. Mientras
que para la primera ecuación no se requiere ninguna restricción sobre B, la identificación de la segunda
ecuación se puede comprobar únicamente cuando usamos la restricción en B también (no podrı́amos
identificar los elementos sin la ecuación (g)).
Para la tercera ecuación tenemos únicamente (f) con 3 variables desconocidas. Es imposible resolver
identificar los elementos y por lo tanto la ecuación 3 no está identificada. Este resultado ya obtuvimos
con la condición del orden.
Entonces, la conclusión es que únicamente la primera y la segunda ecuación están identificadas y que
el sistema en general no está identificado.
5 Datos de panel
Ejercicio 20 Estimar DiD por MCO con interacciones
a)
Para evitar todo tipo de confusión, empezamos definiendo cada variable en el modelo1 .
(
1 Grupo de tratamiento (siempre 1, también antes del tratamiento
D= (100)
0 Grupo de contról
(
0 Periodo antes del tratamiento
T = (101)
1 Periodo después del tratamiento
Pre-tratamiento Post-tratamiento
Grupo de contról D = 0, T=0 D=0,T=1
Grupo de tratamiento D = 1, T=0 D=1,T=1
Y = α0 + α1 D + α2 T + α3 DT + Xβ + u (102)
1 Algunos autores usan una notación ligeramente diferente, lo cual puede resultar en una confusión importante
αDiD = ∆T − ∆C = α2 + α3 − α2 = α3 (111)
entonces, el efecto causal del tratamiento se estima simplemente por α3 , el parámetro del término de
interacción.
b)
α2 es la tendencı́a temporal que hubiera occurido sin tratamiento. α0 captura el nivel de Y para el
grupo de control durante el periodo antes del tratamiento y α1 nos indica la diferencia que habı́a entre
los dos grupos antes del tratamiento.
Nota que en el caso de experimentos, se supone normalmente que α1 = 0. Usando el modelo DiD no
tenemos que hacer dicho supuesto porque estimamos el parámetro α1 .
b)
El término Ci busca reconocer efectos no-observados pero constantes en el tiempo que afecten las
decisiones de inversión, podrı́an deberse a caracterı́sticas particulares de los paı́ses. Por ejemplo: condi-
ciones polı́ticas, criminalidad o corrupción podrı́an ser factores que afecten la confianza empresarial, o
leyes fiscales acomodaticias para ciertos sectores de la población que afecten directamente a la decisión
de inversión y/o a las variables exógenas, como la tasa impositiva. En el último ejemplo, si los datos
fuesen de corte transveral ¿cómo se tendrı́a que proseguir con la variable de impuestos?
c)
La teorı́a macroeconómica clásica señala que un impuesto al capital (inversión), consumo, ingre-
so, etc. distorsionan las decisión intertemporal de los agentes, que en última instancia provoca una
reasignación en su selección de consumo, inversión y oferta de trabajo. Por lo tanto, δ1 < 0, si todo
permanece constante, una mayor tasa impositiva provocará una disminución en la inversión.
d)
Al inicio correrı́a pooled OLS con matriz de varianza-covarianza robusta (heterocedasticidad y auto-
correlación), harı́a un análisis preliminar de los residuos del modelos (para detectar posibles violaciones
a los supuestos del modelo clásico) y revisarı́a si los signos de los parámetros coinciden con la intuición
económica del modelo. Después correrı́a el modelos de efectos fijos bajo los supuestos de estricta exoge-
neidad de las variables independientes; si los residuales del modelo están serialmente correlacionados
proseguirı́a a aplicar el método de primeras diferencias y volverı́a a estima el modelo y adicionalmente
harı́a una prueba de autocorrelación a los residuales diferenciados, de no ser ası́, recuperarı́a de la
matriz de varianza-covarianza robusta a heterocedasticidad para proseguir con la labor de inferencia.
e)
Dado que los desastres obedecen a situaciones naturales, ajenas a las decisiones de los agentes, la
condición de exogeneidad se cumple con certeza. Sin embargo, un cambio permanente en la polı́tica
fiscal modifica el estado estable de las decisiones de consumo e inversión de los agentes, haciendo
que la condición de exogeneidad no se cumpliera necesariamente. Otra posibilidad es que los agentes
resuelvan su problema de optimización, considerando a su expectativa de polı́tica fiscal como una
restricción adicional a su problema de optimización, lo cual harı́a que nuevamente, la condición de
exogeneidad fallara en nuestro modelo de efectos fijos.
Podemos eliminar todos los elementos con ui0 y ui1 porque suponemos que E[xit uis ] = 0 ∀t, s = 0, 1.
Nos quedamos con:
" PN #
β N1 i=1 (xi1 − xi0 )
2
E[β̂] = E 1
PN
=β (120)
2
N i=1 (xi1 − xi0 )
c) FE vs FD cuando T=3
Como para el caso de T = 2, usamos una notación simplificada. Ahora tenemos t = {1, 2, 3} y
hacemos el cálculo para t = 2. Hacemos los mismos pasos que hicimos antes:
d)
Ver punto b), para ambos modelos hay que seguir exactamente los mismos pasos.
b)
σu2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + ) − 2λ(σa2 + u ) (130)
T T
√ 2 2
η σu σu
Ahora definimos λ = 1 − √
γ donde η ≡ T y γ ≡ σa2 + T lo cual nos simplifica la notación:
σ2 σ2
V ar[vit − λv̄i ] = (σa2 + σu2 ) + λ2 (σa2 + u ) − 2λ(σa2 + u ) (131)
T T
√ √ 2
η η
= (σa2 + σu2 ) − 2 1 − √ γ+γ 1− √ (132)
γ γ
√
√ √ η η
= (σa2 + σu2 ) − 2γ + 2 η γ + (1 − 2 √ + )γ (133)
γ γ
√ √ √ √
= (σa2 + σu2 ) − 2γ + 2 η γ + γ − 2 η γ + η (134)
= (σa2 + σu2 ) +η−γ (135)
σu2 σu2
= (σa2 + σu2 ) + − σa2 − = σu2 (136)
T T
c)
La propiedad muestra que los errores son homoscedasticos, lo cual es una condición para que el
estimador por pooled OLS proporcione errores estándares correctos.
d)
Tenemos que mostrar que E[eit eis ] = 0 ∀ s 6= t. La prueba es bastante similar al ejercicio anterior:
e)
La propiedad muestra que no tenemos correlación serial (serial correlation), lo cual es importante
para que podamos estimar el modelo transformado por pooled OLS y obtener los errores estándares
correctos.
f)
Recordemos que los supuestos básico para implementar el modelo de efectos aleatorios son:
E(uit |xi , ci ) = 0 para todo t e independencia entre el efecto aleatorio y las variables independientes.
También se requiere que E(ui u0i |xi , ci ) = σu2 y E(c2i |xi ) = σc2 para asegurar que E(vi vi0 |xi ) = E(vi vi0 ),
lo que implica que las varianzas condicionales sean constantes y las covarianzas cero. Con base a lo
anterior, podemos decir que Ω = σu2 IT + σc2 JT JT0 (donde JT es un vector de unos con T renglones) y
con ello, utilizar sus estimadores muestrales para construir la matriz Ω̂, poderar y utilizar el estimador
de beta para efectos aleatorios.
Sin embargo, ¿Qué pasa si Ω̂ 6= E(vi vi0 )? puede emplearse un método alternativo de FGLS tomando
como herramienta los residuos de regresión lineal de pooled effects de tal forma que
N
X
Ω̂ = N −1 (ei,pooled )(e0i,pooled ) (144)
i=1
matriz que ponderará todas las observaciones de las variables independiente y la variable dependiente,
utiliando los residuales al cuadrado de la regresión por pooled effects. En términos asintóticos, este
último procedimiento es igual o mejor en términos de eficiencia (Entonces, ¿Por qué no proseguir
siempre por RE FGLS?).
resolvemos por σ 2 :
N
2 1 X 2
σ̂M V = u (150)
N i=1 i
b)
Como ya vimos en la parte a), el estimador de β0 y de β1 por máxima verosimilitud es equivalente
al estimador por MCO. Al contrario, el estimador de σ 2 nos da otra expresión si lo estimamos por
máxima verosimilitud:
c)
La solución más sencilla es calcular el estimador no sesgado de σ 2 y después compararlo con el
estimador por MV.
Los residuos de la estimación por mı́nimos cuadrados se pueden escribir como:
u = M y = M [Xβ + ε] = M ε (153)
u0 u = ε0 M ε (154)
dado que ε0 M ε es una matriz 1 × 1, el único elemento es igual a la traza (trace). Podemos usar la
propiedades de la traza para obtener:
Ahora tenemos que calcular tr(M ). Sabemos que M = IN − X(X 0 X)−1 X 0 , entonces:
Por lo tanto:
A notar que en este ejercicio estamos viendo el estimador de la distribución de Poisson, no estamos
viendo el estimador de la regresión de Poisson. Vamos a ver dicha regresión más adelante. La idea del
estimador es muy similar a lo que hicimos aquı́, se recomienda hacerlo como ejercicio adicional a la
hora de ver el modelo de la regresión de Poisson.
x0i α
0
∗ 0 0 ui xi α
P (yi = 1) = P (yi ≥ 0) = P (xi α + ui ≥ 0) = P (ui ≥ −xi α) = P ≥− =Φ (166)
σ σ σ
α
Vemos que no podemos identificar α y σ de manera separada. Por lo tanto definimos β = σ y obtene-
mos:
N
X
ln L(y, β) = {yi ln [Φ (x0i β)] + (1 − yi ) ln [1 − Φ (x0i β)]} (171)
i=1
lo cual podemos derivar con respecto a β para obtener la condición de primer orden:
d ln L
(y, β) = 0 (172)
dβ
N
Φ0 (x0i β) Φ0 (x0i β)
X
⇔ yi xi − (1 − yi ) xi = 0 (173)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N
φ(x0i β) φ(x0i β)
X
⇔ yi x i − (1 − yi ) x i =0 (174)
i=1
Φ(x0i β) 1 − Φ(x0i β)
N
[yi − Φ(x0i β)] φ(x0i β)xi
X
⇔ ≈0 (175)
i=1
Φ(x0i β) [1 − Φ(x0i β)]
dicha expresión no tiene una solución analı́tica, por lo tanto indicamos el sı́mbolo de una aproximación
(≈). Se requiere una optimización numérica para obtener una estimación de β.
b)
c)
∂P (X) ∂P (X)
Edad Tenure z P (X) = Φ(z) ∂edad = 0.02φ(z) ∂tenure = −0.01φ(z)
Persona 1 55 10 -0.5 0.309 0.70 % -0.35 %
Persona 2 26 5 -1.03 0.152 0.47 % -0.23 %
Persona 3 45 12 -0.72 0.236 0.62 % -0.31 %
AME 0.596 % -0.30 %
Promedio 42 9 -0.75 0.227 0.60 % -0.30 %
En las primeras tres lı́neas de la tabla calculamos primero el argumento de la densidad normal. Después
obtenemos el efecto marginal multiplicando la densidad evaluada en el argumento calculado y el coefi-
ciente estimado. Nos da un efecto marginal para cada individuo y cada indicador. Para obtener el AME
(average marginal effect) simplemente calculamos el promedio de los efectos marginales individuales.
La otra manera de calcular el efecto marginal es primero calcular el promedio de cada caracterı́stica
(edad y antiguedad). Luego se calcula nuevamente el argumento z para el promedio y se calcula el
efecto marginal de la misma manera como para los individuos. Obtenemos el marginal effect at the
mean (MEM).
En este caso podemos observar que los dos efectos marginales son casi idénticos y la conclusión económi-
ca no depende de la manera de calcular los efectos marginales.
La interpretación económica aquı́ es que con cada año más de edad, la probabilidad de estar en
desempleo aumenta de 0.6 %. Con cada año de antigüedad baja de 0.3 %.
con
y ∗ = α + β1 x1 + β2 x2 + ε (179)
ε ∼ N (0, 1) (180)
a)
Consideramos primero ε ∼ N (0, σ 2 ), ası́ que nuestro modelo cambia a
y ∗ = α + β1 x 1 + β2 x 2 + σ 2 ε (181)
y∗ α β1 β2
2
= 2 + 2 x1 + 2 x2 + ε (182)
σ σ σ σ
vemos que cada parámetro se divide por una constante. Dado que el parámetro es algo que tenemos
que estimar de todas formas, podemos redefinir cada razón por otro coeficiente:
y∗
= δ 0 + δ 1 + δ 2 x2 + ε (183)
σ2
y∗
además, dado que y ∗ no tiene ninguna escala definida, tenemos y ∗ ∼
= σ2 Por lo tanto, el modelo en
(183) es equivalente al modelo en (179).
b)
Ahora vemos lo que pasa si en lugar de suponer
suponemos
β0 es igual de desconocido como lo fue α, ası́ que este modelo transformado es exactamente equivalente
al modelo anterior!.
a) Efecto marginal
∂ P (Y\= 1|X)
= φ α̂ + β̂1 x1 + β̂2 x2 β̂1 ≡ γ̂1 ≡ h1 (β) (190)
∂x1
b) Varianza de γ̂1
K 2
∂h1 (β)
V ar(γ̂1 ) ∼
X
= V ar(β̂k ) (191)
βk
k=1
h i2
= V ar(β̂1 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x1 + φ(α̂ + β̂1 x1 + β̂2 x2 )
h i2
+ V ar(β̂2 ) φ0 (α̂ + β̂1 x1 + β̂2 x2 )β̂1 x2 (192)
a. Mucha gente no va al hospital durante un año, ası́ que seguramente tenemos muchas observaciones
con el valor cero. Sin embargo, el logaritmo natural no está definido para el valor de cero, ası́
que perderı́amos todas las observaciones con cero dı́as en el hospital. Nos causarı́a un sesgo de
muestra importante porque perderı́amos a la gente más sana de la población.
b. Tı́picamente una variable como dı́as en el hospital tiene una concentración de valores cerca de
cero. Si usamos un modelo diseñado por este tipo de variables, podemos obtener una estimación
más eficiente.
b)
El modelo Poisson resuelve precisamente los problemas anteriormente mencionados. Por un lado no
tiene ningún problema en incluir los valores cero y de otro lado se puede esperar que la estimación sea
más eficiente, ya que la distribución de Poisson tiene una concentración de valores chicos.
c)
El modelo Poisson (debido a la distribución de Poisson) tiene la restricción de E[dias|X] = V ar[dias|X].
Podrı́amos estimar un modelo binomial negativo.
Ejercicio 31 Patentes
a) La variable patents es una variable de recuento, ası́ que es preferible estimar la ecuación con un
modelo para datos de recuento en lugar de tomar un modelo lineal. En este caso la regresión Poisson
es un buen candidato.
∂E[patents|sales, RD]
= (β2 + 2β3 RD) × exp[β0 + β1 log(sales) + β2 RD + β3 RD2 ] (193)
∂RD
b. Es el tı́pico ejemplo de una variable truncada en el lı́mite superior (valor máximo que reporta
la encuesta). También es una variable censurada en el lı́mite inferior, porque nadie puede ganar
un salario negativo.
c. El gasto no puede ser negativo, ası́ que tenemos una variable censurada en cero.
d. Es el ejemplo de una variable truncada, porque sı́ existe gente que gana menos de 400.000 pesos,
pero no aparecen en la base de datos, si no hacen su declaración de impuestos.
e. Es una variable censurada en cero, porque no se paga un impuesto negativo (por lo menos si
nos enfocamos únicamente en el ISR y no consideramos subsidios como impuestos negativos).
f. La calificación del alumno es una variable censurada en ambos lı́mites, tı́picamente en cero y
diez.
20 40 60 80
edad
El problema de la selección de muestra requiere que la selección se hace sobre el ahorro. Por ejemplo,
si pedimos a un banco datos sobre gente que tiene una cuenta de ahorro, vamos a tener una muestra
sesgada, ya que gente sin ahorros (o con poco), tal vez tiene menos probabilidad de tener una cuenta
de ahorros.
b) Si suponemos que el estatus civil y el número de hijos influye sav únicamente a través del tamaño
del hogar (hhsize), entonces estamos nuevamente en una situación de selección por variables exógenas.
Ası́ que en términos de sesgo no hay problema. Sin embargo, si tenemos únicamente una muestra de
parejas casadas sin niños, ya no tenemos variación en la variable hhsize. Para todas las observaciones
tenemos hhsize = 2. Como consecuencia, ya no podemos estimar identificar/estimar el parámetro β2 .
La constante que estimamos será β0 + 2β2 . Suponiendo que tenemos suficiente variación en las demás
variables y que la muestra es suficientemente representativa, podemos todavı́a estimar los parámetros
β1 , β3 y β4 .
c) En este caso la selección de la muestra se hace en función de la variable dependiente, lo cual causa
un problema. La estimación de los β será sesgada y no consistente. En lugar de un modelo lineal,
tenemos que usar un modelo de regresión truncada.
Como para el inciso a), presento a continuación un ejemplo con datos simulados. Aquı́ eliminé las
observaciones con un valor mayor a 10mil. Vemos que en este caso las regresiones sı́ cambian y por lo
tanto sı́ tenemos un sesgo.
12000
10000
savings
8000
6000
4000
20 40 60 80
edad
estudio.
Si el objetivo del estudio es analizar el comportamiento de los candidatos del CIDE, es perfectamente
correcto usar la muestra que se propone. Se puede estimar un modelo por MCO, logit o probit y uno
obtiene estimadores no sesgados para la población “CIDE”.
Lo que no podemos hacer con la muestra es hacer una inferencia sobre la población total (todos los
candidatos a licenciaturas en México por ejemplo).
Otro problema potencial ocurre si el objetivo es hacer pronósticos para el futuro. Para poder hacer eso,
se requiere hacer el supuesto que las caracterı́sticas de los candidatos que aplican al CIDE no cambia
de un año a otro, lo cual puede ser un supuesto razonable en el corto plazo. .
d) Efecto marginal de y
Ahora nos interesamos al efecto marginal de y sin condicionar a y > 0. Empezamos definiendo el
valor esperado E[y|X]:
Xβ
E[y|X] = P (y > 0|X) × E[y|y > 0, X] = Φ × E[y|y > 0, X] (203)
σ
Usamos la regla del producto y obtenemos:
∂E(y|X) ∂P (y > 0|X) ∂E[y|y > 0, X]
= × E[y|y > 0, X] + P (y > 0|X) × (204)
∂xj ∂xj ∂xj
Ahora usamos los resultados en las ecuaciones (200) y (202). Para simplificar la notación, definimos
c = Xβ
σ .
∂E(y|X) βj
= φ(c) × (Xβ + σλ(c)) + Φ(c) × βj {1 − λ(c) [c + λ(c)]} (205)
∂xj σ
= βj {cφ(c) + φ(c)λ(c) + Φ(c) − c Φ(c)λ(c) − Φ(c)λ(c) λ(c)} (206)
| {z } | {z }
φ(c) φ(c)
Xβ
= βj Φ (207)
σ
Ésta expresión se puede comparar a los efectos marginales de un modelo lineal.
Vemos que si P (y > 0) → 1 el efecto marginal va hacia βj .
Hasta aquı́ no hemos usado el supuesto de normalidad bivariada. Para que una regresión lineal por
MCO de la ecuación de interés nos de resultados sin sesgo, necesitamos que E[ui |vi > −wi0 γ] = 0. Ahora
introducimos el supuesto de normalidad bivariada y usamos el teorema para analizar este elemento
con más detalle:
−wi0 γ
0
E[yi |yi observado] = xi β + ρuv σu λi (213)
σv
wi0γ
−wi0 γ
φ( σv )
donde λ σv = w0 γ
se conoce como inverse Mill’s ratio o el caso particular del modelo Heckit
Φ( σiv )
como Heckman’s lambda.
Vemos que el segundo elemento de la ecuación (213) tiene dos parámetros que podemos juntar defi-
niendo βλ = ρuv σu :
−wi0 γ
E[yi |yi observado] = x0i β + βλ λi (214)
σv
b)
Primero definimos y|z ∗ > 0:
7 Métodos no paramétricos
Ejercicio 38 Histograma
La manera más fácil de crear un histograma es primero calcular una tabla de frecuencias. Definimos
primero las casillas:
Casilla Observaciones Frecuencia Densidad
1
2-4 2.4 1 8
2
4-6 4.2, 4.4 2 8
3
6-8 6.1, 7.3, 7.6 3 8
2
8-10 8.1, 9.7 2 8
Ahora simplemente dibujamos las densidades en función de las casillas para obtener el histograma:
.2
.15
Density
.1.05
0
2 4 6 8 10
x
Si hacemos este ejercicio para muchos puntos en el intervalo x = [0, 12] obtenemos la función de
densidad por núcleos:
0 5 10 15
x
kernel = rectangle, bandwidth = 2.0000
x 1 2 3 4 5 6 7 8
u -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0
K(u) 0 0 0.5 0.5 0.5 0 0 0
Tenemos que hacer éste cálculo para cada valor de x para obtener el estimador Nadaraya-Watson que
se muestra en el siguiente gráfico:
Estimadores Nadaraya-Watson
3.00
2.67 2.67
2.50
2.25
2.00
2.00
1.75
1.50
1.50 1.50
1.25
1.00
0 2 4 6 8
x
b)
Vemos que el estimador con h = 2 nos da una curva que se acerca mucho más a los datos. Podemos
calcular el RMSE para ambos estimadores y vemos que RM SE(h = 2) = 0.191 < RM SE(h = 3) =
0.299. Sin embargo, cabe mencionar que este ejercicio usa datos que normalmente no permiten hacer
un análisis razonable con el estimador NW. Tı́picamente es útil usar este estimador cuando tenemos
un gran número de observaciones.
c)
Para que todavı́a haya más de una observación que se toma en cuenta, necesitamos h > 1, porque
para h ≤ 1 tenemos K(u) > 0 únicamente en x = x0 , ası́ que el estimador reproducirı́a simplemente el
vector x!