Está en la página 1de 4

Guía de solución PC 3 - EMI

Pregunta 1 (4.5 puntos)

a. ¿En qué consiste el problema de instrumentos débiles y qué implicancias tiene para la
estimación de efectos causales mediante la metodología de variables instrumentales?
(1.5 puntos)

El problema de instrumentos débiles se produce cuando 𝑐𝑜𝑣(𝑥, 𝑧) → 0, esto es cuando


la covarianza entre la variable endógena y el instrumento tiende a cero. Este problema
resulta en un estimador sesgado. Asimismo, las pruebas de inferencia estándar dejan de
ser válidas, pues la distribución del estimador de interés deja de ser normal.

b. ¿Por qué el F estadístico asociado al test de relevancia de los instrumentos en la primera


etapa se utiliza para la detección de instrumentos débiles? ¿Qué valores de este F
estadístico se toman como evidencia de posible presencia de instrumentos débiles? (1.5
puntos)

El estadístico F está asociado a la hipótesis nula de que el coeficiente del instrumento


en la primera etapa, que mide la correlación parcial entre el instrumento y la endógena,
es igual a cero. Mientras más grande el valor de F, tenemos más chances de rechazar la
nula, mientras que para valores muy bajos de F, no podremos rechazar la nula.

En cuanto al valor de F, hace algunos años, en los primeros avances de la literatura


relacionada al problema, se sugería que un F mayor a 10 era necesario para tener cierta
seguridad de que el instrumento no era débil. Actualmente, hay estudios que sugieren
que valores mayores a 10 serían necesarios para tener este nivel de seguridad.

c. Explique el test de Andreson Rubin (1939), y explique además cómo el mismo se puede
emplear para estimar los impactos causales de interés en presencia de instrumentos
débiles. (1.5 puntos)

Consider a regression model with only one endogenous regression. For simplicity we will
obviate the intercept (so we can interpret this model as one in which variables are
expressed in terms of deviations from the mean).

𝑦 = 𝛽𝑥 + 𝜀
Suppose also that we have a vector of m instrumental variables given by 𝑧 =
[𝑧1 𝑧2 . . . 𝑧𝑚 ]. By assumption the instruments satisfy the exclusion condition, that
is 𝑐𝑜𝑣(𝑧𝑗 , 𝜀) = 0, for all j.

The Anderson Rubin test proceeds as follows.

1. First let’s define the following null hypothesis.

𝐻0 𝛽 = 𝛽0 (1)

If it is actually the case that 𝛽 = 𝛽0 , then the error term can be defined as

1/4
𝜀0 = 𝑦 − 𝛽0 𝑥 (2)

2. Now, if this are the true errors, then by assumption they must be uncorrelated
with the instruments. So, let’s define the following regression equation

𝜀0 = 𝜑1 𝑍1 + 𝜑2 𝑍2 + ⋯ + 𝜑𝑚 𝑍𝑚 + 𝜔 (3)

And set the following related null hypothesis

𝐻0 𝜑1 = 𝜑2 =. . . = 𝜑𝑚 = 0 (4)

Therefore, if we fail to reject the null, we can conclude that 𝛽0 is a suitable


candidate for the true causal effect of interest.

Therefore, we can obtain the set of all possible values of 𝛽0 for which we fail to reject
the null hypothesis in (4), this set will give us a 95 confidence interval for the true
value of 𝛽.

Pregunta 2 (5 ptos).
Defina de manera breve y clara los siguientes conceptos relacionados al diseño de regresión
discontinua.

a. Running variable o score. (1 punto)


Es la variable que determina la asignación al grupo de tratamiento en función a un punto
de corte o cutoff. Por ejemplo, en el caso del programa Pensión 65, la running variable
es la edad, y el punto de corte es el valor edad=65.

b. Bins. (1 punto)
Son espacios definidos en función del rango de la running variable que contienen un
número determinado de observaciones para las cuales se obtiene la media de la variable
dependiente. Estos se pueden definir en base a diferentes criterios, por ejemplo bins
de igual tamaño o distancia o bins que contengan el mismo número de datos. También
se pueden definir de manera óptima balanceando sesgo y varianza.

c. Sharp RD. (1 punto)


En el Sharp RD la probabilidad de recibir el tratamiento salta de manera perfecta de 0 a
1 en el punto de corte.

d. Bandwidth de estimación. (1 punto)


El bandwidth de la estimación determina el número de observaciones a la izquierda y a
la derecha del punto de corte que serán utilizadas para estimar el efecto de interés.

e. Kernel function. (1 punto)


Es la función que determina el peso que se asignará a las observaciones seleccionadas
para la estimación. Un kernel triangular por ejemplo asigna un peso mayor a aquellas
que están muy cerca al punto de corte, y a medida que nos alejamos del mismo el peso

2/4
asignado disminuye. Un kernel uniforme por ejemplo asigna el mismo peso a todas las
observaciones incluidas en la estimación.

Pregunta 3 (2.5 ptos).


¿Cómo afecta al sesgo y la varianza de la estimación en un diseño de regresión discontinua la
selección del bandwidth de estimación? Comente en detalle.

Sirve de mucho para la respuesta considerar un polinomio lineal para la estimación de


los efectos de interés. Como se puede ver en la figura de la pregunta 4, mientras más
cerca nos encontramos del punto de corte, mejor funcionará la aproximación lineal, por
lo que el sesgo será menor, pero tendremos pocas observaciones y por tanto alta
varianza. A medida que nos alejamos del punto de corte tenemos mayor información y
la varianza será menor, pero la aproximación lineal ya no será tan buena y tendremos
mayor sesgo. En ese sentido decimos que la selección del bandwidth implica un decisión
óptima entre sesgo y varianza.

Pregunta 4 (8 puntos).
Tome en cuenta la Figura 1 en la siguiente página. Considere además que aquellas personas cuyo
score es igual o mayor que el valor c reciben el tratamiento con probabilidad 1 mientras que
aquellas con un score por debajo de c reciben el tratamiento con probabilidad 0.

a. Defina las funciones E(Y(1)/X) y E(Y(0)/X). (1.5 puntos)

Son las esperanzas de resultados potenciales con y sin tratamiento condicionales en el


valor de la running variable X. Para los tratados solo observamos 𝐸(𝑌(1)/𝑋) a la
derecha del punto de corte, mientas que a la izquierda del punto de corte solo
observamos 𝐸(𝑌(0)/𝑋) para los no tratados.

b. Identifique el efecto causal de interés en esta situación. Fundamente su respuesta. (1.5


puntos)

El efecto causal de interés está dado por 𝐸(𝑌(1)/𝑋) - 𝐸(𝑌(0)/𝑋), pero esto no es
observable. Sin embargo podemos aproximarlo en el punto de corte de la siguiente
manera
𝜇+ − 𝜇− = 𝐸(𝑌(1)/𝑋 = 𝑐 + 𝜀) - 𝐸(𝑌(0)/𝑋 = 𝑐 − 𝜀)

c. Explique en detalle cómo estimaría el efecto causal de interés en este caso y los
supuestos necesarios para la validez de su estimación. Usted debe explicar en detalle la
estrategia empírica de estimación (incluyendo la muestra de estimación, las regresiones
a ser estimadas y los estimadores a utilizar) así como establecer con claridad los
supuestos de identificación (esto es, bajo qué supuestos su estrategia empírica le
permite estimar de manera consistente los efectos causales de interés). (4 puntos)

Podemos estimar la diferencia definida en el apartado “b” estimando dos regresiones


lineales, a la izquierda y derecha del punto de corte, para un bandwidth lo
suficientemente cercano al mismo. La diferencia de los interceptos de estas dos
regresiones nos proporcionará un estimador para la diferencia en cuestión.

3/4
Alternativamente podemos estimar la siguiente regresión.

𝑦 =∝ +𝜌𝑇 + 𝛽𝑥 + 𝛾𝑥𝑇 + 𝜔

Donde x es la running variable y T es una binaria que identifica si el individuo se


encuentra a la derecha o izquierda del punto de corte. La estimación por OLS de esta
regresión nos proporciona

𝜌̂ = 𝜇̂ + − 𝜇̂ −

El supuesto clave para que esta estimación nos permita estimar el efecto de interés es
que las funciones de resultados potenciales descritas en el apartado “a” deben ser
continuas en el punto de corte.

d. Discuta en detalle para qué grupo de individuos es informativa la estimación sugerida


por usted en el apartado c. (1 punto)

Sólo para aquellos en el punto de corte, en ese sentido se trata de un Local Average
Treatment Effect.

Figura 1

4/4

También podría gustarte