Está en la página 1de 27

Microeconometría

Jorge Catepillan
September 21, 2022
Universidad de Piura
Diferencias en diferencias
Tratamientos discretos

• Como hemos visto, el supuesto de exogeneidad parece ser uno de los más
problemáticos que se cumpla!.

• Esto porque es un supuesto en los no observables.

• Y es clave para todo lo que utilizamos en regresiones lineales.

• Hemos visto que una de las soluciones es controlar por más variables.

• Ahora vamos a ver cierta estructura de los datos podría ayudarnos a


resolver este problema cuando estudiamos un tratamiento discreto.

1
Recuerdo: Experimento como regresión lineal.

• Recuerdo, en un experimento nos interesa obtener alguna medida del efecto de un


tratamiento binario para cierta población (antes Di ).

• Ocupamos la notación:
ATE = E[Y1i ] − E[Y0i ]

• En esta sección, ocuparemos la notación Yit (1) para el outcome del individuo i en t si tuviese
el tratamiento, Yit (0) para el outcome del mismo individuo en el mismo instante de tiempo
pero sin el tratamiento.

2
Recuerdo: Experimento como regresión lineal.

• Podemos pensar el siguiente modelo para el experimento:

Yit = α + βDi + Uit

• Con α = E[Yit (0)] , β = E[Yit (1) − Yit (0)], y Uit = Yit − E[Yit (0)] − E[Yit (1) − Yit (0)]Di

∑ ∑
Yit Yit
Di =1 Di =0
• Al hacer una regresión β̂ es igual a N1
− N0
.

• Ese estimador converge a E[Yit (1)|Di = 1] − E[Yit (0)|Di = 0]

3
Recuerdo: Experimento como regresión lineal.

• Eso es igual al ATE y ATT siempre y cuando haya independencia entre el tratamiento y el
outcome, que se puede lograr si hay asignación aleatoria.

• Por otro lado, por lo que hemos visto en regresiones, basta que E[Uit |Di ] = 0.

• Las dos condiciones son equivalentes!

4
Diferencias en Diferencias

¿Qué podemos hacer si la asignación no es aleatoria?

• Supongamos que queremos estudiar el efecto causal de un tratamiento, pero que es


asignado de manera agregada y no necesariamente aleatoria.

• Por ejemplo, una política que se aplica en una zona geográfica determinada.

• Sin embargo, poseemos data sobre como era la situación antes del tratamiento, y como es
para un grupo distinto al que se le aplicó el tratamiento (grupo de control)

• Es decir, tenemos 4 grupos de observaciones. Antes y después de que se aplicara el


tratamiento, para el grupo tratado y el grupo de control.

5
Diferencias en Diferencias

• Una forma de estimar el efecto del tratamiento es comparar al grupo de control y


tratamiento. ¿Por qué esto no es una buena idea?

• ¡Problemas de selección! Estamos en una situación en la que la asignación del tratamiento


no es aleatoria.

• Otra opción es observar al mismo grupo de tratados antes y después del tratamiento. ¿Por
qué esta tampoco es una buena idea?

• En este caso, las diferencias podrían ser explicadas por tendencias temporales.

6
Diferencias en Diferencias

• La idea la estrategia de diferencias en diferencias es combinar las dos estrategias anteriores


para así poder encontrar el efecto del tratamiento.

• Para eso, se asume que el efecto se la selección es constante en el tiempo, con lo que
podemos estimar el efecto del tratamiento comparando la diferencia del grupo tratado
antes y después, con la diferencia en el grupo de control.

7
John Snow y el cólera

• John Snow era un doctor inglés que intuía que el cólera tenía que ver con el agua
contaminada. Sin embargo, no había podido mostrar esto en el laboratorio.

• En 1849 hubo un gran brote de cólera en Londres.

• En esa época existían dos compañías de agua potable que tomaban el agua del río Thames.

• El rio estaba muy contaminado a la altura de Londres.

• Después de ese brote, la compañia Lambeth Waterworks cambió su planta de agua potable
río arriba. La compañia Southwark and Vauxhall siguió sacando el agua del mismo lugar.

• En 1853, Londres tiene otro brote de cólera.

8
John Snow y el cólera

9
John Snow y el cólera

John Snow mapeó los hogares que recibían el agua de cada compañía, y calculó
los muertos por cada 10.000 habitantes en las epidemias de 1849 y 1853.

Compañía Lambeth Waterworks Southwark Vauxhall


Fallecidos en 1853 19 147
Fallecidos en 1849 85 135

10
John Snow y el cólera

Para estimar el efecto de tener agua limpia, hizo el siguiente cálculo :

Compañía Lambeth Waterworks Southwark Vauxhall Diferencia


Fallecidos en 1853 19 147 −128
Fallecidos en 1849 85 135 −50
Diferencia −66 12 −78

John Snow estima que conseguir agua limpia hizo que la compañia Lambeth
Waterworks redujera la canatidad de muertes en 78 por cada 10.000 habitantes!

11
Diferencias en Diferencias

• Hay dos instantes de tiempo, t = 0 y t = 1, antes y después de que se aplique el tratamiento.


• Di = 1 es el grupo al que se le aplicó el tratamiento. Di = 0 para el grupo al que no.
• Yit es la variable dependiente que observamos para cada grupo en dos instantes de tiempo.
• Yi1 (1) es el valor de la variable dependiente en t = 1 cuando se aplica el tratamiento
(outcome potencial)
• Yi1 (0) es el valor de la variable dependiente en t = 1 cuando no se aplica el tratamiento
(outcome potencial).
• En t = 0 sólo podemos conocer Yi0 (0).
• Nos interesa saber conocer el efecto del tratamiento en el grupo de tratados:

ATT = E[Yi1 (1) − Yi1 (0)|Di = 1]

12
Diferencias en Diferencias

• Supuesto: El cambio entre t = 0 y t = 1 del outcome potencial sin tratamiento es igual para
los dos grupos (tendencias comunes):

E[Yi1 (0)|Di = 1] − E[Yi0 (0)|Di = 1] = E[Yi1 (0)|Di = 0] − E[Yi0 (0)|Di = 0]

• Ese supuesto nos permite escribir

ATT = E[Yi1 (1) − Yi1 (0)|Di = 1]


= E[Yi1 (1)|Di = 1] − E[Yi0 (0)|Di = 1] − (E[Yi1 (0)|Di = 0] − E[Yi0 (0)|Di = 0])

• Lo cual se puede estimar como:

d = ȲT1 − ȲT0 − (ȲC1 − ȲC0 )


ATT

13
Diferencias en Diferencias

14
Diferencias en Diferencias: Estimación

• Una forma alternativa de pensar DiffEnDiff es asumiendo que tenemos el siguiente modelo:

Yit = β0 + β1 Di ∗ Ti + β2 Ti + β3 Di + Uit

Donde Tt = 1 si t = 1 y 0 si no. Nos interesa el efecto en Y después de que se aplicó el


tratamiento, es decir, β1 .
Podemos mostrar que bajo el supuesto de tendencias comunes, E[Uit |Di ] es igual a cero, con
lo que estamos estimando bien lo que queremos.

• Sin embargo, si existe algo que nos haga pensar que los errores no son exógenos, entonces
el modelo no va a producir una buena estimación. Es decir, el supuesto no va a ser bueno!

• Para solucionar esto, hay que hacer lo mismo que en MCO, dependiendo de lo que podría
estar causando el problema.

15
Diferencias en Diferencias: Estimación

• En su forma más simple, el estimador de DiffEnDiff puede ser estimado con el siguiente
modelo:
∆Yi = β0 + β1 Di + Ui
• En casos que el tratamiento sea una variable continua X (Ej. aumento del salario mínimo), se
puede usar el siguiente modelo
∆Yi = β0 + β1 Xi + Ui
• Podría ser que el supuesto se cumpla sólo si es que controlamos por otros regresores. En
ese caso, para estimar el ATT habría que ocupar la siguiente regresión:

∆Yi = β0 + β1 Xi + W′i λ + Ui
• También, podría ser que hay otras variables que cambien entre 0 y 1 que afecten a Yi ,
entonces habría que ocupar la siguiente regresión:
Yit = β0 + β1 Xi ∗ Tt + β2 Xi + β3 Tt + W′it λ + Ui

16
Diferencias en Diferencias: Ejemplo 1

Card y Krueger (1994)

• Estudian como afecta el incremento del salario mínimo la demanda por trabajadores.
• Para eso, estudian el caso de New Jersey, que subió el salario mínimo por hora desde $4.25 a
$5.05 en 1992. Como grupo de control, ocupan a Pennsylvania, que no aumentó el salario
mínimo en esas fechas.
• La idea es que cualquier otro efecto que podría haber afectado al empleo en New Jersey,
habría afectado a Pennsylvania también, por el estimador de DiffEnDiff era un buen
estimador.
• Ellos recolectaron datos de empleo en restaurantes de comida rápida, y compararon los
cambios antes y después en los dos estados.
• Encontraron que no había evidencia que el aumento de salario mínimo haya afectado al
empleo, e incluso que en algunos lugares el empleo había aumentado.

17
Diferencias en Diferencias: Ejemplo 1

Card y Krueger (2000)

• Pareciera ser que el supuesto de Card y Krueger (1994) no era muy bueno.

18
Diferencias en Diferencias: Ejemplo 2

Pishke (2007)

• Estudia los efectos de acortar el año escolar en distintas variables.

• Para eso, aprovecha que en 1960, las escuelas de Alemania que no estaban en Bavaria,
empezaban el año escolar en primavera, y las de Bavaria en otoño.

• En el año 1966-67 se obligó a que todas las escuelas empezaran el año escolar en otoño, por
lo que las escuelas que no estaban en bavaria tuvieron dos años con el año escolar más
corto.

• La idea fue hacer un DiffEnDiff para las escuelas de bavaria y del resto de alemania, antes y
después de que se acortara el año escolar.

• Encuentra resultados en tasas de repitencia.

19
Diferencias en Diferencias: Ejemplo 2

Pishke (2007)

• Pareciera ser que el supuesto es bueno en este caso.

20
Event Studies

• En algunas situaciones, el tratamiento se aplica en distintos períodos.

• La idea es ocupar entidades que aún no son tratadas como controles para los que si han
sido tratados.

• Conceptualmente, son muy similares a Diferencias en Diferencias.

• Hay que tener cuidado con lo que se está identificando. Muchos avances en este tipo de
estudios en el último tiempo.

21
Event Studies: Ejemplo

• Flor-Toro y Magnaricotte 2021 quieren entender los efectos de abrir una universidad pública
en la matrícula universitaria.

• Ocupando datos del Perú entre 1960 y el 2009 ven provincias sin oferta de educación
superior en las que se instala una universidad.

• Encuentran que aumenta marginalmente la matrícula.

22
Event Studies: Ejemplo

23
Testeando los supuestos

• La robustez de las estimaciones de diferencias en diferencias depende de la robustez de los


supuestos.

• Ya vimos que una buena estrategia (en caso de tener datos) es testear si en períodos
anteriores la diferencia es constante.

• Una alternativa es ocupar outcomes placebos que no deberían ser afectados con el
tratamiento.

• Otra es mostrar que los grupos son similares en los aspectos relevantes.

• ¿Otra forma?

24
Diferencias en Diferencias: Comentarios

• Diferencias en diferencias debe ser la estrategias de identificación más usadas en ausencia


de experimentos.

• La idea es eliminar la necesidad de un grupo de control aleatorio, reemplazándolo por un


grupo de control que se vea afectado de forma similar al grupo de tratamiento.

• Esto permite eliminar los sesgos de selección/endogenidad que se producen producto de la


no aleatorización del tratamiento!

• Es fácil incorporar controles y realizar las estimaciones como regresión lineal.

• Sin embargo, si se emplea, es necesario justificar el supuesto de tendencias paralelas.

25

También podría gustarte