Está en la página 1de 12

Grupo 4

Taller Evaluación de Impacto


Diferencias en diferencias

Suponga que un investigador está analizando el efecto de suministrar agendas escolares


(para el seguimiento del trabajo de los estudiantes) sobre el nivel de aprendizaje de los
niños. El programa consiste en darles agendas a los niños en las cuales deben anotar las
tareas y trabajos que los profesores dejan cada día. Los padres deben firmar la agenda para
garantizar que se enteraron de las obligaciones de su hijo. Los profesores cada día revisan
la agenda y llevan un control sobre si el padre firmó o no firmó. A los padres que no hacen
el seguimiento de sus hijos son requeridos por el colegio. El investigador hace seguimiento
durante 5 periodos, tanto al colegio tratado como a un colegio cercano al que no se le
implementó el sistema de agenda escolar.

La base taller_2 tiene las variables mujer edad (años del niño) salario_padre (en dólares)
educ_padre (en años de escolaridad) aprendizaje (en desviaciones estándar),
adicionalmente, tiene la variable colegio que es 1 si el colegio del alumno i fue tratado y
cero de lo contrario. Es muy importante tener en cuenta que el tratamiento se realizó
durante los últimos dos periodos.

Usando de la base de datos “taller_2” resuelva las siguientes preguntas:

1. Haga una tabla con las estadísticas descriptivas de la línea base y el test de
diferencia de medias. 5 puntos.
Tabla 1.
Estadísticas Descriptivas Línea base
Grupo Control Grupo Tratado
Variable Obs. Media D.E. Obs. Media D.E. Diff de medias P_Valor
0,0
mujer 503 0,30 0,46 497 1,00 0,00 -0,70 0 ***
0,4
edad 503 13,08 1,45 497 13,01 1,38 0,07 5
39,9 0,0
salario_padre 503 172,47 43,42 497 132,79 1 39,68 0 ***
0,0
educ_padre 503 7,94 1,99 497 7,09 2,56 0,85 0 ***
0,0
aprendizaje 503 0,31 1,07 497 0,04 1,07 0,28 0 ***

2. Discuta los resultados de la tabla del punto 1. ¿Podemos decir que los dos grupos
son iguales? 10 puntos.

1
Como se puede observar en la tabla 1, para el período base (t==2) se cuenta con 503
estudiantes que pertenecen al grupo de control y 497 que hacen parte del grupo de
tratamiento. Por su parte, para el grupo de control se observa que aproximadamente el 30%
de ellos son mujeres (véase gráfico 1). Asimismo, este grupo presenta un promedio de 13
años de edad, los cuales cuentan con padres que tienen un promedio de ocho años de
educación e ingresos medios de 172 dólares. Por el contrario, el grupo de tratamiento se
encuentra compuesto en su totalidad por estudiantes mujeres, las cuales presentan un
promedio de edad de 13 años y cuyos padres tienen un promedio de siete años de educación
e ingresos medios de 132 dólares.

Al realizar el test de diferencias de medias en las variables observables por grupo, se puede
observar que tan solo en la variable edad no se encuentran diferencias estadísticamente
significativas. Por el contrario, se puede evidenciar que ambos grupos presentan diferencias
promedios estadísticamente significativas, con un nivel de significancia de 1%, en las
variables mujer, salario del padre, educación del padre y aprendizaje. Por lo que podemos
decir que en promedio ambos grupos son diferentes.

Gráfico 1.

3. Haga un gráfico donde se observe el promedio de las pruebas de aprendizaje en


cada periodo desagregada entre tratados y no tratados. ¿puede decir algo sobre el
supuesto de tendencia paralela? ¿se le ocurre una forma de verificar esto? 15
puntos.

2
Gráfico 2.

Como se puede observar en el gráfico 2, en los períodos previos a la línea base, tanto el
grupo tratamiento como el grupo control presentan en promedio tendencias paralelas en los
puntajes de aprendizaje. Esto se podría verificar con una regresión que incluya la
interacción entre la variable de tratamiento y la variable de periodos previos, tal como se
presenta a continuación:
y ¿ =β 0+ β1 t 2+ β 2 colegioi + β 3 D i t 2+ ε ¿;

Donde:

{
t 2 : 1 si t=1
0 si t=0

{
colegio i : 1 si es tratado
0 si es control

En ese sentido, nuestro estimador de interés β 3 (1.colegio#1.t2) no debe ser significativo,


dado que no deben existir diferencia promedios en los puntajes de aprendizaje, en periodos
anteriores, puesto que ambos grupos se mueven en consistentemente con tendencias
paralelas. Tal como se puede observar en la tabla 2, se confirma que se cumple con el
supuesto de tendencias paralelas, al no resultar significativa la variable interacción ya
mencionada.

Tabla 2.
Regresión Tendencias Paralelas
(1)
VARIABLES aprendizaje
3
1.colegio -0.2782***
(0.068)
1.t2 0.0993
(0.067)
(0.000)
1.colegio#1.t2 0.0030
(0.096)
Constant 0.0925*
(0.048)

Observations 2,000
R-squared 0.019
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

4. Haga la regresión aprendizaje contra tratamiento, con y sin controles, escriba y


describa la ecuación que está estimando. ¿qué problema tiene esta estimación?
¿Qué se puede decir de los resultados? 15 puntos.

Sin controles:

En primera instancia se plantea la ecuación del modelo sin controles, tal como se muestra a
continuación:
Aprendizajei=β 0 + β 1 Di +ε i

Donde:

{
Di : 1 si es tratado
0 si es control

Los resultados de la estimación del modelo sin controles se pueden observar en la tabla 3,
de la cual obtenemos el siguiente modelo:

^
Aprendizaje i=0.17+0.12 ^
Di

De los resultados obtenidos podemos evidenciar que, cuando el estudiante se encuentra en


un colegio tratado en promedio hay una diferencia en 0,12 desviaciones estándar en el
aprendizaje respecto al grupo control. Además, es importante resaltar que no se están
teniendo en cuenta las condiciones de un mismo individuo en el tiempo y a su vez se están
omitiendo variables. Asimismo, el β de tratamiento es significativo con un nivel de
significancia del 1%.

4
Tabla 3.
regresión aprendizaje contra tratamiento
sin controles
(1)
VARIABLES aprendizaje

D 0.1232***
(0.039)
Constant 0.1706***
(0.017)

Observations 5,000
R-squared 0.002
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

Por otra parte, en la tabla 4 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). De la estimación se puede intuir
que, cuando el estudiante se encuentra en un colegio tratado en promedio hay una
diferencia en -0.25 desviaciones estándar en el aprendizaje respecto al grupo control. El
coeficiente del tratamiento resulta ser significativo, con un nivel de significancia del 1%.
No obstante, es importante aclarar que en dicha estimación no se están teniendo en cuenta
la periodicidad de los datos, dado que contamos con un panel, donde tenemos información
por individuo y tiempo. En resumidas palabras, el estimador del tratamiento puede
presentar sesgos por variables omitidas, dado que como se presentó en el punto 1, los
grupos presentan diferencias estadísticamente significativas en las variables observables y
adicional a ello, podría presentar problema de autocorrelación serial, dificultando el
cumplimiento del supuesto de independencia condicional.

Tabla 4.
regresión aprendizaje contra tratamiento sin
controles
(1)
VARIABLES aprendizaje

colegio -0.2513***
(0.048)
Constant 0.3740***
(0.034)

Observations 2,000
R-squared 0.014
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

5
Con controles:

En segunda instancia se plantea la ecuación del modelo con controles, tal como se muestra
a continuación:

Aprendizajei=β 0 + β 1 Di + β 2 Mujer i + β 3 Salario padrei + β 4 Educ padrei+ ε i

Donde:

{
D i : 1 si es tratado
0 si es control

Los resultados de la estimación del modelo sin controles se pueden observar en la tabla 4,
de la cual obtenemos el siguiente modelo:

^
Aprendizaje i=0,26+0.19 ^ Mujer i+ 0.0008^
Di−0.13 ^ Salari o padrei−0.0203 ^
Educ padrei

Del modelo estimado incluyendo los controles se puede observar que, cuando el estudiante
se encuentra en un colegio tratado en promedio hay una diferencia en 0,19 desviaciones
estándar en el aprendizaje respecto al grupo control; es decir, al incluir variables de control,
el tratamiento presenta un mayor efecto positivo en los resultados de las pruebas de
aprendizaje.

Tanto el tratamiento como los controles resultan tener ser significativos con un nivel de
significancia del 1%, exceptuando el salario del padre que tiene un nivel de significancia
del 5%. Adicional a esto, de la comparación de ambos ejercicios se puede observar que, en
el modelo sin controles existe un problema de variable omitida, puesto que, al incluir
controles a la regresión el tamaño del efecto varía sustancialmente.

Tabla 5.
regresión aprendizaje contra tratamiento
con controles
(1)
VARIABLES aprendizaje

D 0.1934***
(0.042)
mujer -0.1363***
(0.036)
salario_padre 0.0008**
(0.000)
educ_padre -0.0203***
(0.007)

6
Constant 0.2676***
(0.084)

Observations 5,000
R-squared 0.008
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

Por otra parte, en la tabla 6 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). Del modelo estimado incluyendo
los controles se puede observar que, cuando el estudiante se encuentra en un colegio tratado
en promedio hay una diferencia en -0,42 desviaciones estándar en el aprendizaje respecto al
grupo control; es decir, al incluir variables de control, el tratamiento presenta una mayor
diferencia en los resultados de las pruebas de aprendizaje.

Tanto el tratamiento como los controles resultan ser estadísticamente significativos, con un
nivel de significancia del 1%, exceptuando el salario del padre, el cual no resulta ser
significativo. Adicional a esto, de la comparación de ambos ejercicios se puede observar
que, en el modelo sin controles existe un problema de variable omitida, puesto que, al
incluir controles a la regresión el tamaño del efecto del tratamiento varía sustancialmente.
Por otro lado, el efecto puede estar sesgado dado que no se tiene en cuenta que la base de
datos se encuentra construida como un panel, por lo que podríamos estar atribuyendo datos
a individuos adicionales, donde los datos provienen de un mismo individuo. En ese sentido,
el modelo podría presentar problemas de autocorrelación serial, y con esto, padecer de
endogeneidad.

Tabla 6.
regresión aprendizaje contra tratamiento con
controles
(1)
VARIABLES aprendizaje

colegio -0.4298***
(0.047)
mujer 0.2117***
(0.047)
salario_padre -0.0003
(0.000)
educ_padre -0.0259***
(0.007)
Constant 0.5177***
(0.086)

Observations 5,000
R-squared 0.020
7
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

5. Haga la regresión aprendizaje contra tratamiento usando efectos fijos de individuo


y de tiempo, escriba y describa la ecuación que está estimando. Compare estos
resultados con los del punto 4. Use una sola tabla para mostrar todos los resultados,
los de este punto y los del punto 4. 15 puntos.

Para el caso de efectos fijos, la ecuación del sería la siguiente:

Aprendizaje¿=β 0 + β 1 D ¿ +ω 2 W 2 +…+ ωn W n +θ2 t 2 +…+ θn t n +u¿

Donde:

{
D i : 1 si es tratado en el tiempot
0 si es controlen eltiempo t

W i :efecto fijo de individuos

t i :efecto fijo de tiempo

Los resultados de la estimación del modelo con efectos fijo se pueden observar en la tabla 7
(modelo 3), de la cual obtenemos lo siguiente:

Aprendizaje¿=−0.04+0.075 D¿ + 0.10t 1 +0.22 t 2 +0.33 t 3+ 0.47 t 4

En primer lugar, el modelo de efectos fijos (Diff&Diff) tiene el beneficio de eliminar las
posibles correlaciones entre nuestra variable de tratamiento y las características
inobservables, la cuales no varían en el tiempo. Por lo que podríamos mitigar en parte,
posibles problemas de endogeneidad en el modelo. No obstante, al observar la base de
datos se evidencia que las características observables de los individuos no varían en el
tiempo, por lo que, al estimar efectos fijos, dichos coeficientes no se estiman como
resultado de estimar la regresión. De los resultados obtenidos se puede observar que el
efecto resulta ser significativo al 1%, siendo dicho efecto positivo, donde el hacer parte del
tratamiento presenta una diferencia de 0.07 desviaciones estándar en la prueba de
aprendizaje por encima, con respecto al grupo de control.

En relación a los modelos MCO Pooled, el modelo de datos panel nos acerca un poco más a
encontrar coeficientes que sean insesgados, dado que al controlar por efectos fijos de
individuo y tiempo, podemos aislar los posibles problemas de endogeneidad de las
variables inobservables que sean constantes por individuo y en el tiempo.

8
Tabla 7.
regresión aprendizaje contra tratamiento con controles
(1) (2) (3)
VARIABLES aprendizaje aprendizaje aprendizaje

D 0.1232*** 0.1934*** 0.0754***


(0.039) (0.042) (0.003)
t=1 0.1008***
(0.001)
t=2 0.2220***
(0.001)
t=3 0.3305***
(0.002)
t=4 0.4761***
(0.002)
Mujer -0.1363***
(0.036)
salario_padre 0.0008**
(0.000)
Educ_padre -0.0203***
(0.007)
Constant 0.1706*** 0.2676*** -0.0458***
(0.017) (0.084) (0.001)

Observations 5,000 5,000 5,000


R-squared 0.002 0.008 0.978
Efectos fijos aC1o No No Sí
Efectos fijos de individuo No No Sí
Number of id 1,000
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

Por otra parte, en la tabla 6 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). De dicho modelo, se puede
observar que la variable tratada resulta ser significativa al 1%, mientras que la variable t_1
tan solo resulta ser significativa al 10%. En relación a nuestro estimador de interés beta
tres, el cual muestra el efecto del tratamiento, se evidencia que no resulta ser significativo,
por lo que podemos afirmar con un 95% de confianza que el tratamiento de suministrar
agendas escolares no genera impacto en los niveles de aprendizaje de los niños.

Tabla 8.
regresión aprendizaje contra tratamiento con efectos fijos
(1) (2) (3)
VARIABLES aprendizaje aprendizaje aprendizaje

Tratado -0.2464*** -0.4298*** -0.2761***


(0.031) (0.047) (0.068)
9
Mujer 0.2117***
(0.047)
salario_padre -0.0003
(0.000)
Educ_padre -0.0259***
(0.007)
t_1 0.1213*
(0.068)
1.colegio#1.t_1 0.0497
(0.096)
Constant 0.3175*** 0.5177*** 0.3134***
(0.022) (0.086) (0.048)

Observations 5,000 5,000 1,000


R-squared 0.013 0.020 0.421
Efectos fijos aC1o No No Sí
Efectos fijos de individuo No No Sí

Standard errors in parentheses


*** p<0.01, ** p<0.05, * p<0.1

6. Construya un placebo. Suponga que el programa solo tiene tres periodos de


observación y que el tratamiento se hace durante el tercer periodo (placebo). ¿Qué
resultados se obtiene y cuál es la intuición detrás de ellos? 15 puntos.

Al realizar la estimación del Diff & Diff, incluyendo como variable dependiente los
resultados de la prueba de aprendizaje e independiente el tratamiento placebo, observamos
que el efecto de ser tratado o no serlo, no resulta ser significativo. Estos resultados de la
prueba de falsificación confirman que las estimaciones realizadas en el punto cinco son
robustas, puesto que el tratamiento no se realizó en el tercer período, por ende, no se
debería encontrar efecto significativo alguno en la variable de tratamiento placebo.

Tabla 9.
regresión aprendizaje contra
tratamiento placebo
(1)
VARIABLES aprendizaje

D_placebo 0.0006
(0.002)
t=1 0.1008***
(0.001)
t=2 0.2217***
(0.002)
Constant -0.0458***
(0.001)

Observations 3,000
Number of id 1,000

10
R-squared 0.957
Efectos fijos año Sí
Efectos fijos de individuo Sí
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1

7. Discuta los posibles resultados de esta evaluación de impacto, mecanismo por los
cuales esto puede estar pasando, debilidades del modelo y posibles implicaciones de
política pública. No más de 450 palabras. 15 puntos.

Como bien se sabe, el modelo de diferencias en diferencias es un caso particular del


modelo de datos panel con efectos fijos. Por ende, los resultados presentados en el
modelo tres de la tabla 7, pertenecen a la estimación del método cuasi-experimental Diff
& Diff, el cual tiene como supuesto principal el cumplimiento de tendencias paralelas.
En ese sentido, como se muestra en el gráfico 2, se valida el cumplimiento de dicho
supuesto. Los resultados obtenidos a partir de las estimaciones realizadas, muestran que
el efecto de suministrar agendas escolares, genera un impacto significativo en los niveles
de aprendizaje de los niños. Esto puede deberse a que los padres no solo firmen las
agendas, sino también, realicen un seguimiento y acompañamiento riguroso al efectivo
cumplimiento de las tareas de sus hijos.

Adicional a ello, el modelo podría presentar problemas de endogeneidad, puesto que


puede existir variables inobservables que se relacionen con la variable de tratamiento,
como por ejemplo la motivación de los padres a brindar un mayor acompañamiento a
sus hijos. No obstante, como se observa en la prueba de falsificación los resultados son
robustos y se cumplen con los supuestos para hablar de causalidad.

En términos de política pública, valdría la pena realizar pilotos cuya selección de los
individuos tratados se desprenda de un proceso aleatorio. De esta forma, se puede
eliminar el sesgo de selección causado por la motivación de los padres. Asimismo, se
recomienda plantear iniciativas de política pública que puedan impactar en mayor
medida los resultados de aprendizaje, como programas de tutorías para los niños que
presenten problemas de aprendizaje.

8. Suponga que tiene una base de datos con individuos observados en cuatro periodos.
Hay individuos que nunca entran el tratamiento, otros que entran durante el
segundo periodo, otros durante el tercer periodo y otros en el cuarto periodo.
Escriba una ecuación que represente la estimación de diferencias en diferencias que
se podría hacer con esta base de datos. Demuestre que esa estimación equivale al
estimador dif-en-dif visto en clase.

11
Teniendo en cuenta que los individuos se seleccionan como tratados en la medida en que
pasa el tiempo y que existe un control puro, el cual no participa en ningún periodo en el
programa. La ecuación del modelo Diff & Diff que representa este tipo de intensidades del
tratamiento, viene dada por:

y ¿ =β 0+ β1 D¿ + β 2 t 0 + β 3 t 1 + β 4 t 2 + β 5 t 3 + β 6 t 4 + β7 Di∗t 0 + β 8 D i∗t 1+ β 9 Di∗t 2+ β10 Di∗t 3 + β 11 Di∗t 4 +u¿

Donde:

{
t 0 : 1 si es t=0
0 si es t ≠ 0

{
t 1 : 1 si est=1
0 si es t ≠ 1

{
t 2 : 1 si es t=2
0 si es t ≠ 2

{
t 3 : 1 si es t =3
0 si es t ≠ 3

{
t 4 : 1 si es t=4
0 si es t ≠ 4

Como se puede observar, la ecuación contempla efectos fijos por individuos (D i) y efectos
fijos de tiempo (tn ). Adicionalmente, contiene los estimadores del efecto de tratamiento,
los cuales varían dependiendo del tiempo, como resultado de la interacción de Di y tn.

De manera resumida, podríamos representar la ecuación de la siguiente forma:

y ¿ =β 0+ β1 D¿ + α 0 t 0 + …+α n t n +ω 0 D i∗t 0 +…+ ωn Di∗t n +u¿

12

También podría gustarte