Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dif and Dif
Dif and Dif
La base taller_2 tiene las variables mujer edad (años del niño) salario_padre (en dólares)
educ_padre (en años de escolaridad) aprendizaje (en desviaciones estándar),
adicionalmente, tiene la variable colegio que es 1 si el colegio del alumno i fue tratado y
cero de lo contrario. Es muy importante tener en cuenta que el tratamiento se realizó
durante los últimos dos periodos.
1. Haga una tabla con las estadísticas descriptivas de la línea base y el test de
diferencia de medias. 5 puntos.
Tabla 1.
Estadísticas Descriptivas Línea base
Grupo Control Grupo Tratado
Variable Obs. Media D.E. Obs. Media D.E. Diff de medias P_Valor
0,0
mujer 503 0,30 0,46 497 1,00 0,00 -0,70 0 ***
0,4
edad 503 13,08 1,45 497 13,01 1,38 0,07 5
39,9 0,0
salario_padre 503 172,47 43,42 497 132,79 1 39,68 0 ***
0,0
educ_padre 503 7,94 1,99 497 7,09 2,56 0,85 0 ***
0,0
aprendizaje 503 0,31 1,07 497 0,04 1,07 0,28 0 ***
2. Discuta los resultados de la tabla del punto 1. ¿Podemos decir que los dos grupos
son iguales? 10 puntos.
1
Como se puede observar en la tabla 1, para el período base (t==2) se cuenta con 503
estudiantes que pertenecen al grupo de control y 497 que hacen parte del grupo de
tratamiento. Por su parte, para el grupo de control se observa que aproximadamente el 30%
de ellos son mujeres (véase gráfico 1). Asimismo, este grupo presenta un promedio de 13
años de edad, los cuales cuentan con padres que tienen un promedio de ocho años de
educación e ingresos medios de 172 dólares. Por el contrario, el grupo de tratamiento se
encuentra compuesto en su totalidad por estudiantes mujeres, las cuales presentan un
promedio de edad de 13 años y cuyos padres tienen un promedio de siete años de educación
e ingresos medios de 132 dólares.
Al realizar el test de diferencias de medias en las variables observables por grupo, se puede
observar que tan solo en la variable edad no se encuentran diferencias estadísticamente
significativas. Por el contrario, se puede evidenciar que ambos grupos presentan diferencias
promedios estadísticamente significativas, con un nivel de significancia de 1%, en las
variables mujer, salario del padre, educación del padre y aprendizaje. Por lo que podemos
decir que en promedio ambos grupos son diferentes.
Gráfico 1.
2
Gráfico 2.
Como se puede observar en el gráfico 2, en los períodos previos a la línea base, tanto el
grupo tratamiento como el grupo control presentan en promedio tendencias paralelas en los
puntajes de aprendizaje. Esto se podría verificar con una regresión que incluya la
interacción entre la variable de tratamiento y la variable de periodos previos, tal como se
presenta a continuación:
y ¿ =β 0+ β1 t 2+ β 2 colegioi + β 3 D i t 2+ ε ¿;
Donde:
{
t 2 : 1 si t=1
0 si t=0
{
colegio i : 1 si es tratado
0 si es control
Tabla 2.
Regresión Tendencias Paralelas
(1)
VARIABLES aprendizaje
3
1.colegio -0.2782***
(0.068)
1.t2 0.0993
(0.067)
(0.000)
1.colegio#1.t2 0.0030
(0.096)
Constant 0.0925*
(0.048)
Observations 2,000
R-squared 0.019
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Sin controles:
En primera instancia se plantea la ecuación del modelo sin controles, tal como se muestra a
continuación:
Aprendizajei=β 0 + β 1 Di +ε i
Donde:
{
Di : 1 si es tratado
0 si es control
Los resultados de la estimación del modelo sin controles se pueden observar en la tabla 3,
de la cual obtenemos el siguiente modelo:
^
Aprendizaje i=0.17+0.12 ^
Di
4
Tabla 3.
regresión aprendizaje contra tratamiento
sin controles
(1)
VARIABLES aprendizaje
D 0.1232***
(0.039)
Constant 0.1706***
(0.017)
Observations 5,000
R-squared 0.002
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Por otra parte, en la tabla 4 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). De la estimación se puede intuir
que, cuando el estudiante se encuentra en un colegio tratado en promedio hay una
diferencia en -0.25 desviaciones estándar en el aprendizaje respecto al grupo control. El
coeficiente del tratamiento resulta ser significativo, con un nivel de significancia del 1%.
No obstante, es importante aclarar que en dicha estimación no se están teniendo en cuenta
la periodicidad de los datos, dado que contamos con un panel, donde tenemos información
por individuo y tiempo. En resumidas palabras, el estimador del tratamiento puede
presentar sesgos por variables omitidas, dado que como se presentó en el punto 1, los
grupos presentan diferencias estadísticamente significativas en las variables observables y
adicional a ello, podría presentar problema de autocorrelación serial, dificultando el
cumplimiento del supuesto de independencia condicional.
Tabla 4.
regresión aprendizaje contra tratamiento sin
controles
(1)
VARIABLES aprendizaje
colegio -0.2513***
(0.048)
Constant 0.3740***
(0.034)
Observations 2,000
R-squared 0.014
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
5
Con controles:
En segunda instancia se plantea la ecuación del modelo con controles, tal como se muestra
a continuación:
Donde:
{
D i : 1 si es tratado
0 si es control
Los resultados de la estimación del modelo sin controles se pueden observar en la tabla 4,
de la cual obtenemos el siguiente modelo:
^
Aprendizaje i=0,26+0.19 ^ Mujer i+ 0.0008^
Di−0.13 ^ Salari o padrei−0.0203 ^
Educ padrei
Del modelo estimado incluyendo los controles se puede observar que, cuando el estudiante
se encuentra en un colegio tratado en promedio hay una diferencia en 0,19 desviaciones
estándar en el aprendizaje respecto al grupo control; es decir, al incluir variables de control,
el tratamiento presenta un mayor efecto positivo en los resultados de las pruebas de
aprendizaje.
Tanto el tratamiento como los controles resultan tener ser significativos con un nivel de
significancia del 1%, exceptuando el salario del padre que tiene un nivel de significancia
del 5%. Adicional a esto, de la comparación de ambos ejercicios se puede observar que, en
el modelo sin controles existe un problema de variable omitida, puesto que, al incluir
controles a la regresión el tamaño del efecto varía sustancialmente.
Tabla 5.
regresión aprendizaje contra tratamiento
con controles
(1)
VARIABLES aprendizaje
D 0.1934***
(0.042)
mujer -0.1363***
(0.036)
salario_padre 0.0008**
(0.000)
educ_padre -0.0203***
(0.007)
6
Constant 0.2676***
(0.084)
Observations 5,000
R-squared 0.008
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Por otra parte, en la tabla 6 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). Del modelo estimado incluyendo
los controles se puede observar que, cuando el estudiante se encuentra en un colegio tratado
en promedio hay una diferencia en -0,42 desviaciones estándar en el aprendizaje respecto al
grupo control; es decir, al incluir variables de control, el tratamiento presenta una mayor
diferencia en los resultados de las pruebas de aprendizaje.
Tanto el tratamiento como los controles resultan ser estadísticamente significativos, con un
nivel de significancia del 1%, exceptuando el salario del padre, el cual no resulta ser
significativo. Adicional a esto, de la comparación de ambos ejercicios se puede observar
que, en el modelo sin controles existe un problema de variable omitida, puesto que, al
incluir controles a la regresión el tamaño del efecto del tratamiento varía sustancialmente.
Por otro lado, el efecto puede estar sesgado dado que no se tiene en cuenta que la base de
datos se encuentra construida como un panel, por lo que podríamos estar atribuyendo datos
a individuos adicionales, donde los datos provienen de un mismo individuo. En ese sentido,
el modelo podría presentar problemas de autocorrelación serial, y con esto, padecer de
endogeneidad.
Tabla 6.
regresión aprendizaje contra tratamiento con
controles
(1)
VARIABLES aprendizaje
colegio -0.4298***
(0.047)
mujer 0.2117***
(0.047)
salario_padre -0.0003
(0.000)
educ_padre -0.0259***
(0.007)
Constant 0.5177***
(0.086)
Observations 5,000
R-squared 0.020
7
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
Donde:
{
D i : 1 si es tratado en el tiempot
0 si es controlen eltiempo t
Los resultados de la estimación del modelo con efectos fijo se pueden observar en la tabla 7
(modelo 3), de la cual obtenemos lo siguiente:
En primer lugar, el modelo de efectos fijos (Diff&Diff) tiene el beneficio de eliminar las
posibles correlaciones entre nuestra variable de tratamiento y las características
inobservables, la cuales no varían en el tiempo. Por lo que podríamos mitigar en parte,
posibles problemas de endogeneidad en el modelo. No obstante, al observar la base de
datos se evidencia que las características observables de los individuos no varían en el
tiempo, por lo que, al estimar efectos fijos, dichos coeficientes no se estiman como
resultado de estimar la regresión. De los resultados obtenidos se puede observar que el
efecto resulta ser significativo al 1%, siendo dicho efecto positivo, donde el hacer parte del
tratamiento presenta una diferencia de 0.07 desviaciones estándar en la prueba de
aprendizaje por encima, con respecto al grupo de control.
En relación a los modelos MCO Pooled, el modelo de datos panel nos acerca un poco más a
encontrar coeficientes que sean insesgados, dado que al controlar por efectos fijos de
individuo y tiempo, podemos aislar los posibles problemas de endogeneidad de las
variables inobservables que sean constantes por individuo y en el tiempo.
8
Tabla 7.
regresión aprendizaje contra tratamiento con controles
(1) (2) (3)
VARIABLES aprendizaje aprendizaje aprendizaje
Por otra parte, en la tabla 6 se muestran las estimaciones del modelo únicamente para los
períodos t=2 (pre-tratamiento) y t=3 (post-tratamiento). De dicho modelo, se puede
observar que la variable tratada resulta ser significativa al 1%, mientras que la variable t_1
tan solo resulta ser significativa al 10%. En relación a nuestro estimador de interés beta
tres, el cual muestra el efecto del tratamiento, se evidencia que no resulta ser significativo,
por lo que podemos afirmar con un 95% de confianza que el tratamiento de suministrar
agendas escolares no genera impacto en los niveles de aprendizaje de los niños.
Tabla 8.
regresión aprendizaje contra tratamiento con efectos fijos
(1) (2) (3)
VARIABLES aprendizaje aprendizaje aprendizaje
Al realizar la estimación del Diff & Diff, incluyendo como variable dependiente los
resultados de la prueba de aprendizaje e independiente el tratamiento placebo, observamos
que el efecto de ser tratado o no serlo, no resulta ser significativo. Estos resultados de la
prueba de falsificación confirman que las estimaciones realizadas en el punto cinco son
robustas, puesto que el tratamiento no se realizó en el tercer período, por ende, no se
debería encontrar efecto significativo alguno en la variable de tratamiento placebo.
Tabla 9.
regresión aprendizaje contra
tratamiento placebo
(1)
VARIABLES aprendizaje
D_placebo 0.0006
(0.002)
t=1 0.1008***
(0.001)
t=2 0.2217***
(0.002)
Constant -0.0458***
(0.001)
Observations 3,000
Number of id 1,000
10
R-squared 0.957
Efectos fijos año Sí
Efectos fijos de individuo Sí
Standard errors in parentheses
*** p<0.01, ** p<0.05, * p<0.1
7. Discuta los posibles resultados de esta evaluación de impacto, mecanismo por los
cuales esto puede estar pasando, debilidades del modelo y posibles implicaciones de
política pública. No más de 450 palabras. 15 puntos.
En términos de política pública, valdría la pena realizar pilotos cuya selección de los
individuos tratados se desprenda de un proceso aleatorio. De esta forma, se puede
eliminar el sesgo de selección causado por la motivación de los padres. Asimismo, se
recomienda plantear iniciativas de política pública que puedan impactar en mayor
medida los resultados de aprendizaje, como programas de tutorías para los niños que
presenten problemas de aprendizaje.
8. Suponga que tiene una base de datos con individuos observados en cuatro periodos.
Hay individuos que nunca entran el tratamiento, otros que entran durante el
segundo periodo, otros durante el tercer periodo y otros en el cuarto periodo.
Escriba una ecuación que represente la estimación de diferencias en diferencias que
se podría hacer con esta base de datos. Demuestre que esa estimación equivale al
estimador dif-en-dif visto en clase.
11
Teniendo en cuenta que los individuos se seleccionan como tratados en la medida en que
pasa el tiempo y que existe un control puro, el cual no participa en ningún periodo en el
programa. La ecuación del modelo Diff & Diff que representa este tipo de intensidades del
tratamiento, viene dada por:
Donde:
{
t 0 : 1 si es t=0
0 si es t ≠ 0
{
t 1 : 1 si est=1
0 si es t ≠ 1
{
t 2 : 1 si es t=2
0 si es t ≠ 2
{
t 3 : 1 si es t =3
0 si es t ≠ 3
{
t 4 : 1 si es t=4
0 si es t ≠ 4
Como se puede observar, la ecuación contempla efectos fijos por individuos (D i) y efectos
fijos de tiempo (tn ). Adicionalmente, contiene los estimadores del efecto de tratamiento,
los cuales varían dependiendo del tiempo, como resultado de la interacción de Di y tn.
12