Documentos de Académico
Documentos de Profesional
Documentos de Cultura
recogiendo la diferencia de la medias de las observaciones que han
experimentado el tratamiento y las que no lo han experimentado. Este modelo,
que en la literatura se denomina modelo o diseo en diferencias, es el mismo
que el denominado modelo ANOVA en el contexto del diseo experimental
cuando se considera un nico factor y este tiene solamente dos niveles. El
modelo podemos estimarlo por mnimos cuadrados ordinario (MCO) para todas
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
5
las observaciones y poder as contrastar la hiptesis de influencia del
tratamiento, es decir H0:1 = 0, con los contrastes t habituales.
El modelo en diferencias es muy limitado ya que supone que los dos
grupos de observaciones (y), correspondientes a los dos momentos del tiempo
considerados, mostraran medias iguales si no se hubiera experimentado el
tratamiento. De esta forma al haber existido tratamiento, los cambios
registrados en la variable (y) se asignan exclusivamente a este. Esta hiptesis es
difcil de mantener ya que en experimentos no controlados o difcilmente
controlables, como ocurre en el contexto de las ciencias sociales, actuarn otras
variables adems del tratamiento o efecto que queremos medir sobre la variable
resultado, de forma tal que no podemos aislar lo que pertenece a la variable
tratamiento y lo que pertenece a otras variables. El simple caso del transcurso
del tiempo, entre los dos momentos analizados, seguramente afectar a la
variable que se analiza, especialmente si se trata de una variable econmica.
Para solucionar el problema anterior se acude a un procedimiento simple
como es tener, adems del grupo objetivo al que se le aplica el tratamiento, un
grupo de control que no recibe el tratamiento. Este grupo de control nos
permitir medir el impacto de otras variables que afectan al grupo objetivo pero
que son distintas del tratamiento estudiado. A este tipo de diseo experimental
o modelo es al que se denomina de diferencias en diferencias, tomando la forma
general siguiente
ijt ijt 3 ij 2 it 1 0 ijt
X X X Y + + + +
[2]
donde Y
ijt
recoge la observacin del individuo i del grupo j en el momento t,
indicando el nuevo subndice j el grupo, con j=0 para el grupo control y j=1
para el grupo tratamiento. La variable X
it
es una variable ficticia con valor 1 si
la observacin es del momento posterior al tratamiento y 0 en cualquier otro
caso, X
ij
es una variable ficticia con valor 1 si la observacin pertenece al grupo
tratamiento y 0 en cualquier otro caso y X
ijt
es otra variable ficticia con valor 1
cuando la observacin pertenezca al grupo tratamiento y en el momento
posterior al mismo. El parmetro de inters es el que recoge la diferencia entre
el antes y el despus del tratamiento, as como la diferencia del grupo tratado
con el grupo de control, es decir el parmetro
3
, y este parmetro puede
estimarse mediante:
( )
00 . 01 . 10 . 11 . 3
y y y y
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
6
indicando las medias para todos los elementos i. As, el estimador se obtiene
calculando la diferencia entre antes y despus del tratamiento para el grupo
objetivo y eliminando de esta diferencia lo que se debe a otras causas y que se
recoge mediante la diferencia entre antes y despus para el grupo de control.
Esta forma de calcular el parmetro y que est en la esencia del modelo es lo
que hace que a este tipo de diseos se les denomine diferencias en diferencias
(DD). Los parmetros pueden estimarse por MCO, al igual que el caso anterior,
lo que nos permitir realizar los habituales contrastes.
Es fcil observar como la variable ficticia X
ijt
es igual al producto de las
variables ficticias X
ij
y X
it
y que el parmetro
1
recoge la diferencia entre el
antes y el despus del tratamiento y que el parmetro
2
recoge las diferencias
entre el grupo de tratamiento y el de control. Desde el punto de vista de un
ANOVA nos encontramos con dos factores, tiempo y grupo, con dos niveles
cada uno, y una interaccin recogida por la variable X
ijt
.
III.- ALGUNAS EXTENSIONES DEL MODELO DD
El modelo DD plantea en sus aplicaciones algunas extensiones con las
que el investigador o analista puede resolver de forma fcil ciertos problemas y
que se resumen en los siguientes puntos:
a) La existencia de otros factores externos. Puede ocurrir que existan
factores distintos del tratamiento y que estos influyan en las diferencias del
grupo objetivo antes y despus y las diferencias con el grupo de control. A este
hecho se le suele denominar interacciones omitidas y distintas a la interaccin
analizada y se presenta cuando un factor externo influye de forma diferente al
grupo objetivo y al grupo de control. Si es esta la situacin debe procederse a
una nueva especificacin del modelo que incluya ms de un tratamiento.
Supongamos la existencia de dos tratamientos (t y k) con lo que tendramos dos
grupos (j), dos momentos de tiempo (t), un nuevo impacto o tratamiento (k) y
unos individuos por grupo (i); el modelo tendra la forma
ijkt ijkt 7 ijk 6 ikt 5 ik 4 ijt 3 ij 2 it 1 0 ijkt
X X X X X X X Y + + + + + + + +
siendo ahora el parmetro de inters
7
que recoge el efecto del grupo (j), y los
dos tratamientos (k, t). En el modelo se incluyen los parmetros
3
,
5
y
6
para
recoger las interacciones de los factores (j, t), (k, t), (j, k) y los parmetros 1,
2
y
4
para los factores aislados.
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
7
b) La existencia de diferencias significativas entre individuos. Cuando,
como es habitual, los individuos o los elementos que constituyen el grupo de
control y el grupo objetivo son distintos, no se debe mantener la especificacin
inicial ya que reaccionarn de forma diferente al tratamiento en funcin de sus
propias diferencias. En este caso es aconsejable un modelo que recoja tales
diferencias en la forma
ijt ijt 4 ijt 3 ij 2 it 1 0 ijt
Z X X X Y + + + + +
[3]
donde la variable Z
ijt
recoge las caractersticas de los individuos. En el caso de
que los grupos se mantengan constantes antes y despus del tratamiento, panel
de individuos, el subndice t de la variable Z podra ser eliminado. El parmetro
4
debe ser igual en todos los grupos para garantizar la estimacin insesgada de
3
.
c) La utilizacin de perodos de tiempo ms amplios. En el caso de las
series econmicas es muy probable que se disponga de ms perodos de tiempo
para la estimacin que los dos descritos en la formulacin ms simple de
antes y despus. En tal caso tendremos una ms importante fuente de
variabilidad temporal y mayores grados de libertad para la estimacin del
modelo, simplemente permitiendo que t = 1, 2, T. Inicialmente la estimacin
ser por MCO y tendremos un mayor nmero de periodos para antes del
tratamiento y para despus del tratamiento.
d) La utilizacin de un mayor nmero de grupos de individuos. Al igual
que para el caso de la variabilidad temporal puede aumentarse la variabilidad
espacial utilizando ms grupos que el grupo tratamiento y el grupo de control.
De hecho en muchas de las aplicaciones al mundo laboral realizadas en Estados
Unidos utilizan los 50 estados existentes, cada uno un grupo, con sus
consiguientes muestras de individuos. La especificacin inicial del modelo se
mantiene, pero considerando j = 1, 2, K grupos, algunos de los cuales sern
objeto del tratamiento y otros no.
e) Considerar el modelo DD como un caso especial de modelos con datos
de panel. El modelo DD es un caso especial de un modelo general con datos de
panel de efectos fijos de la forma
it it 1 i t it
u X Y + + +
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
8
donde
t
es no observable,
el modelo a estimar ser
it it 1 t it
V X Y + +
con
V
it
=
i
+u
it
no siendo posible aceptar la incorrelacin entre V
it
y X
it
, debido precisamente a
la inclusin de
1
[5]
y sustituyendo el valor de Y
( ) +
T T T
1
[6]
Con lo que dada la correlacin entre T y el estimador ser sesgado y
tambin inconsistente pues su lmite en probabilidad no coincidir con el
parmetro poblacional. Como se recordar, entre las hiptesis bsicas del
modelo de regresin lineal se encuentra la hiptesis de que las variables
explicativas son fijas y no aleatorias y en consecuencia se acepta su
incorrelacin con el trmino de perturbacin aleatoria. Ello permite obtener
estimadores insesgados por MCO, ya que bajo este supuesto en [6]
( )
E
. Sin
embargo la endogeneidad de T nos impide considerar al tratamiento como no
aleatorio y adems estar correlacionado con e.
Esta situacin en la que existe correlacin entre la variable dependiente y
la perturbacin es similar a otros dos problemas descritos en la econometra
clsica, errores de medida en la variable explicativa y variables omitidas.
En el planteamiento de variables con error de medida y en el contexto del
modelo lineal general (MLG) se da la situacin en la que existe un modelo real
u X
~
Y +
[7]
pero en lugar de observar
X
~
observamos o medimos X
V X
~
X +
[8]
siendo V un error de medida aleatorio desconocido. En lugar de [7] nuestro
modelo ser
( ) VB u X Y +
[7]
y dada la relacin existente entre X y V, es posible que no podamos
admitir la incorrelacin entre estas variables, con lo que la variable explicativa
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
11
observada estar correlacionada con la perturbacin aleatoria, y al igual que en
[6] el estimador ser sesgado
Fijmonos que aun cuando el error de medida V no est correlacionado
con la variable explicativa no observada, los problemas permanecen. As, con
( ) 0 V , X
~
cov
tendremos que desde [8]
( ) ( ) ( ) ( )
2
v
2
0 V E V , X
~
E V , X E V , X Cov + +
[9]
Y la covarianza entre la variable observada que aparece en el modelo
estimado y el error de medida es igual a la varianza de este. Ahora la covarianza
entre la variable explicativa observada y el trmino de error ser
( )
2
v
V u , X Cov
y la estimacin ser inconsistente. En general la inconsistencia para un
estimador
i
+
[10]
y en nuestro caso
plim
( )
( )
i
i i
i i
X Var
V u , X Cov
+
y desde [8] y [9]
plim
( )
2
v
2
xi
2
v i
i i
0
+
+
,
_
2
v
2
xi
2
v
i
1
,
_
2
v
2
xi
2
xi
i
con lo que el trmino entre parntesis siempre ser menos que uno y la
estimacin por MCO siempre tender a subestimar el parmetro poblacional en
grandes muestras y ante errores de medida. Es fcil observar que cuanto mayor
sea la varianza de X, el sesgo ser ms pequeo.
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
12
La otra situacin en la que nos podemos encontrar un problema de
correlacin entre una variable predeterminada y la perturbacin aleatoria es
cuando se omite alguna variable explicativa. Ser el caso en el que en lugar de
estimar el modelo
+ + +
2 2 1 1 0
X X Y
[11]
estimamos el modelo
( )
2 2 1 1 0
X X Y + + +
[12]
expresin similar a [7] y en la que se omite la variable X2 que queda incluida
en el trmino de error u.
u X Y
1 1 0
+ +
[13]
Si las variables X1 y X2 estn correlacionadas, esta se transmitir como
correlacin entre la variable explicativa y la perturbacin y obtendremos
estimadores sesgados e inconsistentes. El sesgo del parmetro estimado, desde
[10], ser
plim
( )
( )
1
1
1 1
x Var
u , x cov
y en el que como hemos dicho el numerador no es nulo.
La solucin ms habitual al problema general de correlacin entre la
variable explicativa y la perturbacin es la utilizacin del mtodo de variables
instrumentales, procedimiento que se describe a continuacin
En el contexto del modelo lineal general (MLG)
u X Y +
donde el trmino de perturbacin aleatoria cumple las hiptesis habituales pero
existe correlacin entre X y u
plim
( ) 0 n / u X
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
13
supondremos que podemos hallar P instrumentos o variables recogidas en una
matriz Z, tal que cumplan las siguientes dos condiciones
a/ Existe correlacin entre las Z y las X
plim
,
_
zx
n
X Z
b/ Existe incorrelacin entre las Z y las u
plim
0
n
u Z
,
_
Con lo que premultiplicando el MLG por las variables instrumentales
u Z X Z Y Z +
tendremos
cov
( ) ( ) V Z Z u Z
2 2
y aplicando mnimos cuadrados generalizados al modelo transformado,
estimaramos los parmetros por el mtodo de variables instrumentales. En el
modelo transformado y estimado por MCG si se cumplir que plim
( )
Debe resaltarse que de las dos condiciones impuestas a las variables
instrumentales, la condicin (b) no se puede contrastar dada la imposibilidad de
observar u y en general ser una hiptesis del investigador en base a sus
conocimientos. Por el contrario y para una variable explicativa cualquiera (x) si
podemos contrastar la condicin (a), por lo que es habitual hacer una regresin
del tipo
+ + Z X
1 0
y hacer un contraste sobre el parmetro 1 que nos asegure su relacin con la
variable X.
Evidentemente la seleccin de los instrumentos es la parte ms compleja
del proceso, pues debe tratarse de variables no aleatorias con cierta relacin con
las variables explicativas. Como se ha mencionado, esta seleccin ser una
decisin del investigador, pero normalmente dispondr de un conjunto de
variables exgenas, distintas a las ya incluidas en el modelo.
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
14
Si suponemos el caso de dos variables explicativas, una no correlacionada
con la perturbacin aleatoria (Z
1
) y otra si (Y
2
), podemos formular el modelo
por
1 2 2 1 1 0 1
u Y Z Y + + +
[14]
donde las variables correlacionadas con u
1
pueden ser consideradas como
endgenas (Y
1
e Y
2
). La ecuacin [14] sera una ecuacin estructural y el
problema es encontrar una variable instrumental de forma tal que est
correlacionada con Y
2
pero no lo est con u
1
y a la que llamaremos Z
2
. En
general para analizar la correlacin entre Z
2
e Y
2
, se realiza la regresin
2 2 2 1 1 0 2
V Z Z Y + + +
[15]
donde se contrasta que
2
sea distinto de cero. Como se ver se incluye en
la regresin la variable exgena Z
1
dada su presencia en la ecuacin estructural,
ya que se requiere que el instrumento Z
2
tenga una correlacin de tipo parcial
con Y
2
, independientemente de Z
1
. En cierto sentido la ecuacin [15] es una
ecuacin en forma reducida al estar la endgena en funcin de todas las
exgenas.
El procedimiento puede parecer ms complejo si se tiene ms de una
variable instrumental, sin embargo es igualmente simple pues no hay porque
elegir entre ellas. Si partimos del modelo [14] y suponemos la existencia de dos
posibles variables instrumentales (Z
2
y Z
3
) la estimacin puede describirse
como un proceso en dos etapas En la primera etapa efectuamos una regresin
por MCO como en [15] para estimar la variable
2
Y
3 3 2 2 1 1 0 2
Z Z Z Y
+ + +
que ser el instrumento obtenido por combinacin lineal de las posibles dos
alternativas. Esta combinacin lineal ser ms eficiente que tomar cada
instrumento por separado, si bien habr que contrastar que
2
y
3
no sean cero,
o no lo sea alguno de los dos, pues si fuera as el instrumento estara
perfectamente correlacionado con Z
1
. A continuacin y en una segunda etapa
realizamos la regresin
1 2 2 1 1 0 1
u Y
Z Y + + +
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
15
siendo la estimacin por MCO de esta regresin el estimador por VI.
Es importante notar que en realidad es como si la variable Y
2
, tuviera dos
partes,
2
Y
Y +
con lo que el modelo fi nal es desde [14]
( )
1 2 2 2 2 1 1 0 1
u V Y
Z Y + + + +
[17]
Ello significa que si bien el trmino de error entre parntesis est
incorrelacinado con las explicativas y tiene media cero, no podemos aplicar las
frmulas habituales de MCO para calcular los errores estndar de los
parmetros ya que la varianza de la perturbacin no es
2
u
. Adicionalmente el
estimador por VI puede plantear problemas en el clculo del R
2
y en la
significacin conjunta del modelo. En primer lugar ocurre que el estimador por
VI puede proporcionar un peor ajuste o menor R
2
que si aplicamos MCO
directamente a la ecuacin estructural, pero ello no debe preocuparnos ya que el
objetivo del mtodo no es mejorar el ajuste sino proporcionar una mejor
estimacin del parmetro o efecto cuando existe correlacin con la
perturbacin.
Otro aspecto importante a tomar en consideracin es que debido a que el
estimador VI puede tener unos errores estndar muy grandes ser un estimador
menos eficiente que MCO cuando las variables explicativas sean exgenas, por
lo que se deber contrastar adecuadamente la posible endogeneidad de alguna
de ellas antes de su utilizacin. Para analizar la endogeneidad existen varias
alternativas, entre las cuales la ms habitual sera la de realizar la estimacin
por MCO y VI y ver si ambas estimaciones difieren significativamente o no.
Por su parte Wooldrige (2006) propone estimar la forma reducida [15], donde el
trmino de error V
2
estar incorrelacionado con el error u
1
, de la forma
estructural [14], solamente si Y
2
est incorrelacionada con u
1
lo que permitira
rechazar la endogeneidad. Para ello estimara
2
V
Y Z Y + + + +
contrastara si 1=0 con el estadstico t, para en el caso de aceptar la
hiptesis rechazar la endogeneidad de Y
2
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
16
En el contexto que estamos analizando de los modelos DD debe sealarse
el importante trabajo de Besley y Case (2000) ya que se centran en el problema
de la endogeneidad en los modelos con polticas y tratamiento. Para ello
utilizan la especificacin
[ ] + + + + +
st st st s t st st
Z u P c b a X Y
16]
donde
X
st
= vector de caractersticas de los individuos promediadas para el
estado s en el momento t
B
t
= efecto del ao
c
s
= efecto del estado
P
st
= efecto del tratami ento
Z
st
= variables econmicas (Q
st
) y variables polticas (W
st
) que
influyen sobre P
st
U
st
= error que recoge otras infl uencias no observables sobre Y
st
y
ortogonales con z
st
Ntese que z
st
son variables observables que no estn recogidas en la
ecuacin pero que al influir sobre P
st
inciden sobre la variable endgena y por
tanto nos encontramos con la situacin en que las variables omitidas generan la
endogeneidad del tratamiento. Por otro lado el inters del anlisis se centrar
fundamentalmente en la estimacin del parmetro .
A efectos de solucionar el sesgo por la endogeneidad de la poltica o
tratamiento Besley y Case (2000) eliminan o filtran la influencia de las
variables X, ao y estado sobre la variable endgena, el tratamiento y las
variables z, con lo que las nuevas variables
Y
~
,
P
~
,
Z
~
sern ortogonales a X,
efecto ao y efecto estado. A continuacin reescriben [16] por
[ ] + +
st st st st
Z
~
u P
~
Y
~
[17]
y dado que en nuestra hiptesis el tratamiento es endgeno y dependiente
de las variables Z,
V Z
~
P
~
+
[18]
La estimacin por MCO de ser
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
17
( ) Y
~
P
~
P
~
P
~
1
y sustituyendo el valor de
st
Y
~
, en forma matricial sin considerar subndices,
( ) ( ) + +
Z
~
P
~
P
~
P
~
u P
~
P
~
P
~
1 1
Con lo que si sustituimos
P
~
por su expresin [18] y hallamos el lmite de
probabilidad eliminando los trminos iguales a cero, quedar
Plim
+plim
+
1
1
]
1
,
_
,
_
n
u v
n
P
~
P
~
1
plim
1
1
]
1
,
_
,
_
n
z z
n
P
~
P
~
1
[19]
La anterior expresin nos indica que existen por tanto dos fuentes de
sesgo, la correspondiente al primer corchete y que se debe a variables no
observables que influyen sobre la endgena y el tratamiento y la del segundo
corchete que se debe a variables observables pero omitidas que influyen sobre
el tratamiento. Evidentemente el primer caso es ms difcil de solucionar,
mientras que el segundo puede abordarse mediante una adecuada especificacin
del modelo. Sin embargo, y para este segundo caso, Besley y Case demuestran
en su trabajo el fuerte sesgo que se origina al eliminar algunas de las variables
que influye sobre el tratamiento.
Para solucionar la endogeneidad del tratamiento utilizan variables
instrumentales, con la variante de que el procedimiento sera encontrar variables
que se relacionan o tienen efecto sobre la poltica pero no sobre la variable
dependiente o resultado, proponiendo los autores una nueva aproximacin
mediante el uso de variables polticas como instrumentales.
Entre las conclusiones bsicas del trabajo hay que destacar la necesidad
pero tambin la dificultad de que las variables econmicas influyan de la misma
manera a los eleme ntos, grupos o estados, por lo que se convierte en
trascendental la eleccin del grupo de control. Adicionalmente los autores
recomiendan analizar previamente la influencia de variables econmicas o
polticas sobre la variable tratamiento, e incluso estimar una funcin de
comportamiento del tipo [18], ya que ello ayudar a la eleccin del grupo de
control y a la seleccin de los instrumentos finales.
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
18
b) Correlacin intragrupo. Cuando en el modelo de regresin las
perturbaciones son no esfricas se incumple la hiptesis de que
( ) I uu E
2 '
y
en su lugar tenemos
( ) V uu E
2 '
. Esta situacin invalida los test de inferencia
habitualmente usados cuando se estima el modelo por MCO, ya que si bien los
estimadores mnimo cuadrticos son insesgados la matriz de varianzas de los
parmetros no tiene la habitual frmula
( ) ( )
1
' 2
x x Var
[20]
sino que la correcta expresin es
( ) ( ) ( )
1
' '
1
' 2
x x Vx x x x Var
[21]
con lo que la aplicacin de los contrastes t es incorrecta. Pero an en el
supuesto de que podamos estimar la varianza de
Con lo que si utilizamos la habitual forma de calcular la varianza,
( )
1
' 2
x x
, pero tambin de la
correlacin intragrupo de las variables explicativas. Moulton (1990) propone
para el clculo de las covarianzas la frmula propuesta por Klock (1981) en el
caso en que todas las explicativas sean agregadas por grupos
( ) ( ) [ ] +
1 m 1 x x C
1
1 2
siendo m el tamao de los grupos. Si bien la expresin no es exacta proporciona
una simple y aceptable aproximacin. Mediante un modelo de determinacin de
salarios, con una baja correlacin de la perturbacin intragrupo pero con un
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
21
elevado tamao muestral, demuestra el fuerte sesgo que se produce en la
varianza de los parmetros y en consecuencia la escasa fiabilidad de los
contrastes t de los parmetros. Mas recientemente Pepper (2001) plantea que si
la poblacin est dividida en cluster o grupos y estos son suficientemente
elevados en nmero, la estimacin puede realizarse tomando como unidad el
cluster en lugar de los individuos y obtener as los parmetros por mnimos
cuadrados ordinarios, estimando su matriz de varianzas covarianzas mediante
( ) ( )( ) { }( )
1
'
c
'
t t
'
c
c
1 c
1
'
c
x x x u u x x x V
siendo C el nmero de grupos y
c
u
el vector de residuos mnimo cuadrativos del
cluster o grupo c. Con un ejemplo Pepper demuestra como el tamao del grupo
o cluster tiene fuertes efectos sobre la correlacin de la perturbacin dentro del
grupo y como esta afecta a la desviacin tpica de los parmetros.
c) Autocorrelacin en la perturbacin aleatoria El trabajo ms importante en
esta lnea es el desarrollado por Bertrand, Duflo y Sendhil (2004), donde parten
de la siguiente formulacin del modelo DD
ist st ist t s ist
t cX B A Y + + + +
[19]
en el que A y B son efectos fijos para estados y tiempo, X
ist
es la variable de
caractersticas de los individuos, T es una variable ficticia con valor 1 cuando el
tratamiento afecto al grupo s en el momento t y el parmetro de impacto del
tratamiento es , normalmente estimado por MCO. El problema se centra en
que el modelo planteado tenga correlacin serial, una correlacin que puede
producirse debido a tres causas. Primero, porque los modelos DD plantean
muchas veces largas series de tiempo, tal y como demuestran Bertrand y otros
(2004) en su revisin de trabajos previos y en el que estiman un promedio de
16,5 perodos para todos los trabajos analizados. Segundo, porque las variables
dependientes, usadas normalmente en los modelos DD, presentan correlacin
serial positiva. Tercero, y ms importante, porque la variable tratamiento T
st
cambia muy poco para un mismo grupo a lo largo del tiempo.
El problema surge, como es bien conocido en econometra, cuando
existiendo autocorrelacin se estima por mnimos cuadrados ordinarios, ya que
si bien los estimadores sern insesgados y consistentes(*), tambin sern
ineficientes y en consecuencia los procedimientos de inferencia habituales no
(*)
La consistencia se mantendrn si entre las variables explicativas no figura la variable endgena desplazada.
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
22
sern correctos. As y al igual que se expona en el apartado anterior, cuando
( ) v u u E
2
, la verdadera matriz de varianzas covarianzas de los estimadores no
ser [20] sino la expresin recogida en [21].
En general, las frmulas habituales, si la autocorrelacin es de primer
orden y positiva, generar una infravaloracin del error estndar, mientras que
si es negativa tender a sobrevalorarlo. El sesgo depender de la correlacin
serial de las variables explicativas y como sealan Bertrand, Duflo y Sendhil,
en los modelos DD la variable tratamiento est muy correlacionada ya que vara
muy poco para un estado, 0 antes del tratamiento y 1 despus. Estos autores
analizan 92 trabajos de publicaciones relevantes, determinando la longitud del
periodo analizado, la naturaleza de la variable dependiente y el mtodo usado
para estimar el error estndar de los parmetros, encontrando que 69 de ellos
tenan ms de dos periodos, que solamente 4 agrupaban o colapsaban los datos
en antes y despus del tratamiento y que de los 65 restantes solamente 5
utilizaban algn procedimiento para solucionar la posible autocorrelacin.
Caractersticas de artculos con modelos DD (1990-2000)
Artculos modelos DD ...................................................92
Artculos con ms de 2 perodos.....................................69
Modelos que colapsan (antes-despus) ...........................4
Modelos con potenciales problemas autocorrelacin.....65
Modelos con solucin a la correlacin............................5
MCG............................................................4
Estimacin ................................................1
Promedio de periodos de tiempo.....................................16,5
Fuente: Bertrand, Duflo, Sendhil (2004)
En el mismo trabajo plantean un modelo para el
logaritmo de los salarios de las mujeres entre 25 y 50 aos, con variables tales
como tipo de empleo, eduacin, edad y estado de residencia para el periodo
1979-1999, lo que les permite defi nir 1050 clulas (50 estados por 21 aos) y
en cada una de ellas 300 mujeres. Los autores encontraron que los residuos
obtenidos por la regresin del logaritmo de los salarios sobre ficticias de estado
y tiempo, comunes para toda la muestra, estaban altame nte autocorrelacionados.
Adicionalmente y de forma aleatoria generaron leyes o impactos que afectaron
a algunos estados en el periodo 1985-1995, de forma tal que disponan de
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
23
observaciones suficientes antes y despus de la intervencin. Consideraron a la
mitad de los estados afectados por la ley, es decir 25 estados, aunque no hubiera
sido as, mediante la variable ficticia T
st
, con valor 1 para las mujeres que viven
en el estado despus de la intervencin. Para esta situacin simulada estimaron
el modelo DD [19] por MCO, obteniendo el parmetro y su error estndar. La
simulacin, con lo que denominan intervencin Placebo, se repiti un gran
nmero de veces, esperando que la hiptesis nula del parmetro se rechazara un
5% de las veces, ya que el parmetro realmente era nulo dada la inexistencia de
tratamiento y la seleccin aleatoria de los estados. Adicionalmente generan otra
simulacin en la que a la variable endgena la sumaron t
st
*0,02, con lo que si
generaron un efecto directo debido al tratamiento. Sin embargo en la simulacin
Placebo la hiptesis nula no se rechaz un 5% como era de esperar sino casi
un 67,5% de las veces, demostrndose la tendencia a sobrerrechazar la hiptesis
nula en el modelo DD. Cuando se utiliz la segunda simulacin, en la que si
existe efecto, la hiptesis nula se rechaz el 85,5% de las veces.
La primera explicacin para que se produzca este error al rechazar la
hiptesis nula reside en la crtica de Moulton (1990), ya que las estimaciones
anteriores no consideran la probable correlacin intragrupo, en este caso ao y
estado y la matriz de varianzas covarianzas de la perturbacin aleatoria en lugar
de ser diagonal puede ser bloque-diagonal. Para solucionarlo puede aceptarse
que hay un efecto aleatorio y plantear el modelo como
it st st it t s ist
U T cX A Y + + + + +
Estimando este modelo con la correccin de White (1984), rechazan la
hiptesis nula en la simulacin un 44% de las veces. Otra alternativa de
solucin es agregar los datos al nivel de estado-ao, obteniendo un panel de
estados sobre el tiempo. Para ello primero se efecta una regresin de los
salarios sobre las variables de control (educacin y edad) y se obtienen los
residuos. Las medias de estos residuos sern los datos a utilizar en el modelo
st st t s st
T Y
~
+ + +
En este caso se rechaza la hiptesis nula el 43,5% de las veces, y dado
que la correlacin intragrupo forzosamente se ha solucionado con la agregacin,
Bertrand, Duflo y Mullainathan concluyen que hay otra razn importante y que
no es otra que la correlacin serial del trmino T
st
, es decir de la propia
intervencin. Para demostrarlo generan diferentes tipos de intervenciones,
aleatorizando la fecha despus de la cual los estados del grupo tratamiento son
afectados. Seleccionan 10 fechas entre 1979 y 1989 y la intervencin se define
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
24
cuando la observacin es de un estado del grupo tratamiento en uno de los 10
aos de intervencin. Con esta simulacin encuentran que la hiptesis nula
solamente se rechaza un 6% de las veces.
Adicionalmente y con nuevas simulaciones en las que utilizan variables
endgenas alternativas demuestran como el nmero de rechazos aumenta con
los tamaos de los coeficientes de autocorrelacin de estas variables y como
manipulando los datos y la estructura del error, tambin el nmero de rechazos
aumenta segn aumenta el parmetro en el caso de un AR (1). En lo que se
refiere al nmero de estados o unidades obtienen que no afecta al nmero de
rechazos pero si observan que disminuye con el nmero de periodos de tiempo.
Ante el problema, que como se ha visto es bastante importante, de la
correlacin serial caben varias soluciones. En primer lugar estimar el verdadero
error estndar de los parmetros y no mediante la frmula habitual de MCO.
Los citados autores estiman sobre los residuos minimocuadrticos la matriz ,
pero se reduce solo hasta el 34,5% los rechazos de la hiptesis nula,
consecuencia de las pocas observaciones temporales y de la dificultad de
conocer la verdadera estructura del proceso.
Una segunda solucin es la denominada block bootstrap proceso por el
que se estiman en la ecuacin [19] los residuos para cada estado, y con ellos
unas nuevas variables endgenas y unos nuevos parmetros, obtenindose as
una distribucin de los parmetros y elaborndose las pruebas de rechazo. Con
este procedimiento en la simulacin la mejora es escasa.
En tercer lugar se puede utilizar la informacin de los estados para
estimar el proceso de autocorrelacin, suponiendo que este proceso es el mismo
para todos los estados. De esta forma tendremos tantas estimaciones del proceso
como estados, lo que equivale al caso economtrico de un sistema de
ecuaciones aparentemente correlacionadas. Utilizando este procedimiento el
nmero de rechazos desciende al 7,75%, pero tambin es bajo en la simulacin
en la que si existe efecto, lo que la hace poco aconsejable.
En cuarto lugar, un mtodo que obtiene buenos resultados cuando el
nmero de unidades es suficientemente grande, se basa en una generalizacin
de la frmula de White (1984) para calcular la matriz de varianzas covarianzas
( ) ( )
1
n
1 j
j j
1
X X u u X X V
c
,
_
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
25
siendo: X = matriz de variables explicativas
n
c
= total de estados
T
1 t
jt jt j
e u
E
it
= residuo en estado j en el momento t
jt
= vector fila de variables independientes incluyendo la constante
Con este mtodo el nmero de rechazos alcanza el 6% y cuando existe
efecto del tratamiento llega al 78%.
En quinto lugar, otra solucin alternativa para evitar la correlacin serial
es eliminar la variacin temporal cuando se calcula el error estndar. Para ello
se promediara la informacin antes y la informacin despus con lo que habra
solamente dos momentos de tiempo para la estimacin, manteniendo toda la
variacin espacial. Con este procedimiento en el experimento, el nmero de
rechazos cae hasta el 6%, pero en el caso de impacto real solo sube hasta el
29,5%.
La aproximacin ms adecuada para Bertrand, Duflos y Sendhil es la que
denominan inferencia aleatorizada en la que calculan los modelos DD para
leyes aleatorias placebo, para desde estas estimaciones construir la distribucin
emprica de los efectos de estas leyes falsas y posteriormente efectuar con
ellas los contrastes de significacin de las verdaderas leyes
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
26
Referencias
Ashenfelter, O. & Greenstone, M. (2004): "Using Mandated Speed Limits to
Measure the Value of a Statistical Life". Journal of Political Economy,
University of Chicago Press, vol. 112(S1), pages S226-S267, February.
Bertrand, M., Duflo, E., Mullainathan, S. (2004): How Much should We Trust
Difference-in- Differences Estimats. The Quarterly Journal of Economics,
2004, Vol 119, 1, pages 249-275.
Besley, T., Case, A. (2000): Unnatural experiments? Estimating the incidente
of endogeneus policies. The Economic Journal, 110. Nuremberg 2000 pginas
F672-F694.
Buchmueller, T. y Valletta, R. (1999): The Effect of Health Insurance on
Married Female Labor Suplly. The Journal of Human Resources, Vol. 34,
N.1, pp. 42-70.
Card, D. (1990): "The Impact of the Mariel Boatlift on the Miami Labor
Market". Industrial and Labor Relations Review 43 (January 1990).
Card, D. E. & Krueger, A.B.(1995): Myth and Measurement: The New
Economics of the Minimum Wage. Princeton: Princeton University Press.
Grogger, J y Willis, M. (2000): The Emergence of Crack Cocaine and the Rise
in Urban Crime Rates. The Review of Economics and statistics, Vol. 82, N 4,
pp. 519-529.
Gruber, J. (2000): Disability Insurance Benefits and Labor supply. The
Journal of Political Economy, Vol. 108, N. 6, pp. 1162-1183
Johnston, J. y Dinardo, J. (2001): Econometric Methods. Vicens-Vives,
2001.
Katz, L. y Kessler, D. (2001): Prevailing Wage Laws and Construction Labor
Markets. Industrial and Labor Relations Review, Vol. 54, N 2, pp. 259-274.
Maki, Dean M. (2001): Household Debt and the Tax Reform Act of 1986.
The American Economic Review, Vol. 91, N.1, pp. 305-319
Problemas de estimacin y contraste en los modelos de diferencias en diferencias
Instituto L.R. Klein Centro Gauss. U.A.M. D.T. n 13. Mayo 2006
27
Moulton, B.R., (1990): An illustration of a Pit fall in estimating the effects of
aggregate variables on micro units. The Review of Economics and Statistics
72, 334-338.
Neumark, D. y Wascher, W. (2001): Minimum Wages and Training
Revisited. Journal of Labor Economics, Vol. 19, N. 3, pp. 563-595.
Pepper, J.V., (2002): Robust inferences from random clustered samples: an
application using data from the panel study of income dynamics. Economics
letters, Vol 75, N 3, May 2002, 341-345.
Vicns, J. (1995): Modelos con Variables cualitativas Dicotmicas. Instituto
de Prediccin Econmica Lawrence R. Klein. Documento 95/5
White, H. (1984): Asymptotic Theory for Econometricians. San Diego, CA:
Academic Press.
Wooldridge, J. (2006): Introduccin a la econometra. Thomson.