Gerring y Christenson 2017

Machine Translated by Google
METODOLOGÍA DE LAS CIENCIAS SOCIALES APLICADAS :
UNA GUÍA INTRODUCTORIA
Juan Gerring
Dino Christenson
Departamento de Ciencias Políticas
Universidad de Boston
Próximamente, Cambridge University Press, 2017
Borrador: 7 de junio de 2016
Conteo de palabras (excluyendo la Parte IV): 140,000
Comentarios bienvenidos!
1
Contenido
Prefacio................................................. .................................................... .................................................... ......18
I. BLOQUES DE CONSTRUCCIÓN ............................................... .................................................... ..........................22
1. Un marco unificado ............................................... .................................................... ..........................24
2. Argumentos................................................... .................................................... ..........................................37 3. Conceptos
y Medidas. .................................................... .................................................... ...........58 4.
Análisis .................................. .................................................... .................................................... ...............78
II. CAUSALIDAD................................................. .................................................... ..........................................94
5. Marcos causales ............................................... .................................................... .............................95
6. Hipótesis y análisis causales .................................................. .................................................... ..... 122 7. Diseños
experimentales........................................... .................................................... ............................ 141 8. Diseños observacionales
de N grande .................. .................................................... ..................................... 163 9. Diseños de estudios de
caso ....... .................................................... .................................................... ............... 186
10. Diversas herramientas de inferencia causal ........................................... ............................................. 202
tercero PROCESO Y PRESENTACIÓN ............................................................... .................................................... 214
11. Leer y repasar ............................................... .................................................... .......... 215 12. Lluvia de
ideas ............................... .................................................... ....................................................... 232 13. Recopilación de
datos .................................................. .................................................... .......................... 245 14.
Escritura .................. .................................................... .................................................... .................... 283
15. Hablando................................ .................................................... .................................................... ........ 303
dieciséis. Ética................................................. .................................................... .......................................... 314
IV. ESTADÍSTICAS ( doc aparte) .................................................. .................................................... ...................... 323
Referencias.................................................. .................................................... .................................................... .324
Índice .................................................. .................................................... .................................................... .......... 335
2
8. DISEÑOS OBSERVACIONALES N GRANDES
Hay muchos problemas potenciales con los diseños experimentales, como se revisó en el capítulo anterior.
Sin embargo, generalmente ocurre que los experimentos tienen un reclamo de validez interna mucho más fuerte que la
investigación no experimental. En la medida en que esto último puede justificarse es porque los experimentos son imposibles
o porque carecen de validez externa. Da la casualidad de que esto es bastante común. Y esto, a su vez, explica el
predominio actual de los diseños observacionales en el trabajo de las ciencias sociales.
En este capítulo, revisamos varios enfoques para el análisis de muestras grandes sin
aleatorización (El capítulo siguiente aborda el análisis de muestras pequeñas sin aleatorización, es decir,
estudios de casos). Se distinguirán cinco diseños de investigación arquetípicos: transversal (CS), serie temporal (TS),
transversal de serie temporal (TSCS) , discontinuidad de regresión (RD) y variable instrumental (IV), como se resume en
98
la Tabla 8.1.
Estos términos se definen por la variación observada en X, el factor causal de interés o el instrumento por el cual
se asigna el tratamiento. En un diseño de sección transversal, la variación observada en X es entre unidades; esto es lo
que proporciona el apalancamiento para la inferencia causal. En un diseño de series de tiempo, la variación observada en X
es a través del tiempo, típicamente con una sola unidad o caja. En un diseño de sección transversal de series de
tiempo, la variación observada en X es tanto a través de las unidades como a lo largo del tiempo. En un diseño de
discontinuidad de regresión, la variación observada está en X justo por encima y por debajo de un límite arbitrario.
En un diseño de variables instrumentales, la variación observada está en un instrumento, Q, que afecta la asignación al tratamiento, X.
Es importante tener en cuenta que la mayoría de estos términos también tienen una definición más
estrecha y técnica como un tipo de modelo estadístico. Por ejemplo, una sección transversal en el sentido estadístico es un
análisis en el que se observa un conjunto de unidades en un solo punto en el tiempo. Una serie temporal en el
sentido estadístico es un análisis en el que se observa una unidad a lo largo del tiempo. Y una sección transversal de serie
de tiempo es un análisis en el que un conjunto de unidades se observa lateralmente (entre unidades) y longitudinalmente
(a través del tiempo). Aquí, nuestro énfasis está en las propiedades del diseño de investigación que podrían
conducir a la inferencia causal. Tenga en cuenta, por ejemplo, que una serie de tiempo (en el sentido estadístico) no es muy
útil a menos que se observe una variación en X contenida dentro de la serie de tiempo, por lo que definimos un diseño de
serie de tiempo de esta manera en lugar de un diseño iterado. conjunto de observaciones a través del tiempo. Como
anteriormente en este libro, nuestro énfasis está en las propiedades de diseño de la inferencia causal más que en los métodos
estadísticos de análisis (un tema pospuesto hasta la Parte IV).
Dicho esto, hay una mayor discusión de los métodos de análisis estadístico en este capítulo que en los capítulos
anteriores. Esto se debe a que corregir las deficiencias de los diseños de observación requiere métodos más complejos
de análisis de datos. Si bien un experimento bien construido se puede analizar simplemente comparando los valores
medios de Y entre los grupos de tratamiento (Y1) y control (Y0) , llegar a una inferencia causal con datos observacionales
no es tan simple. Dicho sin rodeos: si no puede manipular el tratamiento (ex ante), necesita hacer un poco de manipulación
de datos (ex post) para llegar a resultados que plausiblemente puedan considerarse evidencia de una relación causal.
Esto significa que debemos introducir técnicas de análisis de datos como la regresión y el emparejamiento ,
técnicas que no se tratan
98 Otro enfoque de la inferencia causal es a través del mecanismo (M) que conecta X con Y. Sin embargo, este enfoque de “puerta
de entrada” sigue siendo inusual. Para una discusión más detallada, consulte Glynn, Gerring (2013), Morgan, Winship (2007),
Pearl (2009).
163
con formalmente hasta la Parte IV. Los lectores que encuentren confuso este método de exposición pueden
querer leer los capítulos relevantes en la Parte IV antes de leer este capítulo.
Tabla 8.1: Diseños de investigación observacional de N grande
Sección transversal (CS) •
Variación en X analizada entre unidades pero no a través del tiempo.
Serie temporal (TS) •
Variación en X analizada a través del tiempo pero no entre unidades (todas las unidades están expuestas al mismo tratamiento
condiciones, o sólo hay una unidad).
Sección transversal de serie temporal (TSCS)
• Variación en X analizada entre unidades y a través del tiempo (p. ej., panel, diferencia en diferencia y cruz agrupada) .
sección)
Discontinuidad de regresión (RD)
• Variación en X analizada justo por encima y por debajo de un límite arbitrario.
Variables instrumentales (IV) • La
variación en Q afecta la asignación al tratamiento (X) pero no al resultado (Y).
DISEÑOS TRANSVERSALES
Considere la situación cuando un programa de capacitación de trabajadores se administra de forma voluntaria:
todos los desempleados que desean asistir lo hacen y aquellos que no forman el grupo de control. Una prueba
posterior realizada un año después de la finalización del programa mide los ingresos de los trabajadores de
quienes asistieron al programa y de quienes no lo hicieron. El diseño se ilustra con X y O en la tabla 8.2.
Tabla 8.2: Diseño de la Sección Transversal
I. XT
Grupos
II. T1
XC
T1 Mediciones de variables clave después de la
intervención
XT Condición de tratamiento (X=1)
XC Condición de control (X=0)
164
Superficialmente, este diseño es idéntico al diseño experimental posterior a la prueba, ilustrado en la Tabla
7.1. Sin embargo, en condiciones de elección voluntaria, no es probable que logremos la comparabilidad entre los grupos
de tratamiento y control, ya que es probable que se inscriban aquellos con mayor motivación, y su mayor motivación, más
que el contenido del programa en sí, puede explicar su ingresos superiores en relación con el grupo de control.
Como tal, los factores de fondo no son los mismos en los dos grupos, una característica ilustrada en la Figura 8.1. En
consecuencia, el valor esperado de Y, dado X, no es el mismo en todos los grupos.
Figura 8.1: Datos transversales: un escenario típico
C (grupo de control) T (grupo de tratamiento)
X=0 X=1
(Débilmente motivado) (Fuertemente motivado)
E(Y|X) no es lo mismo para los grupos de tratamiento y control
165
Figura 8.2: Gráfica causal con factor de confusión de causa común
Z
[ ]
X Y
X = factor causal
Y = Resultado
Z = Confundidor de causa común
[ ] = No condicionado
El confusor problemático en este caso es un confusor de causa común, llamado así porque afecta tanto al factor
causal (X) como al resultado (Y). En este caso, es más probable que una persona desempleada altamente motivada
seleccione el tratamiento y tenga mayores ingresos en comparación con aquellos con menor motivación. El gráfico causal asociado
se ilustra en la Figura 8.2.
Hay varios enfoques para este tipo de problema. La más simple y común es condicionar en Z, el factor de confusión
potencial. Lo que esto significa es que en lugar de simplemente observar la relación entre X e Y , ahora debemos examinar una
relación multivariante: X→Y, manteniendo Z
constante.
Esto es más fácil de explicar si asumimos que Z, como X, es binario. Digamos que la motivación es una cualidad binaria; uno
lo tiene o no lo tiene; e imaginemos que este rasgo de una personalidad puede medirse. Esto nos permite presentar la combinación
de valores posibles en una matriz de 2x2, como se muestra en la Figura 8.3.
Con esta matriz, perseguimos dos tipos de comparaciones. Primero, comparamos valores para el resultado, Y, cuando
XC (X=0) y XT (X=1), manteniendo Z constante en 0 (personas desmotivadas). Restando de lo mismo para la siguiente fila.
Z=1 (personas YX=1,Z=0 obtenemos el efecto causal para todos los casos donde Z=0. A continuación, hacemos
YX=0,Z=0
Restando donde
motivadas). YX=0,Z=1 desde YX=1,Z=1 obtenemos el efecto causal para todos los casos
166
Figura 8.3: Condicionamiento sobre un factor de confusión de causa común: una ilustración
0 1
0 YX=0,Z=0 YX=1,Z=0
Z
1 YX=0,Z=1 YX=1,Z=1
X = factor causal (0/1) Z = factor de confusión de causa común (0/1) Y = resultados (en promedio) para aquellos
sujetos a la combinación especificada de valores a lo largo de X y Z.
Esto se puede lograr con el método de lápiz y papel que acabamos de revisar, o con estimadores (p.
ej., regresión o emparejamiento) que son capaces de acomodar una gran cantidad de factores de confusión.
Tenga en cuenta que aunque la mecánica de presionar botones en un programa de software es fácil, hay una gran
cantidad de suposiciones envueltas en este tipo de análisis. Cada uno debe ser cierto, o el resultado será falso.
Volviendo a nuestro ejemplo, examinemos algunos de los problemas potenciales. Primero, debemos
supongamos que hemos tenido en cuenta adecuadamente el supuesto factor de confusión de causa
común, la motivación. Desafortunadamente, este es un asunto difícil de medir. No se puede simplemente
preguntar a las personas si están muy motivadas y esperar recibir una respuesta honesta. Esto no se debe
simplemente a que las personas mientan, sino también a que las personas no siempre son conscientes de cuán
motivadas están o cuán persistentes serán en la búsqueda de sus objetivos. Por supuesto, ayudaría si
midiéramos la motivación de una manera más sensible. En lugar de una escala binaria, podríamos usar una escala
de intervalo, que se extienda, digamos, de 0 a 100. Entonces se debe asumir una función particular, digamos, lineal o
logarítmica lineal, para representar la relación entre la motivación y las ganancias, y se debe adoptar un marco
de regresión para realizar el análisis, que implica suposiciones adicionales (ver Parte IV).
En segundo lugar, se debe suponer que se han tenido en cuenta todos los factores de confusión adicionales que pueden
estar. La motivación es solo un posible factor de confusión. Puede ser que quienes se inscriban en el programa de
capacitación de trabajadores estén más calificados, o menos calificados, que quienes no lo hacen. Puede ser que los
hombres, los blancos o los protestantes estén sobrerrepresentados en relación con las personas desempleadas que no
se unen al programa. Cada una de estas características puede afectar el resultado, medido como ganancias y, por
lo tanto, puede servir como factor de confusión. ¿Cómo saber si se han incluido todos estos factores como controles
en el análisis? (¿Qué pasa si algunos de ellos son imposibles de medir?) Esto se conoce como sesgo de variable
omitida.
En tercer lugar, se debe suponer que todos los factores incluidos como controles en el análisis en realidad son
factores de confusión Si no son factores de confusión, pueden introducir factores de confusión en un análisis por lo
demás válido. Este suele ser el caso si los factores se miden en una prueba posterior, es decir, después de que se
haya administrado el tratamiento (el programa). Supongamos, por ejemplo, que medimos la motivación al final de un
programa de formación de trabajadores en lugar de al principio. En este caso, podríamos imaginar que los niveles
de motivación de los desempleados que participan en el programa estarían influenciados por su participación en el
programa. Si es un programa bien administrado, es posible que se sientan más motivados para encontrar trabajo que
al principio. De hecho, esto puede servir como un mecanismo causal importante si el programa tiene el impacto
deseado. Condicionar a este factor en un análisis multivariante bloqueará el impacto de
167
X sobre Y, lo que da como resultado una estimación atenuada y tal vez ocluye por completo el efecto causal, como
se ilustra en la Figura 8.4.
Figura 8.4: Gráfico causal con confusor mecanicista (posterior al tratamiento)
X Z Y
X = factor causal
Y = Resultado
Z = Confundidor mecanicista
Otro problema potencial planteado por el condicionamiento involuntario de factores que no son de confusión
es el colisionador. En su versión más simple, se genera un factor de confusión cuando se condiciona un factor que se ve
afectado tanto por el factor causal de interés (X) como por el resultado (Y), como se muestra en el diagrama de la Figura 8.5.
Considere el siguiente escenario. En un intento por condicionar todos los posibles factores de confusión de causa común en
el análisis de un programa de formación de trabajadores, se decide incluir la afiliación sindical como una covariable en el
modelo causal. Sin embargo, si la afiliación sindical (Z) se ve afectada por la participación en el programa de
formación de trabajadores (X) y por los ingresos (Y), se genera una relación espuria entre X e Y.
Es decir, entre los afiliados al sindicato (Z=1) se observará una covariación entre la participación en el programa y los
ingresos que no es causal. Asimismo, entre los no afiliados (Z=0) se observará una covariación entre la participación
en el programa y los ingresos que no es causal.
168
Figura 8.5: Gráfica Causal con Colisionador de Confusión
X Y
X = factor causal
Y = Resultado
Z = Colisionador de confusión
Finalmente, si la entrada al programa es voluntaria, uno puede imaginar que el resultado
(ganancias) podría influir en la participación. Por ejemplo, si el programa no es gratuito, aquellos con ingresos
más altos (antes de su período actual de desempleo) pueden estar en una mejor posición para participar.
Incluso si es gratis, es más probable que participen porque pueden darse el lujo de renunciar a las ganancias
actuales para mejorar las ganancias futuras. Aquellos con pocos o ningún ahorro pueden verse obligados a
aceptar el primer trabajo que encuentran, presumiblemente un trabajo mal pagado, en lugar de asistir a un
programa de capacitación laboral que promete mayores recompensas en algún momento en el futuro. Este tipo
de circularidad entre causa y efecto, ilustrada en la Figura 8.6, también sesgará el análisis. En este caso,
dará como resultado una correlación más fuerte entre X e Y que la que garantiza el efecto independiente de
X sobre Y. Al igual que con los factores de confusión de causa común, es posible restaurar la comparabilidad
entre los grupos de tratamiento y control bloqueando la circularidad. camino. En este caso, eso requeriría
condicionar los ingresos o la riqueza previos al tratamiento.
169
Figura 8.6: Gráfico causal con confusión circular
[ ]Z
X Y
X = factor causal
Y = Resultado
Z = Confundidor
[ ] = No condicionado
EJEMPLO
Los grupos étnicos están en todas partes, pero sólo en algunos casos se convierten en forraje para la política,
es decir, líneas de división entre agrupaciones partidarias. Aquí radica una pregunta clásica sobre la construcción
de identidades políticas. Daniel Posner supone que la prominencia política de las fronteras étnicas tiene mucho
que ver con el tamaño de los grupos étnicos en relación con el tamaño de la entidad política. Específicamente,
“Si [una] división cultural define grupos que son lo suficientemente grandes como para constituir coaliciones
viables en la competencia por el poder político, entonces los políticos movilizarán a estos grupos y la división
que los divide se volverá
políticamente destacada”. 99 Para lograr esto hipótesis, Posner se aprovecha de la naturaleza arbitraria de la política
fronteras en África, donde las fronteras nacionales son en gran medida el producto de luchas coloniales
intraeuropeas más que de la construcción de naciones indígenas. Esto significa que, a diferencia de las
fronteras políticas en Europa, las fronteras en África pueden considerarse elementos aleatorios del
universo político. El problema de la asignación está presumiblemente (o al menos plausiblemente) resuelto. En
particular, Posner se enfoca en la frontera entre Zambia y Malawi, que ha separado a miembros de dos tribus,
Chewa y Tumbuka, desde 1891, cuando estos territorios estaban en manos de los británicos (como el
noreste y el noroeste de Rhodesia). Como producto de este ejercicio de dibujo lineal (realizado
puramente con fines administrativos, dice Posner), los chewas y los tumbukas se convirtieron en minorías muy
pequeñas dentro del sistema político de Zambia (7% y 4% respectivamente de la población nacional) y en
grandes minorías dentro de mucho más. más pequeño: estado de Malawi (28% y 12% de la población nacional).
Posner argumenta que esta diferencia de tamaño relativo explica la construcción de las relaciones
étnicas en los dos países. En Zambia, Chewas y Tumbukas son aliados, mientras que en Malawi son adversarios.
Esto lo confirman las encuestas que Posner administra a los aldeanos dentro de cada grupo étnico en ambos
lados de la frontera, y también es la sabiduría recibida entre académicos y expertos.
Por supuesto, transcurre una buena cantidad de tiempo entre el tratamiento (cuyo efecto
causal presumiblemente comienza con la partición inicial del territorio en 1891, y se acelera después de
la independencia de los dos países en 1964) y la prueba posterior (a principios de los veinte). primer siglo).
99 Posner (2004: 52930).
170
Por lo general, los factores institucionales ejercen una influencia causal pequeña pero constante durante muchos años, por
lo que esta es una forma razonable de probar la teoría del interés teórico. Y, sin embargo, cuando transcurre una gran
cantidad de tiempo entre un tratamiento y un resultado de interés, es difícil llegar a conclusiones firmes sobre la causalidad. Y
cuando faltan pruebas previas, como sucede (por definición) en todos los diseños transversales, las dificultades
inferenciales se agravan. En estos aspectos, los diseños transversales (solo posteriores a la prueba) son mucho más débiles
que los diseños de panel.
En el estudio de Posner, incluso si se resuelve el problema de la asignación, todavía hay una gran cantidad de
factores de confusión potenciales que amenazan con infiltrarse en el diseño de la investigación después (o coincidiendo
con) el establecimiento de las fronteras nacionales. Específicamente, cualquier factor relacionado con el tratamiento –“país”–
es un posible factor de confusión. Bien podría ser, por ejemplo, que la etnicidad sea tratada de manera diferente en
Zambia y Malawi por razones distintas al tamaño de los grupos étnicos. Posner analiza de cerca varios de estos relatos
alternativos, incluidas las acciones del poder colonial, los misioneros, los empresarios étnicos y diversas trayectorias
nacionales. Esta parte del estudio se basa en evidencia auxiliar compuesta por observaciones de procesos causales
(Capítulo 10).
Posner hace un buen trabajo al abordar la evidencia histórica. Aun así, es difícil prescindir de tales factores de
confusión, y las amenazas estocásticas a la inferencia (factores que no se pueden identificar o teorizar fácilmente) son
igualmente problemáticas. Dadas las circunstancias, podría ser útil comparar la politización de la etnicidad entre
grupos pequeños y grandes dentro de cada país, estudiar un grupo étnico que se encuentra en una gran cantidad de
países (por ejemplo, los chinos Han) u observar cambios en la politización. de etnicidad a medida que una comunidad
inmigrante crece en tamaño con el tiempo dentro de un solo país (un diseño longitudinal). Hay muchas formas de despellejar a
este gato. No obstante, Posner ofrece una prueba ingeniosa y plausible de una pregunta causal difícil.
DISEÑOS DE SERIE DE TIEMPO
Habiendo revisado algunas de las complicaciones que enfrentan los diseños transversales con datos no experimentales,
podemos concluir lo obvio: es difícil restaurar las virtudes de la aleatorización con un tratamiento no aleatorizado. A pesar
de nuestros mejores esfuerzos, los factores de confusión pueden persistir o pueden generarse involuntariamente por
nuestro intento de superarlos. Y, al final, no tenemos forma de saber con seguridad si hemos logrado la comparabilidad
causal entre los grupos de tratamiento y control, es decir, si el valor esperado de Y, dado X, es el mismo para ambos grupos.
Otra opción prescinde por completo del grupo de control, centrándose en cambio en el grupo que recibe el
tratamiento. Esto se denominará diseño de series de tiempo. En lugar de comparar los grupos de tratamiento y control, se
observa un grupo a través del tiempo, antes y después del tratamiento, como una pista de las relaciones causales. Uno puede
pensar en esto como un tratamiento y condiciones de control observadas a través del tiempo en lugar de entre grupos.
La condición previa al tratamiento ejemplifica el grupo de "control" y la condición posterior al tratamiento ejemplifica el
grupo de "tratamiento".
Por lo general, esto involucra una sola unidad (o caja). Sin embargo, ocasionalmente un grupo de unidades son
expuesto a la(s) misma(s) condición(es) de tratamiento al mismo tiempo. Aquí, se pueden observar varias unidades
simultáneamente. Sin embargo, debido a que X toma los mismos valores para todas las unidades, no hay un grupo de
"control" (en el sentido habitual).
La tabla 8.3 distingue tres tipos de diseño de investigación de series de tiempo. El más simple implica un solo
tratamiento con pruebas previas y posteriores. Por ejemplo, se podría observar un grupo de personas desempleadas que
se unen a un programa de capacitación de trabajadores, midiendo sus ingresos antes de unirse al programa y nuevamente
un año después de completar el programa.
171
Un segundo implica un solo tratamiento acompañado de múltiples pruebas previas y posteriores. Esto se
conoce comúnmente como una serie de tiempo interrumpida. Por ejemplo, uno podría observar los ingresos de un grupo
de personas desempleadas a intervalos mensuales durante varios años antes y después de participar en un programa de
capacitación laboral.
Una variedad final implica la iteración múltiple de un solo tratamiento. Esto se conoce como diseño de
observaciones repetidas (o medidas repetidas) . Por ejemplo, se podría observar un grupo de desempleados que
asisten a uno o varios programas de formación de trabajadores durante varias décadas, midiendo sus ingresos cada
año.
Metodológicamente, estos tres diseños son similares, aunque en algunos entornos los diseños de series
temporales interrumpidas y observaciones repetidas ofrecen ventajas sobre el diseño simple de prueba previa y
posterior.
Tabla 8.3: Diseños de investigación de series de tiempo
1. Prueba previa/posterior de un grupo I. T1 X1 T2
2. Serie temporal interrumpida Yo... T1 T2 T3 T4 X1 T5 T6 T7 …
3. Observaciones repetidas I. … T1 X1 T2 X1 T3 X1 T4 X1 …
I Un grupo
T1N Mediciones de variables clave a través del tiempo
XT Condición de tratamiento
Figura 8.7: Datos de series de tiempo: un escenario típico
T1 (pretratamiento) T2 (posttratamiento)
X=0 X=1
(Débilmente motivado) (Fuertemente motivado)
E(Y|X) no es lo mismo para el grupo, antes y después del tratamiento
172
En este contexto, la cuestión de la comparabilidad se refiere al estado del grupo antes y después de la exposición al
tratamiento. Es decir, el valor esperado de Y, dado X, debe ser el mismo antes y después del tratamiento, es decir, en T1 y en T2
(T=tiempo). Cualquier violación de este criterio introducirá un sesgo en el análisis.
Desafortunadamente, a menudo hay factores de confusión que acechan en un diseño de series de tiempo. Considere
el programa de capacitación de los trabajadores. Algunas personas desempleadas pueden experimentar un marcado aumento en su
nivel de motivación. Esto puede surgir de una conversación con un amigo o familiar, una experiencia religiosa, el nacimiento de
un hijo o algún otro evento que cambie la vida. Esta mayor motivación puede inclinarlos a (a) unirse a un programa de capacitación
de trabajadores y (b) dedicarse con renovado vigor al arduo proceso de encontrar un trabajo. Como resultado, podemos encontrar
una tendencia temporal espuria. Aquellos que participan en programas de capacitación de trabajadores pueden experimentar
ingresos posteriores más altos no porque se hayan beneficiado del programa, sino porque están más motivados que en el período previo
al tratamiento. El valor esperado de Y, dado X, no es el mismo en T1 que en T2. El factor de confusión de causa común es
nuevamente la motivación. Sin embargo, en el diseño de investigación de series de tiempo es un cambio en la motivación, más
que una característica estática de los individuos, lo que crea el problema.
Como con cualquier otro diseño, cualquier característica que se correlacione con el tratamiento y también afecte el
el resultado es un factor de confusión potencial (si no está condicionado). Esta es una situación común en los diseños de series
de tiempo simplemente porque los tratamientos a menudo se asocian temporalmente con otras cosas que también afectan un
resultado. Si uno desea encontrar un trabajo, es probable que adopte múltiples enfoques para este problema. En consecuencia,
es difícil separar el impacto de un programa de capacitación de trabajadores de todas las demás acciones que podría tomar una
persona desempleada altamente motivada. Del mismo modo, si se está midiendo una iniciativa de política a nivel estatal o nacional,
es probable que la iniciativa de política vaya acompañada de muchas otras iniciativas de política, realizadas más o menos al mismo
tiempo. En consecuencia, será difícil distinguir el efecto causal de uno de los efectos causales de todos los demás.
Las amenazas a la inferencia en un diseño de series de tiempo incluyen cualquier característica temporal que afecte el
tendencia temporal. Por ejemplo, suponga que las ganancias están aumentando en todos los ámbitos en una economía en
crecimiento: una tendencia constante. En algún momento, se implementa un diseño de serie de tiempo para probar el impacto de un
programa de capacitación de trabajadores. Si uno simplemente compara los ingresos antes y después del tratamiento dentro de este
grupo, es probable que encuentre una mejora. Pero esta mejora puede deberse a la tendencia temporal existente más que al programa
en sí.
Una tendencia temporal es tan común y tan desconcertante que tiene un nombre especial: regresión a la media. Por lo
general, tomamos medidas sobre un asunto difícil solo cuando la urgencia es grande. Los individuos, como los gobiernos, esperan
emergencias para instituir la reforma. Para una persona desempleada, este podría ser el punto en el que su cuenta bancaria llegue a
cero. Para un gobierno, podría ser un punto en el que el desempleo social alcanza un punto particularmente alto (a la luz de la
experiencia histórica de ese país). En esos momentos, se toman medidas heroicas: el trabajador decide inscribirse en un agotador
programa de capacitación laboral, un gobierno decide instituir un costoso programa de capacitación laboral.
Muchas cosas en la vida siguen un patrón cíclico y el desempleo es probablemente una de ellas. Por lo tanto, no será sorprendente si,
luego de unirse a un programa de capacitación laboral, la persona desempleada encuentra trabajo, o si, luego de instituir un programa
de capacitación laboral, la tasa de desempleo desciende.
Sin embargo, sería un error atribuir estos cambios al programa de capacitación de los trabajadores. Son, en cambio, ejemplos de
regresión a la media, es decir, un retorno a un estado de cosas normal (promedio).
Sin duda, hay alguna esperanza de manejar el problema de las tendencias preexistentes (pero no
variables omitidas colindantes con el tratamiento). Esto se puede lograr con un examen cuidadoso de una línea de
tendencia, seguido de una acción correctiva. Esto requiere una gran cantidad de datos temporales; una simple prueba previa y
posterior no será suficiente. Cuando los datos son abundantes, se ha desarrollado un amplio conjunto de operaciones para
"eliminar la tendencia" de los datos de series de tiempo, de modo que el verdadero efecto de X sobre Y pueda determinarse .
173
estimado correctamente. Debe reconocerse que cada una de estas operaciones involucra suposiciones significativas y
difíciles de probar sobre el proceso de generación de datos.100 La econometría de series de tiempo, incluso en las manos
más sofisticadas, está plagada de ambigüedad. Si la tendencia es complicada, digamos que involucra una tendencia no
lineal a largo plazo, una tendencia cíclica a corto plazo y mucha variación estocástica, uno se esforzará por estimar el
verdadero efecto causal de X en Y.
A primera vista, el enfoque de medidas repetidas para el análisis de series de tiempo parece resolver estos
problemas. Sin duda, si la unidad vuelve al equilibrio después de cada intervención, entonces cada
intervención puede entenderse como una prueba independiente de una proposición dada. Un solo caso
observado longitudinalmente cumple así la función de varios casos de tratamiento y control, observados
latitudinalmente. En efecto, uno prueba y vuelve a probar una sola unidad.
Sin embargo, en muchas otras situaciones comunes a las ciencias sociales existen efectos de prueba
duraderos. Por lo general, el efecto de una intervención es cambiar la unidad que experimenta la intervención. Si es así,
la tabula ya no es rasa. Incluso si la unidad sigue siendo la misma, otros elementos contextuales pueden variar de
T1 a T2, lo que hace que la segunda prueba no sea equivalente a la primera. Esta es la razón por la cual los
diseños de medidas repetidas a menudo ofrecen un sustituto pobre para un grupo de control espacial.
EJEMPLO
Los diseños de series de tiempo pueden ser bastante sólidos, especialmente si el factor de interés teórico se somete a
múltiples pruebas independientes. Un ejemplo de este procedimiento se puede encontrar en un estudio sobre
discriminación laboral realizado por Claudia Goldin y Cecilia Rouse.101 Ya hemos mostrado el potencial de los
experimentos aleatorios para analizar los efectos de la discriminación laboral en trabajos poco calificados. Los trabajos
de alta calificación ofrecen un obstáculo especial para la evaluación causal porque hay menos puestos, están
menos estandarizados (y, por lo tanto, menos comparables entre sí) y el proceso de selección se basa en habilidades
que son difíciles de manipular artificialmente, por ejemplo, a través de auditoría. o reanudar los experimentos. Y, sin
embargo, persiste la sospecha de que un “techo de cristal” impide el movimiento de mujeres y minorías a la cima de las
ocupaciones altamente calificadas.102 Recientemente surgió
una oportunidad para probar esta hipótesis cuando varias orquestas instituyeron procedimientos de
audición a ciegas. Antes de entrar en los detalles del estudio, vale la pena considerar que una orquesta clásica
es quizás el prototipo ideal de una ocupación basada en habilidades. Todo lo que importa, o debería importar, es cómo
se toca un instrumento. Además, existen estándares compartidos sobre lo que constituye una buena interpretación en el
campo de la música clásica. (Es concebible que la estética se base en la raza o el género, pero esta no es la impresión
general.) Por lo tanto, desde cierta perspectiva, los productores de música “clásica” caen en un sector de ocupaciones
altamente calificadas que son menos probables . exhibir prácticas discriminatorias.
Goldin y Rouse aprovechan el cambio de audiciones no ciegas a ciegas para determinar si este
cambio en las prácticas de contratación tiene algún efecto sobre la propensión de las mujeres a obtener puestos en
orquestas profesionales, donde estaban y están muy subrepresentadas en relación a su presencia en la población en
general. El estudio aprovecha el problema al observar de cerca la variación antes y después del inicio del tratamiento, un
punto en el tiempo que varía de una orquesta a otra. Específicamente, comparan la probabilidad de que una candidata
orquestal pase varias etapas en el proceso de entrevista (desde la primera audición hasta la audición final y la oferta de
trabajo) antes de la institución de los procedimientos de auditoría ciega y después de la institución de los procedimientos
de auditoría ciega. Los datos se recopilan durante varias décadas antes y después del cambio en el protocolo de
contratación. Así, el análisis compara el éxito de las candidatas en los años previos al cambio con su éxito en
100Hamilton (1994).
101 Goldin y Rouse (2000).
102
Inglaterra et al. (1988).
174
años después del cambio. Dado que las experiencias de múltiples orquestas se analizan por separado, este estudio puede
entenderse como un diseño de series temporales interrumpidas, iteradas para cada orquesta en estudio.
Los autores encuentran que la existencia de una pantalla que separa al artista de los tomadores de decisiones
de la orquesta (y por lo tanto oculta el género del jugador) aumentó varias veces la probabilidad de que una mujer fuera
contratada. Esto parece probar la tesis de que las mujeres enfrentan obstáculos para la movilidad ascendente que se deben
únicamente a su género, no a características relevantes para el trabajo. De hecho, es difícil identificar cualquier posible
factor de confusión en este diseño de investigación. Por supuesto, el análisis no aclara precisamente por qué persiste esta forma
de discriminación de género. Pero muestra el poder de los diseños de series de tiempo para estimar los efectos causales, al
menos en algunas circunstancias.
DISEÑOS DE SECCIÓN TRANSVERSAL DE SERIE DE TIEMPO (TSCS)
Habiendo discutido las fortalezas y debilidades de los diseños transversales y de series de tiempo, pasamos a una familia de
diseños de investigación que combina ambos tipos de comparaciones, entre unidades y a lo largo del tiempo. Esto se
denominará diseño de sección transversal de serie temporal (TSCS). Aquí, se toman varias observaciones de cada
unidad y hay variación en X a través del tiempo (al menos en algunas unidades) y entre unidades. El diseño TSCS
combina comparaciones temporales y espaciales.
Por lo general, un diseño TSCS involucra mediciones repetidas de un conjunto de unidades, observadas
a través del tiempo. Así, uno podría observar individuos, o estadosnación, cada año durante 20 años, estableciendo
un panel con veinte observaciones a lo largo del tiempo. A veces, faltan datos, es decir, algunas unidades no se observan
para cada período de tiempo; esto genera un panel desbalanceado .
A veces, las observaciones a través del tiempo no son de las mismas unidades sino de unidades elegidas al azar
de una población más grande. Por ejemplo, si uno está construyendo un análisis TSCS a partir de datos de una encuesta
compuesta por una muestra de 2000 individuos seleccionados al azar de la población de los EE. UU. cada año durante el
transcurso de 20 años, cada muestra anual (o panel) incluye un conjunto diferente de encuestados. Nos referiremos a
este tipo de TSCS como una sección transversal agrupada.
TSCS incluye una familia diversa de diseños de investigación, como se ilustra en la fila "varios"
de la Tabla 8.4.
Para centrar nuestra discusión, nos detendremos en una variedad simple de diseño TSCS conocida como
el diseño de diferencia en diferencia (DD), ilustrado en la segunda fila de la Tabla 8.4. Tenga en cuenta que el Grupo I
recibe el tratamiento mientras que el Grupo II ejemplifica la condición de control. Los resultados se miden antes y después
de la intervención. Las estimaciones del efecto causal derivan de una comparación del cambio en el resultado del
grupo tratado con el cambio en el resultado del grupo de control: ∆Y (Grupo I) ∆Y (Grupo II). Por lo tanto, una diferenciaen
diferencia.103
Supongamos, por ejemplo, que estamos comparando los ingresos de los desempleados que (voluntariamente)
se unen a un programa de formación de trabajadores con los que no lo hacen. Observamos sus ingresos antes de comenzar el
programa (presumiblemente, cero, a menos que lo estemos midiendo varios años antes) y nuevamente un año después de la
finalización del programa. Luego comparamos el cambio en los ingresos del grupo de tratamiento y el de control para
estimar el efecto causal (si lo hay) del programa en los ingresos.
En algunos aspectos, este diseño se parece mucho a un diseño de sección transversal. Sin embargo, ahora estamos
observando el cambio a lo largo del tiempo entre las pruebas previas y posteriores en lugar de una simple prueba posterior.
¿Hasta qué punto esto hace que la inferencia causal sea más segura?
103 Quienes estén interesados en el estimador DD encontrarán una breve discusión en Gerring (2012b: 280283).
175
En el diseño transversal, la suposición de comparabilidad causal requiere que todos los factores de
fondo que puedan afectar el resultado sean iguales, en promedio, en los grupos de tratamiento y control. En el diseño DD,
requerimos que todos los factores de fondo cambiantes sean iguales, en promedio, en todos los grupos de
tratamiento y control. En la mayoría de los contextos, esta es una suposición más fácil de satisfacer. Es especialmente
convincente si el período de tiempo que separa las pruebas previas y posteriores es relativamente corto y los factores de
fondo cambian lentamente. En estas circunstancias, parece plausible suponer que se ha logrado la comparabilidad
causal.
Por supuesto, cualquier factor de fondo que varíe con X sigue siendo un factor de confusión potencial. Entonces, si
algunos sujetos son impulsados por un cambio motivacional a (a) ingresar al programa de formación de trabajadores y (b)
conseguir un trabajo, esto generará un resultado espurio. Pero en otros aspectos, el diseño DD es más robusto que los
correspondientes diseños transversales o de series de tiempo. Las amenazas de la historia (tendencias temporales
existentes o regresión a la media) no son problemáticas siempre que afecten por igual a los grupos de tratamiento y
de control. La confusión circular es menos problemática porque es poco probable que afecte el cambio en Y entre los grupos
de tratamiento y control. Los factores de confusión mecanicistas todavía son posibles. Sin embargo, debido a que el
número de posibles factores de confusión es mucho menor en el diseño DD que en los diseños transversales o
de series de tiempo correspondientes, es menos probable que uno condicione erróneamente una variable posterior al
tratamiento. En resumen, hay mucho para recomendar el diseño DD (y sus análogos en el análisis TSCS) en relación
con los diseños transversales y de series temporales.
Debe insertarse una advertencia crítica. Debido a que el tratamiento no es aleatorio, normalmente no se
esperaría que los grupos de tratamiento y control fueran iguales en todas las características de fondo que son relevantes
para el resultado. Específicamente, no podemos esperar que los miembros del grupo de control respondan de la misma
manera que los miembros del grupo de tratamiento. Cuando está en juego la autoselección, es más probable que
aquellos que eligen exponerse a un tratamiento respondan positivamente a ese tratamiento. En este caso, aquellos
que opten por asistir a un programa de formación de trabajadores pueden estar en una mejor posición para hacer uso
de ese conocimiento para encontrar un trabajo. En consecuencia, sus ganancias por la asistencia pueden ser mayores que
las de un miembro típico del grupo de control. De ello se deduce que un efecto causal calculado con un diseño TSCS a
menudo se entiende mejor como un efecto de tratamiento promedio para los tratados (ATT) en lugar de un efecto de
tratamiento promedio entre los grupos de tratamiento y control (ATE).
EJEMPLO
El efecto sobre el empleo de las leyes de salario mínimo es un tema principal en la economía laboral. A pesar de múltiples
estudios y una gran cantidad de teorías, la cuestión empírica sigue siendo esquiva. Al igual que con otras preguntas de
las ciencias sociales, un obstáculo metodológico clave es el aspecto no aleatorio del tratamiento.
Es probable que los estados (o países) que establecen salarios mínimos altos también sean diferentes en otros aspectos
de los estados (o países) que establecen salarios mínimos bajos (o nulos). Estos factores heterogéneos, relacionados con
otras regulaciones del mercado laboral, la política fiscal o el carácter de las sociedades y organizaciones laborales, sirven
como factores de confusión potenciales. La institución de las reformas del mercado laboral también puede ser una
respuesta a las características del desempeño macroeconómico, introduciendo amenazas de circularidad.
En un artículo ampliamente citado, David Card y Alan Krueger abordan este problema centrándose en un episodio
de cambio de política: el aumento de los salarios mínimos en Nueva Jersey en 1992. Su estrategia de recopilación de datos
se centra en un solo sector: los restaurantes de comida rápida. que es probable que sea sensible a los cambios en el salario
mínimo. Se encuestan varios cientos de restaurantes en Nueva Jersey y un estado vecino, Pensilvania, para
determinar si los niveles de empleo, salarios y precios sufrieron algún cambio antes y después de que este
cambio legal entrara en vigor. Los restaurantes de Pensilvania sirven como grupo de control espacial. (También
se hacen comparaciones entre tiendas en Nueva Jersey que pagaron más y menos del salario mínimo recientemente
instituido. Dado que las primeras no se vieron afectadas por el aumento de los salarios mínimos, este grupo forma un
segundo grupo de control).
176
El enfoque empírico de Card y Krueger es un modelo de diferencias en diferencias en el que el cambio en el
empleo en comida rápida en Nueva Jersey (el grupo de tratamiento) se compara con el cambio en el empleo en comida
rápida en Pensilvania. El análisis muestra que los cambios en los dos estados durante este período fueron bastante similares,
lo que sugiere que un aumento legislado en el salario mínimo en Nueva Jersey no aumentó el desempleo en ese estado.
Es un estudio impresionante, aunque, como todos los estudios, no está exento de dificultades potenciales.
Podrían surgir preguntas, por ejemplo, sobre la representatividad del sector elegido (¿el efecto total de una ley de salario
mínimo en toda la economía se refleja en el comportamiento de una sola industria?).
Uno también se pregunta acerca de la estrechez de la línea de tiempo (¿los efectos económicos de un aumento en los
salarios mínimos se manifestarían en el corto espacio de ocho meses, el tiempo transcurrido entre las pruebas previas y
posteriores?). Uno se pregunta si las condiciones económicas en los dos estados eran lo suficientemente similares para
constituir una buena comparación por pares y si las diferencias restantes se modelaron adecuadamente en el
análisis estadístico. También puede cuestionarse si el diseño de la investigación incorpora suficiente poder para constituir
una prueba justa de la hipótesis nula. (¿Se le ha dado a la hipótesis positiva, que los salarios mínimos afectan el
comportamiento del mercado laboral, una oportunidad justa de tener éxito?) Al menos un comentarista ha cuestionado
si el aumento de los salarios mínimos representa realmente el factor de interés teórico, o si debe considerarse como un
instrumento para ese factor subyacente (no medido): los salarios realmente pagados a los trabajadores.104 Algunos de
estos problemas podrían haberse superado con ligeras modificaciones en el diseño de la
investigación;
otros son inherentes en virtud del hecho de que el tratamiento no puede manipularse directamente.105 El problema de la
asignación no aleatoria acosa a todos los diseños DD (al igual que a todos los demás diseños no
experimentales). Uno nunca puede estar completamente seguro, por ejemplo, de que las empresas en Pensilvania (el grupo
de control) habrían respondido a un aumento en los salarios mínimos de la misma manera que en Nueva Jersey. Si no es
así, entonces se pone en duda la generalización del hallazgo. Las dudas sobre la causalidad se amplifican cuando el
tratamiento se asigna de forma no aleatoria porque a uno le preocupa que pueda haber algo en la asignación del tratamiento,
algún factor no medido, que diferencie al grupo de tratamiento del grupo de control y dé cuenta de sus respuestas. Más
específicamente, a uno le preocupa que la tasa de cambio en el resultado pueda diferir entre los grupos de tratamiento y
control.
Si este es el caso, entonces el caso de comparación elegido (en este caso, Pensilvania) no está haciendo el trabajo de un
control experimental.
104Reiss (2007: 138).
105 Para una discusión más detallada del estudio de Card y Krueger (1994), véase Neumark y Wascher (2000), Reiss (2007: 13840).
177
Tabla 8.4: Diseños de sección transversal de serie temporal (TSCS)
I. XT XC XT
II. XT XT XC
1. Varios T1 T2 T3 T4
tercero
XT XT XT
IV. XC XC XC
I. XT
2. DD T1 T2
II. XC
IIV Grupos
T1N Mediciones de variables clave a través del tiempo
Varios Varios diseños TSCS
DD Diseño de diferencias en diferencias
DISEÑOS DE REGRESIÓNDISCONTINUIDAD (RD)
Un diseño de regresióndiscontinuidad (RD), en su forma más simple y típica, se parece a un diseño
experimental posterior a la prueba o transversal. Un grupo recibe el tratamiento y el otro la condición de
control, y una sola prueba posterior mide el resultado de interés, como se muestra en el diagrama de la Tabla 8.5.
Sin embargo, los detalles del diseño de RD, es decir, cómo se definen estos grupos, son bastante distintos.
Considere un programa de capacitación de trabajadores con una prueba de medios. Solo son elegibles
aquellos que han estado sin trabajo durante al menos un año, y todos los solicitantes son admitidos.
Imaginemos que esta prueba de medios se establece después de que se hayan recibido las solicitudes (quizás
debido a un recorte presupuestario inesperado). Por lo tanto, el programa recibe muchas solicitudes de quienes
han estado sin trabajo por menos de un año y, por lo tanto, están excluidos de la participación. Esto tiene el efecto
de establecer un límite limpio entre los participantes del programa y los no participantes. Si bien podemos
esperar muchas diferencias de fondo entre los desempleados a corto plazo y los desempleados a largo plazo,
esperamos diferencias relativamente menores entre aquellos sin trabajo durante 1112 meses y aquellos sin
trabajo durante 1314 meses. Estos grupos deben ser similares en todos los aspectos que puedan afectar
el resultado de la preocupación teórica, las ganancias. Dado que un grupo recibe el tratamiento y el otro no, tenemos
una situación que se asemeja a un verdadero experimento con tratamiento aleatorio.
Los métodos de análisis para los diseños de RD varían. Uno puede abordar las observaciones que se
encuentran justo por encima y por debajo del límite como equivalentes en todas las características de fondo; en este
caso, una simple prueba de diferencia de medias será suficiente para medir el efecto causal. Alternativamente, uno
puede incluir a todos los miembros de la muestra, restando importancia a las observaciones que se encuentran más
lejos del punto de corte. En nuestro ejemplo, esto se lograría condicionando la duración del período de desempleo. Pero lo común
178
La característica del diseño RD es su explotación de un punto de corte arbitrario que separa las unidades tratadas y no
tratadas.
Deben tenerse en cuenta varias debilidades potenciales del diseño. En primer lugar, si el límite no se observa
estrictamente (si, por ejemplo, los solicitantes que han estado sin trabajo durante 11 o 12 meses son admitidos cuando
los miembros del personal del programa juzgan que el solicitante está especialmente necesitado), la comparabilidad de las
observaciones que se encuentran en cualquiera de los dos Es probable que el lado del corte se vea comprometido. En
segundo lugar, si los sujetos en un diseño de DR conocen la regla de corte, pueden eludirla, por ejemplo, mintiendo en sus
solicitudes. Esto tendrá el mismo efecto, viciando la comparación de unidades tratadas/no tratadas.
En tercer lugar, debe haber suficientes unidades situadas justo por debajo y por encima del punto de corte o,
alternativamente, se debe tener una gran confianza en las covariables (p. ej., la duración del período de desempleo)
utilizadas para controlar las diferencias. Finalmente, dado que el análisis se centra en las unidades que se encuentran
cerca del punto de corte, es posible que no sea posible generalizar los hallazgos a las unidades que se encuentran
lejos de ese punto, lo que limita la generalización de un estudio. A pesar de estos puntos, el diseño de RD sigue siendo muy
atractivo. De todos los diseños observacionales revisados aquí, probablemente sea el más cercano en espíritu y de hecho
a un diseño aleatorio (es decir, un experimento real).
EJEMPLOS
Como ejemplo, consideremos el estudio de Richard Berk y David Rauma sobre el sistema penal de California.106
En 1978, California extendió el seguro de desempleo a los presos recién liberados, con la esperanza de facilitar su
transición a la vida civil y reducir las tasas de reincidencia. Los ex reclusos eran elegibles solo si habían trabajado un
número de horas requerido mientras estaban en prisión, estableciendo así un punto de corte que proporciona la base para
un diseño de RD. Los sujetos pasan a formar parte de la muestra si realmente solicitan beneficios, lo que significa que
el análisis compara a aquellos que solicitan y son elegibles para beneficios con aquellos que solicitan pero no son elegibles
(presumiblemente porque no sabían que no eran elegibles). El modelo de datos asume la siguiente forma simple:
Y: Fracaso (reencarcelamiento) =
X: Beneficios (la variable de tratamiento binario) +
P: Horas trabajadas (el criterio de asignación) +
Z: Variables de control (características de fondo que pueden afectar la reincidencia)
Sobre la base de este procedimiento, Berk y Rauma concluyen que los miembros del grupo de tratamiento
experimentaron tasas de reencarcelamiento un trece por ciento más bajas que los del grupo de control (es decir, aquellos
que no son elegibles para el programa), lo que sugiere que brindar asistencia posterior a la prisión reduce la reincidencia. en
un grado apreciable.
Un segundo ejemplo del diseño de RD se extrae de un estudio reciente de los sindicatos. A veces se alega
que la formación de sindicatos hace que las empresas fracasen al imponer costos adicionales que no pueden
recuperarse a través de mayores ventas, mayor productividad o cambios en la estructura de precios de una empresa. Para
probar esta proposición, John DiNardo y David Lee examinan el destino de más de 27.000 empresas estadounidenses en el
transcurso de una década y media. Teniendo en cuenta que la sindicalización ocurre como un producto parcial de una
elección de voto secreto (cuyos resultados están a disposición del público), los autores utilizan este punto de corte para
realizar un diseño de RD en el que las empresas en las que el voto sindical gana por poco se comparan con las
empresas en las que el voto sindical pierde por poco. Encuentran que una elección sindical exitosa apenas afecta la tasa
de supervivencia posterior de las empresas; además, se descubre poca evidencia de un efecto causal sobre los
niveles de empleo, la producción y la productividad. (También consideran la posibilidad de que la amenaza de una
campaña sindical exitosa pueda alterar la estructura salarial y, por lo tanto, las posibilidades de supervivencia de una
empresa, antes del voto por el reconocimiento).
106 Berk y Rauma (1983).
179
Cierta incertidumbre permanece necesariamente sobre la aleatoriedad de la comparación por encima del
límite/por debajo del límite, ya que el tratamiento no es verdaderamente aleatorio. En particular, se debe tener cuidado
con las circunstancias en las que los participantes de una muestra son conscientes de las consecuencias de un umbral y
pueden autoseleccionarse. Por ejemplo, en el diseño de RD realizado por DiNardo y Lee, donde se prueba el efecto de
la sindicalización en la supervivencia, el empleo, la producción, la productividad y los salarios de la empresa, debemos
considerar la posibilidad de que el fracaso/éxito de las campañas de sindicalización no sean aleatorios con con
respecto a los resultados de interés. Considere que los trabajadores en una elección de representación sindical pueden ser
conscientes del efecto potencial de su voto en la salud financiera de la empresa. La gerencia a menudo argumenta que un
sindicato pondrá a la empresa en una desventaja competitiva y conducirá, en última instancia, a la pérdida de puestos
de trabajo. Dadas las circunstancias, los trabajadores pueden estar más inclinados a apoyar la sindicalización si están
convencidos de la fortaleza de una empresa, y menos inclinados si sienten que la empresa se encuentra en una
posición vulnerable. Si suficientes trabajadores votan estratégicamente sobre esta base, y si sus corazonadas tienen
alguna base de hecho (presumiblemente están familiarizados con la posición de mercado de su empresa), entonces los
resultados de este diseño de RD hablan solo de efectos de tratamiento promedio local (LATE). Es decir, podemos
estar dispuestos a creer que las empresas que estaban o están sindicadas no tienen más probabilidades de quebrar que
las empresas que permanecen sin sindicarse, pero no deberíamos inferir de esto que la sindicación, si se asigna al azar
en el universo de empresas, no tendría ningún efecto causal sobre la probabilidad de quiebra de la empresa. (DiNardo y
Lee tienen cuidado de no generalizar demasiado a partir de los datos limitados disponibles).
Tabla 8.5: Diseño de regresióndiscontinuidad (RD)
I. XT
Grupos T1
II. XC
T1 Medición de variable clave tras la intervención
DISEÑOS DE VARIABLES INSTRUMENTALES (IV)
Hemos visto que la asignación de un tratamiento causal a menudo está sujeta a confusión siempre que el
principio de asignación no sea aleatorio. A veces se puede encontrar una solución parcial a este problema si al
menos un factor que influye en la asignación al tratamiento no está sujeto a confusión. Este
“instrumento” ofrece la oportunidad de un análisis en dos etapas, configurando un diseño de variable
instrumental (IV).
Considere un programa de capacitación de trabajadores en el que los solicitantes se autoseleccionen. Una sección transversal, tiempo
serie, o el diseño de TSCS está sujeto a posibles factores de confusión si los factores de confusión
sospechosos (p. ej., la motivación) no se pueden medir y, por lo tanto, condicionar. Un diseño de discontinuidad
de regresión no es factible porque no hay límite para la elegibilidad. Sin embargo, entre los solicitantes, se
observa que aquellos que viven a poca distancia de un centro de capacitación laboral tienen más probabilidades
de matricularse y completar el programa que aquellos que viven más lejos. Aparentemente, el tiempo de viaje
180
aumenta los costos de oportunidad de asistir. Fortuitamente, no es un factor que los solicitantes probablemente conozcan
al presentar la solicitud, ya que no conocen las ubicaciones precisas de los múltiples centros donde se llevan a cabo los
programas de capacitación de trabajadores dentro de un área metropolitana, o el tiempo de viaje requerido para llegar
a ellos. . El tiempo de viaje de cada solicitante se puede medir fácilmente usando el algoritmo de mapeo de Google,
proporcionando un instrumento que predice la participación en el programa.
De importancia clave es que el instrumento elegido no afecte el resultado directamente y no esté correlacionado
con otros factores (no controlados en el análisis) que afecten el resultado. El tiempo de viaje debe afectar las ganancias
sólo a través del factor de interés teórico, es decir, la participación en el programa de capacitación del trabajador. Si,
digamos, las personas que viven más lejos de los centros de formación de trabajadores también están más lejos de
los empleadores potenciales, entonces el instrumento elegido está sujeto a confusión y dará una estimación sesgada
del verdadero efecto causal. (En este caso, sesgará la estimación a la baja, ya que aquellos que asisten a
programas de capacitación de trabajadores enfrentan un mayor tiempo de viaje hacia los empleadores potenciales).
Estipulemos que este requisito, a veces denominado restricción de exclusión, se cumple .
En esta situación, se puede utilizar el instrumento (Q), para establecer un valor predicho para la causal
factor de interés (X) que está libre de confusión (Z). Luego se examina la covariación entre y Y, controlando cualquier
factor de confusión adicional que pueda identificarse y medirse. En la Figura 8.8 se incluye un diagrama causal de
los supuestos relevantes.
EJEMPLO
Una reciente e influyente aplicación de variables instrumentales aborda la cuestión clásica del desarrollo económico a
largo plazo. ¿Por qué algunos países son hoy mucho más ricos que otros? Acemoglu, Johnson y Robinson (en
adelante, AJR) sugieren que un factor principal que afecta las tasas de crecimiento históricosecular es la calidad de
las instituciones, es decir, la solidez de los derechos de propiedad.107 El obstáculo metodológico es que no tenemos a
nuestra disposición ninguna medida de capacidad institucional. cualidad que se asigna de manera aleatoria con
respecto al desarrollo económico. La riqueza y las buenas instituciones tienden a ir juntas. Para superar esta dificultad,
AJR construye la siguiente historia causal. Durante los últimos siglos, las potencias coloniales europeas establecieron
fuertes protecciones de derechos de propiedad en algunas partes del mundo (por ejemplo, América del Norte) y no en
otras (por ejemplo, la mayor parte de África y América Latina). Esquemáticamente, protegieron los derechos de
propiedad en áreas donde un gran número de europeos decidieron asentarse e instituyeron regímenes “extractivos” en
áreas donde los europeos eran superados en número por las poblaciones indígenas. Esto, a su vez, fue un factor de las
circunstancias geográficas, como la prevalencia de enfermedades tropicales, que determinó la probabilidad de
supervivencia europea en África, Asia y el Nuevo Mundo. Los europeos se asentaron y prosperaron donde tenían altas
tasas de supervivencia. Las estimaciones de las distintas tasas de mortalidad de los colonos europeos en el transcurso del
siglo XIX proporcionan un instrumento adecuado para los patrones de asentamiento colonial y, en última instancia, para
la calidad de las instituciones de las que AJR supone que los colonos son responsables. Esto permite un análisis en dos
etapas, que se puede simplificar de la siguiente manera:
X = Q + Z + e1 [1]
Y = + Z + e2 [2]
donde X=derechos de propiedad medidos a fines del siglo XX (riesgo de expropiación), Q=el instrumento
(mortalidad de colonos europeos), Z=covariables (otras causas de Y), Y=PIB per cápita, =los valores ajustados
de la Ecuación 1 , y e = términos de error para las dos ecuaciones. (Se omiten las intersecciones).
107
Acemoglu, Johnson y Robinson (2001).
181
Al igual que con otras correcciones para tratamientos no aleatorizados, la técnica IV no está exenta de
sus dificultades. De hecho, los tres supuestos esbozados anteriormente rara vez parecen satisfacerse por
completo en el trabajo empírico. El instrumento elegido, Q, puede estar débilmente correlacionado con la variable teórica
de interés, X; Q puede tener un efecto sobre el resultado, Y, que no sea a través de X; o puede haber una
causa común que opere tanto en Q como en Y (un factor de confusión incondicionado). Al igual que con la mayoría de
los supuestos de modelado, estas violaciones potenciales son difíciles de probar,108 y quizás sea mejor considerarlas
como antecedentes teóricos. Por ejemplo, en el estudio explorado anteriormente, los críticos han sugerido que una
causa común, la geografía, afecta tanto la mortalidad de los colonos como los niveles actuales de desarrollo económico
en formas que no están mediadas por los derechos de propiedad.109 Si esta historia sobre el proceso de generación de
datos es cierta, entonces el instrumento elegido no es válido. Aun así, el análisis de dos etapas es probablemente
más convincente que cualquier análisis de una etapa concebible para este problema en particular; en este sentido, y
en esta medida, el enfoque IV es útil.
Figura 8.8: Diseño de variables instrumentales (IV)
[ ]Z
q X Y
X El factor causal
Y Resultado
q Instrumento
Z confusor
[ ] No condicionado
108
Murray (2006).
109 McArthur y Sachs (2001).
182
Deben tenerse en cuenta algunas limitaciones de este diseño. Primero, los requisitos del análisis,
diagramados en la Figura 8.8, son difíciles de verificar en la mayoría de los entornos. A menudo, son muy sospechosos
por motivos teóricos. Es decir, uno puede preguntarse si Q afecta a Y de otra manera que no sea a través de X o si otros
factores de confusión (no condicionados) están asociados con la relación entre Q y X o Q e Y.
En segundo lugar, el análisis IV estima un efecto causal que se relaciona con aquellas unidades
que se animan a recibir el tratamiento debido a los instrumentos elegidos. Esto se denomina efecto de tratamiento
promedio local (LATE), a diferencia de un efecto de tratamiento promedio. Si el instrumento (Q) está débilmente
correlacionado con el factor causal de interés teórico (X), entonces el LATE estimado puede tener poca
importancia práctica o teórica. Además, rara vez es posible identificar las unidades a las que el instrumento anima a
recibir tratamiento. En consecuencia, puede ser difícil decir a qué tipo de casos se aplicaría un resultado IV con un
instrumento débilmente correlacionado.
Es fácil estar en desacuerdo con muchos análisis IV que se encuentran hoy en las ciencias sociales. Sin
embargo, cuando los supuestos que sustentan un análisis IV (como se muestra en el diagrama de la figura 8.8) son
plausibles, el enfoque IV para la inferencia causal suele ser más convincente que otros diseños de investigación
observacional que podrían adoptarse.
CONCLUSIONES
En este capítulo bastante complejo, presentamos cinco diseños de investigación para su uso en situaciones en las que un
tratamiento no es aleatorio (o es imperfectamente aleatorio) y se dispone de un gran número de observaciones para el
análisis estadístico. Un análisis transversal se basa en comparaciones entre unidades en un solo punto en el tiempo.
Un análisis de series temporales se basa en comparaciones a lo largo del tiempo. Un análisis TSCS incluye
comparaciones tanto latitudinales como longitudinales. Un diseño de discontinuidad de regresión compara unidades
a ambos lados de un límite arbitrario, que distingue los grupos de tratamiento y de control. Un análisis de variables
instrumentales se basa en un factor que influye en la asignación al tratamiento pero que no tiene un efecto directo
sobre el resultado.
Cada uno de estos diseños intenta recuperar las virtudes de un diseño experimental. Si bien esta búsqueda
es noble, su logro es motivo de duda, como lo ha demostrado nuestra discusión. Aun así, estos diseños a menudo
proporcionan el mejor método de análisis disponible. A veces, un diseño observacional es el único método practicable,
o el único método cuyos resultados pueden generalizarse a una población más grande.
183

Gerring y Christenson 2017

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Gerring y Christenson 2017

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

También podría gustarte