Está en la página 1de 23

Machine Translated by Google

METODOLOGÍA  DE  LAS  CIENCIAS  SOCIALES  APLICADAS :
UNA  GUÍA  INTRODUCTORIA

Juan  Gerring
Dino  Christenson
Departamento  de  Ciencias  Políticas
Universidad  de  Boston

Próximamente,  Cambridge  University  Press,  2017

Borrador:  7  de  junio  de  2016

Conteo  de  palabras  (excluyendo  la  Parte  IV):  140,000

Comentarios  bienvenidos!

1
Machine Translated by Google

Contenido
Prefacio................................................. .................................................... .................................................... ......18

I.  BLOQUES  DE  CONSTRUCCIÓN ............................................... .................................................... ..........................22

1.  Un  marco  unificado ............................................... .................................................... ..........................24

2.  Argumentos................................................... .................................................... ..........................................37  3.  Conceptos  

y  Medidas. .................................................... .................................................... ...........58  4.  

Análisis .................................. .................................................... .................................................... ...............78
II.  CAUSALIDAD................................................. .................................................... ..........................................94

5.  Marcos  causales ............................................... .................................................... .............................95

6.  Hipótesis  y  análisis  causales .................................................. .................................................... .....  122  7.  Diseños  

experimentales........................................... .................................................... ............................  141  8.  Diseños  observacionales  

de  N  grande .................. .................................................... .....................................  163  9.  Diseños  de  estudios  de  

caso ....... .................................................... .................................................... ...............  186
10.  Diversas  herramientas  de  inferencia  causal ........................................... .............................................  202

tercero  PROCESO  Y  PRESENTACIÓN ............................................................... ....................................................  214

11.  Leer  y  repasar ............................................... .................................................... ..........  215  12.  Lluvia  de  

ideas ............................... .................................................... .......................................................  232  13.  Recopilación  de  

datos .................................................. .................................................... ..........................  245  14.  

Escritura .................. .................................................... .................................................... ....................  283  
15. Hablando................................ .................................................... .................................................... ........  303
dieciséis. Ética................................................. .................................................... ..........................................  314

IV.  ESTADÍSTICAS  ( doc  aparte) .................................................. .................................................... ......................  323
Referencias.................................................. .................................................... ....................................................  .324

Índice .................................................. .................................................... .................................................... ..........  335

2
Machine Translated by Google

8.  DISEÑOS  OBSERVACIONALES  N  GRANDES

Hay  muchos  problemas  potenciales  con  los  diseños  experimentales,  como  se  revisó  en  el  capítulo  anterior.
Sin  embargo,  generalmente  ocurre  que  los  experimentos  tienen  un  reclamo  de  validez  interna  mucho  más  fuerte  que  la  
investigación  no  experimental.  En  la  medida  en  que  esto  último  puede  justificarse  es  porque  los  experimentos  son  imposibles  
o  porque  carecen  de  validez  externa.  Da  la  casualidad  de  que  esto  es  bastante  común.  Y  esto,  a  su  vez,  explica  el  
predominio  actual  de  los  diseños  observacionales  en  el  trabajo  de  las  ciencias  sociales.

En  este  capítulo,  revisamos  varios  enfoques  para  el  análisis  de  muestras  grandes  sin
aleatorización  (El  capítulo  siguiente  aborda  el  análisis  de  muestras  pequeñas  sin  aleatorización,  es  decir,  
estudios  de  casos).  Se  distinguirán  cinco  diseños  de  investigación  arquetípicos:  transversal  (CS),  serie  temporal  (TS),  
transversal  de  serie  temporal  (TSCS) ,  discontinuidad  de  regresión  (RD)  y  variable  instrumental  (IV),  como  se  resume  en  
98
la  Tabla  8.1.
Estos  términos  se  definen  por  la  variación  observada  en  X,  el  factor  causal  de  interés  o  el  instrumento  por  el  cual  
se  asigna  el  tratamiento.  En  un  diseño  de  sección  transversal,  la  variación  observada  en  X  es  entre  unidades;  esto  es  lo  
que  proporciona  el  apalancamiento  para  la  inferencia  causal.  En  un  diseño  de  series  de  tiempo,  la  variación  observada  en  X  
es  a  través  del  tiempo,  típicamente  con  una  sola  unidad  o  caja.  En  un  diseño  de  sección  transversal  de  series  de  
tiempo,  la  variación  observada  en  X  es  tanto  a  través  de  las  unidades  como  a  lo  largo  del  tiempo.  En  un  diseño  de  
discontinuidad  de  regresión,  la  variación  observada  está  en  X  justo  por  encima  y  por  debajo  de  un  límite  arbitrario.  
En  un  diseño  de  variables  instrumentales,  la  variación  observada  está  en  un  instrumento,  Q,  que  afecta  la  asignación  al  tratamiento,  X.
Es  importante  tener  en  cuenta  que  la  mayoría  de  estos  términos  también  tienen  una  definición  más  
estrecha  y  técnica  como  un  tipo  de  modelo  estadístico.  Por  ejemplo,  una  sección  transversal  en  el  sentido  estadístico  es  un  
análisis  en  el  que  se  observa  un  conjunto  de  unidades  en  un  solo  punto  en  el  tiempo.  Una  serie  temporal  en  el  
sentido  estadístico  es  un  análisis  en  el  que  se  observa  una  unidad  a  lo  largo  del  tiempo.  Y  una  sección  transversal  de  serie  
de  tiempo  es  un  análisis  en  el  que  un  conjunto  de  unidades  se  observa  lateralmente  (entre  unidades)  y  longitudinalmente  
(a  través  del  tiempo).  Aquí,  nuestro  énfasis  está  en  las  propiedades  del  diseño  de  investigación  que  podrían  
conducir  a  la  inferencia  causal.  Tenga  en  cuenta,  por  ejemplo,  que  una  serie  de  tiempo  (en  el  sentido  estadístico)  no  es  muy  
útil  a  menos  que  se  observe  una  variación  en  X  contenida  dentro  de  la  serie  de  tiempo,  por  lo  que  definimos  un  diseño  de  
serie  de  tiempo  de  esta  manera  en  lugar  de  un  diseño  iterado.  conjunto  de  observaciones  a  través  del  tiempo.  Como  
anteriormente  en  este  libro,  nuestro  énfasis  está  en  las  propiedades  de  diseño  de  la  inferencia  causal  más  que  en  los  métodos  
estadísticos  de  análisis  (un  tema  pospuesto  hasta  la  Parte  IV).
Dicho  esto,  hay  una  mayor  discusión  de  los  métodos  de  análisis  estadístico  en  este  capítulo  que  en  los  capítulos  
anteriores.  Esto  se  debe  a  que  corregir  las  deficiencias  de  los  diseños  de  observación  requiere  métodos  más  complejos  
de  análisis  de  datos.  Si  bien  un  experimento  bien  construido  se  puede  analizar  simplemente  comparando  los  valores  
medios  de  Y  entre  los  grupos  de  tratamiento  (Y1)  y  control  (Y0) ,  llegar  a  una  inferencia  causal  con  datos  observacionales  
no  es  tan  simple.  Dicho  sin  rodeos:  si  no  puede  manipular  el  tratamiento  (ex  ante),  necesita  hacer  un  poco  de  manipulación  
de  datos  (ex  post)  para  llegar  a  resultados  que  plausiblemente  puedan  considerarse  evidencia  de  una  relación  causal.  
Esto  significa  que  debemos  introducir  técnicas  de  análisis  de  datos  como  la  regresión  y  el  emparejamiento ,  
técnicas  que  no  se  tratan

98  Otro  enfoque  de  la  inferencia  causal  es  a  través  del  mecanismo  (M)  que  conecta  X  con  Y.  Sin  embargo,  este  enfoque  de  “puerta  
de  entrada”  sigue  siendo  inusual.  Para  una  discusión  más  detallada,  consulte  Glynn,  Gerring  (2013),  Morgan,  Winship  (2007),  
Pearl  (2009).

163
Machine Translated by Google

con  formalmente  hasta  la  Parte  IV.  Los  lectores  que  encuentren  confuso  este  método  de  exposición  pueden  
querer  leer  los  capítulos  relevantes  en  la  Parte  IV  antes  de  leer  este  capítulo.

Tabla  8.1:  Diseños  de  investigación  observacional  de  N  grande

Sección  transversal  (CS)  •  

Variación  en  X  analizada  entre  unidades  pero  no  a  través  del  tiempo.

Serie  temporal  (TS)  •  

Variación  en  X  analizada  a  través  del  tiempo  pero  no  entre  unidades  (todas  las  unidades  están  expuestas  al  mismo  tratamiento
condiciones,  o  sólo  hay  una  unidad).

Sección  transversal  de  serie  temporal  (TSCS)

•  Variación  en  X  analizada  entre  unidades  y  a  través  del  tiempo  (p.  ej.,  panel,  diferencia  en  diferencia  y  cruz  agrupada) .
sección)

Discontinuidad  de  regresión  (RD)

•  Variación  en  X  analizada  justo  por  encima  y  por  debajo  de  un  límite  arbitrario.

Variables  instrumentales  (IV)  •  La  

variación  en  Q  afecta  la  asignación  al  tratamiento  (X)  pero  no  al  resultado  (Y).

DISEÑOS  TRANSVERSALES

Considere  la  situación  cuando  un  programa  de  capacitación  de  trabajadores  se  administra  de  forma  voluntaria:  
todos  los  desempleados  que  desean  asistir  lo  hacen  y  aquellos  que  no  forman  el  grupo  de  control.  Una  prueba  
posterior  realizada  un  año  después  de  la  finalización  del  programa  mide  los  ingresos  de  los  trabajadores  de  
quienes  asistieron  al  programa  y  de  quienes  no  lo  hicieron.  El  diseño  se  ilustra  con  X  y  O  en  la  tabla  8.2.

Tabla  8.2:  Diseño  de  la  Sección  Transversal

I. XT
Grupos
II. T1
XC

T1 Mediciones  de  variables  clave  después  de  la  
intervención
XT Condición  de  tratamiento  (X=1)
XC Condición  de  control  (X=0)

164
Machine Translated by Google

Superficialmente,  este  diseño  es  idéntico  al  diseño  experimental  posterior  a  la  prueba,  ilustrado  en  la  Tabla  
7.1.  Sin  embargo,  en  condiciones  de  elección  voluntaria,  no  es  probable  que  logremos  la  comparabilidad  entre  los  grupos  
de  tratamiento  y  control,  ya  que  es  probable  que  se  inscriban  aquellos  con  mayor  motivación,  y  su  mayor  motivación,  más  
que  el  contenido  del  programa  en  sí,  puede  explicar  su  ingresos  superiores  en  relación  con  el  grupo  de  control.  
Como  tal,  los  factores  de  fondo  no  son  los  mismos  en  los  dos  grupos,  una  característica  ilustrada  en  la  Figura  8.1.  En  
consecuencia,  el  valor  esperado  de  Y,  dado  X,  no  es  el  mismo  en  todos  los  grupos.

Figura  8.1:  Datos  transversales:  un  escenario  típico

C  (grupo  de  control) T  (grupo  de  tratamiento)

X=0 X=1

(Débilmente  motivado) (Fuertemente  motivado)

E(Y|X)  no  es  lo  mismo  para  los  grupos  de  tratamiento  y  control

165
Machine Translated by Google

Figura  8.2:  Gráfica  causal  con  factor  de  confusión  de  causa  común

Z
[ ]

X Y

X  =  factor  causal
Y  =  Resultado
Z  =  Confundidor  de  causa  común
[ ]  =  No  condicionado

El  confusor  problemático  en  este  caso  es  un  confusor  de  causa  común,  llamado  así  porque  afecta  tanto  al  factor  
causal  (X)  como  al  resultado  (Y).  En  este  caso,  es  más  probable  que  una  persona  desempleada  altamente  motivada  
seleccione  el  tratamiento  y  tenga  mayores  ingresos  en  comparación  con  aquellos  con  menor  motivación.  El  gráfico  causal  asociado  
se  ilustra  en  la  Figura  8.2.

Hay  varios  enfoques  para  este  tipo  de  problema.  La  más  simple  y  común  es  condicionar  en  Z,  el  factor  de  confusión  
potencial.  Lo  que  esto  significa  es  que  en  lugar  de  simplemente  observar  la  relación  entre  X  e  Y ,  ahora  debemos  examinar  una  
relación  multivariante:  X→Y,  manteniendo  Z
constante.
Esto  es  más  fácil  de  explicar  si  asumimos  que  Z,  como  X,  es  binario.  Digamos  que  la  motivación  es  una  cualidad  binaria;  uno  
lo  tiene  o  no  lo  tiene;  e  imaginemos  que  este  rasgo  de  una  personalidad  puede  medirse.  Esto  nos  permite  presentar  la  combinación  
de  valores  posibles  en  una  matriz  de  2x2,  como  se  muestra  en  la  Figura  8.3.

Con  esta  matriz,  perseguimos  dos  tipos  de  comparaciones.  Primero,  comparamos  valores  para  el  resultado,  Y,  cuando  
XC  (X=0)  y  XT  (X=1),  manteniendo  Z  constante  en  0  (personas  desmotivadas).  Restando  de  lo  mismo  para  la  siguiente  fila.  
Z=1  (personas   YX=1,Z=0 obtenemos  el  efecto  causal  para  todos  los  casos  donde  Z=0.  A  continuación,  hacemos  
YX=0,Z=0
Restando  donde  
motivadas). YX=0,Z=1 desde YX=1,Z=1 obtenemos  el  efecto  causal  para  todos  los  casos

166
Machine Translated by Google

Figura  8.3:  Condicionamiento  sobre  un  factor  de  confusión  de  causa  común:  una  ilustración

0 1

0 YX=0,Z=0  YX=1,Z=0
Z
1 YX=0,Z=1  YX=1,Z=1

X  =  factor  causal  (0/1)  Z  =  factor  de  confusión  de  causa  común  (0/1)  Y  =  resultados  (en  promedio)  para  aquellos  
sujetos  a  la  combinación  especificada  de  valores  a  lo  largo  de  X  y  Z.

Esto  se  puede  lograr  con  el  método  de  lápiz  y  papel  que  acabamos  de  revisar,  o  con  estimadores  (p.  
ej.,  regresión  o  emparejamiento)  que  son  capaces  de  acomodar  una  gran  cantidad  de  factores  de  confusión.  
Tenga  en  cuenta  que  aunque  la  mecánica  de  presionar  botones  en  un  programa  de  software  es  fácil,  hay  una  gran  
cantidad  de  suposiciones  envueltas  en  este  tipo  de  análisis.  Cada  uno  debe  ser  cierto,  o  el  resultado  será  falso.

Volviendo  a  nuestro  ejemplo,  examinemos  algunos  de  los  problemas  potenciales.  Primero,  debemos
supongamos  que  hemos  tenido  en  cuenta  adecuadamente  el  supuesto  factor  de  confusión  de  causa  
común,  la  motivación.  Desafortunadamente,  este  es  un  asunto  difícil  de  medir.  No  se  puede  simplemente  
preguntar  a  las  personas  si  están  muy  motivadas  y  esperar  recibir  una  respuesta  honesta.  Esto  no  se  debe  
simplemente  a  que  las  personas  mientan,  sino  también  a  que  las  personas  no  siempre  son  conscientes  de  cuán  
motivadas  están  o  cuán  persistentes  serán  en  la  búsqueda  de  sus  objetivos.  Por  supuesto,  ayudaría  si  
midiéramos  la  motivación  de  una  manera  más  sensible.  En  lugar  de  una  escala  binaria,  podríamos  usar  una  escala  
de  intervalo,  que  se  extienda,  digamos,  de  0  a  100.  Entonces  se  debe  asumir  una  función  particular,  digamos,  lineal  o  
logarítmica  lineal,  para  representar  la  relación  entre  la  motivación  y  las  ganancias,  y  se  debe  adoptar  un  marco  
de  regresión  para  realizar  el  análisis,  que  implica  suposiciones  adicionales  (ver  Parte  IV).
En  segundo  lugar,  se  debe  suponer  que  se  han  tenido  en  cuenta  todos  los  factores  de  confusión  adicionales  que  pueden
estar.  La  motivación  es  solo  un  posible  factor  de  confusión.  Puede  ser  que  quienes  se  inscriban  en  el  programa  de  
capacitación  de  trabajadores  estén  más  calificados,  o  menos  calificados,  que  quienes  no  lo  hacen.  Puede  ser  que  los  
hombres,  los  blancos  o  los  protestantes  estén  sobrerrepresentados  en  relación  con  las  personas  desempleadas  que  no  
se  unen  al  programa.  Cada  una  de  estas  características  puede  afectar  el  resultado,  medido  como  ganancias  y,  por  
lo  tanto,  puede  servir  como  factor  de  confusión.  ¿Cómo  saber  si  se  han  incluido  todos  estos  factores  como  controles  
en  el  análisis?  (¿Qué  pasa  si  algunos  de  ellos  son  imposibles  de  medir?)  Esto  se  conoce  como  sesgo  de  variable  
omitida.
En  tercer  lugar,  se  debe  suponer  que  todos  los  factores  incluidos  como  controles  en  el  análisis  en  realidad  son
factores  de  confusión  Si  no  son  factores  de  confusión,  pueden  introducir  factores  de  confusión  en  un  análisis  por  lo  
demás  válido.  Este  suele  ser  el  caso  si  los  factores  se  miden  en  una  prueba  posterior,  es  decir,  después  de  que  se  
haya  administrado  el  tratamiento  (el  programa).  Supongamos,  por  ejemplo,  que  medimos  la  motivación  al  final  de  un  
programa  de  formación  de  trabajadores  en  lugar  de  al  principio.  En  este  caso,  podríamos  imaginar  que  los  niveles  
de  motivación  de  los  desempleados  que  participan  en  el  programa  estarían  influenciados  por  su  participación  en  el  
programa.  Si  es  un  programa  bien  administrado,  es  posible  que  se  sientan  más  motivados  para  encontrar  trabajo  que  
al  principio.  De  hecho,  esto  puede  servir  como  un  mecanismo  causal  importante  si  el  programa  tiene  el  impacto  
deseado.  Condicionar  a  este  factor  en  un  análisis  multivariante  bloqueará  el  impacto  de

167
Machine Translated by Google

X  sobre  Y,  lo  que  da  como  resultado  una  estimación  atenuada  y  tal  vez  ocluye  por  completo  el  efecto  causal,  como  
se  ilustra  en  la  Figura  8.4.

Figura  8.4:  Gráfico  causal  con  confusor  mecanicista  (posterior  al  tratamiento)

X Z Y

X  =  factor  causal
Y  =  Resultado
Z  =  Confundidor  mecanicista

Otro  problema  potencial  planteado  por  el  condicionamiento  involuntario  de  factores  que  no  son  de  confusión  
es  el  colisionador.  En  su  versión  más  simple,  se  genera  un  factor  de  confusión  cuando  se  condiciona  un  factor  que  se  ve  
afectado  tanto  por  el  factor  causal  de  interés  (X)  como  por  el  resultado  (Y),  como  se  muestra  en  el  diagrama  de  la  Figura  8.5.
Considere  el  siguiente  escenario.  En  un  intento  por  condicionar  todos  los  posibles  factores  de  confusión  de  causa  común  en  
el  análisis  de  un  programa  de  formación  de  trabajadores,  se  decide  incluir  la  afiliación  sindical  como  una  covariable  en  el  
modelo  causal.  Sin  embargo,  si  la  afiliación  sindical  (Z)  se  ve  afectada  por  la  participación  en  el  programa  de  
formación  de  trabajadores  (X)  y  por  los  ingresos  (Y),  se  genera  una  relación  espuria  entre  X  e  Y.
Es  decir,  entre  los  afiliados  al  sindicato  (Z=1)  se  observará  una  covariación  entre  la  participación  en  el  programa  y  los  
ingresos  que  no  es  causal.  Asimismo,  entre  los  no  afiliados  (Z=0)  se  observará  una  covariación  entre  la  participación  
en  el  programa  y  los  ingresos  que  no  es  causal.

168
Machine Translated by Google

Figura  8.5:  Gráfica  Causal  con  Colisionador  de  Confusión

X Y

X  =  factor  causal
Y  =  Resultado
Z  =  Colisionador  de  confusión

Finalmente,  si  la  entrada  al  programa  es  voluntaria,  uno  puede  imaginar  que  el  resultado  
(ganancias)  podría  influir  en  la  participación.  Por  ejemplo,  si  el  programa  no  es  gratuito,  aquellos  con  ingresos  
más  altos  (antes  de  su  período  actual  de  desempleo)  pueden  estar  en  una  mejor  posición  para  participar.  
Incluso  si  es  gratis,  es  más  probable  que  participen  porque  pueden  darse  el  lujo  de  renunciar  a  las  ganancias  
actuales  para  mejorar  las  ganancias  futuras.  Aquellos  con  pocos  o  ningún  ahorro  pueden  verse  obligados  a  
aceptar  el  primer  trabajo  que  encuentran,  presumiblemente  un  trabajo  mal  pagado,  en  lugar  de  asistir  a  un  
programa  de  capacitación  laboral  que  promete  mayores  recompensas  en  algún  momento  en  el  futuro.  Este  tipo  
de  circularidad  entre  causa  y  efecto,  ilustrada  en  la  Figura  8.6,  también  sesgará  el  análisis.  En  este  caso,  
dará  como  resultado  una  correlación  más  fuerte  entre  X  e  Y  que  la  que  garantiza  el  efecto  independiente  de  
X  sobre  Y.  Al  igual  que  con  los  factores  de  confusión  de  causa  común,  es  posible  restaurar  la  comparabilidad  
entre  los  grupos  de  tratamiento  y  control  bloqueando  la  circularidad.  camino.  En  este  caso,  eso  requeriría  
condicionar  los  ingresos  o  la  riqueza  previos  al  tratamiento.

169
Machine Translated by Google

Figura  8.6:  Gráfico  causal  con  confusión  circular

[ ]Z

X Y

X  =  factor  causal
Y  =  Resultado
Z  =  Confundidor
[ ]  =  No  condicionado

EJEMPLO
Los  grupos  étnicos  están  en  todas  partes,  pero  sólo  en  algunos  casos  se  convierten  en  forraje  para  la  política,  
es  decir,  líneas  de  división  entre  agrupaciones  partidarias.  Aquí  radica  una  pregunta  clásica  sobre  la  construcción  
de  identidades  políticas.  Daniel  Posner  supone  que  la  prominencia  política  de  las  fronteras  étnicas  tiene  mucho  
que  ver  con  el  tamaño  de  los  grupos  étnicos  en  relación  con  el  tamaño  de  la  entidad  política.  Específicamente,  
“Si  [una]  división  cultural  define  grupos  que  son  lo  suficientemente  grandes  como  para  constituir  coaliciones  
viables  en  la  competencia  por  el  poder  político,  entonces  los  políticos  movilizarán  a  estos  grupos  y  la  división  
que  los  divide  se  volverá  
políticamente  destacada”.  99  Para  lograr  esto  hipótesis,  Posner  se  aprovecha  de  la  naturaleza  arbitraria  de  la  política
fronteras  en  África,  donde  las  fronteras  nacionales  son  en  gran  medida  el  producto  de  luchas  coloniales  
intraeuropeas  más  que  de  la  construcción  de  naciones  indígenas.  Esto  significa  que,  a  diferencia  de  las  
fronteras  políticas  en  Europa,  las  fronteras  en  África  pueden  considerarse  elementos  aleatorios  del  
universo  político.  El  problema  de  la  asignación  está  presumiblemente  (o  al  menos  plausiblemente)  resuelto.  En  
particular,  Posner  se  enfoca  en  la  frontera  entre  Zambia  y  Malawi,  que  ha  separado  a  miembros  de  dos  tribus,  
Chewa  y  Tumbuka,  desde  1891,  cuando  estos  territorios  estaban  en  manos  de  los  británicos  (como  el  
noreste  y  el  noroeste  de  Rhodesia).  Como  producto  de  este  ejercicio  de  dibujo  lineal  (realizado  
puramente  con  fines  administrativos,  dice  Posner),  los  chewas  y  los  tumbukas  se  convirtieron  en  minorías  muy  
pequeñas  dentro  del  sistema  político  de  Zambia  (7%  y  4%  respectivamente  de  la  población  nacional)  y  en  
grandes  minorías  dentro  de  ­mucho  más­.  más  pequeño:  estado  de  Malawi  (28%  y  12%  de  la  población  nacional).  
Posner  argumenta  que  esta  diferencia  de  tamaño  relativo  explica  la  construcción  de  las  relaciones  
étnicas  en  los  dos  países.  En  Zambia,  Chewas  y  Tumbukas  son  aliados,  mientras  que  en  Malawi  son  adversarios.  
Esto  lo  confirman  las  encuestas  que  Posner  administra  a  los  aldeanos  dentro  de  cada  grupo  étnico  en  ambos  
lados  de  la  frontera,  y  también  es  la  sabiduría  recibida  entre  académicos  y  expertos.
Por  supuesto,  transcurre  una  buena  cantidad  de  tiempo  entre  el  tratamiento  (cuyo  efecto  
causal  presumiblemente  comienza  con  la  partición  inicial  del  territorio  en  1891,  y  se  acelera  después  de  
la  independencia  de  los  dos  países  en  1964)  y  la  prueba  posterior  (a  principios  de  los  veinte).  ­primer  siglo).

99  Posner  (2004:  529­30).

170
Machine Translated by Google

Por  lo  general,  los  factores  institucionales  ejercen  una  influencia  causal  pequeña  pero  constante  durante  muchos  años,  por  
lo  que  esta  es  una  forma  razonable  de  probar  la  teoría  del  interés  teórico.  Y,  sin  embargo,  cuando  transcurre  una  gran  
cantidad  de  tiempo  entre  un  tratamiento  y  un  resultado  de  interés,  es  difícil  llegar  a  conclusiones  firmes  sobre  la  causalidad.  Y  
cuando  faltan  pruebas  previas,  como  sucede  (por  definición)  en  todos  los  diseños  transversales,  las  dificultades  
inferenciales  se  agravan.  En  estos  aspectos,  los  diseños  transversales  (solo  posteriores  a  la  prueba)  son  mucho  más  débiles  
que  los  diseños  de  panel.
En  el  estudio  de  Posner,  incluso  si  se  resuelve  el  problema  de  la  asignación,  todavía  hay  una  gran  cantidad  de  
factores  de  confusión  potenciales  que  amenazan  con  infiltrarse  en  el  diseño  de  la  investigación  después  (o  coincidiendo  
con)  el  establecimiento  de  las  fronteras  nacionales.  Específicamente,  cualquier  factor  relacionado  con  el  tratamiento  –“país”–  
es  un  posible  factor  de  confusión.  Bien  podría  ser,  por  ejemplo,  que  la  etnicidad  sea  tratada  de  manera  diferente  en  
Zambia  y  Malawi  por  razones  distintas  al  tamaño  de  los  grupos  étnicos.  Posner  analiza  de  cerca  varios  de  estos  relatos  
alternativos,  incluidas  las  acciones  del  poder  colonial,  los  misioneros,  los  empresarios  étnicos  y  diversas  trayectorias  
nacionales.  Esta  parte  del  estudio  se  basa  en  evidencia  auxiliar  compuesta  por  observaciones  de  procesos  causales  
(Capítulo  10).
Posner  hace  un  buen  trabajo  al  abordar  la  evidencia  histórica.  Aun  así,  es  difícil  prescindir  de  tales  factores  de  
confusión,  y  las  amenazas  estocásticas  a  la  inferencia  (factores  que  no  se  pueden  identificar  o  teorizar  fácilmente)  son  
igualmente  problemáticas.  Dadas  las  circunstancias,  podría  ser  útil  comparar  la  politización  de  la  etnicidad  entre  
grupos  pequeños  y  grandes  dentro  de  cada  país,  estudiar  un  grupo  étnico  que  se  encuentra  en  una  gran  cantidad  de  
países  (por  ejemplo,  los  chinos  Han)  u  observar  cambios  en  la  politización.  de  etnicidad  a  medida  que  una  comunidad  
inmigrante  crece  en  tamaño  con  el  tiempo  dentro  de  un  solo  país  (un  diseño  longitudinal).  Hay  muchas  formas  de  despellejar  a  
este  gato.  No  obstante,  Posner  ofrece  una  prueba  ingeniosa  y  plausible  de  una  pregunta  causal  difícil.

DISEÑOS  DE  SERIE  DE  TIEMPO

Habiendo  revisado  algunas  de  las  complicaciones  que  enfrentan  los  diseños  transversales  con  datos  no  experimentales,  
podemos  concluir  lo  obvio:  es  difícil  restaurar  las  virtudes  de  la  aleatorización  con  un  tratamiento  no  aleatorizado.  A  pesar  
de  nuestros  mejores  esfuerzos,  los  factores  de  confusión  pueden  persistir  o  pueden  generarse  involuntariamente  por  
nuestro  intento  de  superarlos.  Y,  al  final,  no  tenemos  forma  de  saber  con  seguridad  si  hemos  logrado  la  comparabilidad  
causal  entre  los  grupos  de  tratamiento  y  control,  es  decir,  si  el  valor  esperado  de  Y,  dado  X,  es  el  mismo  para  ambos  grupos.

Otra  opción  prescinde  por  completo  del  grupo  de  control,  centrándose  en  cambio  en  el  grupo  que  recibe  el  
tratamiento.  Esto  se  denominará  diseño  de  series  de  tiempo.  En  lugar  de  comparar  los  grupos  de  tratamiento  y  control,  se  
observa  un  grupo  a  través  del  tiempo,  antes  y  después  del  tratamiento,  como  una  pista  de  las  relaciones  causales.  Uno  puede  
pensar  en  esto  como  un  tratamiento  y  condiciones  de  control  observadas  a  través  del  tiempo  en  lugar  de  entre  grupos.  
La  condición  previa  al  tratamiento  ejemplifica  el  grupo  de  "control"  y  la  condición  posterior  al  tratamiento  ejemplifica  el  
grupo  de  "tratamiento".
Por  lo  general,  esto  involucra  una  sola  unidad  (o  caja).  Sin  embargo,  ocasionalmente  un  grupo  de  unidades  son
expuesto  a  la(s)  misma(s)  condición(es)  de  tratamiento  al  mismo  tiempo.  Aquí,  se  pueden  observar  varias  unidades  
simultáneamente.  Sin  embargo,  debido  a  que  X  toma  los  mismos  valores  para  todas  las  unidades,  no  hay  un  grupo  de  
"control" (en  el  sentido  habitual).
La  tabla  8.3  distingue  tres  tipos  de  diseño  de  investigación  de  series  de  tiempo.  El  más  simple  implica  un  solo  
tratamiento  con  pruebas  previas  y  posteriores.  Por  ejemplo,  se  podría  observar  un  grupo  de  personas  desempleadas  que  
se  unen  a  un  programa  de  capacitación  de  trabajadores,  midiendo  sus  ingresos  antes  de  unirse  al  programa  y  nuevamente  
un  año  después  de  completar  el  programa.

171
Machine Translated by Google

Un  segundo  implica  un  solo  tratamiento  acompañado  de  múltiples  pruebas  previas  y  posteriores.  Esto  se  
conoce  comúnmente  como  una  serie  de  tiempo  interrumpida.  Por  ejemplo,  uno  podría  observar  los  ingresos  de  un  grupo  
de  personas  desempleadas  a  intervalos  mensuales  durante  varios  años  antes  y  después  de  participar  en  un  programa  de  
capacitación  laboral.
Una  variedad  final  implica  la  iteración  múltiple  de  un  solo  tratamiento.  Esto  se  conoce  como  diseño  de  
observaciones  repetidas  (o  medidas  repetidas) .  Por  ejemplo,  se  podría  observar  un  grupo  de  desempleados  que  
asisten  a  uno  o  varios  programas  de  formación  de  trabajadores  durante  varias  décadas,  midiendo  sus  ingresos  cada  
año.
Metodológicamente,  estos  tres  diseños  son  similares,  aunque  en  algunos  entornos  los  diseños  de  series  
temporales  interrumpidas  y  observaciones  repetidas  ofrecen  ventajas  sobre  el  diseño  simple  de  prueba  previa  y  
posterior.

Tabla  8.3:  Diseños  de  investigación  de  series  de  tiempo

1.  Prueba  previa/posterior  de  un  grupo I. T1  X1  T2
2.  Serie  temporal  interrumpida Yo...  T1 T2 T3 T4  X1  T5 T6  T7  …
3.  Observaciones  repetidas I.  …  T1  X1  T2  X1  T3  X1  T4  X1  …

I Un  grupo
T1­N Mediciones  de  variables  clave  a  través  del  tiempo
XT Condición  de  tratamiento

Figura  8.7:  Datos  de  series  de  tiempo:  un  escenario  típico

T1  (pretratamiento) T2  (post­tratamiento)

X=0 X=1

(Débilmente  motivado) (Fuertemente  motivado)

E(Y|X)  no  es  lo  mismo  para  el  grupo,  antes  y  después  del  tratamiento

172
Machine Translated by Google

En  este  contexto,  la  cuestión  de  la  comparabilidad  se  refiere  al  estado  del  grupo  antes  y  después  de  la  exposición  al  
tratamiento.  Es  decir,  el  valor  esperado  de  Y,  dado  X,  debe  ser  el  mismo  antes  y  después  del  tratamiento,  es  decir,  en  T1  y  en  T2  
(T=tiempo).  Cualquier  violación  de  este  criterio  introducirá  un  sesgo  en  el  análisis.

Desafortunadamente,  a  menudo  hay  factores  de  confusión  que  acechan  en  un  diseño  de  series  de  tiempo.  Considere  
el  programa  de  capacitación  de  los  trabajadores.  Algunas  personas  desempleadas  pueden  experimentar  un  marcado  aumento  en  su  
nivel  de  motivación.  Esto  puede  surgir  de  una  conversación  con  un  amigo  o  familiar,  una  experiencia  religiosa,  el  nacimiento  de  
un  hijo  o  algún  otro  evento  que  cambie  la  vida.  Esta  mayor  motivación  puede  inclinarlos  a  (a)  unirse  a  un  programa  de  capacitación  
de  trabajadores  y  (b)  dedicarse  con  renovado  vigor  al  arduo  proceso  de  encontrar  un  trabajo.  Como  resultado,  podemos  encontrar  
una  tendencia  temporal  espuria.  Aquellos  que  participan  en  programas  de  capacitación  de  trabajadores  pueden  experimentar  
ingresos  posteriores  más  altos  no  porque  se  hayan  beneficiado  del  programa,  sino  porque  están  más  motivados  que  en  el  período  previo  
al  tratamiento.  El  valor  esperado  de  Y,  dado  X,  no  es  el  mismo  en  T1  que  en  T2.  El  factor  de  confusión  de  causa  común  es  
nuevamente  la  motivación.  Sin  embargo,  en  el  diseño  de  investigación  de  series  de  tiempo  es  un  cambio  en  la  motivación,  más  
que  una  característica  estática  de  los  individuos,  lo  que  crea  el  problema.

Como  con  cualquier  otro  diseño,  cualquier  característica  que  se  correlacione  con  el  tratamiento  y  también  afecte  el
el  resultado  es  un  factor  de  confusión  potencial  (si  no  está  condicionado).  Esta  es  una  situación  común  en  los  diseños  de  series  
de  tiempo  simplemente  porque  los  tratamientos  a  menudo  se  asocian  temporalmente  con  otras  cosas  que  también  afectan  un  
resultado.  Si  uno  desea  encontrar  un  trabajo,  es  probable  que  adopte  múltiples  enfoques  para  este  problema.  En  consecuencia,  
es  difícil  separar  el  impacto  de  un  programa  de  capacitación  de  trabajadores  de  todas  las  demás  acciones  que  podría  tomar  una  
persona  desempleada  altamente  motivada.  Del  mismo  modo,  si  se  está  midiendo  una  iniciativa  de  política  a  nivel  estatal  o  nacional,  
es  probable  que  la  iniciativa  de  política  vaya  acompañada  de  muchas  otras  iniciativas  de  política,  realizadas  más  o  menos  al  mismo  
tiempo.  En  consecuencia,  será  difícil  distinguir  el  efecto  causal  de  uno  de  los  efectos  causales  de  todos  los  demás.

Las  amenazas  a  la  inferencia  en  un  diseño  de  series  de  tiempo  incluyen  cualquier  característica  temporal  que  afecte  el
tendencia  temporal.  Por  ejemplo,  suponga  que  las  ganancias  están  aumentando  en  todos  los  ámbitos  en  una  economía  en  
crecimiento:  una  tendencia  constante.  En  algún  momento,  se  implementa  un  diseño  de  serie  de  tiempo  para  probar  el  impacto  de  un  
programa  de  capacitación  de  trabajadores.  Si  uno  simplemente  compara  los  ingresos  antes  y  después  del  tratamiento  dentro  de  este  
grupo,  es  probable  que  encuentre  una  mejora.  Pero  esta  mejora  puede  deberse  a  la  tendencia  temporal  existente  más  que  al  programa  
en  sí.
Una  tendencia  temporal  es  tan  común  y  tan  desconcertante  que  tiene  un  nombre  especial:  regresión  a  la  media.  Por  lo  
general,  tomamos  medidas  sobre  un  asunto  difícil  solo  cuando  la  urgencia  es  grande.  Los  individuos,  como  los  gobiernos,  esperan  
emergencias  para  instituir  la  reforma.  Para  una  persona  desempleada,  este  podría  ser  el  punto  en  el  que  su  cuenta  bancaria  llegue  a  
cero.  Para  un  gobierno,  podría  ser  un  punto  en  el  que  el  desempleo  social  alcanza  un  punto  particularmente  alto  (a  la  luz  de  la  
experiencia  histórica  de  ese  país).  En  esos  momentos,  se  toman  medidas  heroicas:  el  trabajador  decide  inscribirse  en  un  agotador  
programa  de  capacitación  laboral,  un  gobierno  decide  instituir  un  costoso  programa  de  capacitación  laboral.

Muchas  cosas  en  la  vida  siguen  un  patrón  cíclico  y  el  desempleo  es  probablemente  una  de  ellas.  Por  lo  tanto,  no  será  sorprendente  si,  
luego  de  unirse  a  un  programa  de  capacitación  laboral,  la  persona  desempleada  encuentra  trabajo,  o  si,  luego  de  instituir  un  programa  
de  capacitación  laboral,  la  tasa  de  desempleo  desciende.
Sin  embargo,  sería  un  error  atribuir  estos  cambios  al  programa  de  capacitación  de  los  trabajadores.  Son,  en  cambio,  ejemplos  de  
regresión  a  la  media,  es  decir,  un  retorno  a  un  estado  de  cosas  normal  (promedio).
Sin  duda,  hay  alguna  esperanza  de  manejar  el  problema  de  las  tendencias  preexistentes  (pero  no
variables  omitidas  colindantes  con  el  tratamiento).  Esto  se  puede  lograr  con  un  examen  cuidadoso  de  una  línea  de  
tendencia,  seguido  de  una  acción  correctiva.  Esto  requiere  una  gran  cantidad  de  datos  temporales;  una  simple  prueba  previa  y  
posterior  no  será  suficiente.  Cuando  los  datos  son  abundantes,  se  ha  desarrollado  un  amplio  conjunto  de  operaciones  para  
"eliminar  la  tendencia"  de  los  datos  de  series  de  tiempo,  de  modo  que  el  verdadero  efecto  de  X  sobre  Y  pueda  determinarse .

173
Machine Translated by Google

estimado  correctamente.  Debe  reconocerse  que  cada  una  de  estas  operaciones  involucra  suposiciones  significativas  y  
difíciles  de  probar  sobre  el  proceso  de  generación  de  datos.100  La  econometría  de  series  de  tiempo,  incluso  en  las  manos  
más  sofisticadas,  está  plagada  de  ambigüedad.  Si  la  tendencia  es  complicada,  digamos  que  involucra  una  tendencia  no  
lineal  a  largo  plazo,  una  tendencia  cíclica  a  corto  plazo  y  mucha  variación  estocástica,  uno  se  esforzará  por  estimar  el  
verdadero  efecto  causal  de  X  en  Y.
A  primera  vista,  el  enfoque  de  medidas  repetidas  para  el  análisis  de  series  de  tiempo  parece  resolver  estos
problemas.  Sin  duda,  si  la  unidad  vuelve  al  equilibrio  después  de  cada  intervención,  entonces  cada  
intervención  puede  entenderse  como  una  prueba  independiente  de  una  proposición  dada.  Un  solo  caso  
observado  longitudinalmente  cumple  así  la  función  de  varios  casos  de  tratamiento  y  control,  observados  
latitudinalmente.  En  efecto,  uno  prueba  y  vuelve  a  probar  una  sola  unidad.
Sin  embargo,  en  muchas  otras  situaciones  comunes  a  las  ciencias  sociales  existen  efectos  de  prueba  
duraderos.  Por  lo  general,  el  efecto  de  una  intervención  es  cambiar  la  unidad  que  experimenta  la  intervención.  Si  es  así,  
la  tabula  ya  no  es  rasa.  Incluso  si  la  unidad  sigue  siendo  la  misma,  otros  elementos  contextuales  pueden  variar  de  
T1  a  T2,  lo  que  hace  que  la  segunda  prueba  no  sea  equivalente  a  la  primera.  Esta  es  la  razón  por  la  cual  los  
diseños  de  medidas  repetidas  a  menudo  ofrecen  un  sustituto  pobre  para  un  grupo  de  control  espacial.

EJEMPLO
Los  diseños  de  series  de  tiempo  pueden  ser  bastante  sólidos,  especialmente  si  el  factor  de  interés  teórico  se  somete  a  
múltiples  pruebas  independientes.  Un  ejemplo  de  este  procedimiento  se  puede  encontrar  en  un  estudio  sobre  
discriminación  laboral  realizado  por  Claudia  Goldin  y  Cecilia  Rouse.101  Ya  hemos  mostrado  el  potencial  de  los  
experimentos  aleatorios  para  analizar  los  efectos  de  la  discriminación  laboral  en  trabajos  poco  calificados.  Los  trabajos  
de  alta  calificación  ofrecen  un  obstáculo  especial  para  la  evaluación  causal  porque  hay  menos  puestos,  están  
menos  estandarizados  (y,  por  lo  tanto,  menos  comparables  entre  sí)  y  el  proceso  de  selección  se  basa  en  habilidades  
que  son  difíciles  de  manipular  artificialmente,  por  ejemplo,  a  través  de  auditoría.  o  reanudar  los  experimentos.  Y,  sin  
embargo,  persiste  la  sospecha  de  que  un  “techo  de  cristal”  impide  el  movimiento  de  mujeres  y  minorías  a  la  cima  de  las  
ocupaciones  altamente  calificadas.102  Recientemente  surgió  
una  oportunidad  para  probar  esta  hipótesis  cuando  varias  orquestas  instituyeron  procedimientos  de  
audición  a  ciegas.  Antes  de  entrar  en  los  detalles  del  estudio,  vale  la  pena  considerar  que  una  orquesta  clásica  
es  quizás  el  prototipo  ideal  de  una  ocupación  basada  en  habilidades.  Todo  lo  que  importa,  o  debería  importar,  es  cómo  
se  toca  un  instrumento.  Además,  existen  estándares  compartidos  sobre  lo  que  constituye  una  buena  interpretación  en  el  
campo  de  la  música  clásica.  (Es  concebible  que  la  estética  se  base  en  la  raza  o  el  género,  pero  esta  no  es  la  impresión  
general.)  Por  lo  tanto,  desde  cierta  perspectiva,  los  productores  de  música  “clásica”  caen  en  un  sector  de  ocupaciones  
altamente  calificadas  que  son  menos  probables .  exhibir  prácticas  discriminatorias.

Goldin  y  Rouse  aprovechan  el  cambio  de  audiciones  no  ciegas  a  ciegas  para  determinar  si  este  
cambio  en  las  prácticas  de  contratación  tiene  algún  efecto  sobre  la  propensión  de  las  mujeres  a  obtener  puestos  en  
orquestas  profesionales,  donde  estaban  y  están  muy  subrepresentadas  en  relación  a  su  presencia  en  la  población  en  
general.  El  estudio  aprovecha  el  problema  al  observar  de  cerca  la  variación  antes  y  después  del  inicio  del  tratamiento,  un  
punto  en  el  tiempo  que  varía  de  una  orquesta  a  otra.  Específicamente,  comparan  la  probabilidad  de  que  una  candidata  
orquestal  pase  varias  etapas  en  el  proceso  de  entrevista  (desde  la  primera  audición  hasta  la  audición  final  y  la  oferta  de  
trabajo)  antes  de  la  institución  de  los  procedimientos  de  auditoría  ciega  y  después  de  la  institución  de  los  procedimientos  
de  auditoría  ciega.  Los  datos  se  recopilan  durante  varias  décadas  antes  y  después  del  cambio  en  el  protocolo  de  
contratación.  Así,  el  análisis  compara  el  éxito  de  las  candidatas  en  los  años  previos  al  cambio  con  su  éxito  en

100Hamilton  (1994).
101  Goldin  y  Rouse  (2000).
102
Inglaterra  et  al.  (1988).

174
Machine Translated by Google

años  después  del  cambio.  Dado  que  las  experiencias  de  múltiples  orquestas  se  analizan  por  separado,  este  estudio  puede  
entenderse  como  un  diseño  de  series  temporales  interrumpidas,  iteradas  para  cada  orquesta  en  estudio.
Los  autores  encuentran  que  la  existencia  de  una  pantalla  que  separa  al  artista  de  los  tomadores  de  decisiones  
de  la  orquesta  (y  por  lo  tanto  oculta  el  género  del  jugador)  aumentó  varias  veces  la  probabilidad  de  que  una  mujer  fuera  
contratada.  Esto  parece  probar  la  tesis  de  que  las  mujeres  enfrentan  obstáculos  para  la  movilidad  ascendente  que  se  deben  
únicamente  a  su  género,  no  a  características  relevantes  para  el  trabajo.  De  hecho,  es  difícil  identificar  cualquier  posible  
factor  de  confusión  en  este  diseño  de  investigación.  Por  supuesto,  el  análisis  no  aclara  precisamente  por  qué  persiste  esta  forma  
de  discriminación  de  género.  Pero  muestra  el  poder  de  los  diseños  de  series  de  tiempo  para  estimar  los  efectos  causales,  al  
menos  en  algunas  circunstancias.

DISEÑOS  DE  SECCIÓN  TRANSVERSAL  DE  SERIE  DE  TIEMPO  (TSCS)

Habiendo  discutido  las  fortalezas  y  debilidades  de  los  diseños  transversales  y  de  series  de  tiempo,  pasamos  a  una  familia  de  
diseños  de  investigación  que  combina  ambos  tipos  de  comparaciones,  entre  unidades  y  a  lo  largo  del  tiempo.  Esto  se  
denominará  diseño  de  sección  transversal  de  serie  temporal  (TSCS).  Aquí,  se  toman  varias  observaciones  de  cada  
unidad  y  hay  variación  en  X  a  través  del  tiempo  (al  menos  en  algunas  unidades)  y  entre  unidades.  El  diseño  TSCS  
combina  comparaciones  temporales  y  espaciales.
Por  lo  general,  un  diseño  TSCS  involucra  mediciones  repetidas  de  un  conjunto  de  unidades,  observadas
a  través  del  tiempo.  Así,  uno  podría  observar  individuos,  o  estados­nación,  cada  año  durante  20  años,  estableciendo  
un  panel  con  veinte  observaciones  a  lo  largo  del  tiempo.  A  veces,  faltan  datos,  es  decir,  algunas  unidades  no  se  observan  
para  cada  período  de  tiempo;  esto  genera  un  panel  desbalanceado .
A  veces,  las  observaciones  a  través  del  tiempo  no  son  de  las  mismas  unidades  sino  de  unidades  elegidas  al  azar  
de  una  población  más  grande.  Por  ejemplo,  si  uno  está  construyendo  un  análisis  TSCS  a  partir  de  datos  de  una  encuesta  
compuesta  por  una  muestra  de  2000  individuos  seleccionados  al  azar  de  la  población  de  los  EE.  UU.  cada  año  durante  el  
transcurso  de  20  años,  cada  muestra  anual  (o  panel)  incluye  un  conjunto  diferente  de  encuestados.  Nos  referiremos  a  
este  tipo  de  TSCS  como  una  sección  transversal  agrupada.
TSCS  incluye  una  familia  diversa  de  diseños  de  investigación,  como  se  ilustra  en  la  fila  "varios"
de  la  Tabla  8.4.

Para  centrar  nuestra  discusión,  nos  detendremos  en  una  variedad  simple  de  diseño  TSCS  conocida  como
el  diseño  de  diferencia  en  diferencia  (DD),  ilustrado  en  la  segunda  fila  de  la  Tabla  8.4.  Tenga  en  cuenta  que  el  Grupo  I  
recibe  el  tratamiento  mientras  que  el  Grupo  II  ejemplifica  la  condición  de  control.  Los  resultados  se  miden  antes  y  después  
de  la  intervención.  Las  estimaciones  del  efecto  causal  derivan  de  una  comparación  del  cambio  en  el  resultado  del  
grupo  tratado  con  el  cambio  en  el  resultado  del  grupo  de  control:  ∆Y  (Grupo  I)  ­  ∆Y  (Grupo  II).  Por  lo  tanto,  una  diferencia­en­
diferencia.103
Supongamos,  por  ejemplo,  que  estamos  comparando  los  ingresos  de  los  desempleados  que  (voluntariamente)  
se  unen  a  un  programa  de  formación  de  trabajadores  con  los  que  no  lo  hacen.  Observamos  sus  ingresos  antes  de  comenzar  el  
programa  (presumiblemente,  cero,  a  menos  que  lo  estemos  midiendo  varios  años  antes)  y  nuevamente  un  año  después  de  la  
finalización  del  programa.  Luego  comparamos  el  cambio  en  los  ingresos  del  grupo  de  tratamiento  y  el  de  control  para  
estimar  el  efecto  causal  (si  lo  hay)  del  programa  en  los  ingresos.

En  algunos  aspectos,  este  diseño  se  parece  mucho  a  un  diseño  de  sección  transversal.  Sin  embargo,  ahora  estamos  
observando  el  cambio  a  lo  largo  del  tiempo  entre  las  pruebas  previas  y  posteriores  en  lugar  de  una  simple  prueba  posterior.  
¿Hasta  qué  punto  esto  hace  que  la  inferencia  causal  sea  más  segura?

103  Quienes  estén  interesados  en  el  estimador  DD  encontrarán  una  breve  discusión  en  Gerring  (2012b:  280­283).

175
Machine Translated by Google

En  el  diseño  transversal,  la  suposición  de  comparabilidad  causal  requiere  que  todos  los  factores  de  
fondo  que  puedan  afectar  el  resultado  sean  iguales,  en  promedio,  en  los  grupos  de  tratamiento  y  control.  En  el  diseño  DD,  
requerimos  que  todos  los  factores  de  fondo  cambiantes  sean  iguales,  en  promedio,  en  todos  los  grupos  de  
tratamiento  y  control.  En  la  mayoría  de  los  contextos,  esta  es  una  suposición  más  fácil  de  satisfacer.  Es  especialmente  
convincente  si  el  período  de  tiempo  que  separa  las  pruebas  previas  y  posteriores  es  relativamente  corto  y  los  factores  de  
fondo  cambian  lentamente.  En  estas  circunstancias,  parece  plausible  suponer  que  se  ha  logrado  la  comparabilidad  
causal.
Por  supuesto,  cualquier  factor  de  fondo  que  varíe  con  X  sigue  siendo  un  factor  de  confusión  potencial.  Entonces,  si  
algunos  sujetos  son  impulsados  por  un  cambio  motivacional  a  (a)  ingresar  al  programa  de  formación  de  trabajadores  y  (b)  
conseguir  un  trabajo,  esto  generará  un  resultado  espurio.  Pero  en  otros  aspectos,  el  diseño  DD  es  más  robusto  que  los  
correspondientes  diseños  transversales  o  de  series  de  tiempo.  Las  amenazas  de  la  historia  (tendencias  temporales  
existentes  o  regresión  a  la  media)  no  son  problemáticas  siempre  que  afecten  por  igual  a  los  grupos  de  tratamiento  y  
de  control.  La  confusión  circular  es  menos  problemática  porque  es  poco  probable  que  afecte  el  cambio  en  Y  entre  los  grupos  
de  tratamiento  y  control.  Los  factores  de  confusión  mecanicistas  todavía  son  posibles.  Sin  embargo,  debido  a  que  el  
número  de  posibles  factores  de  confusión  es  mucho  menor  en  el  diseño  DD  que  en  los  diseños  transversales  o  
de  series  de  tiempo  correspondientes,  es  menos  probable  que  uno  condicione  erróneamente  una  variable  posterior  al  
tratamiento.  En  resumen,  hay  mucho  para  recomendar  el  diseño  DD  (y  sus  análogos  en  el  análisis  TSCS)  en  relación  
con  los  diseños  transversales  y  de  series  temporales.
Debe  insertarse  una  advertencia  crítica.  Debido  a  que  el  tratamiento  no  es  aleatorio,  normalmente  no  se  
esperaría  que  los  grupos  de  tratamiento  y  control  fueran  iguales  en  todas  las  características  de  fondo  que  son  relevantes  
para  el  resultado.  Específicamente,  no  podemos  esperar  que  los  miembros  del  grupo  de  control  respondan  de  la  misma  
manera  que  los  miembros  del  grupo  de  tratamiento.  Cuando  está  en  juego  la  autoselección,  es  más  probable  que  
aquellos  que  eligen  exponerse  a  un  tratamiento  respondan  positivamente  a  ese  tratamiento.  En  este  caso,  aquellos  
que  opten  por  asistir  a  un  programa  de  formación  de  trabajadores  pueden  estar  en  una  mejor  posición  para  hacer  uso  
de  ese  conocimiento  para  encontrar  un  trabajo.  En  consecuencia,  sus  ganancias  por  la  asistencia  pueden  ser  mayores  que  
las  de  un  miembro  típico  del  grupo  de  control.  De  ello  se  deduce  que  un  efecto  causal  calculado  con  un  diseño  TSCS  a  
menudo  se  entiende  mejor  como  un  efecto  de  tratamiento  promedio  para  los  tratados  (ATT)  en  lugar  de  un  efecto  de  
tratamiento  promedio  entre  los  grupos  de  tratamiento  y  control  (ATE).

EJEMPLO
El  efecto  sobre  el  empleo  de  las  leyes  de  salario  mínimo  es  un  tema  principal  en  la  economía  laboral.  A  pesar  de  múltiples  
estudios  y  una  gran  cantidad  de  teorías,  la  cuestión  empírica  sigue  siendo  esquiva.  Al  igual  que  con  otras  preguntas  de  
las  ciencias  sociales,  un  obstáculo  metodológico  clave  es  el  aspecto  no  aleatorio  del  tratamiento.
Es  probable  que  los  estados  (o  países)  que  establecen  salarios  mínimos  altos  también  sean  diferentes  en  otros  aspectos  
de  los  estados  (o  países)  que  establecen  salarios  mínimos  bajos  (o  nulos).  Estos  factores  heterogéneos,  relacionados  con  
otras  regulaciones  del  mercado  laboral,  la  política  fiscal  o  el  carácter  de  las  sociedades  y  organizaciones  laborales,  sirven  
como  factores  de  confusión  potenciales.  La  institución  de  las  reformas  del  mercado  laboral  también  puede  ser  una  
respuesta  a  las  características  del  desempeño  macroeconómico,  introduciendo  amenazas  de  circularidad.
En  un  artículo  ampliamente  citado,  David  Card  y  Alan  Krueger  abordan  este  problema  centrándose  en  un  episodio  
de  cambio  de  política:  el  aumento  de  los  salarios  mínimos  en  Nueva  Jersey  en  1992.  Su  estrategia  de  recopilación  de  datos  
se  centra  en  un  solo  sector:  los  restaurantes  de  comida  rápida.  que  es  probable  que  sea  sensible  a  los  cambios  en  el  salario  
mínimo.  Se  encuestan  varios  cientos  de  restaurantes  en  Nueva  Jersey  y  un  estado  vecino,  Pensilvania,  para  
determinar  si  los  niveles  de  empleo,  salarios  y  precios  sufrieron  algún  cambio  antes  y  después  de  que  este  
cambio  legal  entrara  en  vigor.  Los  restaurantes  de  Pensilvania  sirven  como  grupo  de  control  espacial.  (También  
se  hacen  comparaciones  entre  tiendas  en  Nueva  Jersey  que  pagaron  más  y  menos  del  salario  mínimo  recientemente  
instituido.  Dado  que  las  primeras  no  se  vieron  afectadas  por  el  aumento  de  los  salarios  mínimos,  este  grupo  forma  un  
segundo  grupo  de  control).

176
Machine Translated by Google

El  enfoque  empírico  de  Card  y  Krueger  es  un  modelo  de  diferencias  en  diferencias  en  el  que  el  cambio  en  el  
empleo  en  comida  rápida  en  Nueva  Jersey  (el  grupo  de  tratamiento)  se  compara  con  el  cambio  en  el  empleo  en  comida  
rápida  en  Pensilvania.  El  análisis  muestra  que  los  cambios  en  los  dos  estados  durante  este  período  fueron  bastante  similares,  
lo  que  sugiere  que  un  aumento  legislado  en  el  salario  mínimo  en  Nueva  Jersey  no  aumentó  el  desempleo  en  ese  estado.

Es  un  estudio  impresionante,  aunque,  como  todos  los  estudios,  no  está  exento  de  dificultades  potenciales.
Podrían  surgir  preguntas,  por  ejemplo,  sobre  la  representatividad  del  sector  elegido  (¿el  efecto  total  de  una  ley  de  salario  
mínimo  en  toda  la  economía  se  refleja  en  el  comportamiento  de  una  sola  industria?).
Uno  también  se  pregunta  acerca  de  la  estrechez  de  la  línea  de  tiempo  (¿los  efectos  económicos  de  un  aumento  en  los  
salarios  mínimos  se  manifestarían  en  el  corto  espacio  de  ocho  meses,  el  tiempo  transcurrido  entre  las  pruebas  previas  y  
posteriores?).  Uno  se  pregunta  si  las  condiciones  económicas  en  los  dos  estados  eran  lo  suficientemente  similares  para  
constituir  una  buena  comparación  por  pares  y  si  las  diferencias  restantes  se  modelaron  adecuadamente  en  el  
análisis  estadístico.  También  puede  cuestionarse  si  el  diseño  de  la  investigación  incorpora  suficiente  poder  para  constituir  
una  prueba  justa  de  la  hipótesis  nula.  (¿Se  le  ha  dado  a  la  hipótesis  positiva,  que  los  salarios  mínimos  afectan  el  
comportamiento  del  mercado  laboral,  una  oportunidad  justa  de  tener  éxito?)  Al  menos  un  comentarista  ha  cuestionado  
si  el  aumento  de  los  salarios  mínimos  representa  realmente  el  factor  de  interés  teórico,  o  si  debe  considerarse  como  un  
instrumento  para  ese  factor  subyacente  (no  medido):  los  salarios  realmente  pagados  a  los  trabajadores.104  Algunos  de  
estos  problemas  podrían  haberse  superado  con  ligeras  modificaciones  en  el  diseño  de  la  
investigación;
otros  son  inherentes  en  virtud  del  hecho  de  que  el  tratamiento  no  puede  manipularse  directamente.105  El  problema  de  la  
asignación  no  aleatoria  acosa  a  todos  los  diseños  DD  (al  igual  que  a  todos  los  demás  diseños  no  
experimentales).  Uno  nunca  puede  estar  completamente  seguro,  por  ejemplo,  de  que  las  empresas  en  Pensilvania  (el  grupo  
de  control)  habrían  respondido  a  un  aumento  en  los  salarios  mínimos  de  la  misma  manera  que  en  Nueva  Jersey.  Si  no  es  
así,  entonces  se  pone  en  duda  la  generalización  del  hallazgo.  Las  dudas  sobre  la  causalidad  se  amplifican  cuando  el  
tratamiento  se  asigna  de  forma  no  aleatoria  porque  a  uno  le  preocupa  que  pueda  haber  algo  en  la  asignación  del  tratamiento,  
algún  factor  no  medido,  que  diferencie  al  grupo  de  tratamiento  del  grupo  de  control  y  dé  cuenta  de  sus  respuestas.  Más  
específicamente,  a  uno  le  preocupa  que  la  tasa  de  cambio  en  el  resultado  pueda  diferir  entre  los  grupos  de  tratamiento  y  
control.
Si  este  es  el  caso,  entonces  el  caso  de  comparación  elegido  (en  este  caso,  Pensilvania)  no  está  haciendo  el  trabajo  de  un  
control  experimental.

104Reiss  (2007:  138).
105  Para  una  discusión  más  detallada  del  estudio  de  Card  y  Krueger  (1994),  véase  Neumark  y  Wascher  (2000),  Reiss  (2007:  138­40).

177
Machine Translated by Google

Tabla  8.4:  Diseños  de  sección  transversal  de  serie  temporal  (TSCS)

I. XT XC XT
II. XT XT XC
1.  Varios T1 T2 T3 T4
tercero
XT XT XT
IV. XC XC XC

I. XT
2.  DD T1 T2
II. XC

I­IV Grupos
T1­N Mediciones  de  variables  clave  a  través  del  tiempo
XT Condición  de  tratamiento  (X=1)
XC Condición  de  control  (X=0)
Varios Varios  diseños  TSCS
DD Diseño  de  diferencias  en  diferencias

DISEÑOS  DE  REGRESIÓN­DISCONTINUIDAD  (RD)

Un  diseño  de  regresión­discontinuidad  (RD),  en  su  forma  más  simple  y  típica,  se  parece  a  un  diseño  
experimental  posterior  a  la  prueba  o  transversal.  Un  grupo  recibe  el  tratamiento  y  el  otro  la  condición  de  
control,  y  una  sola  prueba  posterior  mide  el  resultado  de  interés,  como  se  muestra  en  el  diagrama  de  la  Tabla  8.5.  
Sin  embargo,  los  detalles  del  diseño  de  RD,  es  decir,  cómo  se  definen  estos  grupos,  son  bastante  distintos.

Considere  un  programa  de  capacitación  de  trabajadores  con  una  prueba  de  medios.  Solo  son  elegibles  
aquellos  que  han  estado  sin  trabajo  durante  al  menos  un  año,  y  todos  los  solicitantes  son  admitidos.  
Imaginemos  que  esta  prueba  de  medios  se  establece  después  de  que  se  hayan  recibido  las  solicitudes  (quizás  
debido  a  un  recorte  presupuestario  inesperado).  Por  lo  tanto,  el  programa  recibe  muchas  solicitudes  de  quienes  
han  estado  sin  trabajo  por  menos  de  un  año  y,  por  lo  tanto,  están  excluidos  de  la  participación.  Esto  tiene  el  efecto  
de  establecer  un  límite  limpio  entre  los  participantes  del  programa  y  los  no  participantes.  Si  bien  podemos  
esperar  muchas  diferencias  de  fondo  entre  los  desempleados  a  corto  plazo  y  los  desempleados  a  largo  plazo,  
esperamos  diferencias  relativamente  menores  entre  aquellos  sin  trabajo  durante  11­12  meses  y  aquellos  sin  
trabajo  durante  13­14  meses.  Estos  grupos  deben  ser  similares  en  todos  los  aspectos  que  puedan  afectar  
el  resultado  de  la  preocupación  teórica,  las  ganancias.  Dado  que  un  grupo  recibe  el  tratamiento  y  el  otro  no,  tenemos  
una  situación  que  se  asemeja  a  un  verdadero  experimento  con  tratamiento  aleatorio.
Los  métodos  de  análisis  para  los  diseños  de  RD  varían.  Uno  puede  abordar  las  observaciones  que  se  
encuentran  justo  por  encima  y  por  debajo  del  límite  como  equivalentes  en  todas  las  características  de  fondo;  en  este  
caso,  una  simple  prueba  de  diferencia  de  medias  será  suficiente  para  medir  el  efecto  causal.  Alternativamente,  uno  
puede  incluir  a  todos  los  miembros  de  la  muestra,  restando  importancia  a  las  observaciones  que  se  encuentran  más  
lejos  del  punto  de  corte.  En  nuestro  ejemplo,  esto  se  lograría  condicionando  la  duración  del  período  de  desempleo.  Pero  lo  común

178
Machine Translated by Google

La  característica  del  diseño  RD  es  su  explotación  de  un  punto  de  corte  arbitrario  que  separa  las  unidades  tratadas  y  no  
tratadas.
Deben  tenerse  en  cuenta  varias  debilidades  potenciales  del  diseño.  En  primer  lugar,  si  el  límite  no  se  observa  
estrictamente  (si,  por  ejemplo,  los  solicitantes  que  han  estado  sin  trabajo  durante  11  o  12  meses  son  admitidos  cuando  
los  miembros  del  personal  del  programa  juzgan  que  el  solicitante  está  especialmente  necesitado),  la  comparabilidad  de  las  
observaciones  que  se  encuentran  en  cualquiera  de  los  dos  Es  probable  que  el  lado  del  corte  se  vea  comprometido.  En  
segundo  lugar,  si  los  sujetos  en  un  diseño  de  DR  conocen  la  regla  de  corte,  pueden  eludirla,  por  ejemplo,  mintiendo  en  sus  
solicitudes.  Esto  tendrá  el  mismo  efecto,  viciando  la  comparación  de  unidades  tratadas/no  tratadas.
En  tercer  lugar,  debe  haber  suficientes  unidades  situadas  justo  por  debajo  y  por  encima  del  punto  de  corte  o,  
alternativamente,  se  debe  tener  una  gran  confianza  en  las  covariables  (p.  ej.,  la  duración  del  período  de  desempleo)  
utilizadas  para  controlar  las  diferencias.  Finalmente,  dado  que  el  análisis  se  centra  en  las  unidades  que  se  encuentran  
cerca  del  punto  de  corte,  es  posible  que  no  sea  posible  generalizar  los  hallazgos  a  las  unidades  que  se  encuentran  
lejos  de  ese  punto,  lo  que  limita  la  generalización  de  un  estudio.  A  pesar  de  estos  puntos,  el  diseño  de  RD  sigue  siendo  muy  
atractivo.  De  todos  los  diseños  observacionales  revisados  aquí,  probablemente  sea  el  más  cercano  en  espíritu  y  de  hecho  
a  un  diseño  aleatorio  (es  decir,  un  experimento  real).

EJEMPLOS
Como  ejemplo,  consideremos  el  estudio  de  Richard  Berk  y  David  Rauma  sobre  el  sistema  penal  de  California.106  
En  1978,  California  extendió  el  seguro  de  desempleo  a  los  presos  recién  liberados,  con  la  esperanza  de  facilitar  su  
transición  a  la  vida  civil  y  reducir  las  tasas  de  reincidencia.  Los  ex  reclusos  eran  elegibles  solo  si  habían  trabajado  un  
número  de  horas  requerido  mientras  estaban  en  prisión,  estableciendo  así  un  punto  de  corte  que  proporciona  la  base  para  
un  diseño  de  RD.  Los  sujetos  pasan  a  formar  parte  de  la  muestra  si  realmente  solicitan  beneficios,  lo  que  significa  que  
el  análisis  compara  a  aquellos  que  solicitan  y  son  elegibles  para  beneficios  con  aquellos  que  solicitan  pero  no  son  elegibles  
(presumiblemente  porque  no  sabían  que  no  eran  elegibles).  El  modelo  de  datos  asume  la  siguiente  forma  simple:

Y:  Fracaso  (re­encarcelamiento)  =
X:  Beneficios  (la  variable  de  tratamiento  binario)  +
P:  Horas  trabajadas  (el  criterio  de  asignación)  +
Z:  Variables  de  control  (características  de  fondo  que  pueden  afectar  la  reincidencia)

Sobre  la  base  de  este  procedimiento,  Berk  y  Rauma  concluyen  que  los  miembros  del  grupo  de  tratamiento  
experimentaron  tasas  de  reencarcelamiento  un  trece  por  ciento  más  bajas  que  los  del  grupo  de  control  (es  decir,  aquellos  
que  no  son  elegibles  para  el  programa),  lo  que  sugiere  que  brindar  asistencia  posterior  a  la  prisión  reduce  la  reincidencia.  en  
un  grado  apreciable.
Un  segundo  ejemplo  del  diseño  de  RD  se  extrae  de  un  estudio  reciente  de  los  sindicatos.  A  veces  se  alega  
que  la  formación  de  sindicatos  hace  que  las  empresas  fracasen  al  imponer  costos  adicionales  que  no  pueden  
recuperarse  a  través  de  mayores  ventas,  mayor  productividad  o  cambios  en  la  estructura  de  precios  de  una  empresa.  Para  
probar  esta  proposición,  John  DiNardo  y  David  Lee  examinan  el  destino  de  más  de  27.000  empresas  estadounidenses  en  el  
transcurso  de  una  década  y  media.  Teniendo  en  cuenta  que  la  sindicalización  ocurre  como  un  producto  parcial  de  una  
elección  de  voto  secreto  (cuyos  resultados  están  a  disposición  del  público),  los  autores  utilizan  este  punto  de  corte  para  
realizar  un  diseño  de  RD  en  el  que  las  empresas  en  las  que  el  voto  sindical  gana  por  poco  se  comparan  con  las  
empresas  en  las  que  el  voto  sindical  pierde  por  poco.  Encuentran  que  una  elección  sindical  exitosa  apenas  afecta  la  tasa  
de  supervivencia  posterior  de  las  empresas;  además,  se  descubre  poca  evidencia  de  un  efecto  causal  sobre  los  
niveles  de  empleo,  la  producción  y  la  productividad.  (También  consideran  la  posibilidad  de  que  la  amenaza  de  una  
campaña  sindical  exitosa  pueda  alterar  la  estructura  salarial  y,  por  lo  tanto,  las  posibilidades  de  supervivencia  de  una  
empresa,  antes  del  voto  por  el  reconocimiento).

106  Berk  y  Rauma  (1983).

179
Machine Translated by Google

Cierta  incertidumbre  permanece  necesariamente  sobre  la  aleatoriedad  de  la  comparación  por  encima  del  
límite/por  debajo  del  límite,  ya  que  el  tratamiento  no  es  verdaderamente  aleatorio.  En  particular,  se  debe  tener  cuidado  
con  las  circunstancias  en  las  que  los  participantes  de  una  muestra  son  conscientes  de  las  consecuencias  de  un  umbral  y  
pueden  autoseleccionarse.  Por  ejemplo,  en  el  diseño  de  RD  realizado  por  DiNardo  y  Lee,  donde  se  prueba  el  efecto  de  
la  sindicalización  en  la  supervivencia,  el  empleo,  la  producción,  la  productividad  y  los  salarios  de  la  empresa,  debemos  
considerar  la  posibilidad  de  que  el  fracaso/éxito  de  las  campañas  de  sindicalización  no  sean  aleatorios  con  con  
respecto  a  los  resultados  de  interés.  Considere  que  los  trabajadores  en  una  elección  de  representación  sindical  pueden  ser  
conscientes  del  efecto  potencial  de  su  voto  en  la  salud  financiera  de  la  empresa.  La  gerencia  a  menudo  argumenta  que  un  
sindicato  pondrá  a  la  empresa  en  una  desventaja  competitiva  y  conducirá,  en  última  instancia,  a  la  pérdida  de  puestos  
de  trabajo.  Dadas  las  circunstancias,  los  trabajadores  pueden  estar  más  inclinados  a  apoyar  la  sindicalización  si  están  
convencidos  de  la  fortaleza  de  una  empresa,  y  menos  inclinados  si  sienten  que  la  empresa  se  encuentra  en  una  
posición  vulnerable.  Si  suficientes  trabajadores  votan  estratégicamente  sobre  esta  base,  y  si  sus  corazonadas  tienen  
alguna  base  de  hecho  (presumiblemente  están  familiarizados  con  la  posición  de  mercado  de  su  empresa),  entonces  los  
resultados  de  este  diseño  de  RD  hablan  solo  de  efectos  de  tratamiento  promedio  local  (LATE).  Es  decir,  podemos  
estar  dispuestos  a  creer  que  las  empresas  que  estaban  o  están  sindicadas  no  tienen  más  probabilidades  de  quebrar  que  
las  empresas  que  permanecen  sin  sindicarse,  pero  no  deberíamos  inferir  de  esto  que  la  sindicación,  si  se  asigna  al  azar  
en  el  universo  de  empresas,  no  tendría  ningún  efecto  causal  sobre  la  probabilidad  de  quiebra  de  la  empresa.  (DiNardo  y  
Lee  tienen  cuidado  de  no  generalizar  demasiado  a  partir  de  los  datos  limitados  disponibles).

Tabla  8.5:  Diseño  de  regresión­discontinuidad  (RD)

I. XT
Grupos T1
II. XC

T1 Medición  de  variable  clave  tras  la  intervención
XT Condición  de  tratamiento  (X=1)
XC Condición  de  control  (X=0)

DISEÑOS  DE  VARIABLES  INSTRUMENTALES  (IV)

Hemos  visto  que  la  asignación  de  un  tratamiento  causal  a  menudo  está  sujeta  a  confusión  siempre  que  el  
principio  de  asignación  no  sea  aleatorio.  A  veces  se  puede  encontrar  una  solución  parcial  a  este  problema  si  al  
menos  un  factor  que  influye  en  la  asignación  al  tratamiento  no  está  sujeto  a  confusión.  Este  
“instrumento”  ofrece  la  oportunidad  de  un  análisis  en  dos  etapas,  configurando  un  diseño  de  variable  
instrumental  (IV).
Considere  un  programa  de  capacitación  de  trabajadores  en  el  que  los  solicitantes  se  autoseleccionen.  Una  sección  transversal,  tiempo
serie,  o  el  diseño  de  TSCS  está  sujeto  a  posibles  factores  de  confusión  si  los  factores  de  confusión  
sospechosos  (p.  ej.,  la  motivación)  no  se  pueden  medir  y,  por  lo  tanto,  condicionar.  Un  diseño  de  discontinuidad  
de  regresión  no  es  factible  porque  no  hay  límite  para  la  elegibilidad.  Sin  embargo,  entre  los  solicitantes,  se  
observa  que  aquellos  que  viven  a  poca  distancia  de  un  centro  de  capacitación  laboral  tienen  más  probabilidades  
de  matricularse  y  completar  el  programa  que  aquellos  que  viven  más  lejos.  Aparentemente,  el  tiempo  de  viaje

180
Machine Translated by Google

aumenta  los  costos  de  oportunidad  de  asistir.  Fortuitamente,  no  es  un  factor  que  los  solicitantes  probablemente  conozcan  
al  presentar  la  solicitud,  ya  que  no  conocen  las  ubicaciones  precisas  de  los  múltiples  centros  donde  se  llevan  a  cabo  los  
programas  de  capacitación  de  trabajadores  dentro  de  un  área  metropolitana,  o  el  tiempo  de  viaje  requerido  para  llegar  
a  ellos. .  El  tiempo  de  viaje  de  cada  solicitante  se  puede  medir  fácilmente  usando  el  algoritmo  de  mapeo  de  Google,  
proporcionando  un  instrumento  que  predice  la  participación  en  el  programa.
De  importancia  clave  es  que  el  instrumento  elegido  no  afecte  el  resultado  directamente  y  no  esté  correlacionado  
con  otros  factores  (no  controlados  en  el  análisis)  que  afecten  el  resultado.  El  tiempo  de  viaje  debe  afectar  las  ganancias  
sólo  a  través  del  factor  de  interés  teórico,  es  decir,  la  participación  en  el  programa  de  capacitación  del  trabajador.  Si,  
digamos,  las  personas  que  viven  más  lejos  de  los  centros  de  formación  de  trabajadores  también  están  más  lejos  de  
los  empleadores  potenciales,  entonces  el  instrumento  elegido  está  sujeto  a  confusión  y  dará  una  estimación  sesgada  
del  verdadero  efecto  causal.  (En  este  caso,  sesgará  la  estimación  a  la  baja,  ya  que  aquellos  que  asisten  a  
programas  de  capacitación  de  trabajadores  enfrentan  un  mayor  tiempo  de  viaje  hacia  los  empleadores  potenciales).  
Estipulemos  que  este  requisito,  a  veces  denominado  restricción  de  exclusión,  se  cumple .

En  esta  situación,  se  puede  utilizar  el  instrumento  (Q),  para  establecer  un  valor  predicho  para  la  causal
factor  de  interés  (X)  que  está  libre  de  confusión  (Z).  Luego  se  examina  la  covariación  entre  y  Y,  controlando  cualquier  
factor  de  confusión  adicional  que  pueda  identificarse  y  medirse.  En  la  Figura  8.8  se  incluye  un  diagrama  causal  de  
los  supuestos  relevantes.

EJEMPLO
Una  reciente  e  influyente  aplicación  de  variables  instrumentales  aborda  la  cuestión  clásica  del  desarrollo  económico  a  
largo  plazo.  ¿Por  qué  algunos  países  son  hoy  mucho  más  ricos  que  otros?  Acemoglu,  Johnson  y  Robinson  (en  
adelante,  AJR)  sugieren  que  un  factor  principal  que  afecta  las  tasas  de  crecimiento  histórico­secular  es  la  calidad  de  
las  instituciones,  es  decir,  la  solidez  de  los  derechos  de  propiedad.107  El  obstáculo  metodológico  es  que  no  tenemos  a  
nuestra  disposición  ninguna  medida  de  capacidad  institucional.  cualidad  que  se  asigna  de  manera  aleatoria  con  
respecto  al  desarrollo  económico.  La  riqueza  y  las  buenas  instituciones  tienden  a  ir  juntas.  Para  superar  esta  dificultad,  
AJR  construye  la  siguiente  historia  causal.  Durante  los  últimos  siglos,  las  potencias  coloniales  europeas  establecieron  
fuertes  protecciones  de  derechos  de  propiedad  en  algunas  partes  del  mundo  (por  ejemplo,  América  del  Norte)  y  no  en  
otras  (por  ejemplo,  la  mayor  parte  de  África  y  América  Latina).  Esquemáticamente,  protegieron  los  derechos  de  
propiedad  en  áreas  donde  un  gran  número  de  europeos  decidieron  asentarse  e  instituyeron  regímenes  “extractivos”  en  
áreas  donde  los  europeos  eran  superados  en  número  por  las  poblaciones  indígenas.  Esto,  a  su  vez,  fue  un  factor  de  las  
circunstancias  geográficas,  como  la  prevalencia  de  enfermedades  tropicales,  que  determinó  la  probabilidad  de  
supervivencia  europea  en  África,  Asia  y  el  Nuevo  Mundo.  Los  europeos  se  asentaron  y  prosperaron  donde  tenían  altas  
tasas  de  supervivencia.  Las  estimaciones  de  las  distintas  tasas  de  mortalidad  de  los  colonos  europeos  en  el  transcurso  del  
siglo  XIX  proporcionan  un  instrumento  adecuado  para  los  patrones  de  asentamiento  colonial  y,  en  última  instancia,  para  
la  calidad  de  las  instituciones  de  las  que  AJR  supone  que  los  colonos  son  responsables.  Esto  permite  un  análisis  en  dos  
etapas,  que  se  puede  simplificar  de  la  siguiente  manera:

X  =  Q  +  Z  +  e1 [1]  
Y  = +  Z  +  e2 [2]

donde  X=derechos  de  propiedad  medidos  a  fines  del  siglo  XX  (riesgo  de  expropiación),  Q=el  instrumento  
(mortalidad  de  colonos  europeos),  Z=covariables  (otras  causas  de  Y),  Y=PIB  per  cápita,   =los  valores  ajustados  
de  la  Ecuación  1 ,  y  e  =  términos  de  error  para  las  dos  ecuaciones.  (Se  omiten  las  intersecciones).

107
Acemoglu,  Johnson  y  Robinson  (2001).

181
Machine Translated by Google

Al  igual  que  con  otras  correcciones  para  tratamientos  no  aleatorizados,  la  técnica  IV  no  está  exenta  de
sus  dificultades.  De  hecho,  los  tres  supuestos  esbozados  anteriormente  rara  vez  parecen  satisfacerse  por  
completo  en  el  trabajo  empírico.  El  instrumento  elegido,  Q,  puede  estar  débilmente  correlacionado  con  la  variable  teórica  
de  interés,  X;  Q  puede  tener  un  efecto  sobre  el  resultado,  Y,  que  no  sea  a  través  de  X;  o  puede  haber  una  
causa  común  que  opere  tanto  en  Q  como  en  Y  (un  factor  de  confusión  incondicionado).  Al  igual  que  con  la  mayoría  de  
los  supuestos  de  modelado,  estas  violaciones  potenciales  son  difíciles  de  probar,108  y  quizás  sea  mejor  considerarlas  
como  antecedentes  teóricos.  Por  ejemplo,  en  el  estudio  explorado  anteriormente,  los  críticos  han  sugerido  que  una  
causa  común,  la  geografía,  afecta  tanto  la  mortalidad  de  los  colonos  como  los  niveles  actuales  de  desarrollo  económico  
en  formas  que  no  están  mediadas  por  los  derechos  de  propiedad.109  Si  esta  historia  sobre  el  proceso  de  generación  de  
datos  es  cierta,  entonces  el  instrumento  elegido  no  es  válido.  Aun  así,  el  análisis  de  dos  etapas  es  probablemente  
más  convincente  que  cualquier  análisis  de  una  etapa  concebible  para  este  problema  en  particular;  en  este  sentido,  y  
en  esta  medida,  el  enfoque  IV  es  útil.

Figura  8.8:  Diseño  de  variables  instrumentales  (IV)

[ ]Z

q X Y

X El  factor  causal
Y Resultado
q Instrumento
Z confusor
[ ]  No  condicionado

108
Murray  (2006).
109  McArthur  y  Sachs  (2001).

182
Machine Translated by Google

Deben  tenerse  en  cuenta  algunas  limitaciones  de  este  diseño.  Primero,  los  requisitos  del  análisis,  
diagramados  en  la  Figura  8.8,  son  difíciles  de  verificar  en  la  mayoría  de  los  entornos.  A  menudo,  son  muy  sospechosos  
por  motivos  teóricos.  Es  decir,  uno  puede  preguntarse  si  Q  afecta  a  Y  de  otra  manera  que  no  sea  a  través  de  X  o  si  otros  
factores  de  confusión  (no  condicionados)  están  asociados  con  la  relación  entre  Q  y  X  o  Q  e  Y.

En  segundo  lugar,  el  análisis  IV  estima  un  efecto  causal  que  se  relaciona  con  aquellas  unidades  
que  se  animan  a  recibir  el  tratamiento  debido  a  los  instrumentos  elegidos.  Esto  se  denomina  efecto  de  tratamiento  
promedio  local  (LATE),  a  diferencia  de  un  efecto  de  tratamiento  promedio.  Si  el  instrumento  (Q)  está  débilmente  
correlacionado  con  el  factor  causal  de  interés  teórico  (X),  entonces  el  LATE  estimado  puede  tener  poca  
importancia  práctica  o  teórica.  Además,  rara  vez  es  posible  identificar  las  unidades  a  las  que  el  instrumento  anima  a  
recibir  tratamiento.  En  consecuencia,  puede  ser  difícil  decir  a  qué  tipo  de  casos  se  aplicaría  un  resultado  IV  con  un  
instrumento  débilmente  correlacionado.
Es  fácil  estar  en  desacuerdo  con  muchos  análisis  IV  que  se  encuentran  hoy  en  las  ciencias  sociales.  Sin  
embargo,  cuando  los  supuestos  que  sustentan  un  análisis  IV  (como  se  muestra  en  el  diagrama  de  la  figura  8.8)  son  
plausibles,  el  enfoque  IV  para  la  inferencia  causal  suele  ser  más  convincente  que  otros  diseños  de  investigación  
observacional  que  podrían  adoptarse.

CONCLUSIONES

En  este  capítulo  bastante  complejo,  presentamos  cinco  diseños  de  investigación  para  su  uso  en  situaciones  en  las  que  un  
tratamiento  no  es  aleatorio  (o  es  imperfectamente  aleatorio)  y  se  dispone  de  un  gran  número  de  observaciones  para  el  
análisis  estadístico.  Un  análisis  transversal  se  basa  en  comparaciones  entre  unidades  en  un  solo  punto  en  el  tiempo.  
Un  análisis  de  series  temporales  se  basa  en  comparaciones  a  lo  largo  del  tiempo.  Un  análisis  TSCS  incluye  
comparaciones  tanto  latitudinales  como  longitudinales.  Un  diseño  de  discontinuidad  de  regresión  compara  unidades  
a  ambos  lados  de  un  límite  arbitrario,  que  distingue  los  grupos  de  tratamiento  y  de  control.  Un  análisis  de  variables  
instrumentales  se  basa  en  un  factor  que  influye  en  la  asignación  al  tratamiento  pero  que  no  tiene  un  efecto  directo  
sobre  el  resultado.
Cada  uno  de  estos  diseños  intenta  recuperar  las  virtudes  de  un  diseño  experimental.  Si  bien  esta  búsqueda  
es  noble,  su  logro  es  motivo  de  duda,  como  lo  ha  demostrado  nuestra  discusión.  Aun  así,  estos  diseños  a  menudo  
proporcionan  el  mejor  método  de  análisis  disponible.  A  veces,  un  diseño  observacional  es  el  único  método  practicable,  
o  el  único  método  cuyos  resultados  pueden  generalizarse  a  una  población  más  grande.

183

También podría gustarte