Está en la página 1de 24

 

La   Revolución   de   la   Credibilidad   en   Economía  


Empírica:   cómo   el   mejor   diseño   de   investigación  
está   eliminando   los   inconvenientes   de   la  
Econometría  
 
 
Joshua  D.  Angrist  y  Jörn-­‐Steffen  Pischke  (2010)  
 
 
 
 
 
 
 
 
Traductores:  Pablo  Nadal  y  Carolina  Guaita  
 
 
Curso  de  Epistemología  de  la  Economía    
 
Profesor:  Nicolás  Berneman  (FCE  –  UBA)    

  1  
 
Poco   más   de   un   cuarto   de   siglo   atrás,   Edward   Leamer   (1983)   reflexionó   en   el   estado  
del   trabajo   empírico   en   economía.   Instó   a   los   investigadores   empíricos   a   “eliminar   el  
inconveniente   de   la   econometría”   y   memorablemente   observó   (p.   37):   “difícilmente   alguien  
toma   un   análisis   de   datos   ajeno   en   serio.”   Leamer   no   estaba   solo;   Hendry   (1980),   Sims   (1980),  
y  escritos  de  otros  de  la  época    eran  similarmente  despectivos  de  la  práctica  empírica.  Leyendo  
estos   comentarios   como   estudiantes   de   doctorado   de   finales   de   los   80,   nos   preguntamos  
acerca  de  las  expectativas  para  una  carrera  satisfactoria  haciendo  trabajo  aplicado.  Quizás  el  
trabajo  empírico  en  economía  sea  una  utopía.  Aquí  tratamos  las  cuestiones  de  si  la  calidad  y  la  
credibilidad   del   trabajo   empírico   han   aumentado   desde   la   evaluación   pesimista   de   Leamer.  
Nuestros  puntos  de  vista  están  necesariamente  influenciados  por  las  áreas  de  microeconomía  
aplicada  en  las  que  estamos  activos,  pero  también  analizaremos  otras  áreas.  
Leamer   (1983)   diagnosticó   el   trabajo   empírico   de   sus   contemporáneos   de   sufrir   una  
angustiante   falta   de   robustez   para   cambios   en   supuestos   clave   –   supuestos   que   llamó  
“caprichosos”   ya   que   uno   se   veía   tan   bueno   como   otro.   El  remedio   que   propuso   fue   análisis  
sensitivo,   en   el   cual   los   investigadores   muestran   cómo   sus   resultados   varían   con   cambios   en  
especificación   o   forma   funcional.   La   crítica   de   Leamer   tuvo   una   refrescante   naturalidad  
reveladora   que   disfrutamos   tras   una   primera   lectura   y   aún   apreciamos   hoy.   Pero   estamos  
felices   de   informar   que   el   reclamo   de   Leamer   que   “difícilmente   alguien   toma   un   análisis   de  
datos  ajeno  en  serio”  ya  no  se  encuentra  justificado.  
La  microeconomía  empírica  ha  experimentado  una  revolución  de  credibilidad,  con  un  
consecuente  aumento  en  relevancia  política  e  impacto  científico.  El  análisis  sensitivo  jugó  un  
rol  en  esto,  pero  tal  como  lo  vemos,  la  principal  fuerza  impulsora  fue  una  concentración  en  la  
calidad  de  los  diseños  de  investigación  empírica.  Éste  énfasis  en  diseño  de  investigación  está  
en  el  espíritu  de  la  crítica  de  Leamer,  pero  no  se  encuentra  en  su  solución.  
  Las  ventajas  de  un  buen  diseño  de  investigación  son  tal  vez  más  fáciles  de  notar  en  la  
investigación   a   través   de   asignación   al   azar,   lo   cual   no   casualmente   incluye   algunos   de   los  
estudios  microeconómicos  más  influyentes  publicados  en  años  recientes.  Por  ejemplo,  en  un  
esfuerzo   pionero   para   mejorar   el   bienestar   infantil,   el   programa   Progresa   en   México   ofrecía  
transferencias  de  dinero  a  madres  seleccionadas  aleatoriamente,  supeditados  a  participación  
en   cuidado   prenatal,   monitoreo   nutricional   infantil,   y   la   asistencia   escolar   regular   (Gertler,  
2004,   y   Schultz,   2004,   presentan   algunos   de   los   hallazgos   principales).   En   palabras   de   Paul  
Gertler,   uno   de   los   investigadores   originales   (citado   en   Ayres,   2007,   p.   86),   “Progresa   es   la  
razón   por   la   que   actualmente   treinta   países   en   todo   el   mundo   tienen   programas   de  
transferencia   monetaria.”   Progresa   es   emblemático   de   una   ola   de   políticas   de   asignación  
aleatoria  recorriendo  economías  del  desarrollo  (Duflo  y  Kremer,  2008,  ofrecen  un  resumen).  
  Más  cerca  de  casa,  el  programa  Moving  to  Opportunity  (mudándose  a  la  oportunidad),  
llevado   a   cabo   por   el   Departamento   de   Vivienda   y   Desarrollo   Urbano   de   Estados   Unidos,  
seleccionó  aleatoriamente  familias  de  bajo  ingreso  en  Baltimore,  Boston,  Chicago,  Los  Ángeles,  
y   Nueva   York   para   ofrecerles   bonos   de   vivienda   específicamente   limitados   a   zonas   de   baja  
pobreza  (Kling,  Liebman,  y  Katz,  2007).  El  programa  produjo  sorpresiva  e  influyente  evidencia  
contra   la   visión   de   que   los   efectos   del   vecindario   son   un   determinante   primario   en   los   bajos  
ingresos  de  los  residentes  de  barrios  pobres.  
  Parámetros   econométricos   estructurales,   tales   como   la   elasticidad   de   sustitución  
intertemporal  (una  elasticidad  de  oferta  laboral  que  mide  la  respuesta  a  cambios  transitorios  

  2  
en  el  salario),  han  sido  también  el  foco  de  experimentos  aleatorios.  Por  ejemplo,  Fehr  y  Goette  
(2007)  distribuyeron  aleatoriamente  el  pago  de  mensajeros  en  bicicleta,  ofreciendo  a  un  grupo  
y   luego   a   otro   un   incremento   temporal   en   el   sueldo.   Este   estudio   ingeniosamente   diseñado  
muestra   cómo   los   salarios   afectan   la   oferta   laboral   en   un   ambiente   donde   la   riqueza   a   lo   largo  
de   la   vida   no   se   ve   modificada.   El   resultado   es   dramático   y   convincente:   manteniendo   la  
riqueza   constante,   los   trabajadores   cambian   horarios   a   períodos   de   alto   salario,   con   una  
elasticidad  de  sustitución  intertemporal  implícita  cercana  a  la  unidad.  
  Tales   estudios   ofrecen   un   método   poderoso   para   derivar   resultados   que   son  
defendibles   tanto   en   una   sala   de   seminarios   como   en   una   audiencia   legislativa.   Pero   los  
experimentos   son   prolongados,   costosos,   y   pueden   no   siempre   ser   prácticos.   Es   difícil  
imaginarse   una   prueba   al   azar   para   evaluar   el   efecto   de   inmigraciones   en   la   economía   del   país  
anfitrión.  De  cualquier  forma,  instituciones  humanas  o  la  fuerza  de  la  naturaleza  pueden  saltar  
esta   brecha   con   cuasi   experimentos   (o   naturales   informativos).   Por   ejemplo,   en   una  
publicación   destacada,   Card   (1990)   utilizó   el   Éxodo   del   Mariel   de   Cuba   a   Florida,   cuando   los  
emigrantes   cubanos   aumentaron   la   fuerza   laboral   de   Miami   en   aproximadamente   un   7   por  
ciento   en   un   período   de   tres   meses,   como   un   experimento   natural   para   estudiar   la  
inmigración.  Más  recientemente,  emparejando  con  la  agenda  de  investigación  experimental  de  
Moving   to   Opportunity,   Jacob   (2004)   estudió   los   efectos   causales   de   viviendas   públicas   en  
residentes  de  proyectos  de  viviendas  al  aprovechar  el  hecho  de  que  la  demolición  de  viviendas  
públicas   en   Chicago   estaba   planeada   de   forma   tal   que   no   guardaba   relación   con   las  
características  de  los  proyectos  y  sus  habitantes.  
  Como  los  resultados  de  las  pruebas  aleatorias,  los  hallazgos  en  cuasi-­‐experimentos  han  
filtrado   rápidamente   en   discusiones   políticas   y   se   volvieron   parte   de   un   constructivo  
intercambio   de   ideas   entre   el   mundo   real   y   la   torre   de   marfil,   por   lo   menos   cuando   se   trata   de  
microeconomía   aplicada.   El   progreso   fue   más   lento   en   la   macro   empírica,   pero   una   pizca   de  
trabajo   empírico   basado   en   el   diseño   parece   estar   generando   un   limitado,   aunque   útil  
consenso  en  principales  preocupaciones,  tales  como  el  efecto  causal  de  la  política  monetaria  
en  la  inflación  y  producción.    De  forma  alentadora,  la  crisis  financiera  reciente  ha  estimulado  
un   esfuerzo   en   producir   evidencia   fiable   en   asuntos   de   banca.   Como   en   la   mayoría   de   las  
disciplinas   (si   bien   la   organización   industrial   aparenta   ser   una   excepción,   que   luego  
discutiremos),  los  economistas  aplicados  son  hoy  menos  propensos  a  asociar   la  interpretación  
causal  de  los  resultados  con  únicamente  la  metodología  econométrica.  Estudios  basados  en   el  
diseño   son   distinguidos   por   su   credibilidad   a   primera   vista   y   por   la   atención   que   los  
investigadores  dedican  en  producir  tanto  un  caso  institucional  como  uno  basado  en  datos  para  
la  causalidad.  
  Explicar   los   orígenes   de   la   revolución   de   la   credibilidad   en   economía   empírica   es  como  
intentar   trazar   la   fecha   de   nacimiento   del   rock   and   roll.   Las   primeras   influencias   son  
numerosas,  y  cada  fan  tiene  una  historia.  Pero  desde  las  fundaciones  de  la  economía  laboral  
empírica,   vemos   un   importante   ímpetu   por   mejores   diseños   y   más   pruebas   distribuidas  
aleatoriamente   procedentes   de   estudios   cuestionando   la   confiabilidad   de   evaluaciones  
econométricas   de   los   programas   de   entrenamiento   de   gobierno   subsidiados.   Un   punto   de  
referencia   aquí   es   Lalonde   (1986),   que   comparó   los   resultados   de   una   evaluación  
econométrica   del   National   Supported   Work   (Trabajo   Apoyado   Nacional)   con   aquellos   de   una  
prueba  randomizada.  Los  resultados  econométricos  típicamente  difirieron  considerablemente  
de   aquellos   que   utilizaban   una   asignación   aleatoria.   Lalonde   argumentó   que   hay   pocos  

  3  
motivos   para   creer   que   las   comparaciones   estadísticas   de   modelos   alternativos   (ensayos   de  
requisitos)   llevarían   a   un   investigador   en   la   dirección   indicada.   Dos   estudios   observacionales  
de   efectos   de   entrenamiento   presagiaron   los   resultados   de   Lalonde:   Ashenfelter   (1978)   y  
Ashenfelter   y   Card   (1985),   utilizando   datos   longitudinales   para   evaluar   programas   de  
entrenamiento   federales   sin   el   beneficio   de   un   diseño   de   investigación   cuasi-­‐experimental,  
encontraron   dificultades   para   construir   estimaciones   con   robustez   de   especificaciones.  
Ashenfelter  (1987)  concluyó  que  las  pruebas  aleatorias  son  el  camino  a  seguir.  
  Empiristas   más   jóvenes   también   comenzaron   a   inclinarse   cada   vez   más   por   diseños  
cuasi-­‐experimentales,   frecuentemente   aprovechando   la   variación   sobre   los   estados   de   EE.   UU.  
Para  conseguir  relaciones  causales  en  las  áreas  del  trabajo  y  las  finanzas  públicas.  Un  ejemplo  
temprano   de   la   obra   en   este   espíritu   es   Solon   (1985),   que   estimó   los   efectos   del   seguro   de  
desempleo  en  la  duración  del  desempleo  mediante  comparaciones  en  las  tasas  de  búsqueda  
de  empleo  en  estados  que  recientemente  ajustaron  los  criterios  de  elegibilidad  para  el  seguro  
de   desempleo,   con   el   cambio   en   las   tasas   en   los   estados   que   no   cambiaron   sus   reglas.   El  
estudio   influyente   de   Gruber   (1994)   de   la   incidencia   de   los   beneficios   de   la   maternidad  
obligatorios   aplica   una   idea   similar   al   asunto   de   finanza   pública.   Angrist   (1990)   y   Angrist   y  
Krueger   (1991)   ilustraron   el   valor   de   las   estrategias   de   identificación   de   variables  
instrumentales   en   estudios   de   los   efectos   del   servicio   militar   de   la   era   de   Vietnam   y   la  
escolarización  en  los  ingresos.    La  medición  metodológica  de  Meyer  (1995)  hizo  dar  cuenta  a  
muchos   microeconomistas   aplicados   de   la   tradición   cuasi-­‐experimental   encarnada   en  
venerables   textos   sobre   métodos   de   investigación   de   ciencia   social   de   Campbell   y   Stanley  
(1963)   y   Cook   y   Campbell   (1979).   Estos   textos,   que   enfatizan   el   diseño   de   investigación   y   las  
amenazas  a  la  validez,  eran  bien  conocidos  en  algunas  disciplinas,  pero  claramente  por  fuera  
del  canon  econométrico.  1  
  En   este   ensayo,   argumentamos   que   un   foco   transparente   en   diseño   de   investigación  
está  en  el  centro  de  la  revolución  de  la  credibilidad  en  economía  empírica.  Comenzamos  con  
un  resumen  de  la  crítica  de  Leamer  (1983)  y  sus  soluciones  planteadas,  basadas  en  ejemplos  
concretos   de   esa   época.   Entonces   pasamos   a   los   factores   principales   que   observamos   que  
contribuyen   a   una   labor   empírica   mejorada,   incluyendo   la   disponibilidad   de   más   y   mejores  
datos,  junto  a  avances  en  entendimiento  de  econometría  teórica,  pero  especialmente  el  hecho  
de  que  el  diseño  de  investigación  pasó  a  una  posición  de  privilegio  en  gran  parte  de  la  micro  
empírica.     Ofrecemos   una   breve   digresión   hacia   macroeconomía   y   organización   industrial,  
donde  el  progreso  -­‐por  nuestros  puntos  de  vista-­‐  es  menos  dramático,  aunque  hay  trabajos  en  
ambos   campos   que   nos   parecen   alentadores.   Finalmente,   discutiremos   la   visión   de   que   el  
péndulo   del   diseño   osciló   demasiado.   Críticos   de   los   estudios   impulsados   por   diseño  
argumentan  que,  en  búsqueda  de  diseños  claros  y  creíbles,  los  investigadores  buscan  buenas  
respuestas  en  lugar  de  buenas  preguntas.  Brevemente  respondemos  a  este  asunto,  que  no  nos  
resulta  preocupante.  
 
La  crítica  de  Leamer  y  sus  soluciones  propuestas  
 
                                                                                                                       
1
 Muchos  de  los  estudios  aplicados  mencionados  anteriormente  han   sido  sujeto  de  críticas  re-­‐examinaciones.  Este  ida  y  vuelta  ha  
sido   mayormente   constructivo.   Por   ejemplo,   en   un   escrito   destacado   que   generó   trabajo   de   amplio   espectro,   Bound,   Jaeger,   y  
Baker   (1995)   argumentan   que   el   uso   de   variables   instrumentales   débiles   sesga   alguna   de   las   estimaciones   reportadas   en   Angrist   y  
Krueger  (1991).  Para  una  discusión  reciente  de  problemas  de  instrumentos  débiles,  ver  nuestro  libro  Angrist  y  Pischke  (2009).  

  4  
Regresiones  primitivas  y  análisis  de  límites  extremos  
  Leamer   (1983)   presentó   pruebas   aleatorizadas   -­‐   una   evaluación   aleatorizada   de   un  
fertilizador,  para  ser  específico  –  como  un  diseño  de  investigación  ideal.  Él  también  argumentó  
que   los   experimentos   distribuidos   aleatoriamente   diferían   únicamente   en   grado   de   las  
evaluaciones   no   experimentales   de   efectos   causales,   siendo   la   diferencia   la   extensión   a   la   cual  
podemos   ser   confidentes   de   que   la   variable   causal   de   interés   es   independiente   de   factores  
perturbadores.  No  podríamos  estar  más  de  acuerdo.  De  cualquier  forma,  Leamer  sugirió  que  la  
mejor   forma   de   usar   datos   no   experimentales   para   aproximarse   al   ideal   experimental   es  
explorar   la   fragilidad   de   los   cálculos   no   experimentales.   Leamer   no   propuso   hacer   pruebas  
aleatorizadas  o,  de  hecho,  buscar  experimentos  naturales  creíbles.  
  El  principal  objetivo  del  ensayo  de  Leamer  (1983)  era  el  análisis  primitivo  de  regresión.  
En   realidad,   ninguna   de   las   figuras   centrales   en   el   debate   inspirado   por   Leamer   tuvo   mucho  
que  opinar  sobre  el  diseño  de  investigación.  Más  bien,  estos  autores  (como  McAleer,  Pagan,  y  
Volker,   1985,   y   Cooley   y   LeRoy,   1986,   entre   otros)   parecen   haber   aceptado   los   límites   de   la  
práctica   econométrica   establecida,   quizás   porque   primariamente   estaban   interesados   en  
abordar  cuestiones  de  macroeconomía  tradicional  utilizando  datos  de  series  de  tiempo.  
Luego   de   hacer   el   supuesto   tácito   que   los   experimentos   útiles   son   un   ideal  
inalcanzable,   Leamer   (1983,   pero   ver   también   1978,   1985)   propuso   que   la   naturaleza  
extravagante  de  los  supuestos  clave  en  el  análisis  de  regresión  sea  confrontada  frontalmente  a  
través   de   un   proceso   de   análisis   se   sensibilidad.     Sims   (1988)   también   respaldó   esta   idea.   El  
amplio   concepto   de   análisis   de   sensibilidad   incluye   una   explícita   agenda   Bayesiana.  
Reconociendo   las   severas   demandas   de   la   ortodoxia   Bayesiana,   tales   como   la   especificación  
formal   de   precedentes   y   su   incorporación   en   un   elaborado   marco   multivariado,   Leamer  
también   alegó   por   un   acercamiento   más   ad   hoc   pero   intuitivo   llamado   “análisis   de   límites  
extremos.”   En   pocas   palabras,   el   análisis   de   límites   extremos   equivale   a   la   estimación   de  
regresiones   con   muchos   sets   diferentes   de   co-­‐variantes   incluidas   como   controles;   los  
practicantes   de   este   enfoque   deben   informar   un   rango   de   estimaciones   para   el   parámetro  
objetivo.  
   
El  efecto  disuasivo  de  la  pena  de  muerte  
  Simpatizamos   con   la   visión   de   Leamer   (1983)   de   que   gran   parte   de   la   econometría  
aplicada   de   los   70   y   principio   de   los   80   carecían   de   credibilidad.   Parar   mostrar   su   punto   de  
vista,   e   ilustrar   el   valor   del   análisis   de   límites   extremos,   Leamer   eligió   investigar   si   la   pena  
capital   desalienta   el   asesinato.   Este   asunto   fue   analizado   en   una   serie   de   publicaciones  
influyentes   por   Isaac   Ehrlich,   uno   aprovechando   variaciones   en   series   de   tiempo   (Ehrlich,  
1975a)   y   uno   usando   muestras   representativas   de   estados   (Ehrlich,   1977b).   Ehrlich   concluyó  
que  la  pena  de  muerte  tenía  un  efecto  disuasorio  sustancial.  Leamer  (1983)  no  intentó  replicar  
la  labor  de  Ehrlich,  sino  que  observó  en  una  investigación  de  series  de  tiempo  independientes  
sobre   la   hipótesis   de   disuasión   utilizando   análisis   de   límites   extremos,   contundentemente  
sosteniendo  que  la  evidencia  por  disuasión  es  frágil  en  el  mejor  de  los  casos  (a  pesar  de  que  
Ehrlich  y  Liu,  1999,  disputaron  esto).  
  Es   complicado   exagerar   la   atención   que   este   tópico   atrajo   en   su   momento.   La   decisión  
de   la   Suprema   Corte   de   EE.   UU.     en   Furman   v.   Georgia   (408   EE.   UU.   153   [1972])   creó   una  
moratoria  de  facto  en  la  pena  capital.  Esta  moratoria  permaneció  hasta  Gregg  v.  Georgia  (428  
EE.  UU.  153  [1976]),  en  ese  entonces  la  corte  suprema  decidió  que  la  pena  de  muerte  podría  

  5  
ser  admisible  si  los  juicios  capitales  fueran  bifurcados  en  fases  separadas  de  culpa-­‐inocencia  y  
sentencia.  Gary  Gilmore  fue  ejecutado  poco  tiempo  después,  en  enero  de  1977.  Parte  del  caso  
intelectual  para  la  restauración  de  la  pena  capital  fue  el  efecto  disuasivo  (contra  un  trasfondo  
de  altas  y  crecientes  tasas  de  homicidio  en  ese  momento).  De  hecho,  la  Suprema  Corte  de  los  
EE.   UU.   citó   la   publicación   de   Ehrlich   (1975a)   en   su   decisión   para   Gregg   v.   Georgia,  
restableciendo  la  pena  capital.  
  El  trabajo  de  Ehrlich  fue  duramente  criticado  por  varios  contemporáneos  en  adición  a  
Leamer,   como   Bowers   y   Pierce   (1975)   y   Passell   y   Taylor   (1977).   Los   resultados   de   Ehrlich  
parecen  ser  sensibles  a  modificaciones  en  forma  funcional,  inclusión  de  controles  adicionales,  
y  especialmente  a  cambios  en  muestreo.  Específicamente,  su  hallazgo  de  un  efecto  disuasorio  
parecía   depender   en   observaciones   de   los   años   60.   Los   críticos   alegaron   que   el   aumento   en  
tasas  de  homicidio  en  los  años  60  puede  haber  sido  determinado  por  otros  factores  además  de  
la   intensa   baja   en   el   número   de   ejecuciones   durante   este   período.   Ehrlich   (1975b,   1977a)  
disputó  las  declaraciones  de  los  críticos  sobre  la  forma  funcional  y  argumentó  que  la  década  de  
1960  dio  una  variante  útil  sobre  las  ejecuciones  que  debía  ser  retenida.  
  Los   críticos   contemporáneos   de   Ehrlich   fracasaron   en   dar   con   lo   que   nosotros  
pensamos   como   la   falla   más   obvia   del   análisis   de   Ehrlich.   Como   otros   investigadores  
estudiando   efectos   disuasivos,   Ehrlich   reconoció   que   el   nivel   de   la   tasa   de   homicidios   podía  
afectar  el  número  de  ejecuciones  y  viceversa  y  que  sus  resultados  podían  estar  sesgados  por  
variables  omitidas  (especialmente  variables  con  una  fuerte  tendencia  o  peso).  Ehrlich  intentó  
identificar   problemas   de   causalidad   inversa   y   sesgo   de   variables   omitidas   al   utilizar   variables  
instrumentales   en   un   procedimiento   de   mínimos   cuadrados   en   dos   etapas.     Trató   las  
probabilidades   de   arresto,   condena,   y   ejecución   como   endógenas   en   una   configuración   de  
ecuaciones   simultáneas.   Sus   variables   instrumentales   fueron   gastos   retrasados   en   vigilancia  
policial,  gasto   público   total,   y   la   fracción   de   población   no   blanca.   Pero   Ehrlich   no   explicó   por  
qué   estos   son   buenos   instrumentos,   o   incluso   cómo   y   por   qué   estas   variables   están  
correlacionadas  con  las  variables  endógenas  de  la  parte  derecha.2  
  El  trabajo  de  Ehrlich  en  la  pena  capital  parece  típico  del  período  sobre  el  que  Leamer  
(1983)   escribía.   La   mayoría   de   los   estudios   de   su   tiempo   utilizaron   muestras   de   series   de  
tiempo   bastantes   breves   con   fuertes   tendencias   comunes   tanto   para   variables   dependientes   e  
independientes.  El  uso  del  panel  de  datos  para  controlar  el  año  y  efectos  fijos  -­‐  hasta  paneles  
de   estados   de   EE.UU.-­‐   era   todavía   raro.   El   uso   de   variables   instrumentales   para   descubrir  
relaciones  causales  era  típicamente  mecánico,  con  poca  discusión  sobre  la  razón  por  la  que  los  
instrumentos   afectaban   las   variables   endógenas   de   interés   o   por   qué   constituían   un   “buen  
experimento”.  De  hecho,  Ehrlich  estaba  por  delante  de  varios  de  sus  contemporáneos  en  que  
el  reconocía  la  necesidad  de  algo  más  que  análisis  de  regresión  ingenuo.  En  nuestra  opinión,  el  
principal  problema  con  el  trabajo  de  Ehrlich  fue  la  falta  de  un  diseño  de  investigación  creíble.  
Específicamente,   falló   en   aislar   una   fuente   de   variación   en   las   tasas   de   ejecución   que  
probablemente  revele  efectos  causales  en  las  tasas  de  homicidio.  
 
La  función  de  producción  en  la  educación  
  Otros  ejemplos  de  diseños  de  investigación  deficientes  de  este  período  provienen  de  la  
literatura  en  producción  educativa.   Esta  literatura  (encuestada  en  Hanushek,  1986)  se  interesa  
                                                                                                                       
2
 El  posterior  análisis  entre  estados  de  Ehrlich  (1977b)  no  utilizó  mínimos  cuadrados  en  dos  etapas.  En  trabajos  posteriores,  Ehrlich  
(1987,  1996)  discutió  su  elección  de  instrumentos  y  los  problemas  de  identificación  asociados  con  mayor  profundidad.  

  6  
por   los   efectos   causales   de   los   costos   escolares,   tales   como   tamaño   de   clase   o   gasto   por  
alumno,  en  el  rendimiento  estudiantil.  El  estudio  sistemático  cuantitativo  de  costos  escolares  
nació   con   el   reporte   de   Coleman   et   al.   (1996),   el   cual   (entre   otras   cosas)   usó   técnicas   de  
regresión   para   examinar   la   proporción   de   variación   en   producción   estudiantil   que   puede   ser  
representada   a   través   de   un   R2   (coeficiente   de   determinación)   por   la   variación   en   costos  
escolares.  Para  sorpresa  de  muchos  en  ese  momento,  el  informe  de  Coleman  halló  solamente  
una   asociación   débil   entre   costos   escolares   y   rendimiento   académico.   Varios   estudios  
posteriores  basados  en  regresiones  replicaron  este  hallazgo.  
   El  Informe  Coleman  fue  una  de  las  primeras  investigaciones  en  producción  educativa  
en   una   gran   muestra   representativa.   Es   también   distinguido   por   análisis   sensitivo,   ya   que  
discute  los  resultados  de  muchas  especificaciones  (con  y  sin  controles  de  contexto  familiar,  por  
ejemplo).  El  problema  con  el  Informe  Coleman  y  muchos  de  los  estudios  que  continuaron  en  
este   formato   es   que   no   pudieron   separar   variación   en   costos   de   variables   de   confusión   en  
estudiantes,   escuela,   o   características   de   la   comunidad.   Por   ejemplo,   un   descubrimiento  
común   en   la   literatura   de   producción   educativa   es   que   los   niños   en   clases   más   reducidas  
tienden   a   tener   peores   resultados   en   exámenes   estandarizados,   aún   luego   de   controlar   a  
través   de   variables   demográficas.   Este   hallazgo   aparentemente   perverso   parece   ocurrir   en  
parte   debido   al   hecho   de   que   los   niños   con   dificultades   son   agrupados   en   clases   más  
pequeñas.  Igualmente,  la  relación  entre  el  gasto  escolar  y  el  rendimiento  es  confusa  ya  que  el  
gasto  es  frecuentemente  más  alto  en  una  mezcla  de  distritos  ricos  y  grandes  áreas  urbanas  con  
estudiantes   minoritarios   con   dificultades.   En   resumen,   estas   regresiones   padecen   de  
problemas  de  causalidad  inversa  y  sesgo  de  variables  omitidas.  
  Muchos   estudios   de   producción   educativa   de   este   período   también   ignoran   el   hecho  
de   que   gastos   como   el   tamaño   de   clase   y   el   costo   por   alumno   están   intrínsecamente  
vinculados.   Ya   que   tener   clases   más   pequeñas   no   es   factible   sin   tener   un   mayor   gasto   en  
profesores,   tiene   poco   sentido   tratar   el   gasto   total   (incluyendo   salario   docente)   como   una  
variable   de   control   al   estimar   el   efecto   causal   del   tamaño   de   clase   (según   observa   Krueger,  
2003).  Finalmente,  el  hecho  de  que  los  primeros  autores  en  producción  educativa  exploraron  
numerosos   modelos   alternativos   no   fue   necesariamente   una   ventaja.   En   lo   que   fue  
probablemente  uno  de  los  mejores  estudios  del  período,  Summers  y  Wolfe  (1977)  solamente  
presentan   los   resultados   finales   de   una   exhaustiva   búsqueda   de   especificación   en   su  
evaluación   del   efecto   que   tienen   los   recursos   escolares   en   el   rendimiento   académico.   A   su  
crédito,   Summers   y   Wolfe   (1977)   describen   el   algoritmo   que   produjo   los   resultados   que  
eligieron   para   presentar,   y   francamente   advierten   (p.   642)   que   “los   datos   han   sido   minados,  
obviamente”.  Como  nosotros  lo  vemos,  sin  embargo,  la  principal  cuestión  con  esta  literatura  
no   es   la   minería   de   datos,   sino   la   débil   base   para   una   interpretación   causal   de   cualquier  
especificación  que  los  autores  hayan  favorecido.  
 
 
Otros  trabajos  empíricos  en  la  era  del  heavy  metal  
  La   década   de   1970   y   principios   de   los   80   crecieron   rápidamente   en   tamaño   de  
computadoras   centrales   y   potencia.   Stata   aún   no   había   aparecido,   pero   los   técnicos   de   cinta  
magnética  lograban  procesar  cada  vez  más  números  de  formas  crecientemente  elaboradas.  No  
obstante,  en  su  mayoría,  la  potencia  de  cómputo  aumentada  no  produjo  cálculos  más  creíbles.  
Por   ejemplo,   el   uso   de   pruebas   randomizadas   y   cuasi-­‐experimentos   para   estudiar   la  

  7  
producción   educativa   fue   raro   hasta   recientemente   (un   historial   trazado   en   Angrist,   2004).  
Otras  áreas  de  ciencia  social  observaron  aislados,  aunque  ambiciosos  esfuerzos  para  encontrar  
relaciones   económicas   esenciales   utilizando   asignación   aleatoria.   Un   hecho   positivo   fue   la  
Experiencia  en  Seguros  de  Salud  RAND  (Investigación  y  Desarrollo),  iniciado  en  1974  (Manning,  
Newhouse,  Duan,  Keeler,  y  Leibowitz,  1987).  Este  experimento  observó  los  efectos  de  copagos  
y   deducibles   en   el   uso   de   asistencia   sanitaria   y   resultados.   Desafortunadamente,   muchos   de  
los   más   ambiciosos   (y   caros)   experimentos   sociales   tenían   defectos   graves:   los   Experimentos  
de   Mantenimiento   del   Ingreso   Gary   y   Seattle/Denver,   en   los   cuales   el   gobierno   comparó  
planes   de   subsidio   modelados   en   la   idea   de   Milton   Friedman   del   impuesto   negativo   sobre   la  
renta,  se  vieron  comprometidos  por  desgaste  de  la  muestra  y  desinformación  de  los  ingresos  
sistemáticos   (Ashenfelter   y   Plant,   1990;   Greenberg   y   Halsey,   1983).   Este   hecho   apoya   el  
argumento  de  Leamer  (1983)  de  que  la  diferencia  entre  un  ensayo  aleatorizado  y  un  estudio  
observacional   es   de   grado.   Ciertamente,   seríamos   los   primeros   en   admitir   que   un   estudio  
observacional   bien   realizado   puede   ser   más   creíble   y   persuasivo   que   un   ensayo   aleatorizado  
mal  ejecutado.  
  También   había   mucho   para   protestar   en   macroeconomía   empírica.   Una   protesta  
especialmente   articulada   provino   de   Sims   (1980),   que   señaló   que   los   modelos  
macroeconómicos  de  ese  entonces,  típicamente  un  sistema  de  ecuaciones  simultáneas,  invocó  
supuestos   de   identificación   (la   división   de   variables   entre   conjuntamente   determinadas   y  
exógenas)   que   eran   difíciles   de   tragar   y   pobremente   defendidos.   Como   una   alternativa   al  
contexto   de   sistema   de   ecuaciones,   Sims   sugirió   el   uso   de   auto   regresiones   vectoriales   sin  
restringir   (VAR)   para   describir   la   relación   entre   un   conjunto   dado   de   variables   endógenas   y   sus  
retrasos.   Pero   la   queja   de   Sims   no   generó   el   mismo   tipo   de   respuesta   que   surgió   de  
inquietudes   sobre   la   evaluación   del   programa   econométrico   en   los   años   80   entre   economistas  
del  trabajo.  Los  macroeconomistas  cerraron  filas,  pero  no  tomaron  una  postura  determinada.  
  El  argumento  de  Sims  vino  seguido  de  una  cercanamente  relacionada  y  similarmente  
influyente   puñalada   en   el   corazón   de   la   macro   empírica   conocida   como   la   crítica   de   Lucas.  
Lucas   (1976)   y   Kydland   y   Prescott   (1977)   argumentaron   vía   ejemplos   teóricos   que,   en   un  
mundo   con   agentes   optimizadores   prospectivos,   nada   puede   aprenderse   de   cambios   en  
políticas  del  pasado.  Lucas  mantuvo  la  esperanza  de  que  en  vez  de  intentar  recuperarnos  de  la  
respuesta   empírica   a   cambios   en   reglas   de   política   al   estimar   los   parámetros   estructurales   que  
se  encuentran  en  la  esencia  del  comportamiento  económico,  tales  como  aquellos  relacionados  
a  la  tecnología  o  las  preferencias  (Lucas  observó  estos  parámetros  como  estables  o  al  menos  
invariantes  ante  políticas).  Pero  Kydland  y  Prescott  –  invocando  a  Lucas  –  parecieron  renunciar  
por   completo   al   trabajo   empírico   convencional   (1977,   p.   487):   “Si   no   intentamos   seleccionar  
reglas  políticas  óptimamente,  ¿cómo  deberían  ser  seleccionadas?  Nuestra  respuesta  es,  como  
Lucas   (1976)   propuso,   que   la   teoría   económica   sea   utilizada   para   evaluar   reglas   de   políticas  
alternativas  y  que  aquella  con  buenas  características  operativas  sea  elegida.”  Esta  visión  ayudo  
a   sentar   las   bases   intelectuales   para   un   intenso   giro   hacia   la   teoría   en   macro,   aunque  
frecuentemente  representada  por  números  a  través  de  “calibración.”  
  Nuestro   resumen   en   el   trabajo   empírico   de   la   época   de   Leamer   se   centra   en  
deficiencias.   Pero   también   debemos   notar   que   el   mejor   trabajo   aplicado   de   la   década   de   1970  
y   principios   de   1980   todavía   se   sostiene   hoy   en   día.   Un   ejemplo   acreditado   se   encuentra   en  
Feldstein   y   Horioka   (1980),   que   argumenta   que   el   fuerte   vínculo   entre   el   ahorro   interno   y   la  
inversión  pesa  contra  la  noción  de  movilidad  sustancial  del  capital  internacional.  El  análisis  de  

  8  
Feldstein  y  Horioka  presenta  evidencia  simple  a  favor  de  una  conexión  entre  ahorro  interno  e  
inversión,   discute   importantes   fuentes   de   sesgos   de   variables   omitidas   y   sesgos   de  
simultaneidad   en   estas   estimaciones,   e   intenta   responder   a   estas   inquietudes.   La   extensiva  
investigación  de  Obstfeld  (1995)  de  la  estructura  de  Feldstein  y  Horioka  (1980)  esencialmente  
replica  sus  hallazgos  para  un  período  posterior  y  más  largo.  
 
Por  qué  hay  menos  inconvenientes  en  la  econometría  actual  
 
Mejoras   en   el   trabajo   empírico   llegaron   desde   distintas   direcciones.   Mejores   datos   y  
métodos   de   estimación   más   robustos   son   hoy   parte   de   la   historia,   tal   como   lo   es   un   énfasis  
reducido  en  consideraciones  econométricas  que  no  son  centrales  a  una  interpretación  causal  
de   los   descubrimientos   principales.   Pero   la   principal   fuerza   que   motivó   la   revolución   de   la  
credibilidad   fue   un   impulso   vigoroso   por   mejores   y   más   claramente   articulados   diseños   de  
investigación.  
 
Más  y  mejores  datos  
  No   inusualmente   para   el   período,   Ehrlich   (1975a)   analizó   una   serie   de   tiempo   de   35  
observaciones  anuales.  En  contraste,  Donohue  y  Wolfers  (2005)  investigaron  la  cuestión  de  la  
pena  capital  usando  un  panel  de  los  estados  de  EE.  UU.  desde  1934  al  2000,  con  muchos  más  
años  y  una  variación  interestatal  más  rica  debido  a  la  estructura  de  panel  de  los  datos.  Mejores  
datos  a  menudo  engendran  un  enfoque  novedoso  para  problemas  antiguos  de  investigación.  
La   investigación   de   Grogger   (1990)   del   efecto   disuasivo   de   las   ejecuciones   en   las   tasas   de  
homicidio  diarias,  inspirado  por  el  sociólogo  Phillips  (1980),  es  un  ejemplo.3  Más  lejos,  mejoras  
llegaron   de   un   reservorio   de   datos   micro   en   rápida   expansión   en   muchos   países.   El   uso   de  
registros  administrativos  también  ha  crecido.  
 
Menos  distracciones  
  Bower  y  Pierce  (1975)  dedicaron  considerable  atención  al  uso  de  Ehrlich  (1975a)  de  la  
transformación   log,   así   como   a   su   elección   de   período   de   muestra.   Passell   y   Taylor   (1977)  
notaron   el   potencial   para   sesgos   de   variables   omitidas,   pero   también   se   preocuparon   por   test-­‐
F   para   homogeneidad   temporal   y   logaritmos.   El   apéndice   metodológico   para   la   siguiente  
publicación   de   Ehrlich   (1977b)   discute   las   posibilidades   de   usar   una   transformación   Box-­‐Cox  
para   implementar   una   forma   funcional   flexible,   pruebas   para   heterocedasticidad,   y   uso   de  
mínimos  cuadrados  generalizados.  La  réplica  de  Ehrlich  (1975b)  a  Bowers  y  Pierce  se  centró  en  
la   significancia   estadística   de   los   intervalos   de   tendencia   en   muestras   de   diferente   duración,  
diferencias  en  procedimientos  de  cálculo  relacionados  a  correlación  en  serie,  y  evidencia  para  
robustez  en  el  uso  de  logaritmos.  La  respuesta  de  Ehrlich  (1977a)  a  Passell  abarca  el  período  de  
muestreo   y   logaritmos,   aunque   también   informa   algunas   de   sus   estimaciones   interestatales  
(1977b).   Las   réplicas   a   Ehrlich   dedicaron   poca   atención   a   la   cuestión   fundamental   de   si   las  
fuentes   de   variación   en   la   ejecución   utilizadas   en   sus   modelos   estadísticos   justificaban   una  
interpretación   causal   de   sus   estimaciones,   pero   los   contemporáneos   de   Ehrlich   tampoco  
dieron   en   el   clavo.   Aún   si   los   resultados   fueran   insensibles   a   la   muestra,   lo   mismo   en   logs   y  
                                                                                                                       
3
  El  decremento  en  uso  de  series  de  tiempo  y  el  incremento  en  uso  de  datos  de  panel  y  datos  originados  de  investigación  están  
documentados  para  el  campo  de  economía  laboral  en  la  Tabla  1  de  Angrist  y  Krueger  (1999).  

  9  
niveles,   y   los   residuos   independientes   e   idénticamente   distribuidos,   continuaríamos  
insatisfechos.  En  el  toma  y  dame  que  acompaño  el  artículo  original  de  Ehrlich,  el  tópico  de  la  
validez   instrumental   rara   vez   salió   a   superficie,   mientras   que   la   cuestión   del   sesgo   de   variables  
omitidas   tomó   un   rol   secundario   ante   preocupaciones   sobre   forma   funcional   y   puntos   de  
quiebre  de  muestras.4  
  Como   en   el   intercambio   sobre   pena   capital,   otros   escritores   casi   al   mismo   tiempo   se  
vieron   frecuentemente   distraídos   por   inquietudes   relacionadas   a   la   forma   funcional   y   a   los  
mínimos   cuadrados   generalizados.   Los   economistas   prácticos   de   la   actualidad   tienen   el  
beneficio   de   un   entendimiento   menos   dogmático   del   análisis   de   regresión.   Específicamente,  
una   comprensión   emergente   del   sentido   en   el   cual   la   regresión   y   los   mínimos   cuadrados   en  
dos   etapas   producen   efectos   promedio   aún   cuando   la   relación   subyacente   es   heterogénea   y/o  
no  lineal,  ha  vuelto  a  la  forma  funcional  menos  central.  
  Los   modelos   lineales   que   constituyen   el   caballo   de   batalla   de   la   práctica   empírica  
contemporánea   usualmente   resultan   ser   remarcablemente   robustos,   una   característica   que  
muchos  investigadores  aplicados  han  sentido  durante  mucho  tiempo  y  la  teoría  econométrica  
actual   explica   mejor.5   Los   errores   de   robustez   estándar,   la   agrupación   automatizada,   y  
muestras   más   grandes   también   han   calmado   las   aguas   de   temas   como   la   heterocedasticidad   y  
correlación   en   serie.   Un   legado   del  artículo   de   White   (1980a)   en   errores   de   robustez   estándar,  
uno   de   los   más   altamente   citados   de   la   época,   es   casi   la   muerte   de   los   mínimos   cuadrados  
generalizados   en   trabajo   aplicado   inter-­‐seccional.   En   los   intereses   de   la   reproducibilidad,   y  
para   reducir   el   alcance   de   errores,   los   investigadores   aplicados   modernos   frecuentemente  
prefieren  estimadores  más  simples,  aunque  puedan  estar  sacrificando  eficiencia  asintótica.  
 
Mejor  diseño  de  investigación  
  Leamer  (1983)  lideró  su  ensayo  con  la  idea  de  que  los  experimentos  –  específicamente,  
las   pruebas   aleatorizadas   –   proveían   un   marco   para   la   econometría   aplicada.   No   estaba   solo  
entre  líderes  del  pensamiento  econométrico  en  esta  posición.  Aquí  está  Zvi  Griliches  (1986,  p.  
1466)   en   el   comienzo   de   un   capítulo   sobre   datos   en   The   Handbook   of   Econometrics:   “Si   los  
datos   fueran   perfectos,   recolectados   de   experimentos   aleatorizados   bien   diseñados,  
difícilmente   habría   lugar   para   un   campo   separado   de   econometría.”   Desde   entonces,  
investigadores  empíricos  en  economía  han  buscado  cada  vez  más  el  ideal  de  un  experimento  
aleatorizado   para   justificar   inferencia   causal.   En   disciplinas   de   micro   aplicadas   tales   como  
desarrollo,   educación,   economía   ambiental,   salud,   trabajo,   y   finanzas   públicas,   los  
investigadores   buscaron   experimentos   reales   cuando   era   factible,   y   experimentos   naturales  
útiles   si   los   experimentos   reales   (por   lo   menos   por   un   tiempo)   eran   inviables.   En   cualquier  
caso,   un   sello   de   la   microeconometría   aplicada   contemporánea   es   un   marco   conceptual   que  
resalta   fuentes   específicas   de   variación.   Se   puede   decir   que   estos   estudios   son   basados   en  
diseño   ya   que   ofrecen   al   diseño   de   investigación   subyacente   a   cualquier   tipo   de   estudio   la  
atención  que  demandaría  en  un  experimento  real.  

                                                                                                                       
4
  El   crítico   re-­‐análisis   de   Hoenack   y   Weiler   (1980)   acerca   de   Ehrlich   (1975a)   se   centró   en   problemas   de   identificación,   pero   las  
restricciones  de  exclusión  alternativas  que  Hoenack  y  Weiler  propusieron  fueron  ofrecidas  sin  mucha  justificación  y  parecían  tan  
difíciles  de  tragar  como  las  de  Ehrlich  (por  ejemplo,  la  proporción  no  blanca  es  usada  como  un  instrumento).  
5
  Para   esta   visión   de   la   regresión,   ver,   por   ejemplo,   White   (1980b),   el   capítulo   de   Chamberlain   (1984)   en   Handbook   of  
Econometrics,   el   texto  econométrico   de  Goldberger   (1991),  o   nuestro   libro   Angrist  y  Prischke  (2009)  para  una  captura  reciente.  
Angrist   e   Imbens   (1995)   muestran   como   los   estimadores   de   mínimos   cuadrados   en   dos   etapas   convencionales   pueden   ser  
interpretados  como  un  efecto  causal  promedio  en  modelos  con  efectos  causales  heterogéneos  y  no  lineales.  

  10  
  Los   métodos   econométricos   que   destacan   principalmente   en   estudios   cuasi-­‐
experimentales   son   variables   instrumentales,   métodos   de   discontinuidad   de   regresión,   y  
análisis   de   políticas   de   diferencias   en   diferencias.   Estos   métodos   econométricos   no   son  
nuevos,  pero  su  uso  ha  crecido  y  se  ha  vuelto  más  cohibido  y  sofisticado  desde  la  década  de  
1970.   Al   usar   variables   instrumentales,   por   ejemplo,   ya   no   es   suficiente   invocar  
mecánicamente   un   marco   de   ecuaciones   simultáneas,   nombrando   algunas   variables  
endógenas   y   otras   exógenas,   sin   justificar   sustancialmente   las   restricciones   de   exclusión   y  
supuestos   tan-­‐buenos-­‐como-­‐asignados-­‐aleatoriamente   que   hacen   a   los   instrumentos   válidos.  
Lo  mejor  de  los  estudios  basados  en  diseño  actuales  constituye  un  caso  fuerte,  sustentado  con  
evidencia  empírica,  para  que  la  reflexión  sobre  variación  genere  un  experimento  natural  útil.  
  Los   estudios   de   calidad   escolar   de   Card   y   Krueger   (1992a,   b)   ilustran   esto   y   puede  
decirse   que   marcan   un   punto   de   inflexión   en   la   literatura   en   producción   educativa.   El  
problema  más  importante  en  estudios  de  calidad  escolar  es  el  sesgo  de  omisión  de  variables.  
Por  un  lado,  los  estudiantes  que  asisten  a  escuelas  con  mejores  recursos  usualmente  llegan  a  
esas  escuelas  por  su  habilidad  o  trasfondo  familiar,  mientras  que  por  el  otro  lado,  estudiantes  
más   débiles   pueden   recibir   desproporcionadamente   más   recursos   (por   ejemplo,   clases   más  
reducidas).  Card  y  Krueger  encaran  este  problema  al  enfocarse  en  la  fluctuación  en  recursos  en  
el   nivel   de   lugar-­‐de-­‐nacimiento-­‐por-­‐cohorte,   el   cual   vinculan   con   la   rentabilidad   económica  
educativa   estimada   al   mismo   nivel.   Por   ejemplo,   usaron   data   censal   para   comparar   los  
retornos   en   educación   para   residentes   de   estados   del   norte   educados   en   el   norte   contra   los  
retornos  en  educación  para  residentes  de  estados  del  norte  educados  en  escuelas  del  sur  con  
recursos  más  escasos.  
  Los   artículos   de   Card   y   Krueger   muestran   que   los   rendimientos   económicos   en  
educación  son  más  altos  para  aquellos  provenientes  de  estados  y  cohortes  con  más  recursos  
(controlando   por   efectos   de   cohorte   y   estado   fijo   y   por   estado   de   residencia).   Ellos  
implícitamente  utilizan  divergencia  por  nivel  estatal  en  gasto  educativo  como  un  experimento  
natural:   agregados   de   datos   individuales   hasta   el   cohorte/nivel   estatal   es   un   proceso   de  
variables   instrumentales   donde   los   instrumentos   son   estado-­‐de-­‐nacimiento   y   variables   de  
cohorte  ficticias.  (En  Angrist  Y  Pischke,  2009,  mostramos  por  qué  la  agregación  en  esta  forma  
funciona   como   una   variable   instrumental.)   La   variación   estado-­‐por-­‐cohorte   en   rendimientos  
educativos  es  improbable  que  se  encuentre  impulsada  por  selección  u  ordenamiento,  ya  que  
los   individuos   no   controlan   estas   variables.   La   variación   estado-­‐por-­‐cohorte   en   recursos  
escolares   tampoco   se   encuentra   relacionada   a   factores   omitidos   como   entorno   familiar.  
Finalmente,   Card   y   Krueger   tomaron   ventaja   del   hecho   de   que   los   recursos   escolares  
aumentaron  dramáticamente  en  el  sur  cuando  los  sureños  en  su  muestra  estuvieron  en  edad  
escolar.  Los  estudios  de  calidad  escolar  de  Card  y  Krueger  no  son  a  prueba  de  balas  (Heckman,  
Layne-­‐Farrar,   y   Todd,   1966,   ofrecen   una   crítica),   pero   sus   hallazgos   en   tamaño   de   clases   (el  
conjunto   más   sólido   de   resultados   en   Card   y   Krueger,   1992a)   ha   sido   replicado   en   otros  
estudios  con  buenos  diseños  de  investigación.  
Angrist  y  Lavy  (1999)  ilustran  el  diseño  de  investigación  de  regresión  discontinua  en  un  estudio  
sobre   los   efectos   del   tamaño   de   clase   en   rendimiento   académico.   El   enfoque   de   regresión  
discontinua  puede  ser  usado  cuando  las  personas  son  divididas  en  grupos  basados  en  un  cierto  
puntaje   límite,   con   aquellos   apenas   por   encima   o   por   debajo   del   límite   que   repentinamente  
son   elegibles   para   un   tratamiento   diferente.   El   diseño   de   investigación   de   Angrist-­‐Lavy   está  
motivado   por   el   caso   de   que   el   tamaño   de   clase   en   Israel   está   limitado   en   40,   entonces   una  

  11  
cohorte  de  41  es  usualmente  dividido  en  dos  clases  menores,  mientras  que  un  cohorte  de  39  
típicamente   se   mantiene   en   una   sola   clase.   Esto   conduce   a   una   serie   de   experimentos  
hipotéticos:  comparaciones  de  colegios  con  inscripciones  levemente  por  encima  y  por  debajo  
de  40,  80,  o  120,  en  cuyos  tamaños  de  clase  varían  considerablemente.  En  esta  configuración,  
los   colegios   con   diferentes   números   de   estudiantes   pueden   ser   bastante   similares   en   otras  
características.   Entonces,   a   medida   que   la   matriculación   de   un   colegio   aumenta,   una   regresión  
que   captura   la   relación   entre   el   número   de   estudiantes   y   el   rendimiento   académico   debería  
ahora   mostrar   discontinuidades   en   estos   puntos   de   quiebre.   El   diseño   de   de   Angrist-­‐Lavy   es  
una  versión  de  lo  que  se  conoce  como  diseño  de  regresión  discontinua  “difusa”,  en  donde  la  
confusión  procede  del  hecho  de  que  el  tamaño  escolar  no  es  una  función  determinística  de  las  
vueltas   o   saltos   en   la   función   de   matriculación.   Las   estimaciones   de   regresión   discontinua  
empleando   datos   israelíes   muestran   un   marcado   incremento   en   rendimiento   académico  
cuando  el  tamaño  de  clase  disminuye.6  
El   supuesto   clave   que   determina   la   estimación   de   regresión   discontinua   de   efectos  
causales  es  que  los  individuos  son  similares  en  cualquier  lado  de  la  discontinuidad  (o  que  una  
diferencia   puede   ser   controlada   usando   funciones   suaves   de   las   tasas   de   matriculación,  
también   conocidas   como   “variable   de   selección”,   que   determina   los   puntos   de   salto).   En   el  
estudio   de   Angrist-­‐Lavy,   por   ejemplo,   podríamos   querer   estudiantes   que   tengan   un   entorno  
familiar  similar  cuando  concurren  a  escuelas  con  niveles  de  inscripción  de  35-­‐39  y  41-­‐45.  Una  
prueba  de  este  supuesto,  ilustrada  por  Angrist  y  Lavy  (y  Hoxby,  2000)  es  estimar  los  efectos  en  
un   rango   cada   vez   más   angosto   alrededor   de   los   puntos   de   salto;   a   medida   que   el   intervalo  
disminuye,   el   salto   en   tamaño   de   clase   permanece   el   mismo   o   quizás   apenas   crece,   pero   los  
estimados   deben   ser   sujetos   a   menos   y   menos   sesgos   de   variables   omitidas.   Otra   prueba,  
propuesta  por  McCrary  (2008),  busca  concentraciones  en  la  distribución  de  características  en  
los   antecedentes   de   estudiantes   alrededor   del   salto.   Estas   concentraciones   pueden   señalar  
comportamientos   estratégicos   –   el   esfuerzo   de   algunas   familias,   presuntamente   sin   una  
muestra  aleatoria,  para  ubicarse  en  escuelas  con  clases  más  pequeñas.  Finalmente,  podemos  
simplemente  observar  las  diferencias  en  características  medias  pre-­‐tratamiento  alrededor  del  
salto.  
En   un   artículo   reciente,   Urqiola   y   Verhoogen   (2009)   aprovechan   los   límites   de  
matriculación   tales   como   aquellos   utilizados   por   Angrist   y   Lavy   en   una   muestra   de   Chile.   Los  
datos  chilenos  exhiben  una  sugerente  primera  etapa,  con  agudas  caídas  (discontinuidades)  en  
tamaño  de  la  clase  en  los  límites  (múltiplos  de  45).  Pero  las  características  domésticas  también  
difieren   considerablemente   a   través   de   los   mismos   saltos,   probablemente   porque   el   sistema  
escolar   chileno,   en   su   mayoría   privado,   ofrece   tanto   oportunidades   e   incentivos   para  
estudiantes   más   pudientes   para   asistir   a   escuelas   más   allá   de   los   límites.   La   posibilidad   de  
semejante   patrón   es   una   precaución   importante   para   usuarios   de   métodos   de   regresión  
discontinua,  aunque  Urqiola  y  Verhoogen  notan  que  la  manipulación  en  las  inscripciones  que  
descubrieron   en   Chile   está   lejos   de   ser   extendida   y   no   se   presenta   en   el   estudio   de   Angrist-­‐
Lavy.   Una   gran   medida   de   atracción   del   diseño   de   regresión   discontinua   es   su   espíritu  

                                                                                                                       
6
  Los  diseños  de  regresión  discontinua  son  más  fácilmente  analizados  empleando  variables  instrumentales.  En  el  lenguaje  de  las  
variables  instrumentales,  la  relación  entre  rendimiento  y  saltos  en  la  función  es  la  forma  reducida,  mientras  que  el  cambio  en  el  
tamaño  de  clase  en  los  saltos  es  la  primera  etapa.  La  proporción  de  formas  reducidas  a  efectos  de  primer-­‐etapa  es  un  estimador  
de   variable   instrumental   del   efecto   causal   del   tamaño   de   la   clase   en   notas   de   examen.   Imbens   y   Lemieux   (2008)   ofrecen   una   guía  
para  practicantes  para  el  uso  de  diseño  de  regresión  discontinua  en  economía.  

  12  
elemental   y   la   facilidad   con   la   que   las   afirmaciones   por   la   validez   del   diseño   pueden   ser  
verificadas.  
  La   última   flecha   en   la   aljaba   cuasi-­‐experimental   es   el   de   las   diferencias   en  
diferencias,   probablemente   el   estimador   basado   en   diseño   más   aplicable.   El   análisis   de  
políticas   de   diferencias   en   diferencias   típicamente   compara   la   evolución   de   producciones   en  
grupos  afectados  más  o  menos  por  un  cambio  de  política.  Los  estudios  del  tipo  de  diferencias  
en  diferencias  más  convincentes  presentan  resultados  para  el  tratamiento  y  observaciones  de  
control  para  un  intervalo  del  largo  suficiente  para  evidenciar  las  tendencias  subyacentes,  con  
atención   centralizada   en   cómo   las   desviaciones   de   la   tendencia   se   relacionan   a   cambios   de  
política.   La   figura   1,   de   Donohue   y   Wolfers   (2005),   ilustra   este   enfoque   para   el   debate   de   la  
pena  capital.  Este  gráfico  traza  las  tasas  de  homicidio  en  Canadá  y  los  Estados  Unidos  por  más  
de   medio   siglo,   indicando   períodos   en   los   que   la   pena   de   muerte   estaba   vigente   en   ambos  
países.  El  punto  del  grafico  no  es  enfocarse  en  la  tasa  de  homicidio  constantemente  más  baja  
de  Canadá,  sino  mostrar  que  las  tasas  de  homicidio  canadiense  y  estadounidense  difícilmente  
se  mueven  en  paralelo,  sugiriendo  que  los  cambios  en  la  política  de  pena  de  muerte  tuvieron  
pequeñas  consecuencias  en  los  asesinatos.  El  grafico  también  sugiere  que  el  efecto  disuasivo  
debería  ser  grande  para  ser  visible  ante  el  ruidoso  segundo  plano  de  fluctuaciones  anuales  en  
las  tasas  de  homicidio.    
 

 
 
  Paralelamente   el   crecimiento   en   experimentos   de   diseño   pseudo-­‐experimental,   el  
número   y   alcance   de   experimentos   reales   ha   incrementado   dramáticamente,   con   un  
incremento   concomitante   en   la   calidad   del   diseño   experimental,   colección   de   data   y   análisis  
estadístico.  Mientras  en  la  era  de  los  70s  los  estudios  aleatorizados  del  efecto  negativo  de  los  
impuestos  estaban  comprometidos  en  informar  erróneamente  y  el  desgaste  diferencial  en  el  
tratamiento  y  el  control  de  grupos,  los  investigadores  hoy  le  dan  a  estas  preocupaciones  más  
atención  y  las  administran  de  manera  más  efectiva.  Tales  problemas  son  usualmente  resueltos  

  13  
por   una   confianza   substancial   en   la   data   administrativa,   y   una   interpretación   más   sofisticada  
de  la  data  de  encuestas  cuando  los  registros  administrativos  no  están  disponibles.  
  Un   punto   de   referencia   en   un   juicio   aleatorizado   relaciono   a   la   producción   de  
educación  es  el  experimento  Tennessee  STAR.  En  esta  intervención,  más  de  10000  estudiantes  
fueron   aleatoriamente   asignados   a   clases   de   diferentes   tamaños,   desde   el   jardín   de   infantes  
hasta  tercer  grado.  Como  el  efecto  negativo  de  los  experimentos  de  impuestos,  el  experimento  
STAR   tuvo   sus   fallas.   No   todos   los   sujetos   contribuyeron   con   el   seguimiento   de   la   data   y  
algunos   auto-­‐seleccionaron   clases   más   pequeñas   aun   después   de   haber   sido   asignados  
aleatoriamente.  Un  cuidadoso  análisis  de  Krueger  (1999),  muestra  evidencia  de  ciertos  logros  
en  las  clases  más  pequeñas,  tomando  el  desgaste  y  la  auto-­‐selección  en  cuenta.7  
 Los   economistas   están   llevando   a   cabo   sus   propios   experimentos   de   manera  
creciente,   así   como   también   procesando   la   data   de   experimentos   llevado   a   cabo   por   otros.   Un  
reciente   juicio   aleatorizado   de   un   esquema   de   microfinanzas,   una   importante   herramienta  
para   el   desarrollo   económico,   es   una   ilustración   ambiciosa   (Banerjee,   Duflo,   Glennester,   y  
Kinnan,   2009).   Este   estudio   evalúa   el   impacto   de   ofrecer   pequeños   préstamos   a   dueños   de  
negocios  independientes  que  viven  en  los  barrios  vulnerables  de  India.  El  estudio  de  Banerjee  y  
otros   randomiza   la   disponibilidad   de   microcréditos   a   lo   largo   de   100   vecindarios   indios,  
desacreditando   el   reclamo   de   que   la   intervención   política   realista   y   relevante   no   puede   ser  
estudiada  con  asignaciones  aleatorias.  
  Con   el   creciente   enfoque   en   el   diseño   de   investigación,   no   es   suficiente   adoptar   el  
lenguaje  de  un  marco  de  ecuaciones   simultáneo  y  ortodoxo,  etiquetando  a  algunas  variables  
como  endógenas  y  otras  como  exógenas,  sin  ofrecer  un  fuerte  apoyo  empírico  o  institucional  
para   estos   supuestos   identificadores.   El   nuevo   énfasis   en   una   credibilidad   exógena   como  
fuente  de  variación  también  ha  filtrado  a  estimaciones  de  regresiones  comunes  y  silvestres,  en  
las  que  los  investigadores  es  cada  vez  más  probable  que  se  concentren  en  fuentes  de  sesgo  por  
omisión  de  variables,  en  vez  de  un  esfuerzo  quijotesco  para  descubrir  el  “modelo  verdadero”    
que  genera  los  datos.8  
 
Más  discusión  transparente  sobre  el  diseño  de  la  investigación.  
Hace   poco   más   de   65   años,   Haavelmo   presentó   la   siguiente   queja   a   los   lectores   de  
Econométrica  (1944,  p.  14):  “Un  diseño  de  experimentos  (una  prescripción  de  lo  que  los  físicos  
llamarían  un  ‘experimento  crucial’)  es  el  apéndice  esencial  para  cualquier  teoría  cuantitativa.  Y  
usualmente  tenemos  estos  experimentos  en  mente  cuando  construimos  las  teorías,  aunque  -­‐
desafortunadamente-­‐   la   mayoría   de   economistas   no   describen   explícitamente   el   diseño   de   sus  
experimentos.”  
    En  los  últimos  años,  la  noción  de  que  la  identificación  de  estrategia  propia  –  en  otras  
palabras,   el   diseño   de   la   investigación   –   debe   ser   descripta   y   defendida   ha   filtrado  
profundamente  la  práctica  empírica.  ¿La  pregunta  “Cuál  es  tu  estrategia  de  investigación?”  y  
otras   similares   ahora   son   oídas   rutinariamente   en   los   talleres   y   seminarios   empíricos.   La  
                                                                                                                       
7
 Un  desarrollo  relacionado,  en  la  vanguardia  del  diseño  de  investigación,  es  el  uso  de  loterías  de  elección  como  una  herramienta  
de   investigación.   En   muchos   escenarios   donde   una   opción   educacional   tiene   exceso   de   subscripciones,   la   asignación   a   los  
aspirantes  se  decide  por  sorteo.  El  resultado  es  un  tipo  de  asignación  aleatoria  institucional,  que  luego  puede  ser  utilizado  para  
estudiar  becas  escolares,  subvenciones  a  escuelas,  y  escuelas  especializadas  (por  ejemplo,  Rouse,  1998,  analiza  las  becas).  
8
 El  foco  en  sesgo  de  variables  omitidas  ha  reflejado  en  una  floreciente  literatura  a  través  de  la  correspondencia  y  la  puntuación  de  
propensión   como   una   alternativa   (o   complemento)   a   la   regresión.   En   ausencia   de   una   asignación   aleatoria,   tales   estrategias  
buscan  eliminar  las  diferencias  observables  entre  grupos  de  control  y  tratamiento,  con  poca  o  nula  atención  dedicada  a  modelar  el  
proceso  determinando  resultados.  Ver  Imbens  y  Wooldridge  (2009)  para  una  introducción.  

  14  
evidencia   de   este   reclamo   surge   del   hecho   que   la   búsqueda   de   un   texto   completo   para   los  
términos   “estrategia   empírica”,   “estrategia   de   la   identificación”,   “diseño   de   la   investigación”   o  
“grupo   de   control”   obtiene   solo   19   resultados   en   Econlit   en   el   periodo   1970-­‐1989,   mientras  
que  se  obtienen  742  resultados  desde  1990  a  2009.  ¡Reconocemos  que  solo  porque  el  autor  
use  el  término  “diseño  de  investigación”  no  significa  que  él  o  ella  tenga  uno  bueno!  Además,  
algunos  estudios  anteriores  incorporan  diseños  de  calidad  sin  usar  el  lenguaje  contemporáneo.  
Aun   así,   el   cambio   en   el   énfasis   es   dramático   y   refleja   una   tendencia   que   es   más   que  
semántica.    
      Los   buenos   diseños   tienen   un   efecto   secundario   beneficioso:   usualmente   se   presta  
para   una   explicación   simple   de   métodos   empíricos   y   una   presentación   directa   de   los  
resultados.   Las   recomendaciones   claves   de   un   experimento   aleatorio   típicamente   son  
diferencias   en   métodos   entre   tratamientos   y   controles,   informados   antes   del   tratamiento  
(para   mostrar   balance)   y   después   del   tratamiento   (para   estimar   los   efectos   causales).   Los  
resultados   no   experimentales   pueden   ser   a   menudo   presentados   en   una   manera   que   imite  
esto,   resaltando   los   contrastes   específicos.   El   estudio   differences-­‐in-­‐differences   de   Donohue  
and  Wolfers  (2005),  mencionado  arriba,  ilustra  esto  enfocándose  en  los  cambios  en  las  leyes  
americanas   como   una   fuente   casi   experimental   de   variación   y   documentando   la   evolución  
paralela  de  los  resultados  en  tratamientos  y  grupos  de  control  en  los  Estados  Unidos  y  Canadá.  
 
¿Cuál  es  la  dirección  del  análisis  sensitivo?    
Respondiendo   a   lo   que   vio   como   la   fragilidad   del   análisis   de   regresión   inexperto,  
Leamer   (1983)   propuso   extremos   límites   de   análisis,   que   se   enfocan   en   la   distribución   de  
resultados   generados   por   una   amplia   gama   de   especificaciones.   Una   versión   extrema   de   los  
límites   extremos   de   análisis   aparece   en   el   ensayo   de   Sala-­‐i-­‐Martin   (1997)   donde   se   reportan  
dos  millones  de  regresiones  relacionadas  al  crecimiento  económico.  Específicamente,  en  una  
variación   del   procedimiento   propuesto   en   este   contexto   por   Levine   y   Renelt   (1992),   Sala-­‐i-­‐
Martin   computa   dos   millones   de   las   múltiples   regresiones   de   crecimiento   que   pueden   ser  
construidas   a   partir   de   62   variables   explicativas.   El   retiene   un   set   fijo   de   tres   controles   (PBI,  
expectativa   de   vida,   y   la   tasa   de   inscripciones   en   la   escuela   primaria   en   1960),   dejando   59  
posibles  “regresores  de  interés”.  De  estos  59,  tres  sets  adicionales  de  control  son  elegidos  de  
los  primeros  58  mientras  que  el  número  59  es  tomado  como  el  único  de  interés.  Este  proceso  
es   repetido   hasta   que   cada   uno   de   los   posibles   59   regresores   ha   jugado   un   rol   en   estas  
ecuaciones   con   todos   los   posibles   sets   de   tres   controles,   generando   30857   regresiones   por  
cada  regresor  de  interés.  El  objetivo  de  este  ejercicio  es  ver  que  variables  son  robustamente  
significantes  a  través  de  las  especificaciones.    
La  investigacion  de  Sala-­‐i-­‐Martin  sobre  los  límites  extremos  de  análisis  debe  haber  sido  
divertida.  Felizmente,  de  cualquier  manera,  este  tipo  de  búsqueda  de  especificación  agnóstica  
no   surgió   como   la   figura   central   del   trabajo   empírico   contemporáneo.   Aunque   Sala-­‐i-­‐Martin  
triunfa   descubriendo   algunas   relaciones   significativas   (la   “fracción   de   la   población   Confuciana”  
es   una   maravillosamente   fuerte   pronosticadora   del   crecimiento   económico),   no   vemos   por  
qué   este   resultado   debería   ser   tomado   más   seriamente   que   el   inocente   castigo   de  
especificaciones  de  capital  criticado  por  Leamer.  ¿Son  estos  los  controles  correctos?  ¿Son  seis  
controles   suficientes?   ¿Cómo   se   supone   que   entendamos   fuentes   de   variación   en   una   variable  
cuando   los   efectos   de   tres   otras   variables,   elegidas   arbitrariamente,   son   dejadas   afuera?   Las  

  15  
búsquedas   tan   amplias   de   este   tipo   ofrecen   una   base   muy   pequeña   para   una   interpretación  
causal.    
Los   estudios   basados   en   el   diseño   típicamente   guían   a   una   especificación   de   análisis  
mucho   más   acotada   y   enfocada,   apuntada   a   específicas   amenazas   a   la   validez.   Por   ejemplo,  
cuando   consideramos   resultados   de   un   juicio   aleatorio,   nos   enfocamos   en   los   detalles   del  
tratamiento   asignado   y   la   evidencia   para   el   balance   en   el   tratamiento   de   control   y   en   el   pre  
tratamiento   de   variables.   Cuando   usamos   variables   instrumentales,   observamos   si   el  
instrumento  puede  tener  efectos  causales  en  el  resultado  en  maneras  diferentes  que  a  través  
del   canal   de   interés   (en   ecuaciones   simultaneas   de   lingo,   esta   es   una   examinación   de   la  
restricción   de   exclusión).   Con   las   diferencias   en   diferencias   (differences-­‐in-­‐differences),  
buscamos  las  tendencias  específicas  de  grupos,  ya  que  tales  tendencias  pueden  invalidar  una  
comparación  de  los  cambios  a  través  de  los  grupos.  En  el  diseño  de  la  regresión  discontinua,  
observamos  factores  como  el  agrupamiento  en  el  punto  de  inflexión,  lo  que  puede  sugerir  que  
el   límite   directamente   influencie   el   comportamiento.   Como   la   naturaleza   de   estos  
experimentos   es   clara   en   este   tipo   de   diseños,   la   dirección   que   deberíamos   tomar   cuando  
evaluamos  la  validez  también  tiene  que  ser  clara.    
 
Locos  por  la  Macro  
 
En  la  lectura  de  un  ensayo  a  estudiantes  graduados  de  economía  de  la  Universidad  de  
Chicago,   Robert   Lucas   (1988)   describió,   según   su   visión,   lo   que   los   economistas   hacen.   Lucas  
uso   la   pregunta   específica   de   la   conexión   entre   la   política   monetaria   y   la   depresión   económica  
para   enmarcar   esta   discusión,   que   se   encuentra   bastante   en   el   espíritu   experimental:   “Una  
manera   de   demostrar   que   entiendo   esta   conexión   -­‐Según   la   que   yo   creo,   la   manera   más  
convincente-­‐   seria   maquinar   una   depresión   en   los   Estados   Unidos   modificando   la   oferta  
monetaria.  “  
Eliminando  tal  manipulación  nacional  por  su  inmoralidad,  Lucas  (1988)  describe  cómo  
crear   una   depresión   cambiando   la   oferta   monetaria   en   Kennywood   Park,   un   parque   de  
diversiones  cercano  a  Pittsburgh  que  se  caracteriza  por  vistas  increíbles  al  rio,  montaña  rusa  de  
madera   y   el   hecho   de   que   emite   su   propio   dinero.   La   historia   de   Lucas   es   evocativa   y  
persuasiva  (la  alegoría  de  Kennywood  es  una  versión  de  Lucas,  1973).    Estamos  felices  de  ver  
un  macroeconomista  del  nivel  de  Lucas  usar  un  punto  de  referencia  experimental  para  definir  
causalidad   y   mostrar   una   disposición   para   entretener   evidencia   cuasi-­‐experimental   en   los  
efectos  de  un  cambio  en  la  oferta  monetaria.  Aun  así  esta  historia  nos  hace  preguntarnos  por  
qué  el  mundo  real  de  la  macro  empírica  raramente  presenta  investigación  basada  en  el  diseño.  
Muchos   macroeconomistas   han   abandonado   el   trabajo   tradicional   empírico  
completamente,   enfocándose   en   los   “experimentos   computacionales”,   como   los   descriptos   en  
este   diario   por   Kydland   y   Prescott   (1996).   En   un   experimento   computacional,   los  
investigadores   eligen   una   pregunta,   construyen   (teóricamente)   un   modelo   económico,  
“calibran”   el   modelo   para   que   su   comportamiento   imite   la   economía   real   junto   con   algunas  
dimensiones   estadísticas   claves,   y   después   llevan   a   cabo   un   experimento   computacional  
cambiando   los   parámetros   del   modelo   (por   ejemplo,   las   tasas   impositivas   o   la   oferta  
monetaria)   para   abordar   la   pregunta   original.   Las   dos   últimas   décadas   han   visto   incontables  
estudios   en   este   molde,   usualmente   contextualizados   en   un   marco   de   trabajo   dinámico  
estocástico   de   equilibrio   general.   Cualquier   cosa   que   pueda   ser   dicha   en   defensa   de   este  

  16  
marco   de   trabajo   como   herramienta   para   clarificar   las   implicaciones   de   los   modelos  
económicos,   no   produce   evidencia   directa   en   la   magnitud   o   existencia   de   efectos   causales.   Un  
esfuerzo  para  poner  números  razonables  en  relaciones  teóricas  es  inofensivo  e  incluso,  quizás,  
pueda  ser  útil.  Pero  sigue  siendo  teoría.    
Algunos   rayos   de   sol   penetran   a   través   de   las   grises   nubes   del   equilibrio   general  
dinámico   estocástico.   Un   hilo   de   macroeconomía   empírica   ha   girado   de   los   resultados   de  
variables  modelizadas  tales  como  el  crecimiento  del  PIB,  enfocándose  en  el  aislamiento  de  la  
útil   variación   en   Estados   Unidos   de   las   políticas   monetarias   y   fiscales.   Una   contribución   que  
nos  guía  aquí  es  la  de  Romer  y  Romer  (1989),  quienes,  en  el  espíritu  de  Friedman  y  Schwartz  
(1963),   revisan   los   minutos   de   las   reuniones   de   la   Reserva   Federal   y   tratan   de   aislar   eventos  
que   parecen   buenos   “experimentos”   de   política   monetaria.   Sus   resultados   sugieren   que   las  
contracciones  monetarias  tienen  efectos  significativos  y  duraderos  en  la  economía  real.    Más  
tarde,  en  Romer  y  Romer  (2004),  ellos  produjeron  descubrimientos  similares  para  los  efectos  
de  la  política  de  shocks  condicionales  en  los  propios  pronósticos  de  los  Federales.  9  
El  trabajo  de  los  Romer  está  basado  en  el  diseño,  en  su  espíritu,  y  en  mayor  parte,  en  
sus   detalles.   Aunque   vasta   literatura   de   los   modelos   de   la   Reserva   Federal   sobre   la   toma   de  
decisiones,   hasta   recientemente,   sorprendentemente   pocos   estudios   han   hecho   un   caso  
institucional   para   experimentos   de   políticas   como   el   estudio   de   los   Romer   lo   hace.   Dos  
recientes  estudios  sobre  política  monetaria  en  el  espíritu  de  Romer,  y  quizás   más  parecidos  al  
tipo   de   trabajo   cuasi-­‐experimental   que   hacemos   y   leemos,   son   Richardson   y   Troost   (2009),  
quienes  explotan  las  diferencias  regionales  en  el  comportamiento  de  los  Federales  durante  la  
depresión  para  estudiar  los  efectos  de  la  liquidez,  y  Velde  (2009),  quien  describe  los  resultados  
de   un   experimento   monetario   extremo   bastante   parecido   al   que   Lucas   imaginó   (aunque   en  
Francia   del   siglo   dieciocho).   Romer   y   Romer   (2007)   usan   métodos   similares   a   los   que   usaron  
para  el  dinero  para  estudiar  la  política  fiscal,  como  también  lo  hacen  Ramey  y  Shapiro  (1998)  y  
Barro   y   Redlick   (2009),   quienes   investigan   los   efectos   de   largos   shocks   fiscales   debidos   a   la  
guerra.    
La  literatura  sobre  el  crecimiento  empírico  ha  venido  sufriendo  por  un  largo  tiempo  de  
una   falta   de   imaginación   en   el   diseño   de   investigación,   pero   aquí   también   el   cuadro   ha  
mejorado   recientemente.   El   estudio   más   influyente   basado   en   el   diseño   en   esta   área  
probablemente  ha  sido  el  de  Acemoglu,  Johnson,  y  Robinson  (2001),  quienes  discuten  que  las  
buenas  instituciones  políticas  son  un  ingrediente  clave  en  la  receta  del  crecimiento,  una  idea  
de   crecimiento   que   los   economistas   han   alimentado   por   muchas   décadas.   La   dificultad   aquí   es  
que   mejores   instituciones   pueden   ser   un   lujo   que   los   países   más   ricos   pueden   disfrutar   más  
fácilmente,   llevando   a   un   problema   de   causalidad   revertida   algo   fastidioso.   Acemoglu,  
Johnson,   y   Robinson   (2001)   tratan   de   sobrepasar   este   problema   usando   las   tasas   diferenciales  
de  mortalidad  de  los  colonizadores  europeos  en  diferentes  colonias  como  un  instrumento  para  
las   instituciones   políticas   en   los   modernos   países   sucesores.   Su   argumento   toma   la   siguiente  
forma:  donde  los  europeos  enfrentaban  altas  tasas  de  mortalidad,  no  se  podían  establecer,  y  
donde   los   europeos   no   se   podían   establecer,   los   regímenes   coloniales   eran   más   extractivos,  
con   pequeño   énfasis   en   los   derechos   de   propiedad   e   instituciones   democráticas.   Donde   los  
inmigrantes  europeos  no  se  podían  establecer,  frecuentemente  trataban  de  simular  los  ajustes  

                                                                                                                       
9
  Angrist   y   Kuersteiner   (2007)   implementan   una   versión   de   la   investigación   de   diseño   de   Romer   y   Romer   usando   el   puntaje   de  
propensión   y   un   argumento   de   identificación   formado   en   el   lenguaje   de   potenciales   resultados   usados   en   el   programa  
microeconometrico  de  evaluación.  

  17  
institucionales   de   sus   países   de   origen,   con   derechos   de   propiedad   más   fuertes   y   más  
instituciones  democráticas.  Este  enfoque  nos  lleva  a  una  estrategia  de  variables  instrumentales  
donde   el   instrumento   para   el   efecto   de   las   instituciones   en   el   crecimiento   es   la   mortalidad   del  
colonizador.  10  
Acemoglu,   Johnson,   y   Robinson   (2001)   están   en   la   vanguardia   de   investigación  
prometedora  en  las  fuentes  del  crecimiento  económico  usando  un  estilo  similar.  Los  ejemplos  
incluyen  a  Bleakley  (2007),  quien  observa  el  efecto  de  la  erradicación  de  un  gusano  intestinal  
en   el   ingreso   en   el   sur   americano;   y   Rodrik   y   Wacziarg   (2005)   y   Persson   y   Tabellini   (2008),  
quienes  investigan  las  interacciones  entre  democracia  y  crecimiento  usando  el  diseño  del  tipo  
diferencias  en  diferencias  (differences-­‐in-­‐differences)  
Con  estos  ejemplos  acumulándose,  la  macroeconomía  parece  llena  de  expectativa  por  
una  ola  de  trabajo  empírico  usando  mejores  diseños.  Ricardo  Reis,  un  profesor  recientemente  
asignado   como   permanente   en   la   universidad   de   Columbia,   observo   en   el   inicio   de   la   crisis  
financiera  de  2008:  “La  macroeconomía  ha  tomado  un  giro  hacia  la  teoría  en  los  últimos  10-­‐15  
años.   La   mayoría   de   los   macroeconomistas   jóvenes   están   más   cómodos   con   proveer   teoremas  
que  con  involucrarse  con  cualquier  data  o  especulación  sobre  eventos  actuales”11.  El  costo  de  
que   la   agenda   macroeconómica   contemporánea   esté   empíricamente   empobrecida   surge  
también   de   veteranos   de   la   macro   como   Mankiw   (2006)   y   Solow   (2008).   Pero   la   reciente   crisis  
económica,   fundamentalmente   un   asunto   relacionado   a   la   macroeconomía   y   al   diseño   de  
políticas,  ha  generado  intrigantes  estudios  basados  en  el  diseño  de  los  orígenes  de  la  crisis  en  
el  mercado  hipotecario  (Keys,  Mukherjee,  Seru,  y  Vig,  2010;  Bubb  y  Kaufman,  2009).  El  fuerte  
macroeconómico  enfocado  en  teoría  parece  ser  mucho  más  difícil  de  defender.  
 
Desorganización  Industrial  
 
Una   pregunta   importante   en   el   centro   de   la   agenda   de   la   organización   industrial  
aplicada  es  el  efecto  de  las  fusiones  corporativas  en  los  precios.  Uno  puede  llegar  a  pensar,  por  
lo  tanto,  que  los  estudios  de  los  efectos  causales  de  las  fusiones  en  precios  formarían  el  núcleo  
de  una  vasta  literatura  micro-­‐empírica,  de  la  manera  que  cientos  de  estudios  de  la  economía  
laboral   han   mirado   la   unión   de   relativos   efectos   del   salario.   También   podríamos   esperar   una  
densa   literatura   paralela   evaluando   la   política   de   fusión,   de   la   manera   que   la   economía   laboral  
ha  observado  el  efecto  de  políticas  como  las  leyes  laborales  (right-­‐to-­‐work).  Pero  no  es  así.  En  
una   reseña   reciente,   Ashenfelter,   Hosken,   y   Weinberg   (2009)   encontraron   aproximadamente  
solo   20   estudios   empíricos   evaluando   el   efecto   de   precios   en   las   fusiones   directamente  
consumadas;   por   ejemplo,   Borenstein   (1990)   compara   los   precios   en   las   rutas   aéreas   de  
aeropuertos   centrales   afectados   a   diferentes   niveles   por   fusiones.   La   investigación   en   los  
efectos   agregados   de   la   política   de   fusión   parece   ser   todavía   más   limitada;   ver   artículos   de  
Baker   (2003)   y   Crandall   y   Winston   (2003)   en   esta   publicación   para   una   reseña   e  
interpretaciones  opuestas.    

                                                                                                                       
10
  Albouy   (200)   genero   dudas   sobre   la   data   de   la   mortalidad   de   los   colonizadores   que   Acemoglu,   Johnson   y   Robinson   (2001)  
usaron  para  construir  instrumentos.  Ver  Acemoglu,  Johnson,  y  Robinson  (2006)  para  la  respuesta  de  la  crítica  anterior  de  Albouy.    
11
  Tal   como   es   citado   por   Justin   Wolfers   (2008)   en   su   columna   del   New   York   Times   “Freakonomics”   (<http://  
freakonomics.blogs.nytimes.com/2008/03/31/more-­‐on-­‐the-­‐missing-­‐macroeconomists/>).  
 

  18  
El   paradigma   dominante   para   el   análisis   de   fusión   en   los   estudios   académicos  
modernos,   a   veces   llamado   la   “nueva   organización   industrial   empírica”,   es   un   elaborado  
ejercicio   que   consiste   de   tres   pasos:   El   primero   estima   un   sistema   de   demanda   para   el  
producto  en  cuestión,  usualmente  usando  la  estructura  de  elección  discreta/diferenciación  de  
productos  desarrollada  por  Berry,  Levinsohn,  y  Pakes  (1995).  Las  elasticidades  de  la  demanda  
típicamente   se   identifican   usando   variables   instrumentales   para   los   precios,   a   menudo,   los  
instrumentos   son   precios   en   otros   mercados   (como   en   Hausman,   1996).   Luego,   los  
investigadores   postulan   un   modelo   de   conducta   de   mercado,   competencia   Bertrand-­‐Nash  
basada   en   el   precio   entre   diferentes   marcas   o   productos.   En   el   contexto   de   este   modelo,   el  
esfuerzo  de  las  firmas  para  maximizar  beneficio  lleva  a  un  ajuste  de  relaciones  entre  precios  y  
costos   marginales   para   cada   producto,   con   el   vínculo   provisto   por   la   matriz   de   sustitución  
estimada  en  el  paso  inicial.  Finalmente,  el  comportamiento  de  la  industria  es  simulado  con  y  
sin  la  fusión  de  interés.    
Nevo  (2000)  usa  este  enfoque  para  estimar  el  efecto  de  las  fusiones  en  el  precio  en  los  
cereales   del   desayuno   en   un   renombrado   diario.   El   estudio   de   Nevo   se   distingue   por   el  
meticuloso  trabajo  empírico,  atención  a  los  detalles,  y  una  clara  discusión  de  la  estructura  de  
supuestos   en   la   que   yace.   El   sistema   de   demanda   postulado   implícitamente   impone  
restricciones  en  patrones  de  sustitución  y  otros  aspectos  del  comportamiento  del  consumidor  
sobre  el  cual  tenemos  pocas  razones  para  sentir  considerablemente.  La  validez  de  las  variables  
instrumentales  usadas  para  identificar  las  ecuaciones  de  demanda  -­‐precios  en  otros  mercados-­‐  
surge  de  la  independencia  de  los  supuestos  a  lo  largo  de  los  mercados,  que  parece  arbitraria.  
El  paso  de  la  simulación  típicamente  se  enfoca  en  un  solo  canal  por  el  cual  las  fusiones  afectan  
a   los   precios   -­‐   la   reducción   en   el   número   de   competidores-­‐   cuando   al   menos,   en   teoría,   una  
fusión  puede  llevar  a  otros  efectos  como  la  reducción  de  costos  que  hacen  la  competencia  más  
dura   para   los   productores   restantes.   En   esta   estructura,   es   difícil   ver   precisamente   que  
introducción  de  la  data  nos  lleva  a  los  resultados  definitivos.  
¿Pueden  las  fusiones  ser  analizadas  usando  métodos  empíricos  simples,  transparentes  
que   tracen   una   ruta   más   corta   de   los   hechos   a   los   descubrimientos?   El   desafío   para   un  análisis  
causal   directo   sobre   las   fusiones   es   usar   data   para   describir   un   mundo   contrafactual   en   el   cual  
la  fusión  no  sucedió.  Hastings  (2004)  hace  esto  en  un  estudio  sobre  el  mercado  minorista  de  
combustible.   Ella   analiza   como   el   gigante   verticalmente   integrado   ARCO,   en   California,   tomo  
control  de  estaciones  independientes  baratas  y  pequeñas,  observando  la  fusión  en  los  efectos  
de   esta   fusión,   con   la   mirada   puesta   sobre   los   precios   en   los   competidores   de   cada   estación  
independiente.   El   diseño   de   investigación   de   Hastings   especifica   un   mercado   local   para   cada  
estación:  las  estaciones  de  tratamiento  están  cerca  de  una  de  estas  estaciones  independientes,  
las   estaciones   de   control   no.   Luego   compara   los   precios   cercanos   al   momento   de   la   fusión  
usando  una  estructura  directa  de  diferencias  en  diferencias.  
Una   desventaja   del   análisis   de   Hastings   (2004)   es   que   captura   el   efecto   de   la   fusión   en  
los   competidores,   pero   no   en   las   estaciones   previamente   independientes   en   cuestión.   Aun   así,  
parece   que   efectos   altamente   no   competitivos   podrían   aparecer   en   cualquier   estación  
operando  en  los  mercados  afectados.  Por  lo  tanto,  vemos  la  aproximación  de  Hastings  como  
un   cambio   fructífero   en   dirección.   Sus   estimaciones   tienen   implicaciones   claras   en   el  
fenómeno  de  interés,  mientras  que  su  validez  resulta  ser  transparente  en  la  calidad  del  grupo  
de  control,  un  problema  que  puede  ser  evaluado  usando  observaciones  previas  a  la  fusión  para  
comparar   tendencias   de   precios.   El   paper   de   Hastings   ilustra   el   poder   de   esta   aproximación  

  19  
mostrando  tendencias  paralelas  casi  perfectas  para  las  estaciones  de  control  y  de  tratamiento  
en  los  dos  mercados  (Los  Angeles  y  San  Diego)  en  los  meses  previos  al  tratamiento,  seguidas  
por  una  aguda  subida  en  los  precios  de  los  competidores  después  de  la  fusión.12  
  Para   propósitos   de   política,   por   supuesto,   los   reguladores   deben   evaluar   las   fusiones  
antes   de   que   ocurran;   los   estudios   basados   en   el   diseño   necesariamente   capturan   el   efecto   en  
las  fusiones  después  del  hecho.  Muchos  nuevos  estudios  empíricos  de  organización  industrial  
pronostican   los   resultados   contrafactuales   basados   en   modelos   y   simulaciones,   sin   una   clara  
base   de   experiencia.   Pero,   ¿Deberían   los   reguladores   favorecer   los   estimados   basados   en   la  
simulación   resultantes   del   nuevo   paradigma   de   organización   industrial   por   sobre   aquellos  
análisis   transparentes   provenientes   de   la   experiencia?   Como   mínimo,   esperaríamos   que   tal  
juicio   este   basado   en   la   evidencia,   mostrando   que   la   aproximación   basada   en   la   simulación  
entregue   predicciones   precisas   y   razonables.   En   esta   postura,   los   defensores   de   este   trabajo  
parecen  favorecerlo  por  cuestión  de  principios.  
Entonces,  ¿En  quién  se  puede  confiar  cuando  se  trata  de  antimonopolios?  ¿En  el  estilo  
directo  de  evidencia  de  Hastings  (2004)  o  en  la  estructura  derivadas  de  estimaciones  de  Nevo  
(2000)?  Estaríamos  felices  de  ver  más  trabajos  intentando  responder  esta  pregunta  mediante  
la   contrastación   de   estimados   creíbles,   pseudo-­‐experimentales,   con   resultados   provenientes  
del  nuevo  paradigma  de  organización  industrial.  Un  esfuerzo  vanguardista  en  esta  dirección  el  
análisis  de  contrastación  directa  de  Hausman  y  Leonard  (2002)  (esencialmente,  diferencias  en  
diferencias)   y   estimaciones   “indirectas”   (basadas   en   la   simulación)   de   las   consecuencias   del  
precio  de  equilibrio  de  una  marca  de  papel  higiénico.  Ellos  evalúan  los  supuestos  económicos  
que   yacen   bajo   los   modelos   estructurales   (por   ejemplo,   la   competición   Nash-­‐Bertrand)   de  
acuerdo   si   las   estimaciones   estructurales   resultantes   se   igualan   a   las   estimaciones   directas.  
Esto   es   reminiscente   de   la   comparación   de   Lalonde   (1986)   sobre   el   entrenamiento   de  
estimaciones  experimental  y  no  experimental,  pero  en  vez  de  contrastar  estimaciones  basadas  
en  el  modelo  con  aquellas  de  juicios  aleatorizados,  las  estimaciones  directas  son  tomadas  para  
proveer   un   punto   de   referencia   que   surge   de   menos   supuestos   que   la   aproximación  
estructural.   Hausman   y   Leonard   concluyen   que   uno   de   los   tres   modelos   estructurales   produce  
estimaciones   “razonablemente   similares”   a   las   estimaciones   directas.   EN   las   mismas   líneas,  
Peters   (2006)   observa   el   valor   predictivo   de   los   análisis   predictivos   sobre   las   fusiones   de  
aerolíneas,   y   encuentra   que   los   métodos   de   simulación   estructural   arrojan   predicciones  
mediocres   sobre   el   precio   de   los   boletos   posteriores   a   la   fusión.   Asimismo,   Ashenfelter   y  
Hosken  (2008)  comparan  estimaciones  del  tipo  diferencias  en  diferencias  de  los  efectos  en  las  
fusiones   de   las   marcas   de   cereales   a   aquellas   reportadas   por   Nevo   (2000).   Ashenfelter   y  
Hosken   (2008)   concluyen   en   que   los   resultados   basados   en   el   diseño   transparentemente  
identificados   difieren   acentuadamente   de   aquellos   producidos   por   aproximaciones  
estructurales.  
Un  buen  modelo  estructurado  podría  decirnos  algo  sobre  los  mecanismos  económicos,  
así   también   como   de   los   efectos   causales.   Pero   si   la   información   sobre   mecanismos   vale   de  
algo,   las   estimaciones   estructurales   deberían   alinearse   con   aquellas   derivadas   de   supuestos  
más   débiles.   ¿La   nueva   estructura   empírica   de   organización   industrial   genera   resultados  

                                                                                                                       
12
 Como  sucede  con  la  mayoría  del  trabajo  empírico,  el  análisis  de  Hastings  (2004)  tiene  sus  problemas  y  sus  conclusiones  pueden  
garantizar   calificación.   Taylor,   Kreisle,   y   Zimmerman   (2007)   fallan   al   intentar   replicar   los   descubrimientos   de   Hastings   usando  
fuentes   alternativas   de   información.   Aquí   como   en   cualquier   otro   lugar,   una   aproximación   transparente   facilita   los   efectos   de  
replicación  y  de  crítica  constructiva  

  20  
creíbles   que   se   igualan   con   los   resultados   basados   en   el   diseño?   Hasta   ahora,   los   resultados  
parecen   bastante   mezclados.   Desde   luego,   la   pregunta   sobre   que   estimados   preferir   para  
influir   en   la   calidad   de   los   relevantes   diseños   cuasi-­‐experimentales   y   nuestra   fe   en   la   habilidad  
de  una  estructura  teórica  más  elaborada  para  apoyar  un  modelo  estructural  identificado  como  
débil.  Encontramos  los  resultados  empíricos  generados  por  un  buen  diseño  de  investigaciones  
más   convincentes   que   las   conclusiones   derivadas   de   una   buena   teoría,   pero   también  
esperamos   ver   a   la   organización   industrial   dirigirse   hacia   estrategias   de   investigación   mas  
fuertes  y  transparentes,  en  un  marco  de  trabajo  estructural.    
 
¿Se   ha   balanceado   demasiado   el   péndulo   del   diseño   de  
investigación?  
 
El  ascenso  del  paradigma  experimental  ha  provocado  una  reacción,  tal  como  lo  hacen  
las   revoluciones.   El   primero   costo   contra   revolucionario   hace   crecer   la   pregunta   sobre   la  
validez  externa  -­‐la  duda  sobre  si  la  evidencia  de  un  cierto  diseño  de  investigación  experimental  
o   pseudo-­‐experimental   tiene   poco   valor   predictivo   más   allá   del   contexto   del   experimento  
original.   El   segundo   costo   es   que   los   experimentalistas   están   ocupando   roles   pequeños  
mientras  las  grandes  preguntas  siguen  sin  ser  respondidas.  
 
Validez  Externa  
Un  buen  diseño  de  investigación  revela  una  verdad  particular,  pero  no  necesariamente  
toda  la  verdad.  Por  ejemplo,  el  experimento  STAR  de  Tennessee  redujo  el  tamaño  de  las  clases  
de  25  a  15.  Cambios  de  este  rango  no  necesitan  revelar  el  efecto  de  las  reducciones  de  40  a  30  
estudiantes.   De   manera   similar,   los   efectos   podrían   ser   únicos   en   el   caso   del   estado   de  
Tennessee.   La   critica   aquí   –   hecha   por   numero   de   autores   incluyendo   a   Heckman   1997);  
Rosenzweig   y   Wolpin   (2000);   Heckman   y   Urzua   (2009);   y   Deaton   (2009)-­‐   es   que,   en   la  
búsqueda   de   la   validez   interna,   los   estudios   basados   en   el   diseño   se   han   vuelto   estrechos   o  
idiosincráticos.    
Quizás   vale   la   pena   volver   a   exponer   un   punto   obvio.   La   evidencia   empírica   en  
cualquier   efecto   causal   dado   es   siempre   loca,   derivada   de   un   tiempo,   lugar,   y   diseño   de  
investigación  particular.  Invocar  un  marco  de  estudio  general  estructural  y  superficial  no  hace  
que   la   variación   o   ajuste   que   yace   por   debajo   sea   más   representativa.   La   teoría   económica  
frecuentemente  sugiere  que  los  principios  generales,  excepto  por  la  extrapolación  de  efectos  
causales  para  los  nuevos  ajustes  es  siempre  especulativa.  Sin  embargo,  cualquiera  que  se  gana  
la   vida   con   el   análisis   de   información   probablemente   crea   que   la   heterogeneidad   es   lo  
suficientemente   limitada   para   que   el   bien   entendido   pasado   pueda   ser   informativo   sobre   el  
futuro.  
Una  respuesta  constructiva  sobre  la  especificidad  de  un  diseño  de  investigación  dado  
es  buscar  más  evidencia,  para  que  una  imagen  más  general  puede  emerger.  Por  ejemplo,  uno  
de  nosotros  (Angrist)  ha  estimado  repetidamente  los  efectos  del  servicio  militar,  con  estudios  
sobre  los  veteranos  de  la  Segunda  Guerra  Mundial,  la  era  de  Vietnam,  la  Primera  Guerra  del  
Golfo,   y   los   periodos   entre   medio.   Las   fuerzas   acumulativas   sobre   estos   estudios   han   hecho  
algunas  afirmaciones  sobre  la  validez  externa  -­‐esto  es,  que  son  útiles  explicando  los  efectos  del  
servicio   militar   para   aquellos   que   lo   cumplieron   en   cualquier   periodo   y,   por   lo   tanto,   con  

  21  
suerte,   para   aquellos   que   pudieran   cumplirlo   en   el   futuro.   En   general,   el   servicio   militar   tiende  
a   hundir   las   ganancias   de   los   civiles,   al   menos   para   los   blancos,   un   descubrimiento   que   es   al  
mismo   tiempo,   empíricamente   consistente   y   teóricamente   coherente.   El   principal   canal  
teórico  por  el  cual  el  servicio  militar  afecta  las  ganancias  es  el  capital  humano,  particularmente  
en   la   forma   de   experiencia   civil   perdida.   En   una   estructura   basada   en   el   diseño,   la   teoría  
económica  nos  ayuda  a  entender  la  imagen  que  surge  de  una  constelación  de  descubrimientos  
empíricos,   pero   no   nos   ayuda   a   generar   una   imagen   propia.   Por   ejemplo,   la   historia   del   capital  
humano  no  es  integral  a  la  validez  de  la  variable  instrumental,  usando  los  números  de  la  lotería  
como   instrumentos   para   el   servicio   militar   en   la   era   de   Vietnam   (como   en   Angrist,   1990).   Pero  
la  teoría  del  capital  humano  provee  una  estructura  que  se  reconcilia  con  perdidas  tempranas  
mayores  en  la  carrera  de  un  veterano  (cuando  los  perfiles  experimentados  tienden  a  ser  más  
pronunciados)   con   perdidas   disipadas   después   de   muchos   años   (como   se   muestra   en   Angrist   y  
Chen,  2008).  
El   proceso   de   acumulación   de   evidencia   empírica   es   raramente   atractivo   en   la  
separación,   pero   la   acumulación   es   la   ruta   necesaria   para   que   los   resultados   se   vuelvan   más  
generales  (Imbens,  2009,  hace  alusión  a  un  punto  parecido).  La  literatura  sobre  el  tamaño  de  
las   clases   también   ilustra   este   proceso.   Estudios   razonablemente   buen   identificados  
provenientes   de   un   número   de   países   avanzados,   en   diferentes   niveles   y   materias,   y   por  
tamaños   de   clases   variados   desde   pocos   estudiantes   hasta   aproximadamente   40,   han  
producido   estimaciones   dentro   de   una   banda   remarcablemente   estrecha   (Krueger,   1999;  
Angrist  y  Lavy,  1999;  Rivkin,  Hanushek,  y  Kain,  2005;  Heinesen,  venidero).  A  lo  largo  de  estos  
estudios,   la   reducción   del   tamaño   de   la   clase   en   10   estudiantes   produce   una   desviación  
estándar   de   cerca   de   0.2   a   0.3   en   el   incremento   de   los   puntajes   en   los   exámenes.   Las   clases  
más   pequeñas   no   siempre   aumentan   los   puntajes   en   los   exámenes,   entonces   la   estimación   de  
los  descubrimientos  debería  estar  calificada  (ver,  por  ejemplo,  Hoxby,  2000).  Pero  el  peso  de  la  
evidencia  sugiere  que  la  reducción  en  el  tamaño  de  las  clases  genera  modestas  ganancias  en  
los  logros,  a  altos  costos.  
La   aplicación   de   la   microeconomía   en   el   campo   no   es   única   en   la   acumulación   de  
descubrimientos  empíricos  convincentes.  La  evidencia  del  poder  de  la  política  monetaria  para  
influenciar  a  la  macroeconomía  también  parece  razonablemente  convincente.  Como  lo  vemos,  
de   todos   modos,   la   evidencia   más   persuasiva   en   este   punto   no   proviene   de   modelos  
estructurales   elaborados,   que   solo   nos   dicen   si   la   política   monetaria   afecta   o   no   la   salida  
dependiendo   del   modelo,   sino   de   los   diseños   de   investigaciones   empíricos   creíbles,   como  
algunos  sobre  los  cuales  hemos  discutido  en  este  trabajo.  No  sorprendentemente,  los  canales  
por  los  cuales  la  política  monetaria  afecta  las  salidas  son  menos  claros  que  los  descubrimientos  
que   sugieren   que   hay   un   efecto.   Las   preguntas   sobre   por   qué   un   efecto   dado   aparece   son  
usualmente   más   difíciles   de   responder   que   las   preguntas   sobre   si   un   efecto   aparece   o   que   tan  
grande  es.  Como  la  mayoría  de  los  investigadores,  tenemos  un  interés  en  los  mecanismos,  así  
como   también,   en   los   efectos   causales.   Pero   la   evidencia   inconclusa   o   incompleta   sobre   los  
mecanismos  no  vacía  la  evidencia  empírica  de  valor  predictivo.  Este  punto  ha  sido  entendido  
desde  hace  mucho  tiempo  por  la  medicina,  donde  la  evidencia  clínica  de  la  efectividad  de  una  
terapia  ha  corrido  por  siglos  con  mas  ventaja  que  el  entendimiento  teórico  de  la  enfermedad.    
 
¿Sacando  lo  “Econs”  también  fuera  de  la  econometría?    

  22  
Relacionada   a   la   crítica   de   la   validez   externa   también   está   la   afirmación   que   asegura  
que   el   paradigma   experimental   lleva   a   los   investigadores   a   buscar   buenos   experimentos,   sin  
importar  si  las  preguntas  que  abortan  son  importantes.  En  un  cautivador  reporte  en  The  New  
Republic,   Scheiber   (2007)   argumenta   que   los   economistas   jóvenes   se   han   alejado   de   las  
preguntas   importantes   como   la   pobreza,   inequidad,   y   desempleo   para   estudiar   el  
comportamiento   en   los   programas   de   televisión   de   entretenimiento.   Scheiber   cita   a   un  
número   de   economistas   distinguidos   en   el   ámbito   académico   que   comparten   esta  
preocupación.   Raj   Chetty   comenta:   “La   gente   piensa   sobre   la   pregunta   más   que   sobre   el  
método…  es  así  como  se  obtienen  papers  extraños,  como  sobre  las  instalaciones  sanitarias  en  
las  reservas  Nativo  Americanas”  James  Heckman  es  menos  diplomático:  “En  algunos  distritos  
de   nuestra   profesión,   el   nivel   de   discusión   se   ha   hundido   al   nivel   de   un   artículo   del   New  
Yorker.”  
No   hay   un   atajo   para   la   trivialidad   académica.   Aun   así,   la   crítica   de   Sheiber   (2007)  
pierde   el   punto   porque   él   iguala   la   trivialidad   con   la   angostura   del   contexto.   Por   ejemplo,   el  
critica   a   DellaVigna   y   Malmendier   (2006),   quienes   observan   la   asistencia   y   renovación   de  
decisiones   de   miembros   de   un   club   de   salud,   y   a   Conlin,   O’Donoghue,   y   Vogelsang   (2007),  
quienes   estudian   las   ventas   por   catalogo   de   ropa   de   invierno.   Ambos   estudios   están  
preocupados  con  la  noción  económica  de  la  inclinación  por  el  comportamiento  orientado  hacia  
el   presente,   un   asunto   con   implicaciones   de   alto   alcance   para   la   política   y   teoría   económica.   El  
mercado   para   las   botas   de   nieve   parece   no   menos   interesante,   en   este   contexto,   que   el  
mercado   minorista   de   cualquier   otro   producto,   y   quizás   hasta   más   interesante   si   la   data   es  
especialmente  buena.  Podemos  observar  estos  estudios  basados  en  el  diseño  para  validar  los  
descubrimientos  del  trabajo  empírico  más  descriptivo  aplicado  en  ítems  con  precios  más  altos.  
Por   ejemplo,   DellaVigna   y   Paserman   (2005)   observan   la   inclinación   orientada   hacia   el   presente  
en  el  comportamiento  a  la  hora  de  buscar  un  empleo.    
  En   el   universo   empírico,   la   evidencia   se   acumula   a   través   de   las   configuraciones   y  
diseños   de   estudio,   produciendo   al   final   algún   tipo   de   consenso.   Las   apuestas   pequeñas   a  
veces   ganan   grandes   jugadas.   En   nuestro   campo,   algunos   de   los   mejores   diseños   de  
investigación,   usados   para   estimar   la   elasticidad   en   la   oferta   de   trabajo   y   como   explota   de  
manera  natural  e  inducida  por  el  experimentador  en  mercados  de  trabajo  específicos.  Oetinger  
(1999)   analiza   el   estado   del   comerciante   y   su   reacción   a   los   cambios   en   los   salarios  
ocasionados  por  el  cambio  en  la  asistencia,  mientras  que  Fehr  y  Goette  (2007)  estudian  a  los  
mensajeros  en  bicicleta  de  Zurich  quienes,  en  un  experimento  controlado,  recibieron  tasas  de  
comisión   mayores   por   solo   un   mes.   Estas   ocupaciones   pueden   parecer   pequeñas   y  
especializadas,   pero   no   son   menos   representativas   del   mercado   laboral   contemporáneo   que  
aquellas  en  el  sector  manufacturero,  que  ha  sido  de  interés  para  la  economía  laboral  por  un  
largo  periodo.    
Estos   ejemplos   también   sirven   para   refutar   la   afirmación   que   asegura   que   el   trabajo  
empírico   basado   en   el   diseño   se   enfoca   en   los   efectos   estrechos   y   no   puede   descubrir   los  
parámetros   teóricos   estructurales   de   los   que   muchos   economistas   se   ocupan.   Los   estudios  
sobre  la  oferta  de  empleo  cuasi-­‐experimentales  como  los  de  Oettinger  (1999)  y  Ferh  y  Goette  
(2007)   intentan   medir   la   elasticidad   de   sustitución   Inter   temporal,   como   un   parámetro  
estructural   que   puede   derivar   de   una   estructura   dinámica   estocástica.   La   elasticidad   de   la  
demanda   de   trabajo,   estructurada   de   manera   similar,   también   puede   ser   estimada   usando  

  23  
cuasi-­‐experimentos,  como  en  Card  (1990b),  quien  explota  la  variación  del  salario  real  generada  
por  la  indexación  parcial  de  los  contratos  de  las  uniones.    
El  trabajo  empírico  cuasi-­‐experimental  también  se  ajusta  bien  a  la  tarea  de  contrastar  
hipótesis  económicamente  competitivas.  Las  investigaciones  de  la  inclinación  orientada  hacia  
el   presente,   mencionada   más   arriba,   se   enfoca   en   las   implicaciones   claves   de   los   modelos  
alternativos.   En   un   estudio   similar   motivado   por   la   teoría,   Karlan   y   Zinman   (2009)   intentan  
distinguir   los   peligros   morales   de   la   selección   adversa   en   el   mercado   crediticio   para   los  
consumidores   usando   un   diseño   ingenioso   que   incluye   aleatorización   en   dos   pasos.   Primero,   a  
los  potenciales  solicitantes  se  les  ofrece  diferentes  tasas  de  interés  antes  de  que  apliquen  para  
obtener  los  préstamos.  Su  respuesta  inicial  a  la  variación  en  las  tasas  de  interés  es  usada  para  
medir   la   selección   adversa.   A   algunos   de   los   clientes   que   tomaron   los   prestamos,   luego   les  
fueron  dadas  tasas  de  interés  menores  a  las  tasas  ofrecidas  al  principio.  Esta  variación  es  usada  
para  identificar  los  peligros  morales  en  una  muestra  cuando  todos  ya  se  han  comprometido  a  
tomar  el  préstamo.    
¿Pero   que   hay   sobre   las   preguntas   más   grandes   que   afectan   a   todo   el   mundo   o   el  
curso   de   la   historia?   Nunn   (200)   usa   un   amplio   rango   de   evidencia   histórica,   incluyendo   las  
distancias  de  navegación  en  las  rutas  de  comercio,  para  estimar  los  efectos  a  largo  plazo  del  
tráfico  de  esclavos  africanos.  Deschënes  y  Greenstone  (2007)  usan  fluctuaciones  aleatorias  en  
la  temperatura  que  varían  año  a  año  para  estimar  los  efectos  del  cambio  climático  en  el  uso  
energético   y   la   mortalidad.   En   un   estudio   de   los   efectos   de   la   ayuda   internacional   en   el  
crecimiento,   Raja   y   Subramanian   (2008)   construyen   instrumentos   para   la   ayuda   económica  
internacional  a  partir  de  los  orígenes  de  la  relación  donante-­‐receptor.  Estos  ejemplos  y  muchos  
más  hablan  elocuentemente  de  la  amplia  aplicación  de  la  aproximación  basada  en  el  diseño.  El  
buen  diseño  de  investigación  complementa  a  las  buenas  preguntas.  Al  mismo  tiempo,  a  favor  
de  los  estudios  que  incluyen  buenos  diseños,  aceptamos  una  aproximación  incremental  hacia  
el  conocimiento  empírico  en  el  cual  los  estudios  bien  diseñados  tienen  mayor  peso,  mientras  
que  otra  evidencia  es  tratada  de  manera  más  previsional.  
 
 
Conclusión  
 
Leamer  (1983)  trazó  una  analogía  entre  la  econometría  aplicada  y  la  experimentación  
clásica,  pero  su  propuesta  de  acercarlas  mediante  el  uso  de  análisis  de  límites  extremos  no  es  
la  razón  principal  por  la  cual  el  trabajo  empírico  en  la  economía  ha  mejorado.  La  mejora  surge,  
mayormente,  de  mejores  diseños  de  investigación,  ya  sea  por  la  virtud  de  la  experimentación  
directa   o   a   través   de   la   implementación   cuidadosa   y   bien   fundada   de   los   métodos   cuasi-­‐
experimentales.   El   trabajo   empírico   de   este   espíritu   ha   producido   una   revolución   en   la  
credibilidad   en   los   campos   del   empleo,   las   finanzas   públicas,   y   el   desarrollo   de   la   economía  
durante   los   últimos   20   años.   Los   revolucionarios   basados   en   el   diseño   han   alcanzado   varios  
éxitos,   poniendo   números   complejos   en   los   parámetros   de   interés,   tanto   para   hacedores   de  
políticas   como   para   los   economistas   teóricos.   Imaginen   que   podría   ser   aprendido   si   una   ola  
similar  se  extendiera  por  los  campos  de  la  macroeconomía  y  la  organización  industrial.  

  24  

También podría gustarte