Angrist y Pischke 2010 - Español

La Revolución de la Credibilidad en Economía

Empírica: cómo el mejor diseño de investigación
está eliminando los inconvenientes de la
Econometría

Joshua D. Angrist y Jörn-‐Steffen Pischke (2010)

Traductores: Pablo Nadal y Carolina Guaita

Curso de Epistemología de la Economía

Profesor: Nicolás Berneman (FCE – UBA)
1

Poco más de un cuarto de siglo atrás, Edward Leamer (1983) reflexionó en el estado
del trabajo empírico en economía. Instó a los investigadores empíricos a “eliminar el
inconveniente de la econometría” y memorablemente observó (p. 37): “difícilmente alguien
toma un análisis de datos ajeno en serio.” Leamer no estaba solo; Hendry (1980), Sims (1980),
y escritos de otros de la época eran similarmente despectivos de la práctica empírica. Leyendo
estos comentarios como estudiantes de doctorado de finales de los 80, nos preguntamos
acerca de las expectativas para una carrera satisfactoria haciendo trabajo aplicado. Quizás el
trabajo empírico en economía sea una utopía. Aquí tratamos las cuestiones de si la calidad y la
credibilidad del trabajo empírico han aumentado desde la evaluación pesimista de Leamer.
Nuestros puntos de vista están necesariamente influenciados por las áreas de microeconomía
aplicada en las que estamos activos, pero también analizaremos otras áreas.
Leamer (1983) diagnosticó el trabajo empírico de sus contemporáneos de sufrir una
angustiante falta de robustez para cambios en supuestos clave – supuestos que llamó
“caprichosos” ya que uno se veía tan bueno como otro. El remedio que propuso fue análisis
sensitivo, en el cual los investigadores muestran cómo sus resultados varían con cambios en
especificación o forma funcional. La crítica de Leamer tuvo una refrescante naturalidad
reveladora que disfrutamos tras una primera lectura y aún apreciamos hoy. Pero estamos
felices de informar que el reclamo de Leamer que “difícilmente alguien toma un análisis de
datos ajeno en serio” ya no se encuentra justificado.
La microeconomía empírica ha experimentado una revolución de credibilidad, con un
consecuente aumento en relevancia política e impacto científico. El análisis sensitivo jugó un
rol en esto, pero tal como lo vemos, la principal fuerza impulsora fue una concentración en la
calidad de los diseños de investigación empírica. Éste énfasis en diseño de investigación está
en el espíritu de la crítica de Leamer, pero no se encuentra en su solución.
Las ventajas de un buen diseño de investigación son tal vez más fáciles de notar en la
investigación a través de asignación al azar, lo cual no casualmente incluye algunos de los
estudios microeconómicos más influyentes publicados en años recientes. Por ejemplo, en un
esfuerzo pionero para mejorar el bienestar infantil, el programa Progresa en México ofrecía
transferencias de dinero a madres seleccionadas aleatoriamente, supeditados a participación
en cuidado prenatal, monitoreo nutricional infantil, y la asistencia escolar regular (Gertler,
2004, y Schultz, 2004, presentan algunos de los hallazgos principales). En palabras de Paul
Gertler, uno de los investigadores originales (citado en Ayres, 2007, p. 86), “Progresa es la
razón por la que actualmente treinta países en todo el mundo tienen programas de
transferencia monetaria.” Progresa es emblemático de una ola de políticas de asignación
aleatoria recorriendo economías del desarrollo (Duflo y Kremer, 2008, ofrecen un resumen).
Más cerca de casa, el programa Moving to Opportunity (mudándose a la oportunidad),
llevado a cabo por el Departamento de Vivienda y Desarrollo Urbano de Estados Unidos,
seleccionó aleatoriamente familias de bajo ingreso en Baltimore, Boston, Chicago, Los Ángeles,
y Nueva York para ofrecerles bonos de vivienda específicamente limitados a zonas de baja
pobreza (Kling, Liebman, y Katz, 2007). El programa produjo sorpresiva e influyente evidencia
contra la visión de que los efectos del vecindario son un determinante primario en los bajos
ingresos de los residentes de barrios pobres.
Parámetros econométricos estructurales, tales como la elasticidad de sustitución
intertemporal (una elasticidad de oferta laboral que mide la respuesta a cambios transitorios
2
en el salario), han sido también el foco de experimentos aleatorios. Por ejemplo, Fehr y Goette
(2007) distribuyeron aleatoriamente el pago de mensajeros en bicicleta, ofreciendo a un grupo
y luego a otro un incremento temporal en el sueldo. Este estudio ingeniosamente diseñado
muestra cómo los salarios afectan la oferta laboral en un ambiente donde la riqueza a lo largo
de la vida no se ve modificada. El resultado es dramático y convincente: manteniendo la
riqueza constante, los trabajadores cambian horarios a períodos de alto salario, con una
elasticidad de sustitución intertemporal implícita cercana a la unidad.
Tales estudios ofrecen un método poderoso para derivar resultados que son
defendibles tanto en una sala de seminarios como en una audiencia legislativa. Pero los
experimentos son prolongados, costosos, y pueden no siempre ser prácticos. Es difícil
imaginarse una prueba al azar para evaluar el efecto de inmigraciones en la economía del país
anfitrión. De cualquier forma, instituciones humanas o la fuerza de la naturaleza pueden saltar
esta brecha con cuasi experimentos (o naturales informativos). Por ejemplo, en una
publicación destacada, Card (1990) utilizó el Éxodo del Mariel de Cuba a Florida, cuando los
emigrantes cubanos aumentaron la fuerza laboral de Miami en aproximadamente un 7 por
ciento en un período de tres meses, como un experimento natural para estudiar la
inmigración. Más recientemente, emparejando con la agenda de investigación experimental de
Moving to Opportunity, Jacob (2004) estudió los efectos causales de viviendas públicas en
residentes de proyectos de viviendas al aprovechar el hecho de que la demolición de viviendas
públicas en Chicago estaba planeada de forma tal que no guardaba relación con las
características de los proyectos y sus habitantes.
Como los resultados de las pruebas aleatorias, los hallazgos en cuasi-‐experimentos han
filtrado rápidamente en discusiones políticas y se volvieron parte de un constructivo
intercambio de ideas entre el mundo real y la torre de marfil, por lo menos cuando se trata de
microeconomía aplicada. El progreso fue más lento en la macro empírica, pero una pizca de
trabajo empírico basado en el diseño parece estar generando un limitado, aunque útil
consenso en principales preocupaciones, tales como el efecto causal de la política monetaria
en la inflación y producción. De forma alentadora, la crisis financiera reciente ha estimulado
un esfuerzo en producir evidencia fiable en asuntos de banca. Como en la mayoría de las
disciplinas (si bien la organización industrial aparenta ser una excepción, que luego
discutiremos), los economistas aplicados son hoy menos propensos a asociar la interpretación
causal de los resultados con únicamente la metodología econométrica. Estudios basados en el
diseño son distinguidos por su credibilidad a primera vista y por la atención que los
investigadores dedican en producir tanto un caso institucional como uno basado en datos para
la causalidad.
Explicar los orígenes de la revolución de la credibilidad en economía empírica es como
intentar trazar la fecha de nacimiento del rock and roll. Las primeras influencias son
numerosas, y cada fan tiene una historia. Pero desde las fundaciones de la economía laboral
empírica, vemos un importante ímpetu por mejores diseños y más pruebas distribuidas
aleatoriamente procedentes de estudios cuestionando la confiabilidad de evaluaciones
econométricas de los programas de entrenamiento de gobierno subsidiados. Un punto de
referencia aquí es Lalonde (1986), que comparó los resultados de una evaluación
econométrica del National Supported Work (Trabajo Apoyado Nacional) con aquellos de una
prueba randomizada. Los resultados econométricos típicamente difirieron considerablemente
de aquellos que utilizaban una asignación aleatoria. Lalonde argumentó que hay pocos
3
motivos para creer que las comparaciones estadísticas de modelos alternativos (ensayos de
requisitos) llevarían a un investigador en la dirección indicada. Dos estudios observacionales
de efectos de entrenamiento presagiaron los resultados de Lalonde: Ashenfelter (1978) y
Ashenfelter y Card (1985), utilizando datos longitudinales para evaluar programas de
entrenamiento federales sin el beneficio de un diseño de investigación cuasi-‐experimental,
encontraron dificultades para construir estimaciones con robustez de especificaciones.
Ashenfelter (1987) concluyó que las pruebas aleatorias son el camino a seguir.
Empiristas más jóvenes también comenzaron a inclinarse cada vez más por diseños
cuasi-‐experimentales, frecuentemente aprovechando la variación sobre los estados de EE. UU.
Para conseguir relaciones causales en las áreas del trabajo y las finanzas públicas. Un ejemplo
temprano de la obra en este espíritu es Solon (1985), que estimó los efectos del seguro de
desempleo en la duración del desempleo mediante comparaciones en las tasas de búsqueda
de empleo en estados que recientemente ajustaron los criterios de elegibilidad para el seguro
de desempleo, con el cambio en las tasas en los estados que no cambiaron sus reglas. El
estudio influyente de Gruber (1994) de la incidencia de los beneficios de la maternidad
obligatorios aplica una idea similar al asunto de finanza pública. Angrist (1990) y Angrist y
Krueger (1991) ilustraron el valor de las estrategias de identificación de variables
instrumentales en estudios de los efectos del servicio militar de la era de Vietnam y la
escolarización en los ingresos. La medición metodológica de Meyer (1995) hizo dar cuenta a
muchos microeconomistas aplicados de la tradición cuasi-‐experimental encarnada en
venerables textos sobre métodos de investigación de ciencia social de Campbell y Stanley
(1963) y Cook y Campbell (1979). Estos textos, que enfatizan el diseño de investigación y las
amenazas a la validez, eran bien conocidos en algunas disciplinas, pero claramente por fuera
del canon econométrico. 1
En este ensayo, argumentamos que un foco transparente en diseño de investigación
está en el centro de la revolución de la credibilidad en economía empírica. Comenzamos con
un resumen de la crítica de Leamer (1983) y sus soluciones planteadas, basadas en ejemplos
concretos de esa época. Entonces pasamos a los factores principales que observamos que
contribuyen a una labor empírica mejorada, incluyendo la disponibilidad de más y mejores
datos, junto a avances en entendimiento de econometría teórica, pero especialmente el hecho
de que el diseño de investigación pasó a una posición de privilegio en gran parte de la micro
empírica. Ofrecemos una breve digresión hacia macroeconomía y organización industrial,
donde el progreso -‐por nuestros puntos de vista-‐ es menos dramático, aunque hay trabajos en
ambos campos que nos parecen alentadores. Finalmente, discutiremos la visión de que el
péndulo del diseño osciló demasiado. Críticos de los estudios impulsados por diseño
argumentan que, en búsqueda de diseños claros y creíbles, los investigadores buscan buenas
respuestas en lugar de buenas preguntas. Brevemente respondemos a este asunto, que no nos
resulta preocupante.

La crítica de Leamer y sus soluciones propuestas

1
Muchos de los estudios aplicados mencionados anteriormente han sido sujeto de críticas re-‐examinaciones. Este ida y vuelta ha
sido mayormente constructivo. Por ejemplo, en un escrito destacado que generó trabajo de amplio espectro, Bound, Jaeger, y
Baker (1995) argumentan que el uso de variables instrumentales débiles sesga alguna de las estimaciones reportadas en Angrist y
Krueger (1991). Para una discusión reciente de problemas de instrumentos débiles, ver nuestro libro Angrist y Pischke (2009).
4
Regresiones primitivas y análisis de límites extremos
Leamer (1983) presentó pruebas aleatorizadas -‐ una evaluación aleatorizada de un
fertilizador, para ser específico – como un diseño de investigación ideal. Él también argumentó
que los experimentos distribuidos aleatoriamente diferían únicamente en grado de las
evaluaciones no experimentales de efectos causales, siendo la diferencia la extensión a la cual
podemos ser confidentes de que la variable causal de interés es independiente de factores
perturbadores. No podríamos estar más de acuerdo. De cualquier forma, Leamer sugirió que la
mejor forma de usar datos no experimentales para aproximarse al ideal experimental es
explorar la fragilidad de los cálculos no experimentales. Leamer no propuso hacer pruebas
aleatorizadas o, de hecho, buscar experimentos naturales creíbles.
El principal objetivo del ensayo de Leamer (1983) era el análisis primitivo de regresión.
En realidad, ninguna de las figuras centrales en el debate inspirado por Leamer tuvo mucho
que opinar sobre el diseño de investigación. Más bien, estos autores (como McAleer, Pagan, y
Volker, 1985, y Cooley y LeRoy, 1986, entre otros) parecen haber aceptado los límites de la
práctica econométrica establecida, quizás porque primariamente estaban interesados en
abordar cuestiones de macroeconomía tradicional utilizando datos de series de tiempo.
Luego de hacer el supuesto tácito que los experimentos útiles son un ideal
inalcanzable, Leamer (1983, pero ver también 1978, 1985) propuso que la naturaleza
extravagante de los supuestos clave en el análisis de regresión sea confrontada frontalmente a
través de un proceso de análisis se sensibilidad. Sims (1988) también respaldó esta idea. El
amplio concepto de análisis de sensibilidad incluye una explícita agenda Bayesiana.
Reconociendo las severas demandas de la ortodoxia Bayesiana, tales como la especificación
formal de precedentes y su incorporación en un elaborado marco multivariado, Leamer
también alegó por un acercamiento más ad hoc pero intuitivo llamado “análisis de límites
extremos.” En pocas palabras, el análisis de límites extremos equivale a la estimación de
regresiones con muchos sets diferentes de co-‐variantes incluidas como controles; los
practicantes de este enfoque deben informar un rango de estimaciones para el parámetro
objetivo.

El efecto disuasivo de la pena de muerte
Simpatizamos con la visión de Leamer (1983) de que gran parte de la econometría
aplicada de los 70 y principio de los 80 carecían de credibilidad. Parar mostrar su punto de
vista, e ilustrar el valor del análisis de límites extremos, Leamer eligió investigar si la pena
capital desalienta el asesinato. Este asunto fue analizado en una serie de publicaciones
influyentes por Isaac Ehrlich, uno aprovechando variaciones en series de tiempo (Ehrlich,
1975a) y uno usando muestras representativas de estados (Ehrlich, 1977b). Ehrlich concluyó
que la pena de muerte tenía un efecto disuasorio sustancial. Leamer (1983) no intentó replicar
la labor de Ehrlich, sino que observó en una investigación de series de tiempo independientes
sobre la hipótesis de disuasión utilizando análisis de límites extremos, contundentemente
sosteniendo que la evidencia por disuasión es frágil en el mejor de los casos (a pesar de que
Ehrlich y Liu, 1999, disputaron esto).
Es complicado exagerar la atención que este tópico atrajo en su momento. La decisión
de la Suprema Corte de EE. UU. en Furman v. Georgia (408 EE. UU. 153 [1972]) creó una
moratoria de facto en la pena capital. Esta moratoria permaneció hasta Gregg v. Georgia (428
EE. UU. 153 [1976]), en ese entonces la corte suprema decidió que la pena de muerte podría
5
ser admisible si los juicios capitales fueran bifurcados en fases separadas de culpa-‐inocencia y
sentencia. Gary Gilmore fue ejecutado poco tiempo después, en enero de 1977. Parte del caso
intelectual para la restauración de la pena capital fue el efecto disuasivo (contra un trasfondo
de altas y crecientes tasas de homicidio en ese momento). De hecho, la Suprema Corte de los
EE. UU. citó la publicación de Ehrlich (1975a) en su decisión para Gregg v. Georgia,
restableciendo la pena capital.
El trabajo de Ehrlich fue duramente criticado por varios contemporáneos en adición a
Leamer, como Bowers y Pierce (1975) y Passell y Taylor (1977). Los resultados de Ehrlich
parecen ser sensibles a modificaciones en forma funcional, inclusión de controles adicionales,
y especialmente a cambios en muestreo. Específicamente, su hallazgo de un efecto disuasorio
parecía depender en observaciones de los años 60. Los críticos alegaron que el aumento en
tasas de homicidio en los años 60 puede haber sido determinado por otros factores además de
la intensa baja en el número de ejecuciones durante este período. Ehrlich (1975b, 1977a)
disputó las declaraciones de los críticos sobre la forma funcional y argumentó que la década de
1960 dio una variante útil sobre las ejecuciones que debía ser retenida.
Los críticos contemporáneos de Ehrlich fracasaron en dar con lo que nosotros
pensamos como la falla más obvia del análisis de Ehrlich. Como otros investigadores
estudiando efectos disuasivos, Ehrlich reconoció que el nivel de la tasa de homicidios podía
afectar el número de ejecuciones y viceversa y que sus resultados podían estar sesgados por
variables omitidas (especialmente variables con una fuerte tendencia o peso). Ehrlich intentó
identificar problemas de causalidad inversa y sesgo de variables omitidas al utilizar variables
instrumentales en un procedimiento de mínimos cuadrados en dos etapas. Trató las
probabilidades de arresto, condena, y ejecución como endógenas en una configuración de
ecuaciones simultáneas. Sus variables instrumentales fueron gastos retrasados en vigilancia
policial, gasto público total, y la fracción de población no blanca. Pero Ehrlich no explicó por
qué estos son buenos instrumentos, o incluso cómo y por qué estas variables están
correlacionadas con las variables endógenas de la parte derecha.2
El trabajo de Ehrlich en la pena capital parece típico del período sobre el que Leamer
(1983) escribía. La mayoría de los estudios de su tiempo utilizaron muestras de series de
tiempo bastantes breves con fuertes tendencias comunes tanto para variables dependientes e
independientes. El uso del panel de datos para controlar el año y efectos fijos -‐ hasta paneles
de estados de EE.UU.-‐ era todavía raro. El uso de variables instrumentales para descubrir
relaciones causales era típicamente mecánico, con poca discusión sobre la razón por la que los
instrumentos afectaban las variables endógenas de interés o por qué constituían un “buen
experimento”. De hecho, Ehrlich estaba por delante de varios de sus contemporáneos en que
el reconocía la necesidad de algo más que análisis de regresión ingenuo. En nuestra opinión, el
principal problema con el trabajo de Ehrlich fue la falta de un diseño de investigación creíble.
Específicamente, falló en aislar una fuente de variación en las tasas de ejecución que
probablemente revele efectos causales en las tasas de homicidio.

La función de producción en la educación
Otros ejemplos de diseños de investigación deficientes de este período provienen de la
literatura en producción educativa. Esta literatura (encuestada en Hanushek, 1986) se interesa

2
El posterior análisis entre estados de Ehrlich (1977b) no utilizó mínimos cuadrados en dos etapas. En trabajos posteriores, Ehrlich
(1987, 1996) discutió su elección de instrumentos y los problemas de identificación asociados con mayor profundidad.
6
por los efectos causales de los costos escolares, tales como tamaño de clase o gasto por
alumno, en el rendimiento estudiantil. El estudio sistemático cuantitativo de costos escolares
nació con el reporte de Coleman et al. (1996), el cual (entre otras cosas) usó técnicas de
regresión para examinar la proporción de variación en producción estudiantil que puede ser
representada a través de un R2 (coeficiente de determinación) por la variación en costos
escolares. Para sorpresa de muchos en ese momento, el informe de Coleman halló solamente
una asociación débil entre costos escolares y rendimiento académico. Varios estudios
posteriores basados en regresiones replicaron este hallazgo.
El Informe Coleman fue una de las primeras investigaciones en producción educativa
en una gran muestra representativa. Es también distinguido por análisis sensitivo, ya que
discute los resultados de muchas especificaciones (con y sin controles de contexto familiar, por
ejemplo). El problema con el Informe Coleman y muchos de los estudios que continuaron en
este formato es que no pudieron separar variación en costos de variables de confusión en
estudiantes, escuela, o características de la comunidad. Por ejemplo, un descubrimiento
común en la literatura de producción educativa es que los niños en clases más reducidas
tienden a tener peores resultados en exámenes estandarizados, aún luego de controlar a
través de variables demográficas. Este hallazgo aparentemente perverso parece ocurrir en
parte debido al hecho de que los niños con dificultades son agrupados en clases más
pequeñas. Igualmente, la relación entre el gasto escolar y el rendimiento es confusa ya que el
gasto es frecuentemente más alto en una mezcla de distritos ricos y grandes áreas urbanas con
estudiantes minoritarios con dificultades. En resumen, estas regresiones padecen de
problemas de causalidad inversa y sesgo de variables omitidas.
Muchos estudios de producción educativa de este período también ignoran el hecho
de que gastos como el tamaño de clase y el costo por alumno están intrínsecamente
vinculados. Ya que tener clases más pequeñas no es factible sin tener un mayor gasto en
profesores, tiene poco sentido tratar el gasto total (incluyendo salario docente) como una
variable de control al estimar el efecto causal del tamaño de clase (según observa Krueger,
2003). Finalmente, el hecho de que los primeros autores en producción educativa exploraron
numerosos modelos alternativos no fue necesariamente una ventaja. En lo que fue
probablemente uno de los mejores estudios del período, Summers y Wolfe (1977) solamente
presentan los resultados finales de una exhaustiva búsqueda de especificación en su
evaluación del efecto que tienen los recursos escolares en el rendimiento académico. A su
crédito, Summers y Wolfe (1977) describen el algoritmo que produjo los resultados que
eligieron para presentar, y francamente advierten (p. 642) que “los datos han sido minados,
obviamente”. Como nosotros lo vemos, sin embargo, la principal cuestión con esta literatura
no es la minería de datos, sino la débil base para una interpretación causal de cualquier
especificación que los autores hayan favorecido.

Otros trabajos empíricos en la era del heavy metal
La década de 1970 y principios de los 80 crecieron rápidamente en tamaño de
computadoras centrales y potencia. Stata aún no había aparecido, pero los técnicos de cinta
magnética lograban procesar cada vez más números de formas crecientemente elaboradas. No
obstante, en su mayoría, la potencia de cómputo aumentada no produjo cálculos más creíbles.
Por ejemplo, el uso de pruebas randomizadas y cuasi-‐experimentos para estudiar la
7
producción educativa fue raro hasta recientemente (un historial trazado en Angrist, 2004).
Otras áreas de ciencia social observaron aislados, aunque ambiciosos esfuerzos para encontrar
relaciones económicas esenciales utilizando asignación aleatoria. Un hecho positivo fue la
Experiencia en Seguros de Salud RAND (Investigación y Desarrollo), iniciado en 1974 (Manning,
Newhouse, Duan, Keeler, y Leibowitz, 1987). Este experimento observó los efectos de copagos
y deducibles en el uso de asistencia sanitaria y resultados. Desafortunadamente, muchos de
los más ambiciosos (y caros) experimentos sociales tenían defectos graves: los Experimentos
de Mantenimiento del Ingreso Gary y Seattle/Denver, en los cuales el gobierno comparó
planes de subsidio modelados en la idea de Milton Friedman del impuesto negativo sobre la
renta, se vieron comprometidos por desgaste de la muestra y desinformación de los ingresos
sistemáticos (Ashenfelter y Plant, 1990; Greenberg y Halsey, 1983). Este hecho apoya el
argumento de Leamer (1983) de que la diferencia entre un ensayo aleatorizado y un estudio
observacional es de grado. Ciertamente, seríamos los primeros en admitir que un estudio
observacional bien realizado puede ser más creíble y persuasivo que un ensayo aleatorizado
mal ejecutado.
También había mucho para protestar en macroeconomía empírica. Una protesta
especialmente articulada provino de Sims (1980), que señaló que los modelos
macroeconómicos de ese entonces, típicamente un sistema de ecuaciones simultáneas, invocó
supuestos de identificación (la división de variables entre conjuntamente determinadas y
exógenas) que eran difíciles de tragar y pobremente defendidos. Como una alternativa al
contexto de sistema de ecuaciones, Sims sugirió el uso de auto regresiones vectoriales sin
restringir (VAR) para describir la relación entre un conjunto dado de variables endógenas y sus
retrasos. Pero la queja de Sims no generó el mismo tipo de respuesta que surgió de
inquietudes sobre la evaluación del programa econométrico en los años 80 entre economistas
del trabajo. Los macroeconomistas cerraron filas, pero no tomaron una postura determinada.
El argumento de Sims vino seguido de una cercanamente relacionada y similarmente
influyente puñalada en el corazón de la macro empírica conocida como la crítica de Lucas.
Lucas (1976) y Kydland y Prescott (1977) argumentaron vía ejemplos teóricos que, en un
mundo con agentes optimizadores prospectivos, nada puede aprenderse de cambios en
políticas del pasado. Lucas mantuvo la esperanza de que en vez de intentar recuperarnos de la
respuesta empírica a cambios en reglas de política al estimar los parámetros estructurales que
se encuentran en la esencia del comportamiento económico, tales como aquellos relacionados
a la tecnología o las preferencias (Lucas observó estos parámetros como estables o al menos
invariantes ante políticas). Pero Kydland y Prescott – invocando a Lucas – parecieron renunciar
por completo al trabajo empírico convencional (1977, p. 487): “Si no intentamos seleccionar
reglas políticas óptimamente, ¿cómo deberían ser seleccionadas? Nuestra respuesta es, como
Lucas (1976) propuso, que la teoría económica sea utilizada para evaluar reglas de políticas
alternativas y que aquella con buenas características operativas sea elegida.” Esta visión ayudo
a sentar las bases intelectuales para un intenso giro hacia la teoría en macro, aunque
frecuentemente representada por números a través de “calibración.”
Nuestro resumen en el trabajo empírico de la época de Leamer se centra en
deficiencias. Pero también debemos notar que el mejor trabajo aplicado de la década de 1970
y principios de 1980 todavía se sostiene hoy en día. Un ejemplo acreditado se encuentra en
Feldstein y Horioka (1980), que argumenta que el fuerte vínculo entre el ahorro interno y la
inversión pesa contra la noción de movilidad sustancial del capital internacional. El análisis de
8
Feldstein y Horioka presenta evidencia simple a favor de una conexión entre ahorro interno e
inversión, discute importantes fuentes de sesgos de variables omitidas y sesgos de
simultaneidad en estas estimaciones, e intenta responder a estas inquietudes. La extensiva
investigación de Obstfeld (1995) de la estructura de Feldstein y Horioka (1980) esencialmente
replica sus hallazgos para un período posterior y más largo.

Por qué hay menos inconvenientes en la econometría actual

Mejoras en el trabajo empírico llegaron desde distintas direcciones. Mejores datos y
métodos de estimación más robustos son hoy parte de la historia, tal como lo es un énfasis
reducido en consideraciones econométricas que no son centrales a una interpretación causal
de los descubrimientos principales. Pero la principal fuerza que motivó la revolución de la
credibilidad fue un impulso vigoroso por mejores y más claramente articulados diseños de
investigación.

Más y mejores datos
No inusualmente para el período, Ehrlich (1975a) analizó una serie de tiempo de 35
observaciones anuales. En contraste, Donohue y Wolfers (2005) investigaron la cuestión de la
pena capital usando un panel de los estados de EE. UU. desde 1934 al 2000, con muchos más
años y una variación interestatal más rica debido a la estructura de panel de los datos. Mejores
datos a menudo engendran un enfoque novedoso para problemas antiguos de investigación.
La investigación de Grogger (1990) del efecto disuasivo de las ejecuciones en las tasas de
homicidio diarias, inspirado por el sociólogo Phillips (1980), es un ejemplo.3 Más lejos, mejoras
llegaron de un reservorio de datos micro en rápida expansión en muchos países. El uso de
registros administrativos también ha crecido.

Menos distracciones
Bower y Pierce (1975) dedicaron considerable atención al uso de Ehrlich (1975a) de la
transformación log, así como a su elección de período de muestra. Passell y Taylor (1977)
notaron el potencial para sesgos de variables omitidas, pero también se preocuparon por test-‐
F para homogeneidad temporal y logaritmos. El apéndice metodológico para la siguiente
publicación de Ehrlich (1977b) discute las posibilidades de usar una transformación Box-‐Cox
para implementar una forma funcional flexible, pruebas para heterocedasticidad, y uso de
mínimos cuadrados generalizados. La réplica de Ehrlich (1975b) a Bowers y Pierce se centró en
la significancia estadística de los intervalos de tendencia en muestras de diferente duración,
diferencias en procedimientos de cálculo relacionados a correlación en serie, y evidencia para
robustez en el uso de logaritmos. La respuesta de Ehrlich (1977a) a Passell abarca el período de
muestreo y logaritmos, aunque también informa algunas de sus estimaciones interestatales
(1977b). Las réplicas a Ehrlich dedicaron poca atención a la cuestión fundamental de si las
fuentes de variación en la ejecución utilizadas en sus modelos estadísticos justificaban una
interpretación causal de sus estimaciones, pero los contemporáneos de Ehrlich tampoco
dieron en el clavo. Aún si los resultados fueran insensibles a la muestra, lo mismo en logs y

3
El decremento en uso de series de tiempo y el incremento en uso de datos de panel y datos originados de investigación están
documentados para el campo de economía laboral en la Tabla 1 de Angrist y Krueger (1999).
9
niveles, y los residuos independientes e idénticamente distribuidos, continuaríamos
insatisfechos. En el toma y dame que acompaño el artículo original de Ehrlich, el tópico de la
validez instrumental rara vez salió a superficie, mientras que la cuestión del sesgo de variables
omitidas tomó un rol secundario ante preocupaciones sobre forma funcional y puntos de
quiebre de muestras.4
Como en el intercambio sobre pena capital, otros escritores casi al mismo tiempo se
vieron frecuentemente distraídos por inquietudes relacionadas a la forma funcional y a los
mínimos cuadrados generalizados. Los economistas prácticos de la actualidad tienen el
beneficio de un entendimiento menos dogmático del análisis de regresión. Específicamente,
una comprensión emergente del sentido en el cual la regresión y los mínimos cuadrados en
dos etapas producen efectos promedio aún cuando la relación subyacente es heterogénea y/o
no lineal, ha vuelto a la forma funcional menos central.
Los modelos lineales que constituyen el caballo de batalla de la práctica empírica
contemporánea usualmente resultan ser remarcablemente robustos, una característica que
muchos investigadores aplicados han sentido durante mucho tiempo y la teoría econométrica
actual explica mejor.5 Los errores de robustez estándar, la agrupación automatizada, y
muestras más grandes también han calmado las aguas de temas como la heterocedasticidad y
correlación en serie. Un legado del artículo de White (1980a) en errores de robustez estándar,
uno de los más altamente citados de la época, es casi la muerte de los mínimos cuadrados
generalizados en trabajo aplicado inter-‐seccional. En los intereses de la reproducibilidad, y
para reducir el alcance de errores, los investigadores aplicados modernos frecuentemente
prefieren estimadores más simples, aunque puedan estar sacrificando eficiencia asintótica.

Mejor diseño de investigación
Leamer (1983) lideró su ensayo con la idea de que los experimentos – específicamente,
las pruebas aleatorizadas – proveían un marco para la econometría aplicada. No estaba solo
entre líderes del pensamiento econométrico en esta posición. Aquí está Zvi Griliches (1986, p.
1466) en el comienzo de un capítulo sobre datos en The Handbook of Econometrics: “Si los
datos fueran perfectos, recolectados de experimentos aleatorizados bien diseñados,
difícilmente habría lugar para un campo separado de econometría.” Desde entonces,
investigadores empíricos en economía han buscado cada vez más el ideal de un experimento
aleatorizado para justificar inferencia causal. En disciplinas de micro aplicadas tales como
desarrollo, educación, economía ambiental, salud, trabajo, y finanzas públicas, los
investigadores buscaron experimentos reales cuando era factible, y experimentos naturales
útiles si los experimentos reales (por lo menos por un tiempo) eran inviables. En cualquier
caso, un sello de la microeconometría aplicada contemporánea es un marco conceptual que
resalta fuentes específicas de variación. Se puede decir que estos estudios son basados en
diseño ya que ofrecen al diseño de investigación subyacente a cualquier tipo de estudio la
atención que demandaría en un experimento real.

4
El crítico re-‐análisis de Hoenack y Weiler (1980) acerca de Ehrlich (1975a) se centró en problemas de identificación, pero las
restricciones de exclusión alternativas que Hoenack y Weiler propusieron fueron ofrecidas sin mucha justificación y parecían tan
difíciles de tragar como las de Ehrlich (por ejemplo, la proporción no blanca es usada como un instrumento).
5
Para esta visión de la regresión, ver, por ejemplo, White (1980b), el capítulo de Chamberlain (1984) en Handbook of
Econometrics, el texto econométrico de Goldberger (1991), o nuestro libro Angrist y Prischke (2009) para una captura reciente.
Angrist e Imbens (1995) muestran como los estimadores de mínimos cuadrados en dos etapas convencionales pueden ser
interpretados como un efecto causal promedio en modelos con efectos causales heterogéneos y no lineales.
10
Los métodos econométricos que destacan principalmente en estudios cuasi-‐
experimentales son variables instrumentales, métodos de discontinuidad de regresión, y
análisis de políticas de diferencias en diferencias. Estos métodos econométricos no son
nuevos, pero su uso ha crecido y se ha vuelto más cohibido y sofisticado desde la década de
1970. Al usar variables instrumentales, por ejemplo, ya no es suficiente invocar
mecánicamente un marco de ecuaciones simultáneas, nombrando algunas variables
endógenas y otras exógenas, sin justificar sustancialmente las restricciones de exclusión y
supuestos tan-‐buenos-‐como-‐asignados-‐aleatoriamente que hacen a los instrumentos válidos.
Lo mejor de los estudios basados en diseño actuales constituye un caso fuerte, sustentado con
evidencia empírica, para que la reflexión sobre variación genere un experimento natural útil.
Los estudios de calidad escolar de Card y Krueger (1992a, b) ilustran esto y puede
decirse que marcan un punto de inflexión en la literatura en producción educativa. El
problema más importante en estudios de calidad escolar es el sesgo de omisión de variables.
Por un lado, los estudiantes que asisten a escuelas con mejores recursos usualmente llegan a
esas escuelas por su habilidad o trasfondo familiar, mientras que por el otro lado, estudiantes
más débiles pueden recibir desproporcionadamente más recursos (por ejemplo, clases más
reducidas). Card y Krueger encaran este problema al enfocarse en la fluctuación en recursos en
el nivel de lugar-‐de-‐nacimiento-‐por-‐cohorte, el cual vinculan con la rentabilidad económica
educativa estimada al mismo nivel. Por ejemplo, usaron data censal para comparar los
retornos en educación para residentes de estados del norte educados en el norte contra los
retornos en educación para residentes de estados del norte educados en escuelas del sur con
recursos más escasos.
Los artículos de Card y Krueger muestran que los rendimientos económicos en
educación son más altos para aquellos provenientes de estados y cohortes con más recursos
(controlando por efectos de cohorte y estado fijo y por estado de residencia). Ellos
implícitamente utilizan divergencia por nivel estatal en gasto educativo como un experimento
natural: agregados de datos individuales hasta el cohorte/nivel estatal es un proceso de
variables instrumentales donde los instrumentos son estado-‐de-‐nacimiento y variables de
cohorte ficticias. (En Angrist Y Pischke, 2009, mostramos por qué la agregación en esta forma
funciona como una variable instrumental.) La variación estado-‐por-‐cohorte en rendimientos
educativos es improbable que se encuentre impulsada por selección u ordenamiento, ya que
los individuos no controlan estas variables. La variación estado-‐por-‐cohorte en recursos
escolares tampoco se encuentra relacionada a factores omitidos como entorno familiar.
Finalmente, Card y Krueger tomaron ventaja del hecho de que los recursos escolares
aumentaron dramáticamente en el sur cuando los sureños en su muestra estuvieron en edad
escolar. Los estudios de calidad escolar de Card y Krueger no son a prueba de balas (Heckman,
Layne-‐Farrar, y Todd, 1966, ofrecen una crítica), pero sus hallazgos en tamaño de clases (el
conjunto más sólido de resultados en Card y Krueger, 1992a) ha sido replicado en otros
estudios con buenos diseños de investigación.
Angrist y Lavy (1999) ilustran el diseño de investigación de regresión discontinua en un estudio
sobre los efectos del tamaño de clase en rendimiento académico. El enfoque de regresión
discontinua puede ser usado cuando las personas son divididas en grupos basados en un cierto
puntaje límite, con aquellos apenas por encima o por debajo del límite que repentinamente
son elegibles para un tratamiento diferente. El diseño de investigación de Angrist-‐Lavy está
motivado por el caso de que el tamaño de clase en Israel está limitado en 40, entonces una
11
cohorte de 41 es usualmente dividido en dos clases menores, mientras que un cohorte de 39
típicamente se mantiene en una sola clase. Esto conduce a una serie de experimentos
hipotéticos: comparaciones de colegios con inscripciones levemente por encima y por debajo
de 40, 80, o 120, en cuyos tamaños de clase varían considerablemente. En esta configuración,
los colegios con diferentes números de estudiantes pueden ser bastante similares en otras
características. Entonces, a medida que la matriculación de un colegio aumenta, una regresión
que captura la relación entre el número de estudiantes y el rendimiento académico debería
ahora mostrar discontinuidades en estos puntos de quiebre. El diseño de de Angrist-‐Lavy es
una versión de lo que se conoce como diseño de regresión discontinua “difusa”, en donde la
confusión procede del hecho de que el tamaño escolar no es una función determinística de las
vueltas o saltos en la función de matriculación. Las estimaciones de regresión discontinua
empleando datos israelíes muestran un marcado incremento en rendimiento académico
cuando el tamaño de clase disminuye.6
El supuesto clave que determina la estimación de regresión discontinua de efectos
causales es que los individuos son similares en cualquier lado de la discontinuidad (o que una
diferencia puede ser controlada usando funciones suaves de las tasas de matriculación,
también conocidas como “variable de selección”, que determina los puntos de salto). En el
estudio de Angrist-‐Lavy, por ejemplo, podríamos querer estudiantes que tengan un entorno
familiar similar cuando concurren a escuelas con niveles de inscripción de 35-‐39 y 41-‐45. Una
prueba de este supuesto, ilustrada por Angrist y Lavy (y Hoxby, 2000) es estimar los efectos en
un rango cada vez más angosto alrededor de los puntos de salto; a medida que el intervalo
disminuye, el salto en tamaño de clase permanece el mismo o quizás apenas crece, pero los
estimados deben ser sujetos a menos y menos sesgos de variables omitidas. Otra prueba,
propuesta por McCrary (2008), busca concentraciones en la distribución de características en
los antecedentes de estudiantes alrededor del salto. Estas concentraciones pueden señalar
comportamientos estratégicos – el esfuerzo de algunas familias, presuntamente sin una
muestra aleatoria, para ubicarse en escuelas con clases más pequeñas. Finalmente, podemos
simplemente observar las diferencias en características medias pre-‐tratamiento alrededor del
salto.
En un artículo reciente, Urqiola y Verhoogen (2009) aprovechan los límites de
matriculación tales como aquellos utilizados por Angrist y Lavy en una muestra de Chile. Los
datos chilenos exhiben una sugerente primera etapa, con agudas caídas (discontinuidades) en
tamaño de la clase en los límites (múltiplos de 45). Pero las características domésticas también
difieren considerablemente a través de los mismos saltos, probablemente porque el sistema
escolar chileno, en su mayoría privado, ofrece tanto oportunidades e incentivos para
estudiantes más pudientes para asistir a escuelas más allá de los límites. La posibilidad de
semejante patrón es una precaución importante para usuarios de métodos de regresión
discontinua, aunque Urqiola y Verhoogen notan que la manipulación en las inscripciones que
descubrieron en Chile está lejos de ser extendida y no se presenta en el estudio de Angrist-‐
Lavy. Una gran medida de atracción del diseño de regresión discontinua es su espíritu

6
Los diseños de regresión discontinua son más fácilmente analizados empleando variables instrumentales. En el lenguaje de las
variables instrumentales, la relación entre rendimiento y saltos en la función es la forma reducida, mientras que el cambio en el
tamaño de clase en los saltos es la primera etapa. La proporción de formas reducidas a efectos de primer-‐etapa es un estimador
de variable instrumental del efecto causal del tamaño de la clase en notas de examen. Imbens y Lemieux (2008) ofrecen una guía
para practicantes para el uso de diseño de regresión discontinua en economía.
12
elemental y la facilidad con la que las afirmaciones por la validez del diseño pueden ser
verificadas.
La última flecha en la aljaba cuasi-‐experimental es el de las diferencias en
diferencias, probablemente el estimador basado en diseño más aplicable. El análisis de
políticas de diferencias en diferencias típicamente compara la evolución de producciones en
grupos afectados más o menos por un cambio de política. Los estudios del tipo de diferencias
en diferencias más convincentes presentan resultados para el tratamiento y observaciones de
control para un intervalo del largo suficiente para evidenciar las tendencias subyacentes, con
atención centralizada en cómo las desviaciones de la tendencia se relacionan a cambios de
política. La figura 1, de Donohue y Wolfers (2005), ilustra este enfoque para el debate de la
pena capital. Este gráfico traza las tasas de homicidio en Canadá y los Estados Unidos por más
de medio siglo, indicando períodos en los que la pena de muerte estaba vigente en ambos
países. El punto del grafico no es enfocarse en la tasa de homicidio constantemente más baja
de Canadá, sino mostrar que las tasas de homicidio canadiense y estadounidense difícilmente
se mueven en paralelo, sugiriendo que los cambios en la política de pena de muerte tuvieron
pequeñas consecuencias en los asesinatos. El grafico también sugiere que el efecto disuasivo
debería ser grande para ser visible ante el ruidoso segundo plano de fluctuaciones anuales en
las tasas de homicidio.

Paralelamente el crecimiento en experimentos de diseño pseudo-‐experimental, el
número y alcance de experimentos reales ha incrementado dramáticamente, con un
incremento concomitante en la calidad del diseño experimental, colección de data y análisis
estadístico. Mientras en la era de los 70s los estudios aleatorizados del efecto negativo de los
impuestos estaban comprometidos en informar erróneamente y el desgaste diferencial en el
tratamiento y el control de grupos, los investigadores hoy le dan a estas preocupaciones más
atención y las administran de manera más efectiva. Tales problemas son usualmente resueltos
13
por una confianza substancial en la data administrativa, y una interpretación más sofisticada
de la data de encuestas cuando los registros administrativos no están disponibles.
Un punto de referencia en un juicio aleatorizado relaciono a la producción de
educación es el experimento Tennessee STAR. En esta intervención, más de 10000 estudiantes
fueron aleatoriamente asignados a clases de diferentes tamaños, desde el jardín de infantes
hasta tercer grado. Como el efecto negativo de los experimentos de impuestos, el experimento
STAR tuvo sus fallas. No todos los sujetos contribuyeron con el seguimiento de la data y
algunos auto-‐seleccionaron clases más pequeñas aun después de haber sido asignados
aleatoriamente. Un cuidadoso análisis de Krueger (1999), muestra evidencia de ciertos logros
en las clases más pequeñas, tomando el desgaste y la auto-‐selección en cuenta.7
Los economistas están llevando a cabo sus propios experimentos de manera
creciente, así como también procesando la data de experimentos llevado a cabo por otros. Un
reciente juicio aleatorizado de un esquema de microfinanzas, una importante herramienta
para el desarrollo económico, es una ilustración ambiciosa (Banerjee, Duflo, Glennester, y
Kinnan, 2009). Este estudio evalúa el impacto de ofrecer pequeños préstamos a dueños de
negocios independientes que viven en los barrios vulnerables de India. El estudio de Banerjee y
otros randomiza la disponibilidad de microcréditos a lo largo de 100 vecindarios indios,
desacreditando el reclamo de que la intervención política realista y relevante no puede ser
estudiada con asignaciones aleatorias.
Con el creciente enfoque en el diseño de investigación, no es suficiente adoptar el
lenguaje de un marco de ecuaciones simultáneo y ortodoxo, etiquetando a algunas variables
como endógenas y otras como exógenas, sin ofrecer un fuerte apoyo empírico o institucional
para estos supuestos identificadores. El nuevo énfasis en una credibilidad exógena como
fuente de variación también ha filtrado a estimaciones de regresiones comunes y silvestres, en
las que los investigadores es cada vez más probable que se concentren en fuentes de sesgo por
omisión de variables, en vez de un esfuerzo quijotesco para descubrir el “modelo verdadero”
que genera los datos.8

Más discusión transparente sobre el diseño de la investigación.
Hace poco más de 65 años, Haavelmo presentó la siguiente queja a los lectores de
Econométrica (1944, p. 14): “Un diseño de experimentos (una prescripción de lo que los físicos
llamarían un ‘experimento crucial’) es el apéndice esencial para cualquier teoría cuantitativa. Y
usualmente tenemos estos experimentos en mente cuando construimos las teorías, aunque -‐
desafortunadamente-‐ la mayoría de economistas no describen explícitamente el diseño de sus
experimentos.”
En los últimos años, la noción de que la identificación de estrategia propia – en otras
palabras, el diseño de la investigación – debe ser descripta y defendida ha filtrado
profundamente la práctica empírica. ¿La pregunta “Cuál es tu estrategia de investigación?” y
otras similares ahora son oídas rutinariamente en los talleres y seminarios empíricos. La

7
Un desarrollo relacionado, en la vanguardia del diseño de investigación, es el uso de loterías de elección como una herramienta
de investigación. En muchos escenarios donde una opción educacional tiene exceso de subscripciones, la asignación a los
aspirantes se decide por sorteo. El resultado es un tipo de asignación aleatoria institucional, que luego puede ser utilizado para
estudiar becas escolares, subvenciones a escuelas, y escuelas especializadas (por ejemplo, Rouse, 1998, analiza las becas).
8
El foco en sesgo de variables omitidas ha reflejado en una floreciente literatura a través de la correspondencia y la puntuación de
propensión como una alternativa (o complemento) a la regresión. En ausencia de una asignación aleatoria, tales estrategias
buscan eliminar las diferencias observables entre grupos de control y tratamiento, con poca o nula atención dedicada a modelar el
proceso determinando resultados. Ver Imbens y Wooldridge (2009) para una introducción.
14
evidencia de este reclamo surge del hecho que la búsqueda de un texto completo para los
términos “estrategia empírica”, “estrategia de la identificación”, “diseño de la investigación” o
“grupo de control” obtiene solo 19 resultados en Econlit en el periodo 1970-‐1989, mientras
que se obtienen 742 resultados desde 1990 a 2009. ¡Reconocemos que solo porque el autor
use el término “diseño de investigación” no significa que él o ella tenga uno bueno! Además,
algunos estudios anteriores incorporan diseños de calidad sin usar el lenguaje contemporáneo.
Aun así, el cambio en el énfasis es dramático y refleja una tendencia que es más que
semántica.
Los buenos diseños tienen un efecto secundario beneficioso: usualmente se presta
para una explicación simple de métodos empíricos y una presentación directa de los
resultados. Las recomendaciones claves de un experimento aleatorio típicamente son
diferencias en métodos entre tratamientos y controles, informados antes del tratamiento
(para mostrar balance) y después del tratamiento (para estimar los efectos causales). Los
resultados no experimentales pueden ser a menudo presentados en una manera que imite
esto, resaltando los contrastes específicos. El estudio differences-‐in-‐differences de Donohue
and Wolfers (2005), mencionado arriba, ilustra esto enfocándose en los cambios en las leyes
americanas como una fuente casi experimental de variación y documentando la evolución
paralela de los resultados en tratamientos y grupos de control en los Estados Unidos y Canadá.

¿Cuál es la dirección del análisis sensitivo?
Respondiendo a lo que vio como la fragilidad del análisis de regresión inexperto,
Leamer (1983) propuso extremos límites de análisis, que se enfocan en la distribución de
resultados generados por una amplia gama de especificaciones. Una versión extrema de los
límites extremos de análisis aparece en el ensayo de Sala-‐i-‐Martin (1997) donde se reportan
dos millones de regresiones relacionadas al crecimiento económico. Específicamente, en una
variación del procedimiento propuesto en este contexto por Levine y Renelt (1992), Sala-‐i-‐
Martin computa dos millones de las múltiples regresiones de crecimiento que pueden ser
construidas a partir de 62 variables explicativas. El retiene un set fijo de tres controles (PBI,
expectativa de vida, y la tasa de inscripciones en la escuela primaria en 1960), dejando 59
posibles “regresores de interés”. De estos 59, tres sets adicionales de control son elegidos de
los primeros 58 mientras que el número 59 es tomado como el único de interés. Este proceso
es repetido hasta que cada uno de los posibles 59 regresores ha jugado un rol en estas
ecuaciones con todos los posibles sets de tres controles, generando 30857 regresiones por
cada regresor de interés. El objetivo de este ejercicio es ver que variables son robustamente
significantes a través de las especificaciones.
La investigacion de Sala-‐i-‐Martin sobre los límites extremos de análisis debe haber sido
divertida. Felizmente, de cualquier manera, este tipo de búsqueda de especificación agnóstica
no surgió como la figura central del trabajo empírico contemporáneo. Aunque Sala-‐i-‐Martin
triunfa descubriendo algunas relaciones significativas (la “fracción de la población Confuciana”
es una maravillosamente fuerte pronosticadora del crecimiento económico), no vemos por
qué este resultado debería ser tomado más seriamente que el inocente castigo de
especificaciones de capital criticado por Leamer. ¿Son estos los controles correctos? ¿Son seis
controles suficientes? ¿Cómo se supone que entendamos fuentes de variación en una variable
cuando los efectos de tres otras variables, elegidas arbitrariamente, son dejadas afuera? Las
15
búsquedas tan amplias de este tipo ofrecen una base muy pequeña para una interpretación
causal.
Los estudios basados en el diseño típicamente guían a una especificación de análisis
mucho más acotada y enfocada, apuntada a específicas amenazas a la validez. Por ejemplo,
cuando consideramos resultados de un juicio aleatorio, nos enfocamos en los detalles del
tratamiento asignado y la evidencia para el balance en el tratamiento de control y en el pre
tratamiento de variables. Cuando usamos variables instrumentales, observamos si el
instrumento puede tener efectos causales en el resultado en maneras diferentes que a través
del canal de interés (en ecuaciones simultaneas de lingo, esta es una examinación de la
restricción de exclusión). Con las diferencias en diferencias (differences-‐in-‐differences),
buscamos las tendencias específicas de grupos, ya que tales tendencias pueden invalidar una
comparación de los cambios a través de los grupos. En el diseño de la regresión discontinua,
observamos factores como el agrupamiento en el punto de inflexión, lo que puede sugerir que
el límite directamente influencie el comportamiento. Como la naturaleza de estos
experimentos es clara en este tipo de diseños, la dirección que deberíamos tomar cuando
evaluamos la validez también tiene que ser clara.

Locos por la Macro

En la lectura de un ensayo a estudiantes graduados de economía de la Universidad de
Chicago, Robert Lucas (1988) describió, según su visión, lo que los economistas hacen. Lucas
uso la pregunta específica de la conexión entre la política monetaria y la depresión económica
para enmarcar esta discusión, que se encuentra bastante en el espíritu experimental: “Una
manera de demostrar que entiendo esta conexión -‐Según la que yo creo, la manera más
convincente-‐ seria maquinar una depresión en los Estados Unidos modificando la oferta
monetaria. “
Eliminando tal manipulación nacional por su inmoralidad, Lucas (1988) describe cómo
crear una depresión cambiando la oferta monetaria en Kennywood Park, un parque de
diversiones cercano a Pittsburgh que se caracteriza por vistas increíbles al rio, montaña rusa de
madera y el hecho de que emite su propio dinero. La historia de Lucas es evocativa y
persuasiva (la alegoría de Kennywood es una versión de Lucas, 1973). Estamos felices de ver
un macroeconomista del nivel de Lucas usar un punto de referencia experimental para definir
causalidad y mostrar una disposición para entretener evidencia cuasi-‐experimental en los
efectos de un cambio en la oferta monetaria. Aun así esta historia nos hace preguntarnos por
qué el mundo real de la macro empírica raramente presenta investigación basada en el diseño.
Muchos macroeconomistas han abandonado el trabajo tradicional empírico
completamente, enfocándose en los “experimentos computacionales”, como los descriptos en
este diario por Kydland y Prescott (1996). En un experimento computacional, los
investigadores eligen una pregunta, construyen (teóricamente) un modelo económico,
“calibran” el modelo para que su comportamiento imite la economía real junto con algunas
dimensiones estadísticas claves, y después llevan a cabo un experimento computacional
cambiando los parámetros del modelo (por ejemplo, las tasas impositivas o la oferta
monetaria) para abordar la pregunta original. Las dos últimas décadas han visto incontables
estudios en este molde, usualmente contextualizados en un marco de trabajo dinámico
estocástico de equilibrio general. Cualquier cosa que pueda ser dicha en defensa de este
16
marco de trabajo como herramienta para clarificar las implicaciones de los modelos
económicos, no produce evidencia directa en la magnitud o existencia de efectos causales. Un
esfuerzo para poner números razonables en relaciones teóricas es inofensivo e incluso, quizás,
pueda ser útil. Pero sigue siendo teoría.
Algunos rayos de sol penetran a través de las grises nubes del equilibrio general
dinámico estocástico. Un hilo de macroeconomía empírica ha girado de los resultados de
variables modelizadas tales como el crecimiento del PIB, enfocándose en el aislamiento de la
útil variación en Estados Unidos de las políticas monetarias y fiscales. Una contribución que
nos guía aquí es la de Romer y Romer (1989), quienes, en el espíritu de Friedman y Schwartz
(1963), revisan los minutos de las reuniones de la Reserva Federal y tratan de aislar eventos
que parecen buenos “experimentos” de política monetaria. Sus resultados sugieren que las
contracciones monetarias tienen efectos significativos y duraderos en la economía real. Más
tarde, en Romer y Romer (2004), ellos produjeron descubrimientos similares para los efectos
de la política de shocks condicionales en los propios pronósticos de los Federales. 9
El trabajo de los Romer está basado en el diseño, en su espíritu, y en mayor parte, en
sus detalles. Aunque vasta literatura de los modelos de la Reserva Federal sobre la toma de
decisiones, hasta recientemente, sorprendentemente pocos estudios han hecho un caso
institucional para experimentos de políticas como el estudio de los Romer lo hace. Dos
recientes estudios sobre política monetaria en el espíritu de Romer, y quizás más parecidos al
tipo de trabajo cuasi-‐experimental que hacemos y leemos, son Richardson y Troost (2009),
quienes explotan las diferencias regionales en el comportamiento de los Federales durante la
depresión para estudiar los efectos de la liquidez, y Velde (2009), quien describe los resultados
de un experimento monetario extremo bastante parecido al que Lucas imaginó (aunque en
Francia del siglo dieciocho). Romer y Romer (2007) usan métodos similares a los que usaron
para el dinero para estudiar la política fiscal, como también lo hacen Ramey y Shapiro (1998) y
Barro y Redlick (2009), quienes investigan los efectos de largos shocks fiscales debidos a la
guerra.
La literatura sobre el crecimiento empírico ha venido sufriendo por un largo tiempo de
una falta de imaginación en el diseño de investigación, pero aquí también el cuadro ha
mejorado recientemente. El estudio más influyente basado en el diseño en esta área
probablemente ha sido el de Acemoglu, Johnson, y Robinson (2001), quienes discuten que las
buenas instituciones políticas son un ingrediente clave en la receta del crecimiento, una idea
de crecimiento que los economistas han alimentado por muchas décadas. La dificultad aquí es
que mejores instituciones pueden ser un lujo que los países más ricos pueden disfrutar más
fácilmente, llevando a un problema de causalidad revertida algo fastidioso. Acemoglu,
Johnson, y Robinson (2001) tratan de sobrepasar este problema usando las tasas diferenciales
de mortalidad de los colonizadores europeos en diferentes colonias como un instrumento para
las instituciones políticas en los modernos países sucesores. Su argumento toma la siguiente
forma: donde los europeos enfrentaban altas tasas de mortalidad, no se podían establecer, y
donde los europeos no se podían establecer, los regímenes coloniales eran más extractivos,
con pequeño énfasis en los derechos de propiedad e instituciones democráticas. Donde los
inmigrantes europeos no se podían establecer, frecuentemente trataban de simular los ajustes

9
Angrist y Kuersteiner (2007) implementan una versión de la investigación de diseño de Romer y Romer usando el puntaje de
propensión y un argumento de identificación formado en el lenguaje de potenciales resultados usados en el programa
microeconometrico de evaluación.
17
institucionales de sus países de origen, con derechos de propiedad más fuertes y más
instituciones democráticas. Este enfoque nos lleva a una estrategia de variables instrumentales
donde el instrumento para el efecto de las instituciones en el crecimiento es la mortalidad del
colonizador. 10
Acemoglu, Johnson, y Robinson (2001) están en la vanguardia de investigación
prometedora en las fuentes del crecimiento económico usando un estilo similar. Los ejemplos
incluyen a Bleakley (2007), quien observa el efecto de la erradicación de un gusano intestinal
en el ingreso en el sur americano; y Rodrik y Wacziarg (2005) y Persson y Tabellini (2008),
quienes investigan las interacciones entre democracia y crecimiento usando el diseño del tipo
diferencias en diferencias (differences-‐in-‐differences)
Con estos ejemplos acumulándose, la macroeconomía parece llena de expectativa por
una ola de trabajo empírico usando mejores diseños. Ricardo Reis, un profesor recientemente
asignado como permanente en la universidad de Columbia, observo en el inicio de la crisis
financiera de 2008: “La macroeconomía ha tomado un giro hacia la teoría en los últimos 10-‐15
años. La mayoría de los macroeconomistas jóvenes están más cómodos con proveer teoremas
que con involucrarse con cualquier data o especulación sobre eventos actuales”11. El costo de
que la agenda macroeconómica contemporánea esté empíricamente empobrecida surge
también de veteranos de la macro como Mankiw (2006) y Solow (2008). Pero la reciente crisis
económica, fundamentalmente un asunto relacionado a la macroeconomía y al diseño de
políticas, ha generado intrigantes estudios basados en el diseño de los orígenes de la crisis en
el mercado hipotecario (Keys, Mukherjee, Seru, y Vig, 2010; Bubb y Kaufman, 2009). El fuerte
macroeconómico enfocado en teoría parece ser mucho más difícil de defender.

Desorganización Industrial

Una pregunta importante en el centro de la agenda de la organización industrial
aplicada es el efecto de las fusiones corporativas en los precios. Uno puede llegar a pensar, por
lo tanto, que los estudios de los efectos causales de las fusiones en precios formarían el núcleo
de una vasta literatura micro-‐empírica, de la manera que cientos de estudios de la economía
laboral han mirado la unión de relativos efectos del salario. También podríamos esperar una
densa literatura paralela evaluando la política de fusión, de la manera que la economía laboral
ha observado el efecto de políticas como las leyes laborales (right-‐to-‐work). Pero no es así. En
una reseña reciente, Ashenfelter, Hosken, y Weinberg (2009) encontraron aproximadamente
solo 20 estudios empíricos evaluando el efecto de precios en las fusiones directamente
consumadas; por ejemplo, Borenstein (1990) compara los precios en las rutas aéreas de
aeropuertos centrales afectados a diferentes niveles por fusiones. La investigación en los
efectos agregados de la política de fusión parece ser todavía más limitada; ver artículos de
Baker (2003) y Crandall y Winston (2003) en esta publicación para una reseña e
interpretaciones opuestas.

10
Albouy (200) genero dudas sobre la data de la mortalidad de los colonizadores que Acemoglu, Johnson y Robinson (2001)
usaron para construir instrumentos. Ver Acemoglu, Johnson, y Robinson (2006) para la respuesta de la crítica anterior de Albouy.
11
Tal como es citado por Justin Wolfers (2008) en su columna del New York Times “Freakonomics” (<http://
freakonomics.blogs.nytimes.com/2008/03/31/more-‐on-‐the-‐missing-‐macroeconomists/>).

18
El paradigma dominante para el análisis de fusión en los estudios académicos
modernos, a veces llamado la “nueva organización industrial empírica”, es un elaborado
ejercicio que consiste de tres pasos: El primero estima un sistema de demanda para el
producto en cuestión, usualmente usando la estructura de elección discreta/diferenciación de
productos desarrollada por Berry, Levinsohn, y Pakes (1995). Las elasticidades de la demanda
típicamente se identifican usando variables instrumentales para los precios, a menudo, los
instrumentos son precios en otros mercados (como en Hausman, 1996). Luego, los
investigadores postulan un modelo de conducta de mercado, competencia Bertrand-‐Nash
basada en el precio entre diferentes marcas o productos. En el contexto de este modelo, el
esfuerzo de las firmas para maximizar beneficio lleva a un ajuste de relaciones entre precios y
costos marginales para cada producto, con el vínculo provisto por la matriz de sustitución
estimada en el paso inicial. Finalmente, el comportamiento de la industria es simulado con y
sin la fusión de interés.
Nevo (2000) usa este enfoque para estimar el efecto de las fusiones en el precio en los
cereales del desayuno en un renombrado diario. El estudio de Nevo se distingue por el
meticuloso trabajo empírico, atención a los detalles, y una clara discusión de la estructura de
supuestos en la que yace. El sistema de demanda postulado implícitamente impone
restricciones en patrones de sustitución y otros aspectos del comportamiento del consumidor
sobre el cual tenemos pocas razones para sentir considerablemente. La validez de las variables
instrumentales usadas para identificar las ecuaciones de demanda -‐precios en otros mercados-‐
surge de la independencia de los supuestos a lo largo de los mercados, que parece arbitraria.
El paso de la simulación típicamente se enfoca en un solo canal por el cual las fusiones afectan
a los precios -‐ la reducción en el número de competidores-‐ cuando al menos, en teoría, una
fusión puede llevar a otros efectos como la reducción de costos que hacen la competencia más
dura para los productores restantes. En esta estructura, es difícil ver precisamente que
introducción de la data nos lleva a los resultados definitivos.
¿Pueden las fusiones ser analizadas usando métodos empíricos simples, transparentes
que tracen una ruta más corta de los hechos a los descubrimientos? El desafío para un análisis
causal directo sobre las fusiones es usar data para describir un mundo contrafactual en el cual
la fusión no sucedió. Hastings (2004) hace esto en un estudio sobre el mercado minorista de
combustible. Ella analiza como el gigante verticalmente integrado ARCO, en California, tomo
control de estaciones independientes baratas y pequeñas, observando la fusión en los efectos
de esta fusión, con la mirada puesta sobre los precios en los competidores de cada estación
independiente. El diseño de investigación de Hastings especifica un mercado local para cada
estación: las estaciones de tratamiento están cerca de una de estas estaciones independientes,
las estaciones de control no. Luego compara los precios cercanos al momento de la fusión
usando una estructura directa de diferencias en diferencias.
Una desventaja del análisis de Hastings (2004) es que captura el efecto de la fusión en
los competidores, pero no en las estaciones previamente independientes en cuestión. Aun así,
parece que efectos altamente no competitivos podrían aparecer en cualquier estación
operando en los mercados afectados. Por lo tanto, vemos la aproximación de Hastings como
un cambio fructífero en dirección. Sus estimaciones tienen implicaciones claras en el
fenómeno de interés, mientras que su validez resulta ser transparente en la calidad del grupo
de control, un problema que puede ser evaluado usando observaciones previas a la fusión para
comparar tendencias de precios. El paper de Hastings ilustra el poder de esta aproximación
19
mostrando tendencias paralelas casi perfectas para las estaciones de control y de tratamiento
en los dos mercados (Los Angeles y San Diego) en los meses previos al tratamiento, seguidas
por una aguda subida en los precios de los competidores después de la fusión.12
Para propósitos de política, por supuesto, los reguladores deben evaluar las fusiones
antes de que ocurran; los estudios basados en el diseño necesariamente capturan el efecto en
las fusiones después del hecho. Muchos nuevos estudios empíricos de organización industrial
pronostican los resultados contrafactuales basados en modelos y simulaciones, sin una clara
base de experiencia. Pero, ¿Deberían los reguladores favorecer los estimados basados en la
simulación resultantes del nuevo paradigma de organización industrial por sobre aquellos
análisis transparentes provenientes de la experiencia? Como mínimo, esperaríamos que tal
juicio este basado en la evidencia, mostrando que la aproximación basada en la simulación
entregue predicciones precisas y razonables. En esta postura, los defensores de este trabajo
parecen favorecerlo por cuestión de principios.
Entonces, ¿En quién se puede confiar cuando se trata de antimonopolios? ¿En el estilo
directo de evidencia de Hastings (2004) o en la estructura derivadas de estimaciones de Nevo
(2000)? Estaríamos felices de ver más trabajos intentando responder esta pregunta mediante
la contrastación de estimados creíbles, pseudo-‐experimentales, con resultados provenientes
del nuevo paradigma de organización industrial. Un esfuerzo vanguardista en esta dirección el
análisis de contrastación directa de Hausman y Leonard (2002) (esencialmente, diferencias en
diferencias) y estimaciones “indirectas” (basadas en la simulación) de las consecuencias del
precio de equilibrio de una marca de papel higiénico. Ellos evalúan los supuestos económicos
que yacen bajo los modelos estructurales (por ejemplo, la competición Nash-‐Bertrand) de
acuerdo si las estimaciones estructurales resultantes se igualan a las estimaciones directas.
Esto es reminiscente de la comparación de Lalonde (1986) sobre el entrenamiento de
estimaciones experimental y no experimental, pero en vez de contrastar estimaciones basadas
en el modelo con aquellas de juicios aleatorizados, las estimaciones directas son tomadas para
proveer un punto de referencia que surge de menos supuestos que la aproximación
estructural. Hausman y Leonard concluyen que uno de los tres modelos estructurales produce
estimaciones “razonablemente similares” a las estimaciones directas. EN las mismas líneas,
Peters (2006) observa el valor predictivo de los análisis predictivos sobre las fusiones de
aerolíneas, y encuentra que los métodos de simulación estructural arrojan predicciones
mediocres sobre el precio de los boletos posteriores a la fusión. Asimismo, Ashenfelter y
Hosken (2008) comparan estimaciones del tipo diferencias en diferencias de los efectos en las
fusiones de las marcas de cereales a aquellas reportadas por Nevo (2000). Ashenfelter y
Hosken (2008) concluyen en que los resultados basados en el diseño transparentemente
identificados difieren acentuadamente de aquellos producidos por aproximaciones
estructurales.
Un buen modelo estructurado podría decirnos algo sobre los mecanismos económicos,
así también como de los efectos causales. Pero si la información sobre mecanismos vale de
algo, las estimaciones estructurales deberían alinearse con aquellas derivadas de supuestos
más débiles. ¿La nueva estructura empírica de organización industrial genera resultados

12
Como sucede con la mayoría del trabajo empírico, el análisis de Hastings (2004) tiene sus problemas y sus conclusiones pueden
garantizar calificación. Taylor, Kreisle, y Zimmerman (2007) fallan al intentar replicar los descubrimientos de Hastings usando
fuentes alternativas de información. Aquí como en cualquier otro lugar, una aproximación transparente facilita los efectos de
replicación y de crítica constructiva
20
creíbles que se igualan con los resultados basados en el diseño? Hasta ahora, los resultados
parecen bastante mezclados. Desde luego, la pregunta sobre que estimados preferir para
influir en la calidad de los relevantes diseños cuasi-‐experimentales y nuestra fe en la habilidad
de una estructura teórica más elaborada para apoyar un modelo estructural identificado como
débil. Encontramos los resultados empíricos generados por un buen diseño de investigaciones
más convincentes que las conclusiones derivadas de una buena teoría, pero también
esperamos ver a la organización industrial dirigirse hacia estrategias de investigación mas
fuertes y transparentes, en un marco de trabajo estructural.

¿Se ha balanceado demasiado el péndulo del diseño de
investigación?

El ascenso del paradigma experimental ha provocado una reacción, tal como lo hacen
las revoluciones. El primero costo contra revolucionario hace crecer la pregunta sobre la
validez externa -‐la duda sobre si la evidencia de un cierto diseño de investigación experimental
o pseudo-‐experimental tiene poco valor predictivo más allá del contexto del experimento
original. El segundo costo es que los experimentalistas están ocupando roles pequeños
mientras las grandes preguntas siguen sin ser respondidas.

Validez Externa
Un buen diseño de investigación revela una verdad particular, pero no necesariamente
toda la verdad. Por ejemplo, el experimento STAR de Tennessee redujo el tamaño de las clases
de 25 a 15. Cambios de este rango no necesitan revelar el efecto de las reducciones de 40 a 30
estudiantes. De manera similar, los efectos podrían ser únicos en el caso del estado de
Tennessee. La critica aquí – hecha por numero de autores incluyendo a Heckman 1997);
Rosenzweig y Wolpin (2000); Heckman y Urzua (2009); y Deaton (2009)-‐ es que, en la
búsqueda de la validez interna, los estudios basados en el diseño se han vuelto estrechos o
idiosincráticos.
Quizás vale la pena volver a exponer un punto obvio. La evidencia empírica en
cualquier efecto causal dado es siempre loca, derivada de un tiempo, lugar, y diseño de
investigación particular. Invocar un marco de estudio general estructural y superficial no hace
que la variación o ajuste que yace por debajo sea más representativa. La teoría económica
frecuentemente sugiere que los principios generales, excepto por la extrapolación de efectos
causales para los nuevos ajustes es siempre especulativa. Sin embargo, cualquiera que se gana
la vida con el análisis de información probablemente crea que la heterogeneidad es lo
suficientemente limitada para que el bien entendido pasado pueda ser informativo sobre el
futuro.
Una respuesta constructiva sobre la especificidad de un diseño de investigación dado
es buscar más evidencia, para que una imagen más general puede emerger. Por ejemplo, uno
de nosotros (Angrist) ha estimado repetidamente los efectos del servicio militar, con estudios
sobre los veteranos de la Segunda Guerra Mundial, la era de Vietnam, la Primera Guerra del
Golfo, y los periodos entre medio. Las fuerzas acumulativas sobre estos estudios han hecho
algunas afirmaciones sobre la validez externa -‐esto es, que son útiles explicando los efectos del
servicio militar para aquellos que lo cumplieron en cualquier periodo y, por lo tanto, con
21
suerte, para aquellos que pudieran cumplirlo en el futuro. En general, el servicio militar tiende
a hundir las ganancias de los civiles, al menos para los blancos, un descubrimiento que es al
mismo tiempo, empíricamente consistente y teóricamente coherente. El principal canal
teórico por el cual el servicio militar afecta las ganancias es el capital humano, particularmente
en la forma de experiencia civil perdida. En una estructura basada en el diseño, la teoría
económica nos ayuda a entender la imagen que surge de una constelación de descubrimientos
empíricos, pero no nos ayuda a generar una imagen propia. Por ejemplo, la historia del capital
humano no es integral a la validez de la variable instrumental, usando los números de la lotería
como instrumentos para el servicio militar en la era de Vietnam (como en Angrist, 1990). Pero
la teoría del capital humano provee una estructura que se reconcilia con perdidas tempranas
mayores en la carrera de un veterano (cuando los perfiles experimentados tienden a ser más
pronunciados) con perdidas disipadas después de muchos años (como se muestra en Angrist y
Chen, 2008).
El proceso de acumulación de evidencia empírica es raramente atractivo en la
separación, pero la acumulación es la ruta necesaria para que los resultados se vuelvan más
generales (Imbens, 2009, hace alusión a un punto parecido). La literatura sobre el tamaño de
las clases también ilustra este proceso. Estudios razonablemente buen identificados
provenientes de un número de países avanzados, en diferentes niveles y materias, y por
tamaños de clases variados desde pocos estudiantes hasta aproximadamente 40, han
producido estimaciones dentro de una banda remarcablemente estrecha (Krueger, 1999;
Angrist y Lavy, 1999; Rivkin, Hanushek, y Kain, 2005; Heinesen, venidero). A lo largo de estos
estudios, la reducción del tamaño de la clase en 10 estudiantes produce una desviación
estándar de cerca de 0.2 a 0.3 en el incremento de los puntajes en los exámenes. Las clases
más pequeñas no siempre aumentan los puntajes en los exámenes, entonces la estimación de
los descubrimientos debería estar calificada (ver, por ejemplo, Hoxby, 2000). Pero el peso de la
evidencia sugiere que la reducción en el tamaño de las clases genera modestas ganancias en
los logros, a altos costos.
La aplicación de la microeconomía en el campo no es única en la acumulación de
descubrimientos empíricos convincentes. La evidencia del poder de la política monetaria para
influenciar a la macroeconomía también parece razonablemente convincente. Como lo vemos,
de todos modos, la evidencia más persuasiva en este punto no proviene de modelos
estructurales elaborados, que solo nos dicen si la política monetaria afecta o no la salida
dependiendo del modelo, sino de los diseños de investigaciones empíricos creíbles, como
algunos sobre los cuales hemos discutido en este trabajo. No sorprendentemente, los canales
por los cuales la política monetaria afecta las salidas son menos claros que los descubrimientos
que sugieren que hay un efecto. Las preguntas sobre por qué un efecto dado aparece son
usualmente más difíciles de responder que las preguntas sobre si un efecto aparece o que tan
grande es. Como la mayoría de los investigadores, tenemos un interés en los mecanismos, así
como también, en los efectos causales. Pero la evidencia inconclusa o incompleta sobre los
mecanismos no vacía la evidencia empírica de valor predictivo. Este punto ha sido entendido
desde hace mucho tiempo por la medicina, donde la evidencia clínica de la efectividad de una
terapia ha corrido por siglos con mas ventaja que el entendimiento teórico de la enfermedad.

¿Sacando lo “Econs” también fuera de la econometría?
22
Relacionada a la crítica de la validez externa también está la afirmación que asegura
que el paradigma experimental lleva a los investigadores a buscar buenos experimentos, sin
importar si las preguntas que abortan son importantes. En un cautivador reporte en The New
Republic, Scheiber (2007) argumenta que los economistas jóvenes se han alejado de las
preguntas importantes como la pobreza, inequidad, y desempleo para estudiar el
comportamiento en los programas de televisión de entretenimiento. Scheiber cita a un
número de economistas distinguidos en el ámbito académico que comparten esta
preocupación. Raj Chetty comenta: “La gente piensa sobre la pregunta más que sobre el
método… es así como se obtienen papers extraños, como sobre las instalaciones sanitarias en
las reservas Nativo Americanas” James Heckman es menos diplomático: “En algunos distritos
de nuestra profesión, el nivel de discusión se ha hundido al nivel de un artículo del New
Yorker.”
No hay un atajo para la trivialidad académica. Aun así, la crítica de Sheiber (2007)
pierde el punto porque él iguala la trivialidad con la angostura del contexto. Por ejemplo, el
critica a DellaVigna y Malmendier (2006), quienes observan la asistencia y renovación de
decisiones de miembros de un club de salud, y a Conlin, O’Donoghue, y Vogelsang (2007),
quienes estudian las ventas por catalogo de ropa de invierno. Ambos estudios están
preocupados con la noción económica de la inclinación por el comportamiento orientado hacia
el presente, un asunto con implicaciones de alto alcance para la política y teoría económica. El
mercado para las botas de nieve parece no menos interesante, en este contexto, que el
mercado minorista de cualquier otro producto, y quizás hasta más interesante si la data es
especialmente buena. Podemos observar estos estudios basados en el diseño para validar los
descubrimientos del trabajo empírico más descriptivo aplicado en ítems con precios más altos.
Por ejemplo, DellaVigna y Paserman (2005) observan la inclinación orientada hacia el presente
en el comportamiento a la hora de buscar un empleo.
En el universo empírico, la evidencia se acumula a través de las configuraciones y
diseños de estudio, produciendo al final algún tipo de consenso. Las apuestas pequeñas a
veces ganan grandes jugadas. En nuestro campo, algunos de los mejores diseños de
investigación, usados para estimar la elasticidad en la oferta de trabajo y como explota de
manera natural e inducida por el experimentador en mercados de trabajo específicos. Oetinger
(1999) analiza el estado del comerciante y su reacción a los cambios en los salarios
ocasionados por el cambio en la asistencia, mientras que Fehr y Goette (2007) estudian a los
mensajeros en bicicleta de Zurich quienes, en un experimento controlado, recibieron tasas de
comisión mayores por solo un mes. Estas ocupaciones pueden parecer pequeñas y
especializadas, pero no son menos representativas del mercado laboral contemporáneo que
aquellas en el sector manufacturero, que ha sido de interés para la economía laboral por un
largo periodo.
Estos ejemplos también sirven para refutar la afirmación que asegura que el trabajo
empírico basado en el diseño se enfoca en los efectos estrechos y no puede descubrir los
parámetros teóricos estructurales de los que muchos economistas se ocupan. Los estudios
sobre la oferta de empleo cuasi-‐experimentales como los de Oettinger (1999) y Ferh y Goette
(2007) intentan medir la elasticidad de sustitución Inter temporal, como un parámetro
estructural que puede derivar de una estructura dinámica estocástica. La elasticidad de la
demanda de trabajo, estructurada de manera similar, también puede ser estimada usando
23
cuasi-‐experimentos, como en Card (1990b), quien explota la variación del salario real generada
por la indexación parcial de los contratos de las uniones.
El trabajo empírico cuasi-‐experimental también se ajusta bien a la tarea de contrastar
hipótesis económicamente competitivas. Las investigaciones de la inclinación orientada hacia
el presente, mencionada más arriba, se enfoca en las implicaciones claves de los modelos
alternativos. En un estudio similar motivado por la teoría, Karlan y Zinman (2009) intentan
distinguir los peligros morales de la selección adversa en el mercado crediticio para los
consumidores usando un diseño ingenioso que incluye aleatorización en dos pasos. Primero, a
los potenciales solicitantes se les ofrece diferentes tasas de interés antes de que apliquen para
obtener los préstamos. Su respuesta inicial a la variación en las tasas de interés es usada para
medir la selección adversa. A algunos de los clientes que tomaron los prestamos, luego les
fueron dadas tasas de interés menores a las tasas ofrecidas al principio. Esta variación es usada
para identificar los peligros morales en una muestra cuando todos ya se han comprometido a
tomar el préstamo.
¿Pero que hay sobre las preguntas más grandes que afectan a todo el mundo o el
curso de la historia? Nunn (200) usa un amplio rango de evidencia histórica, incluyendo las
distancias de navegación en las rutas de comercio, para estimar los efectos a largo plazo del
tráfico de esclavos africanos. Deschënes y Greenstone (2007) usan fluctuaciones aleatorias en
la temperatura que varían año a año para estimar los efectos del cambio climático en el uso
energético y la mortalidad. En un estudio de los efectos de la ayuda internacional en el
crecimiento, Raja y Subramanian (2008) construyen instrumentos para la ayuda económica
internacional a partir de los orígenes de la relación donante-‐receptor. Estos ejemplos y muchos
más hablan elocuentemente de la amplia aplicación de la aproximación basada en el diseño. El
buen diseño de investigación complementa a las buenas preguntas. Al mismo tiempo, a favor
de los estudios que incluyen buenos diseños, aceptamos una aproximación incremental hacia
el conocimiento empírico en el cual los estudios bien diseñados tienen mayor peso, mientras
que otra evidencia es tratada de manera más previsional.

Conclusión

Leamer (1983) trazó una analogía entre la econometría aplicada y la experimentación
clásica, pero su propuesta de acercarlas mediante el uso de análisis de límites extremos no es
la razón principal por la cual el trabajo empírico en la economía ha mejorado. La mejora surge,
mayormente, de mejores diseños de investigación, ya sea por la virtud de la experimentación
directa o a través de la implementación cuidadosa y bien fundada de los métodos cuasi-‐
experimentales. El trabajo empírico de este espíritu ha producido una revolución en la
credibilidad en los campos del empleo, las finanzas públicas, y el desarrollo de la economía
durante los últimos 20 años. Los revolucionarios basados en el diseño han alcanzado varios
éxitos, poniendo números complejos en los parámetros de interés, tanto para hacedores de
políticas como para los economistas teóricos. Imaginen que podría ser aprendido si una ola
similar se extendiera por los campos de la macroeconomía y la organización industrial.
24

Angrist y Pischke 2010 - Español

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Angrist y Pischke 2010 - Español

Cargado por

Copyright:

Formatos disponibles

La Revolución de la Credibilidad en Economía

También podría gustarte