Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
Poco
más
de
un
cuarto
de
siglo
atrás,
Edward
Leamer
(1983)
reflexionó
en
el
estado
del
trabajo
empírico
en
economía.
Instó
a
los
investigadores
empíricos
a
“eliminar
el
inconveniente
de
la
econometría”
y
memorablemente
observó
(p.
37):
“difícilmente
alguien
toma
un
análisis
de
datos
ajeno
en
serio.”
Leamer
no
estaba
solo;
Hendry
(1980),
Sims
(1980),
y
escritos
de
otros
de
la
época
eran
similarmente
despectivos
de
la
práctica
empírica.
Leyendo
estos
comentarios
como
estudiantes
de
doctorado
de
finales
de
los
80,
nos
preguntamos
acerca
de
las
expectativas
para
una
carrera
satisfactoria
haciendo
trabajo
aplicado.
Quizás
el
trabajo
empírico
en
economía
sea
una
utopía.
Aquí
tratamos
las
cuestiones
de
si
la
calidad
y
la
credibilidad
del
trabajo
empírico
han
aumentado
desde
la
evaluación
pesimista
de
Leamer.
Nuestros
puntos
de
vista
están
necesariamente
influenciados
por
las
áreas
de
microeconomía
aplicada
en
las
que
estamos
activos,
pero
también
analizaremos
otras
áreas.
Leamer
(1983)
diagnosticó
el
trabajo
empírico
de
sus
contemporáneos
de
sufrir
una
angustiante
falta
de
robustez
para
cambios
en
supuestos
clave
–
supuestos
que
llamó
“caprichosos”
ya
que
uno
se
veía
tan
bueno
como
otro.
El
remedio
que
propuso
fue
análisis
sensitivo,
en
el
cual
los
investigadores
muestran
cómo
sus
resultados
varían
con
cambios
en
especificación
o
forma
funcional.
La
crítica
de
Leamer
tuvo
una
refrescante
naturalidad
reveladora
que
disfrutamos
tras
una
primera
lectura
y
aún
apreciamos
hoy.
Pero
estamos
felices
de
informar
que
el
reclamo
de
Leamer
que
“difícilmente
alguien
toma
un
análisis
de
datos
ajeno
en
serio”
ya
no
se
encuentra
justificado.
La
microeconomía
empírica
ha
experimentado
una
revolución
de
credibilidad,
con
un
consecuente
aumento
en
relevancia
política
e
impacto
científico.
El
análisis
sensitivo
jugó
un
rol
en
esto,
pero
tal
como
lo
vemos,
la
principal
fuerza
impulsora
fue
una
concentración
en
la
calidad
de
los
diseños
de
investigación
empírica.
Éste
énfasis
en
diseño
de
investigación
está
en
el
espíritu
de
la
crítica
de
Leamer,
pero
no
se
encuentra
en
su
solución.
Las
ventajas
de
un
buen
diseño
de
investigación
son
tal
vez
más
fáciles
de
notar
en
la
investigación
a
través
de
asignación
al
azar,
lo
cual
no
casualmente
incluye
algunos
de
los
estudios
microeconómicos
más
influyentes
publicados
en
años
recientes.
Por
ejemplo,
en
un
esfuerzo
pionero
para
mejorar
el
bienestar
infantil,
el
programa
Progresa
en
México
ofrecía
transferencias
de
dinero
a
madres
seleccionadas
aleatoriamente,
supeditados
a
participación
en
cuidado
prenatal,
monitoreo
nutricional
infantil,
y
la
asistencia
escolar
regular
(Gertler,
2004,
y
Schultz,
2004,
presentan
algunos
de
los
hallazgos
principales).
En
palabras
de
Paul
Gertler,
uno
de
los
investigadores
originales
(citado
en
Ayres,
2007,
p.
86),
“Progresa
es
la
razón
por
la
que
actualmente
treinta
países
en
todo
el
mundo
tienen
programas
de
transferencia
monetaria.”
Progresa
es
emblemático
de
una
ola
de
políticas
de
asignación
aleatoria
recorriendo
economías
del
desarrollo
(Duflo
y
Kremer,
2008,
ofrecen
un
resumen).
Más
cerca
de
casa,
el
programa
Moving
to
Opportunity
(mudándose
a
la
oportunidad),
llevado
a
cabo
por
el
Departamento
de
Vivienda
y
Desarrollo
Urbano
de
Estados
Unidos,
seleccionó
aleatoriamente
familias
de
bajo
ingreso
en
Baltimore,
Boston,
Chicago,
Los
Ángeles,
y
Nueva
York
para
ofrecerles
bonos
de
vivienda
específicamente
limitados
a
zonas
de
baja
pobreza
(Kling,
Liebman,
y
Katz,
2007).
El
programa
produjo
sorpresiva
e
influyente
evidencia
contra
la
visión
de
que
los
efectos
del
vecindario
son
un
determinante
primario
en
los
bajos
ingresos
de
los
residentes
de
barrios
pobres.
Parámetros
econométricos
estructurales,
tales
como
la
elasticidad
de
sustitución
intertemporal
(una
elasticidad
de
oferta
laboral
que
mide
la
respuesta
a
cambios
transitorios
2
en
el
salario),
han
sido
también
el
foco
de
experimentos
aleatorios.
Por
ejemplo,
Fehr
y
Goette
(2007)
distribuyeron
aleatoriamente
el
pago
de
mensajeros
en
bicicleta,
ofreciendo
a
un
grupo
y
luego
a
otro
un
incremento
temporal
en
el
sueldo.
Este
estudio
ingeniosamente
diseñado
muestra
cómo
los
salarios
afectan
la
oferta
laboral
en
un
ambiente
donde
la
riqueza
a
lo
largo
de
la
vida
no
se
ve
modificada.
El
resultado
es
dramático
y
convincente:
manteniendo
la
riqueza
constante,
los
trabajadores
cambian
horarios
a
períodos
de
alto
salario,
con
una
elasticidad
de
sustitución
intertemporal
implícita
cercana
a
la
unidad.
Tales
estudios
ofrecen
un
método
poderoso
para
derivar
resultados
que
son
defendibles
tanto
en
una
sala
de
seminarios
como
en
una
audiencia
legislativa.
Pero
los
experimentos
son
prolongados,
costosos,
y
pueden
no
siempre
ser
prácticos.
Es
difícil
imaginarse
una
prueba
al
azar
para
evaluar
el
efecto
de
inmigraciones
en
la
economía
del
país
anfitrión.
De
cualquier
forma,
instituciones
humanas
o
la
fuerza
de
la
naturaleza
pueden
saltar
esta
brecha
con
cuasi
experimentos
(o
naturales
informativos).
Por
ejemplo,
en
una
publicación
destacada,
Card
(1990)
utilizó
el
Éxodo
del
Mariel
de
Cuba
a
Florida,
cuando
los
emigrantes
cubanos
aumentaron
la
fuerza
laboral
de
Miami
en
aproximadamente
un
7
por
ciento
en
un
período
de
tres
meses,
como
un
experimento
natural
para
estudiar
la
inmigración.
Más
recientemente,
emparejando
con
la
agenda
de
investigación
experimental
de
Moving
to
Opportunity,
Jacob
(2004)
estudió
los
efectos
causales
de
viviendas
públicas
en
residentes
de
proyectos
de
viviendas
al
aprovechar
el
hecho
de
que
la
demolición
de
viviendas
públicas
en
Chicago
estaba
planeada
de
forma
tal
que
no
guardaba
relación
con
las
características
de
los
proyectos
y
sus
habitantes.
Como
los
resultados
de
las
pruebas
aleatorias,
los
hallazgos
en
cuasi-‐experimentos
han
filtrado
rápidamente
en
discusiones
políticas
y
se
volvieron
parte
de
un
constructivo
intercambio
de
ideas
entre
el
mundo
real
y
la
torre
de
marfil,
por
lo
menos
cuando
se
trata
de
microeconomía
aplicada.
El
progreso
fue
más
lento
en
la
macro
empírica,
pero
una
pizca
de
trabajo
empírico
basado
en
el
diseño
parece
estar
generando
un
limitado,
aunque
útil
consenso
en
principales
preocupaciones,
tales
como
el
efecto
causal
de
la
política
monetaria
en
la
inflación
y
producción.
De
forma
alentadora,
la
crisis
financiera
reciente
ha
estimulado
un
esfuerzo
en
producir
evidencia
fiable
en
asuntos
de
banca.
Como
en
la
mayoría
de
las
disciplinas
(si
bien
la
organización
industrial
aparenta
ser
una
excepción,
que
luego
discutiremos),
los
economistas
aplicados
son
hoy
menos
propensos
a
asociar
la
interpretación
causal
de
los
resultados
con
únicamente
la
metodología
econométrica.
Estudios
basados
en
el
diseño
son
distinguidos
por
su
credibilidad
a
primera
vista
y
por
la
atención
que
los
investigadores
dedican
en
producir
tanto
un
caso
institucional
como
uno
basado
en
datos
para
la
causalidad.
Explicar
los
orígenes
de
la
revolución
de
la
credibilidad
en
economía
empírica
es
como
intentar
trazar
la
fecha
de
nacimiento
del
rock
and
roll.
Las
primeras
influencias
son
numerosas,
y
cada
fan
tiene
una
historia.
Pero
desde
las
fundaciones
de
la
economía
laboral
empírica,
vemos
un
importante
ímpetu
por
mejores
diseños
y
más
pruebas
distribuidas
aleatoriamente
procedentes
de
estudios
cuestionando
la
confiabilidad
de
evaluaciones
econométricas
de
los
programas
de
entrenamiento
de
gobierno
subsidiados.
Un
punto
de
referencia
aquí
es
Lalonde
(1986),
que
comparó
los
resultados
de
una
evaluación
econométrica
del
National
Supported
Work
(Trabajo
Apoyado
Nacional)
con
aquellos
de
una
prueba
randomizada.
Los
resultados
econométricos
típicamente
difirieron
considerablemente
de
aquellos
que
utilizaban
una
asignación
aleatoria.
Lalonde
argumentó
que
hay
pocos
3
motivos
para
creer
que
las
comparaciones
estadísticas
de
modelos
alternativos
(ensayos
de
requisitos)
llevarían
a
un
investigador
en
la
dirección
indicada.
Dos
estudios
observacionales
de
efectos
de
entrenamiento
presagiaron
los
resultados
de
Lalonde:
Ashenfelter
(1978)
y
Ashenfelter
y
Card
(1985),
utilizando
datos
longitudinales
para
evaluar
programas
de
entrenamiento
federales
sin
el
beneficio
de
un
diseño
de
investigación
cuasi-‐experimental,
encontraron
dificultades
para
construir
estimaciones
con
robustez
de
especificaciones.
Ashenfelter
(1987)
concluyó
que
las
pruebas
aleatorias
son
el
camino
a
seguir.
Empiristas
más
jóvenes
también
comenzaron
a
inclinarse
cada
vez
más
por
diseños
cuasi-‐experimentales,
frecuentemente
aprovechando
la
variación
sobre
los
estados
de
EE.
UU.
Para
conseguir
relaciones
causales
en
las
áreas
del
trabajo
y
las
finanzas
públicas.
Un
ejemplo
temprano
de
la
obra
en
este
espíritu
es
Solon
(1985),
que
estimó
los
efectos
del
seguro
de
desempleo
en
la
duración
del
desempleo
mediante
comparaciones
en
las
tasas
de
búsqueda
de
empleo
en
estados
que
recientemente
ajustaron
los
criterios
de
elegibilidad
para
el
seguro
de
desempleo,
con
el
cambio
en
las
tasas
en
los
estados
que
no
cambiaron
sus
reglas.
El
estudio
influyente
de
Gruber
(1994)
de
la
incidencia
de
los
beneficios
de
la
maternidad
obligatorios
aplica
una
idea
similar
al
asunto
de
finanza
pública.
Angrist
(1990)
y
Angrist
y
Krueger
(1991)
ilustraron
el
valor
de
las
estrategias
de
identificación
de
variables
instrumentales
en
estudios
de
los
efectos
del
servicio
militar
de
la
era
de
Vietnam
y
la
escolarización
en
los
ingresos.
La
medición
metodológica
de
Meyer
(1995)
hizo
dar
cuenta
a
muchos
microeconomistas
aplicados
de
la
tradición
cuasi-‐experimental
encarnada
en
venerables
textos
sobre
métodos
de
investigación
de
ciencia
social
de
Campbell
y
Stanley
(1963)
y
Cook
y
Campbell
(1979).
Estos
textos,
que
enfatizan
el
diseño
de
investigación
y
las
amenazas
a
la
validez,
eran
bien
conocidos
en
algunas
disciplinas,
pero
claramente
por
fuera
del
canon
econométrico.
1
En
este
ensayo,
argumentamos
que
un
foco
transparente
en
diseño
de
investigación
está
en
el
centro
de
la
revolución
de
la
credibilidad
en
economía
empírica.
Comenzamos
con
un
resumen
de
la
crítica
de
Leamer
(1983)
y
sus
soluciones
planteadas,
basadas
en
ejemplos
concretos
de
esa
época.
Entonces
pasamos
a
los
factores
principales
que
observamos
que
contribuyen
a
una
labor
empírica
mejorada,
incluyendo
la
disponibilidad
de
más
y
mejores
datos,
junto
a
avances
en
entendimiento
de
econometría
teórica,
pero
especialmente
el
hecho
de
que
el
diseño
de
investigación
pasó
a
una
posición
de
privilegio
en
gran
parte
de
la
micro
empírica.
Ofrecemos
una
breve
digresión
hacia
macroeconomía
y
organización
industrial,
donde
el
progreso
-‐por
nuestros
puntos
de
vista-‐
es
menos
dramático,
aunque
hay
trabajos
en
ambos
campos
que
nos
parecen
alentadores.
Finalmente,
discutiremos
la
visión
de
que
el
péndulo
del
diseño
osciló
demasiado.
Críticos
de
los
estudios
impulsados
por
diseño
argumentan
que,
en
búsqueda
de
diseños
claros
y
creíbles,
los
investigadores
buscan
buenas
respuestas
en
lugar
de
buenas
preguntas.
Brevemente
respondemos
a
este
asunto,
que
no
nos
resulta
preocupante.
La
crítica
de
Leamer
y
sus
soluciones
propuestas
1
Muchos
de
los
estudios
aplicados
mencionados
anteriormente
han
sido
sujeto
de
críticas
re-‐examinaciones.
Este
ida
y
vuelta
ha
sido
mayormente
constructivo.
Por
ejemplo,
en
un
escrito
destacado
que
generó
trabajo
de
amplio
espectro,
Bound,
Jaeger,
y
Baker
(1995)
argumentan
que
el
uso
de
variables
instrumentales
débiles
sesga
alguna
de
las
estimaciones
reportadas
en
Angrist
y
Krueger
(1991).
Para
una
discusión
reciente
de
problemas
de
instrumentos
débiles,
ver
nuestro
libro
Angrist
y
Pischke
(2009).
4
Regresiones
primitivas
y
análisis
de
límites
extremos
Leamer
(1983)
presentó
pruebas
aleatorizadas
-‐
una
evaluación
aleatorizada
de
un
fertilizador,
para
ser
específico
–
como
un
diseño
de
investigación
ideal.
Él
también
argumentó
que
los
experimentos
distribuidos
aleatoriamente
diferían
únicamente
en
grado
de
las
evaluaciones
no
experimentales
de
efectos
causales,
siendo
la
diferencia
la
extensión
a
la
cual
podemos
ser
confidentes
de
que
la
variable
causal
de
interés
es
independiente
de
factores
perturbadores.
No
podríamos
estar
más
de
acuerdo.
De
cualquier
forma,
Leamer
sugirió
que
la
mejor
forma
de
usar
datos
no
experimentales
para
aproximarse
al
ideal
experimental
es
explorar
la
fragilidad
de
los
cálculos
no
experimentales.
Leamer
no
propuso
hacer
pruebas
aleatorizadas
o,
de
hecho,
buscar
experimentos
naturales
creíbles.
El
principal
objetivo
del
ensayo
de
Leamer
(1983)
era
el
análisis
primitivo
de
regresión.
En
realidad,
ninguna
de
las
figuras
centrales
en
el
debate
inspirado
por
Leamer
tuvo
mucho
que
opinar
sobre
el
diseño
de
investigación.
Más
bien,
estos
autores
(como
McAleer,
Pagan,
y
Volker,
1985,
y
Cooley
y
LeRoy,
1986,
entre
otros)
parecen
haber
aceptado
los
límites
de
la
práctica
econométrica
establecida,
quizás
porque
primariamente
estaban
interesados
en
abordar
cuestiones
de
macroeconomía
tradicional
utilizando
datos
de
series
de
tiempo.
Luego
de
hacer
el
supuesto
tácito
que
los
experimentos
útiles
son
un
ideal
inalcanzable,
Leamer
(1983,
pero
ver
también
1978,
1985)
propuso
que
la
naturaleza
extravagante
de
los
supuestos
clave
en
el
análisis
de
regresión
sea
confrontada
frontalmente
a
través
de
un
proceso
de
análisis
se
sensibilidad.
Sims
(1988)
también
respaldó
esta
idea.
El
amplio
concepto
de
análisis
de
sensibilidad
incluye
una
explícita
agenda
Bayesiana.
Reconociendo
las
severas
demandas
de
la
ortodoxia
Bayesiana,
tales
como
la
especificación
formal
de
precedentes
y
su
incorporación
en
un
elaborado
marco
multivariado,
Leamer
también
alegó
por
un
acercamiento
más
ad
hoc
pero
intuitivo
llamado
“análisis
de
límites
extremos.”
En
pocas
palabras,
el
análisis
de
límites
extremos
equivale
a
la
estimación
de
regresiones
con
muchos
sets
diferentes
de
co-‐variantes
incluidas
como
controles;
los
practicantes
de
este
enfoque
deben
informar
un
rango
de
estimaciones
para
el
parámetro
objetivo.
El
efecto
disuasivo
de
la
pena
de
muerte
Simpatizamos
con
la
visión
de
Leamer
(1983)
de
que
gran
parte
de
la
econometría
aplicada
de
los
70
y
principio
de
los
80
carecían
de
credibilidad.
Parar
mostrar
su
punto
de
vista,
e
ilustrar
el
valor
del
análisis
de
límites
extremos,
Leamer
eligió
investigar
si
la
pena
capital
desalienta
el
asesinato.
Este
asunto
fue
analizado
en
una
serie
de
publicaciones
influyentes
por
Isaac
Ehrlich,
uno
aprovechando
variaciones
en
series
de
tiempo
(Ehrlich,
1975a)
y
uno
usando
muestras
representativas
de
estados
(Ehrlich,
1977b).
Ehrlich
concluyó
que
la
pena
de
muerte
tenía
un
efecto
disuasorio
sustancial.
Leamer
(1983)
no
intentó
replicar
la
labor
de
Ehrlich,
sino
que
observó
en
una
investigación
de
series
de
tiempo
independientes
sobre
la
hipótesis
de
disuasión
utilizando
análisis
de
límites
extremos,
contundentemente
sosteniendo
que
la
evidencia
por
disuasión
es
frágil
en
el
mejor
de
los
casos
(a
pesar
de
que
Ehrlich
y
Liu,
1999,
disputaron
esto).
Es
complicado
exagerar
la
atención
que
este
tópico
atrajo
en
su
momento.
La
decisión
de
la
Suprema
Corte
de
EE.
UU.
en
Furman
v.
Georgia
(408
EE.
UU.
153
[1972])
creó
una
moratoria
de
facto
en
la
pena
capital.
Esta
moratoria
permaneció
hasta
Gregg
v.
Georgia
(428
EE.
UU.
153
[1976]),
en
ese
entonces
la
corte
suprema
decidió
que
la
pena
de
muerte
podría
5
ser
admisible
si
los
juicios
capitales
fueran
bifurcados
en
fases
separadas
de
culpa-‐inocencia
y
sentencia.
Gary
Gilmore
fue
ejecutado
poco
tiempo
después,
en
enero
de
1977.
Parte
del
caso
intelectual
para
la
restauración
de
la
pena
capital
fue
el
efecto
disuasivo
(contra
un
trasfondo
de
altas
y
crecientes
tasas
de
homicidio
en
ese
momento).
De
hecho,
la
Suprema
Corte
de
los
EE.
UU.
citó
la
publicación
de
Ehrlich
(1975a)
en
su
decisión
para
Gregg
v.
Georgia,
restableciendo
la
pena
capital.
El
trabajo
de
Ehrlich
fue
duramente
criticado
por
varios
contemporáneos
en
adición
a
Leamer,
como
Bowers
y
Pierce
(1975)
y
Passell
y
Taylor
(1977).
Los
resultados
de
Ehrlich
parecen
ser
sensibles
a
modificaciones
en
forma
funcional,
inclusión
de
controles
adicionales,
y
especialmente
a
cambios
en
muestreo.
Específicamente,
su
hallazgo
de
un
efecto
disuasorio
parecía
depender
en
observaciones
de
los
años
60.
Los
críticos
alegaron
que
el
aumento
en
tasas
de
homicidio
en
los
años
60
puede
haber
sido
determinado
por
otros
factores
además
de
la
intensa
baja
en
el
número
de
ejecuciones
durante
este
período.
Ehrlich
(1975b,
1977a)
disputó
las
declaraciones
de
los
críticos
sobre
la
forma
funcional
y
argumentó
que
la
década
de
1960
dio
una
variante
útil
sobre
las
ejecuciones
que
debía
ser
retenida.
Los
críticos
contemporáneos
de
Ehrlich
fracasaron
en
dar
con
lo
que
nosotros
pensamos
como
la
falla
más
obvia
del
análisis
de
Ehrlich.
Como
otros
investigadores
estudiando
efectos
disuasivos,
Ehrlich
reconoció
que
el
nivel
de
la
tasa
de
homicidios
podía
afectar
el
número
de
ejecuciones
y
viceversa
y
que
sus
resultados
podían
estar
sesgados
por
variables
omitidas
(especialmente
variables
con
una
fuerte
tendencia
o
peso).
Ehrlich
intentó
identificar
problemas
de
causalidad
inversa
y
sesgo
de
variables
omitidas
al
utilizar
variables
instrumentales
en
un
procedimiento
de
mínimos
cuadrados
en
dos
etapas.
Trató
las
probabilidades
de
arresto,
condena,
y
ejecución
como
endógenas
en
una
configuración
de
ecuaciones
simultáneas.
Sus
variables
instrumentales
fueron
gastos
retrasados
en
vigilancia
policial,
gasto
público
total,
y
la
fracción
de
población
no
blanca.
Pero
Ehrlich
no
explicó
por
qué
estos
son
buenos
instrumentos,
o
incluso
cómo
y
por
qué
estas
variables
están
correlacionadas
con
las
variables
endógenas
de
la
parte
derecha.2
El
trabajo
de
Ehrlich
en
la
pena
capital
parece
típico
del
período
sobre
el
que
Leamer
(1983)
escribía.
La
mayoría
de
los
estudios
de
su
tiempo
utilizaron
muestras
de
series
de
tiempo
bastantes
breves
con
fuertes
tendencias
comunes
tanto
para
variables
dependientes
e
independientes.
El
uso
del
panel
de
datos
para
controlar
el
año
y
efectos
fijos
-‐
hasta
paneles
de
estados
de
EE.UU.-‐
era
todavía
raro.
El
uso
de
variables
instrumentales
para
descubrir
relaciones
causales
era
típicamente
mecánico,
con
poca
discusión
sobre
la
razón
por
la
que
los
instrumentos
afectaban
las
variables
endógenas
de
interés
o
por
qué
constituían
un
“buen
experimento”.
De
hecho,
Ehrlich
estaba
por
delante
de
varios
de
sus
contemporáneos
en
que
el
reconocía
la
necesidad
de
algo
más
que
análisis
de
regresión
ingenuo.
En
nuestra
opinión,
el
principal
problema
con
el
trabajo
de
Ehrlich
fue
la
falta
de
un
diseño
de
investigación
creíble.
Específicamente,
falló
en
aislar
una
fuente
de
variación
en
las
tasas
de
ejecución
que
probablemente
revele
efectos
causales
en
las
tasas
de
homicidio.
La
función
de
producción
en
la
educación
Otros
ejemplos
de
diseños
de
investigación
deficientes
de
este
período
provienen
de
la
literatura
en
producción
educativa.
Esta
literatura
(encuestada
en
Hanushek,
1986)
se
interesa
2
El
posterior
análisis
entre
estados
de
Ehrlich
(1977b)
no
utilizó
mínimos
cuadrados
en
dos
etapas.
En
trabajos
posteriores,
Ehrlich
(1987,
1996)
discutió
su
elección
de
instrumentos
y
los
problemas
de
identificación
asociados
con
mayor
profundidad.
6
por
los
efectos
causales
de
los
costos
escolares,
tales
como
tamaño
de
clase
o
gasto
por
alumno,
en
el
rendimiento
estudiantil.
El
estudio
sistemático
cuantitativo
de
costos
escolares
nació
con
el
reporte
de
Coleman
et
al.
(1996),
el
cual
(entre
otras
cosas)
usó
técnicas
de
regresión
para
examinar
la
proporción
de
variación
en
producción
estudiantil
que
puede
ser
representada
a
través
de
un
R2
(coeficiente
de
determinación)
por
la
variación
en
costos
escolares.
Para
sorpresa
de
muchos
en
ese
momento,
el
informe
de
Coleman
halló
solamente
una
asociación
débil
entre
costos
escolares
y
rendimiento
académico.
Varios
estudios
posteriores
basados
en
regresiones
replicaron
este
hallazgo.
El
Informe
Coleman
fue
una
de
las
primeras
investigaciones
en
producción
educativa
en
una
gran
muestra
representativa.
Es
también
distinguido
por
análisis
sensitivo,
ya
que
discute
los
resultados
de
muchas
especificaciones
(con
y
sin
controles
de
contexto
familiar,
por
ejemplo).
El
problema
con
el
Informe
Coleman
y
muchos
de
los
estudios
que
continuaron
en
este
formato
es
que
no
pudieron
separar
variación
en
costos
de
variables
de
confusión
en
estudiantes,
escuela,
o
características
de
la
comunidad.
Por
ejemplo,
un
descubrimiento
común
en
la
literatura
de
producción
educativa
es
que
los
niños
en
clases
más
reducidas
tienden
a
tener
peores
resultados
en
exámenes
estandarizados,
aún
luego
de
controlar
a
través
de
variables
demográficas.
Este
hallazgo
aparentemente
perverso
parece
ocurrir
en
parte
debido
al
hecho
de
que
los
niños
con
dificultades
son
agrupados
en
clases
más
pequeñas.
Igualmente,
la
relación
entre
el
gasto
escolar
y
el
rendimiento
es
confusa
ya
que
el
gasto
es
frecuentemente
más
alto
en
una
mezcla
de
distritos
ricos
y
grandes
áreas
urbanas
con
estudiantes
minoritarios
con
dificultades.
En
resumen,
estas
regresiones
padecen
de
problemas
de
causalidad
inversa
y
sesgo
de
variables
omitidas.
Muchos
estudios
de
producción
educativa
de
este
período
también
ignoran
el
hecho
de
que
gastos
como
el
tamaño
de
clase
y
el
costo
por
alumno
están
intrínsecamente
vinculados.
Ya
que
tener
clases
más
pequeñas
no
es
factible
sin
tener
un
mayor
gasto
en
profesores,
tiene
poco
sentido
tratar
el
gasto
total
(incluyendo
salario
docente)
como
una
variable
de
control
al
estimar
el
efecto
causal
del
tamaño
de
clase
(según
observa
Krueger,
2003).
Finalmente,
el
hecho
de
que
los
primeros
autores
en
producción
educativa
exploraron
numerosos
modelos
alternativos
no
fue
necesariamente
una
ventaja.
En
lo
que
fue
probablemente
uno
de
los
mejores
estudios
del
período,
Summers
y
Wolfe
(1977)
solamente
presentan
los
resultados
finales
de
una
exhaustiva
búsqueda
de
especificación
en
su
evaluación
del
efecto
que
tienen
los
recursos
escolares
en
el
rendimiento
académico.
A
su
crédito,
Summers
y
Wolfe
(1977)
describen
el
algoritmo
que
produjo
los
resultados
que
eligieron
para
presentar,
y
francamente
advierten
(p.
642)
que
“los
datos
han
sido
minados,
obviamente”.
Como
nosotros
lo
vemos,
sin
embargo,
la
principal
cuestión
con
esta
literatura
no
es
la
minería
de
datos,
sino
la
débil
base
para
una
interpretación
causal
de
cualquier
especificación
que
los
autores
hayan
favorecido.
Otros
trabajos
empíricos
en
la
era
del
heavy
metal
La
década
de
1970
y
principios
de
los
80
crecieron
rápidamente
en
tamaño
de
computadoras
centrales
y
potencia.
Stata
aún
no
había
aparecido,
pero
los
técnicos
de
cinta
magnética
lograban
procesar
cada
vez
más
números
de
formas
crecientemente
elaboradas.
No
obstante,
en
su
mayoría,
la
potencia
de
cómputo
aumentada
no
produjo
cálculos
más
creíbles.
Por
ejemplo,
el
uso
de
pruebas
randomizadas
y
cuasi-‐experimentos
para
estudiar
la
7
producción
educativa
fue
raro
hasta
recientemente
(un
historial
trazado
en
Angrist,
2004).
Otras
áreas
de
ciencia
social
observaron
aislados,
aunque
ambiciosos
esfuerzos
para
encontrar
relaciones
económicas
esenciales
utilizando
asignación
aleatoria.
Un
hecho
positivo
fue
la
Experiencia
en
Seguros
de
Salud
RAND
(Investigación
y
Desarrollo),
iniciado
en
1974
(Manning,
Newhouse,
Duan,
Keeler,
y
Leibowitz,
1987).
Este
experimento
observó
los
efectos
de
copagos
y
deducibles
en
el
uso
de
asistencia
sanitaria
y
resultados.
Desafortunadamente,
muchos
de
los
más
ambiciosos
(y
caros)
experimentos
sociales
tenían
defectos
graves:
los
Experimentos
de
Mantenimiento
del
Ingreso
Gary
y
Seattle/Denver,
en
los
cuales
el
gobierno
comparó
planes
de
subsidio
modelados
en
la
idea
de
Milton
Friedman
del
impuesto
negativo
sobre
la
renta,
se
vieron
comprometidos
por
desgaste
de
la
muestra
y
desinformación
de
los
ingresos
sistemáticos
(Ashenfelter
y
Plant,
1990;
Greenberg
y
Halsey,
1983).
Este
hecho
apoya
el
argumento
de
Leamer
(1983)
de
que
la
diferencia
entre
un
ensayo
aleatorizado
y
un
estudio
observacional
es
de
grado.
Ciertamente,
seríamos
los
primeros
en
admitir
que
un
estudio
observacional
bien
realizado
puede
ser
más
creíble
y
persuasivo
que
un
ensayo
aleatorizado
mal
ejecutado.
También
había
mucho
para
protestar
en
macroeconomía
empírica.
Una
protesta
especialmente
articulada
provino
de
Sims
(1980),
que
señaló
que
los
modelos
macroeconómicos
de
ese
entonces,
típicamente
un
sistema
de
ecuaciones
simultáneas,
invocó
supuestos
de
identificación
(la
división
de
variables
entre
conjuntamente
determinadas
y
exógenas)
que
eran
difíciles
de
tragar
y
pobremente
defendidos.
Como
una
alternativa
al
contexto
de
sistema
de
ecuaciones,
Sims
sugirió
el
uso
de
auto
regresiones
vectoriales
sin
restringir
(VAR)
para
describir
la
relación
entre
un
conjunto
dado
de
variables
endógenas
y
sus
retrasos.
Pero
la
queja
de
Sims
no
generó
el
mismo
tipo
de
respuesta
que
surgió
de
inquietudes
sobre
la
evaluación
del
programa
econométrico
en
los
años
80
entre
economistas
del
trabajo.
Los
macroeconomistas
cerraron
filas,
pero
no
tomaron
una
postura
determinada.
El
argumento
de
Sims
vino
seguido
de
una
cercanamente
relacionada
y
similarmente
influyente
puñalada
en
el
corazón
de
la
macro
empírica
conocida
como
la
crítica
de
Lucas.
Lucas
(1976)
y
Kydland
y
Prescott
(1977)
argumentaron
vía
ejemplos
teóricos
que,
en
un
mundo
con
agentes
optimizadores
prospectivos,
nada
puede
aprenderse
de
cambios
en
políticas
del
pasado.
Lucas
mantuvo
la
esperanza
de
que
en
vez
de
intentar
recuperarnos
de
la
respuesta
empírica
a
cambios
en
reglas
de
política
al
estimar
los
parámetros
estructurales
que
se
encuentran
en
la
esencia
del
comportamiento
económico,
tales
como
aquellos
relacionados
a
la
tecnología
o
las
preferencias
(Lucas
observó
estos
parámetros
como
estables
o
al
menos
invariantes
ante
políticas).
Pero
Kydland
y
Prescott
–
invocando
a
Lucas
–
parecieron
renunciar
por
completo
al
trabajo
empírico
convencional
(1977,
p.
487):
“Si
no
intentamos
seleccionar
reglas
políticas
óptimamente,
¿cómo
deberían
ser
seleccionadas?
Nuestra
respuesta
es,
como
Lucas
(1976)
propuso,
que
la
teoría
económica
sea
utilizada
para
evaluar
reglas
de
políticas
alternativas
y
que
aquella
con
buenas
características
operativas
sea
elegida.”
Esta
visión
ayudo
a
sentar
las
bases
intelectuales
para
un
intenso
giro
hacia
la
teoría
en
macro,
aunque
frecuentemente
representada
por
números
a
través
de
“calibración.”
Nuestro
resumen
en
el
trabajo
empírico
de
la
época
de
Leamer
se
centra
en
deficiencias.
Pero
también
debemos
notar
que
el
mejor
trabajo
aplicado
de
la
década
de
1970
y
principios
de
1980
todavía
se
sostiene
hoy
en
día.
Un
ejemplo
acreditado
se
encuentra
en
Feldstein
y
Horioka
(1980),
que
argumenta
que
el
fuerte
vínculo
entre
el
ahorro
interno
y
la
inversión
pesa
contra
la
noción
de
movilidad
sustancial
del
capital
internacional.
El
análisis
de
8
Feldstein
y
Horioka
presenta
evidencia
simple
a
favor
de
una
conexión
entre
ahorro
interno
e
inversión,
discute
importantes
fuentes
de
sesgos
de
variables
omitidas
y
sesgos
de
simultaneidad
en
estas
estimaciones,
e
intenta
responder
a
estas
inquietudes.
La
extensiva
investigación
de
Obstfeld
(1995)
de
la
estructura
de
Feldstein
y
Horioka
(1980)
esencialmente
replica
sus
hallazgos
para
un
período
posterior
y
más
largo.
Por
qué
hay
menos
inconvenientes
en
la
econometría
actual
Mejoras
en
el
trabajo
empírico
llegaron
desde
distintas
direcciones.
Mejores
datos
y
métodos
de
estimación
más
robustos
son
hoy
parte
de
la
historia,
tal
como
lo
es
un
énfasis
reducido
en
consideraciones
econométricas
que
no
son
centrales
a
una
interpretación
causal
de
los
descubrimientos
principales.
Pero
la
principal
fuerza
que
motivó
la
revolución
de
la
credibilidad
fue
un
impulso
vigoroso
por
mejores
y
más
claramente
articulados
diseños
de
investigación.
Más
y
mejores
datos
No
inusualmente
para
el
período,
Ehrlich
(1975a)
analizó
una
serie
de
tiempo
de
35
observaciones
anuales.
En
contraste,
Donohue
y
Wolfers
(2005)
investigaron
la
cuestión
de
la
pena
capital
usando
un
panel
de
los
estados
de
EE.
UU.
desde
1934
al
2000,
con
muchos
más
años
y
una
variación
interestatal
más
rica
debido
a
la
estructura
de
panel
de
los
datos.
Mejores
datos
a
menudo
engendran
un
enfoque
novedoso
para
problemas
antiguos
de
investigación.
La
investigación
de
Grogger
(1990)
del
efecto
disuasivo
de
las
ejecuciones
en
las
tasas
de
homicidio
diarias,
inspirado
por
el
sociólogo
Phillips
(1980),
es
un
ejemplo.3
Más
lejos,
mejoras
llegaron
de
un
reservorio
de
datos
micro
en
rápida
expansión
en
muchos
países.
El
uso
de
registros
administrativos
también
ha
crecido.
Menos
distracciones
Bower
y
Pierce
(1975)
dedicaron
considerable
atención
al
uso
de
Ehrlich
(1975a)
de
la
transformación
log,
así
como
a
su
elección
de
período
de
muestra.
Passell
y
Taylor
(1977)
notaron
el
potencial
para
sesgos
de
variables
omitidas,
pero
también
se
preocuparon
por
test-‐
F
para
homogeneidad
temporal
y
logaritmos.
El
apéndice
metodológico
para
la
siguiente
publicación
de
Ehrlich
(1977b)
discute
las
posibilidades
de
usar
una
transformación
Box-‐Cox
para
implementar
una
forma
funcional
flexible,
pruebas
para
heterocedasticidad,
y
uso
de
mínimos
cuadrados
generalizados.
La
réplica
de
Ehrlich
(1975b)
a
Bowers
y
Pierce
se
centró
en
la
significancia
estadística
de
los
intervalos
de
tendencia
en
muestras
de
diferente
duración,
diferencias
en
procedimientos
de
cálculo
relacionados
a
correlación
en
serie,
y
evidencia
para
robustez
en
el
uso
de
logaritmos.
La
respuesta
de
Ehrlich
(1977a)
a
Passell
abarca
el
período
de
muestreo
y
logaritmos,
aunque
también
informa
algunas
de
sus
estimaciones
interestatales
(1977b).
Las
réplicas
a
Ehrlich
dedicaron
poca
atención
a
la
cuestión
fundamental
de
si
las
fuentes
de
variación
en
la
ejecución
utilizadas
en
sus
modelos
estadísticos
justificaban
una
interpretación
causal
de
sus
estimaciones,
pero
los
contemporáneos
de
Ehrlich
tampoco
dieron
en
el
clavo.
Aún
si
los
resultados
fueran
insensibles
a
la
muestra,
lo
mismo
en
logs
y
3
El
decremento
en
uso
de
series
de
tiempo
y
el
incremento
en
uso
de
datos
de
panel
y
datos
originados
de
investigación
están
documentados
para
el
campo
de
economía
laboral
en
la
Tabla
1
de
Angrist
y
Krueger
(1999).
9
niveles,
y
los
residuos
independientes
e
idénticamente
distribuidos,
continuaríamos
insatisfechos.
En
el
toma
y
dame
que
acompaño
el
artículo
original
de
Ehrlich,
el
tópico
de
la
validez
instrumental
rara
vez
salió
a
superficie,
mientras
que
la
cuestión
del
sesgo
de
variables
omitidas
tomó
un
rol
secundario
ante
preocupaciones
sobre
forma
funcional
y
puntos
de
quiebre
de
muestras.4
Como
en
el
intercambio
sobre
pena
capital,
otros
escritores
casi
al
mismo
tiempo
se
vieron
frecuentemente
distraídos
por
inquietudes
relacionadas
a
la
forma
funcional
y
a
los
mínimos
cuadrados
generalizados.
Los
economistas
prácticos
de
la
actualidad
tienen
el
beneficio
de
un
entendimiento
menos
dogmático
del
análisis
de
regresión.
Específicamente,
una
comprensión
emergente
del
sentido
en
el
cual
la
regresión
y
los
mínimos
cuadrados
en
dos
etapas
producen
efectos
promedio
aún
cuando
la
relación
subyacente
es
heterogénea
y/o
no
lineal,
ha
vuelto
a
la
forma
funcional
menos
central.
Los
modelos
lineales
que
constituyen
el
caballo
de
batalla
de
la
práctica
empírica
contemporánea
usualmente
resultan
ser
remarcablemente
robustos,
una
característica
que
muchos
investigadores
aplicados
han
sentido
durante
mucho
tiempo
y
la
teoría
econométrica
actual
explica
mejor.5
Los
errores
de
robustez
estándar,
la
agrupación
automatizada,
y
muestras
más
grandes
también
han
calmado
las
aguas
de
temas
como
la
heterocedasticidad
y
correlación
en
serie.
Un
legado
del
artículo
de
White
(1980a)
en
errores
de
robustez
estándar,
uno
de
los
más
altamente
citados
de
la
época,
es
casi
la
muerte
de
los
mínimos
cuadrados
generalizados
en
trabajo
aplicado
inter-‐seccional.
En
los
intereses
de
la
reproducibilidad,
y
para
reducir
el
alcance
de
errores,
los
investigadores
aplicados
modernos
frecuentemente
prefieren
estimadores
más
simples,
aunque
puedan
estar
sacrificando
eficiencia
asintótica.
Mejor
diseño
de
investigación
Leamer
(1983)
lideró
su
ensayo
con
la
idea
de
que
los
experimentos
–
específicamente,
las
pruebas
aleatorizadas
–
proveían
un
marco
para
la
econometría
aplicada.
No
estaba
solo
entre
líderes
del
pensamiento
econométrico
en
esta
posición.
Aquí
está
Zvi
Griliches
(1986,
p.
1466)
en
el
comienzo
de
un
capítulo
sobre
datos
en
The
Handbook
of
Econometrics:
“Si
los
datos
fueran
perfectos,
recolectados
de
experimentos
aleatorizados
bien
diseñados,
difícilmente
habría
lugar
para
un
campo
separado
de
econometría.”
Desde
entonces,
investigadores
empíricos
en
economía
han
buscado
cada
vez
más
el
ideal
de
un
experimento
aleatorizado
para
justificar
inferencia
causal.
En
disciplinas
de
micro
aplicadas
tales
como
desarrollo,
educación,
economía
ambiental,
salud,
trabajo,
y
finanzas
públicas,
los
investigadores
buscaron
experimentos
reales
cuando
era
factible,
y
experimentos
naturales
útiles
si
los
experimentos
reales
(por
lo
menos
por
un
tiempo)
eran
inviables.
En
cualquier
caso,
un
sello
de
la
microeconometría
aplicada
contemporánea
es
un
marco
conceptual
que
resalta
fuentes
específicas
de
variación.
Se
puede
decir
que
estos
estudios
son
basados
en
diseño
ya
que
ofrecen
al
diseño
de
investigación
subyacente
a
cualquier
tipo
de
estudio
la
atención
que
demandaría
en
un
experimento
real.
4
El
crítico
re-‐análisis
de
Hoenack
y
Weiler
(1980)
acerca
de
Ehrlich
(1975a)
se
centró
en
problemas
de
identificación,
pero
las
restricciones
de
exclusión
alternativas
que
Hoenack
y
Weiler
propusieron
fueron
ofrecidas
sin
mucha
justificación
y
parecían
tan
difíciles
de
tragar
como
las
de
Ehrlich
(por
ejemplo,
la
proporción
no
blanca
es
usada
como
un
instrumento).
5
Para
esta
visión
de
la
regresión,
ver,
por
ejemplo,
White
(1980b),
el
capítulo
de
Chamberlain
(1984)
en
Handbook
of
Econometrics,
el
texto
econométrico
de
Goldberger
(1991),
o
nuestro
libro
Angrist
y
Prischke
(2009)
para
una
captura
reciente.
Angrist
e
Imbens
(1995)
muestran
como
los
estimadores
de
mínimos
cuadrados
en
dos
etapas
convencionales
pueden
ser
interpretados
como
un
efecto
causal
promedio
en
modelos
con
efectos
causales
heterogéneos
y
no
lineales.
10
Los
métodos
econométricos
que
destacan
principalmente
en
estudios
cuasi-‐
experimentales
son
variables
instrumentales,
métodos
de
discontinuidad
de
regresión,
y
análisis
de
políticas
de
diferencias
en
diferencias.
Estos
métodos
econométricos
no
son
nuevos,
pero
su
uso
ha
crecido
y
se
ha
vuelto
más
cohibido
y
sofisticado
desde
la
década
de
1970.
Al
usar
variables
instrumentales,
por
ejemplo,
ya
no
es
suficiente
invocar
mecánicamente
un
marco
de
ecuaciones
simultáneas,
nombrando
algunas
variables
endógenas
y
otras
exógenas,
sin
justificar
sustancialmente
las
restricciones
de
exclusión
y
supuestos
tan-‐buenos-‐como-‐asignados-‐aleatoriamente
que
hacen
a
los
instrumentos
válidos.
Lo
mejor
de
los
estudios
basados
en
diseño
actuales
constituye
un
caso
fuerte,
sustentado
con
evidencia
empírica,
para
que
la
reflexión
sobre
variación
genere
un
experimento
natural
útil.
Los
estudios
de
calidad
escolar
de
Card
y
Krueger
(1992a,
b)
ilustran
esto
y
puede
decirse
que
marcan
un
punto
de
inflexión
en
la
literatura
en
producción
educativa.
El
problema
más
importante
en
estudios
de
calidad
escolar
es
el
sesgo
de
omisión
de
variables.
Por
un
lado,
los
estudiantes
que
asisten
a
escuelas
con
mejores
recursos
usualmente
llegan
a
esas
escuelas
por
su
habilidad
o
trasfondo
familiar,
mientras
que
por
el
otro
lado,
estudiantes
más
débiles
pueden
recibir
desproporcionadamente
más
recursos
(por
ejemplo,
clases
más
reducidas).
Card
y
Krueger
encaran
este
problema
al
enfocarse
en
la
fluctuación
en
recursos
en
el
nivel
de
lugar-‐de-‐nacimiento-‐por-‐cohorte,
el
cual
vinculan
con
la
rentabilidad
económica
educativa
estimada
al
mismo
nivel.
Por
ejemplo,
usaron
data
censal
para
comparar
los
retornos
en
educación
para
residentes
de
estados
del
norte
educados
en
el
norte
contra
los
retornos
en
educación
para
residentes
de
estados
del
norte
educados
en
escuelas
del
sur
con
recursos
más
escasos.
Los
artículos
de
Card
y
Krueger
muestran
que
los
rendimientos
económicos
en
educación
son
más
altos
para
aquellos
provenientes
de
estados
y
cohortes
con
más
recursos
(controlando
por
efectos
de
cohorte
y
estado
fijo
y
por
estado
de
residencia).
Ellos
implícitamente
utilizan
divergencia
por
nivel
estatal
en
gasto
educativo
como
un
experimento
natural:
agregados
de
datos
individuales
hasta
el
cohorte/nivel
estatal
es
un
proceso
de
variables
instrumentales
donde
los
instrumentos
son
estado-‐de-‐nacimiento
y
variables
de
cohorte
ficticias.
(En
Angrist
Y
Pischke,
2009,
mostramos
por
qué
la
agregación
en
esta
forma
funciona
como
una
variable
instrumental.)
La
variación
estado-‐por-‐cohorte
en
rendimientos
educativos
es
improbable
que
se
encuentre
impulsada
por
selección
u
ordenamiento,
ya
que
los
individuos
no
controlan
estas
variables.
La
variación
estado-‐por-‐cohorte
en
recursos
escolares
tampoco
se
encuentra
relacionada
a
factores
omitidos
como
entorno
familiar.
Finalmente,
Card
y
Krueger
tomaron
ventaja
del
hecho
de
que
los
recursos
escolares
aumentaron
dramáticamente
en
el
sur
cuando
los
sureños
en
su
muestra
estuvieron
en
edad
escolar.
Los
estudios
de
calidad
escolar
de
Card
y
Krueger
no
son
a
prueba
de
balas
(Heckman,
Layne-‐Farrar,
y
Todd,
1966,
ofrecen
una
crítica),
pero
sus
hallazgos
en
tamaño
de
clases
(el
conjunto
más
sólido
de
resultados
en
Card
y
Krueger,
1992a)
ha
sido
replicado
en
otros
estudios
con
buenos
diseños
de
investigación.
Angrist
y
Lavy
(1999)
ilustran
el
diseño
de
investigación
de
regresión
discontinua
en
un
estudio
sobre
los
efectos
del
tamaño
de
clase
en
rendimiento
académico.
El
enfoque
de
regresión
discontinua
puede
ser
usado
cuando
las
personas
son
divididas
en
grupos
basados
en
un
cierto
puntaje
límite,
con
aquellos
apenas
por
encima
o
por
debajo
del
límite
que
repentinamente
son
elegibles
para
un
tratamiento
diferente.
El
diseño
de
investigación
de
Angrist-‐Lavy
está
motivado
por
el
caso
de
que
el
tamaño
de
clase
en
Israel
está
limitado
en
40,
entonces
una
11
cohorte
de
41
es
usualmente
dividido
en
dos
clases
menores,
mientras
que
un
cohorte
de
39
típicamente
se
mantiene
en
una
sola
clase.
Esto
conduce
a
una
serie
de
experimentos
hipotéticos:
comparaciones
de
colegios
con
inscripciones
levemente
por
encima
y
por
debajo
de
40,
80,
o
120,
en
cuyos
tamaños
de
clase
varían
considerablemente.
En
esta
configuración,
los
colegios
con
diferentes
números
de
estudiantes
pueden
ser
bastante
similares
en
otras
características.
Entonces,
a
medida
que
la
matriculación
de
un
colegio
aumenta,
una
regresión
que
captura
la
relación
entre
el
número
de
estudiantes
y
el
rendimiento
académico
debería
ahora
mostrar
discontinuidades
en
estos
puntos
de
quiebre.
El
diseño
de
de
Angrist-‐Lavy
es
una
versión
de
lo
que
se
conoce
como
diseño
de
regresión
discontinua
“difusa”,
en
donde
la
confusión
procede
del
hecho
de
que
el
tamaño
escolar
no
es
una
función
determinística
de
las
vueltas
o
saltos
en
la
función
de
matriculación.
Las
estimaciones
de
regresión
discontinua
empleando
datos
israelíes
muestran
un
marcado
incremento
en
rendimiento
académico
cuando
el
tamaño
de
clase
disminuye.6
El
supuesto
clave
que
determina
la
estimación
de
regresión
discontinua
de
efectos
causales
es
que
los
individuos
son
similares
en
cualquier
lado
de
la
discontinuidad
(o
que
una
diferencia
puede
ser
controlada
usando
funciones
suaves
de
las
tasas
de
matriculación,
también
conocidas
como
“variable
de
selección”,
que
determina
los
puntos
de
salto).
En
el
estudio
de
Angrist-‐Lavy,
por
ejemplo,
podríamos
querer
estudiantes
que
tengan
un
entorno
familiar
similar
cuando
concurren
a
escuelas
con
niveles
de
inscripción
de
35-‐39
y
41-‐45.
Una
prueba
de
este
supuesto,
ilustrada
por
Angrist
y
Lavy
(y
Hoxby,
2000)
es
estimar
los
efectos
en
un
rango
cada
vez
más
angosto
alrededor
de
los
puntos
de
salto;
a
medida
que
el
intervalo
disminuye,
el
salto
en
tamaño
de
clase
permanece
el
mismo
o
quizás
apenas
crece,
pero
los
estimados
deben
ser
sujetos
a
menos
y
menos
sesgos
de
variables
omitidas.
Otra
prueba,
propuesta
por
McCrary
(2008),
busca
concentraciones
en
la
distribución
de
características
en
los
antecedentes
de
estudiantes
alrededor
del
salto.
Estas
concentraciones
pueden
señalar
comportamientos
estratégicos
–
el
esfuerzo
de
algunas
familias,
presuntamente
sin
una
muestra
aleatoria,
para
ubicarse
en
escuelas
con
clases
más
pequeñas.
Finalmente,
podemos
simplemente
observar
las
diferencias
en
características
medias
pre-‐tratamiento
alrededor
del
salto.
En
un
artículo
reciente,
Urqiola
y
Verhoogen
(2009)
aprovechan
los
límites
de
matriculación
tales
como
aquellos
utilizados
por
Angrist
y
Lavy
en
una
muestra
de
Chile.
Los
datos
chilenos
exhiben
una
sugerente
primera
etapa,
con
agudas
caídas
(discontinuidades)
en
tamaño
de
la
clase
en
los
límites
(múltiplos
de
45).
Pero
las
características
domésticas
también
difieren
considerablemente
a
través
de
los
mismos
saltos,
probablemente
porque
el
sistema
escolar
chileno,
en
su
mayoría
privado,
ofrece
tanto
oportunidades
e
incentivos
para
estudiantes
más
pudientes
para
asistir
a
escuelas
más
allá
de
los
límites.
La
posibilidad
de
semejante
patrón
es
una
precaución
importante
para
usuarios
de
métodos
de
regresión
discontinua,
aunque
Urqiola
y
Verhoogen
notan
que
la
manipulación
en
las
inscripciones
que
descubrieron
en
Chile
está
lejos
de
ser
extendida
y
no
se
presenta
en
el
estudio
de
Angrist-‐
Lavy.
Una
gran
medida
de
atracción
del
diseño
de
regresión
discontinua
es
su
espíritu
6
Los
diseños
de
regresión
discontinua
son
más
fácilmente
analizados
empleando
variables
instrumentales.
En
el
lenguaje
de
las
variables
instrumentales,
la
relación
entre
rendimiento
y
saltos
en
la
función
es
la
forma
reducida,
mientras
que
el
cambio
en
el
tamaño
de
clase
en
los
saltos
es
la
primera
etapa.
La
proporción
de
formas
reducidas
a
efectos
de
primer-‐etapa
es
un
estimador
de
variable
instrumental
del
efecto
causal
del
tamaño
de
la
clase
en
notas
de
examen.
Imbens
y
Lemieux
(2008)
ofrecen
una
guía
para
practicantes
para
el
uso
de
diseño
de
regresión
discontinua
en
economía.
12
elemental
y
la
facilidad
con
la
que
las
afirmaciones
por
la
validez
del
diseño
pueden
ser
verificadas.
La
última
flecha
en
la
aljaba
cuasi-‐experimental
es
el
de
las
diferencias
en
diferencias,
probablemente
el
estimador
basado
en
diseño
más
aplicable.
El
análisis
de
políticas
de
diferencias
en
diferencias
típicamente
compara
la
evolución
de
producciones
en
grupos
afectados
más
o
menos
por
un
cambio
de
política.
Los
estudios
del
tipo
de
diferencias
en
diferencias
más
convincentes
presentan
resultados
para
el
tratamiento
y
observaciones
de
control
para
un
intervalo
del
largo
suficiente
para
evidenciar
las
tendencias
subyacentes,
con
atención
centralizada
en
cómo
las
desviaciones
de
la
tendencia
se
relacionan
a
cambios
de
política.
La
figura
1,
de
Donohue
y
Wolfers
(2005),
ilustra
este
enfoque
para
el
debate
de
la
pena
capital.
Este
gráfico
traza
las
tasas
de
homicidio
en
Canadá
y
los
Estados
Unidos
por
más
de
medio
siglo,
indicando
períodos
en
los
que
la
pena
de
muerte
estaba
vigente
en
ambos
países.
El
punto
del
grafico
no
es
enfocarse
en
la
tasa
de
homicidio
constantemente
más
baja
de
Canadá,
sino
mostrar
que
las
tasas
de
homicidio
canadiense
y
estadounidense
difícilmente
se
mueven
en
paralelo,
sugiriendo
que
los
cambios
en
la
política
de
pena
de
muerte
tuvieron
pequeñas
consecuencias
en
los
asesinatos.
El
grafico
también
sugiere
que
el
efecto
disuasivo
debería
ser
grande
para
ser
visible
ante
el
ruidoso
segundo
plano
de
fluctuaciones
anuales
en
las
tasas
de
homicidio.
Paralelamente
el
crecimiento
en
experimentos
de
diseño
pseudo-‐experimental,
el
número
y
alcance
de
experimentos
reales
ha
incrementado
dramáticamente,
con
un
incremento
concomitante
en
la
calidad
del
diseño
experimental,
colección
de
data
y
análisis
estadístico.
Mientras
en
la
era
de
los
70s
los
estudios
aleatorizados
del
efecto
negativo
de
los
impuestos
estaban
comprometidos
en
informar
erróneamente
y
el
desgaste
diferencial
en
el
tratamiento
y
el
control
de
grupos,
los
investigadores
hoy
le
dan
a
estas
preocupaciones
más
atención
y
las
administran
de
manera
más
efectiva.
Tales
problemas
son
usualmente
resueltos
13
por
una
confianza
substancial
en
la
data
administrativa,
y
una
interpretación
más
sofisticada
de
la
data
de
encuestas
cuando
los
registros
administrativos
no
están
disponibles.
Un
punto
de
referencia
en
un
juicio
aleatorizado
relaciono
a
la
producción
de
educación
es
el
experimento
Tennessee
STAR.
En
esta
intervención,
más
de
10000
estudiantes
fueron
aleatoriamente
asignados
a
clases
de
diferentes
tamaños,
desde
el
jardín
de
infantes
hasta
tercer
grado.
Como
el
efecto
negativo
de
los
experimentos
de
impuestos,
el
experimento
STAR
tuvo
sus
fallas.
No
todos
los
sujetos
contribuyeron
con
el
seguimiento
de
la
data
y
algunos
auto-‐seleccionaron
clases
más
pequeñas
aun
después
de
haber
sido
asignados
aleatoriamente.
Un
cuidadoso
análisis
de
Krueger
(1999),
muestra
evidencia
de
ciertos
logros
en
las
clases
más
pequeñas,
tomando
el
desgaste
y
la
auto-‐selección
en
cuenta.7
Los
economistas
están
llevando
a
cabo
sus
propios
experimentos
de
manera
creciente,
así
como
también
procesando
la
data
de
experimentos
llevado
a
cabo
por
otros.
Un
reciente
juicio
aleatorizado
de
un
esquema
de
microfinanzas,
una
importante
herramienta
para
el
desarrollo
económico,
es
una
ilustración
ambiciosa
(Banerjee,
Duflo,
Glennester,
y
Kinnan,
2009).
Este
estudio
evalúa
el
impacto
de
ofrecer
pequeños
préstamos
a
dueños
de
negocios
independientes
que
viven
en
los
barrios
vulnerables
de
India.
El
estudio
de
Banerjee
y
otros
randomiza
la
disponibilidad
de
microcréditos
a
lo
largo
de
100
vecindarios
indios,
desacreditando
el
reclamo
de
que
la
intervención
política
realista
y
relevante
no
puede
ser
estudiada
con
asignaciones
aleatorias.
Con
el
creciente
enfoque
en
el
diseño
de
investigación,
no
es
suficiente
adoptar
el
lenguaje
de
un
marco
de
ecuaciones
simultáneo
y
ortodoxo,
etiquetando
a
algunas
variables
como
endógenas
y
otras
como
exógenas,
sin
ofrecer
un
fuerte
apoyo
empírico
o
institucional
para
estos
supuestos
identificadores.
El
nuevo
énfasis
en
una
credibilidad
exógena
como
fuente
de
variación
también
ha
filtrado
a
estimaciones
de
regresiones
comunes
y
silvestres,
en
las
que
los
investigadores
es
cada
vez
más
probable
que
se
concentren
en
fuentes
de
sesgo
por
omisión
de
variables,
en
vez
de
un
esfuerzo
quijotesco
para
descubrir
el
“modelo
verdadero”
que
genera
los
datos.8
Más
discusión
transparente
sobre
el
diseño
de
la
investigación.
Hace
poco
más
de
65
años,
Haavelmo
presentó
la
siguiente
queja
a
los
lectores
de
Econométrica
(1944,
p.
14):
“Un
diseño
de
experimentos
(una
prescripción
de
lo
que
los
físicos
llamarían
un
‘experimento
crucial’)
es
el
apéndice
esencial
para
cualquier
teoría
cuantitativa.
Y
usualmente
tenemos
estos
experimentos
en
mente
cuando
construimos
las
teorías,
aunque
-‐
desafortunadamente-‐
la
mayoría
de
economistas
no
describen
explícitamente
el
diseño
de
sus
experimentos.”
En
los
últimos
años,
la
noción
de
que
la
identificación
de
estrategia
propia
–
en
otras
palabras,
el
diseño
de
la
investigación
–
debe
ser
descripta
y
defendida
ha
filtrado
profundamente
la
práctica
empírica.
¿La
pregunta
“Cuál
es
tu
estrategia
de
investigación?”
y
otras
similares
ahora
son
oídas
rutinariamente
en
los
talleres
y
seminarios
empíricos.
La
7
Un
desarrollo
relacionado,
en
la
vanguardia
del
diseño
de
investigación,
es
el
uso
de
loterías
de
elección
como
una
herramienta
de
investigación.
En
muchos
escenarios
donde
una
opción
educacional
tiene
exceso
de
subscripciones,
la
asignación
a
los
aspirantes
se
decide
por
sorteo.
El
resultado
es
un
tipo
de
asignación
aleatoria
institucional,
que
luego
puede
ser
utilizado
para
estudiar
becas
escolares,
subvenciones
a
escuelas,
y
escuelas
especializadas
(por
ejemplo,
Rouse,
1998,
analiza
las
becas).
8
El
foco
en
sesgo
de
variables
omitidas
ha
reflejado
en
una
floreciente
literatura
a
través
de
la
correspondencia
y
la
puntuación
de
propensión
como
una
alternativa
(o
complemento)
a
la
regresión.
En
ausencia
de
una
asignación
aleatoria,
tales
estrategias
buscan
eliminar
las
diferencias
observables
entre
grupos
de
control
y
tratamiento,
con
poca
o
nula
atención
dedicada
a
modelar
el
proceso
determinando
resultados.
Ver
Imbens
y
Wooldridge
(2009)
para
una
introducción.
14
evidencia
de
este
reclamo
surge
del
hecho
que
la
búsqueda
de
un
texto
completo
para
los
términos
“estrategia
empírica”,
“estrategia
de
la
identificación”,
“diseño
de
la
investigación”
o
“grupo
de
control”
obtiene
solo
19
resultados
en
Econlit
en
el
periodo
1970-‐1989,
mientras
que
se
obtienen
742
resultados
desde
1990
a
2009.
¡Reconocemos
que
solo
porque
el
autor
use
el
término
“diseño
de
investigación”
no
significa
que
él
o
ella
tenga
uno
bueno!
Además,
algunos
estudios
anteriores
incorporan
diseños
de
calidad
sin
usar
el
lenguaje
contemporáneo.
Aun
así,
el
cambio
en
el
énfasis
es
dramático
y
refleja
una
tendencia
que
es
más
que
semántica.
Los
buenos
diseños
tienen
un
efecto
secundario
beneficioso:
usualmente
se
presta
para
una
explicación
simple
de
métodos
empíricos
y
una
presentación
directa
de
los
resultados.
Las
recomendaciones
claves
de
un
experimento
aleatorio
típicamente
son
diferencias
en
métodos
entre
tratamientos
y
controles,
informados
antes
del
tratamiento
(para
mostrar
balance)
y
después
del
tratamiento
(para
estimar
los
efectos
causales).
Los
resultados
no
experimentales
pueden
ser
a
menudo
presentados
en
una
manera
que
imite
esto,
resaltando
los
contrastes
específicos.
El
estudio
differences-‐in-‐differences
de
Donohue
and
Wolfers
(2005),
mencionado
arriba,
ilustra
esto
enfocándose
en
los
cambios
en
las
leyes
americanas
como
una
fuente
casi
experimental
de
variación
y
documentando
la
evolución
paralela
de
los
resultados
en
tratamientos
y
grupos
de
control
en
los
Estados
Unidos
y
Canadá.
¿Cuál
es
la
dirección
del
análisis
sensitivo?
Respondiendo
a
lo
que
vio
como
la
fragilidad
del
análisis
de
regresión
inexperto,
Leamer
(1983)
propuso
extremos
límites
de
análisis,
que
se
enfocan
en
la
distribución
de
resultados
generados
por
una
amplia
gama
de
especificaciones.
Una
versión
extrema
de
los
límites
extremos
de
análisis
aparece
en
el
ensayo
de
Sala-‐i-‐Martin
(1997)
donde
se
reportan
dos
millones
de
regresiones
relacionadas
al
crecimiento
económico.
Específicamente,
en
una
variación
del
procedimiento
propuesto
en
este
contexto
por
Levine
y
Renelt
(1992),
Sala-‐i-‐
Martin
computa
dos
millones
de
las
múltiples
regresiones
de
crecimiento
que
pueden
ser
construidas
a
partir
de
62
variables
explicativas.
El
retiene
un
set
fijo
de
tres
controles
(PBI,
expectativa
de
vida,
y
la
tasa
de
inscripciones
en
la
escuela
primaria
en
1960),
dejando
59
posibles
“regresores
de
interés”.
De
estos
59,
tres
sets
adicionales
de
control
son
elegidos
de
los
primeros
58
mientras
que
el
número
59
es
tomado
como
el
único
de
interés.
Este
proceso
es
repetido
hasta
que
cada
uno
de
los
posibles
59
regresores
ha
jugado
un
rol
en
estas
ecuaciones
con
todos
los
posibles
sets
de
tres
controles,
generando
30857
regresiones
por
cada
regresor
de
interés.
El
objetivo
de
este
ejercicio
es
ver
que
variables
son
robustamente
significantes
a
través
de
las
especificaciones.
La
investigacion
de
Sala-‐i-‐Martin
sobre
los
límites
extremos
de
análisis
debe
haber
sido
divertida.
Felizmente,
de
cualquier
manera,
este
tipo
de
búsqueda
de
especificación
agnóstica
no
surgió
como
la
figura
central
del
trabajo
empírico
contemporáneo.
Aunque
Sala-‐i-‐Martin
triunfa
descubriendo
algunas
relaciones
significativas
(la
“fracción
de
la
población
Confuciana”
es
una
maravillosamente
fuerte
pronosticadora
del
crecimiento
económico),
no
vemos
por
qué
este
resultado
debería
ser
tomado
más
seriamente
que
el
inocente
castigo
de
especificaciones
de
capital
criticado
por
Leamer.
¿Son
estos
los
controles
correctos?
¿Son
seis
controles
suficientes?
¿Cómo
se
supone
que
entendamos
fuentes
de
variación
en
una
variable
cuando
los
efectos
de
tres
otras
variables,
elegidas
arbitrariamente,
son
dejadas
afuera?
Las
15
búsquedas
tan
amplias
de
este
tipo
ofrecen
una
base
muy
pequeña
para
una
interpretación
causal.
Los
estudios
basados
en
el
diseño
típicamente
guían
a
una
especificación
de
análisis
mucho
más
acotada
y
enfocada,
apuntada
a
específicas
amenazas
a
la
validez.
Por
ejemplo,
cuando
consideramos
resultados
de
un
juicio
aleatorio,
nos
enfocamos
en
los
detalles
del
tratamiento
asignado
y
la
evidencia
para
el
balance
en
el
tratamiento
de
control
y
en
el
pre
tratamiento
de
variables.
Cuando
usamos
variables
instrumentales,
observamos
si
el
instrumento
puede
tener
efectos
causales
en
el
resultado
en
maneras
diferentes
que
a
través
del
canal
de
interés
(en
ecuaciones
simultaneas
de
lingo,
esta
es
una
examinación
de
la
restricción
de
exclusión).
Con
las
diferencias
en
diferencias
(differences-‐in-‐differences),
buscamos
las
tendencias
específicas
de
grupos,
ya
que
tales
tendencias
pueden
invalidar
una
comparación
de
los
cambios
a
través
de
los
grupos.
En
el
diseño
de
la
regresión
discontinua,
observamos
factores
como
el
agrupamiento
en
el
punto
de
inflexión,
lo
que
puede
sugerir
que
el
límite
directamente
influencie
el
comportamiento.
Como
la
naturaleza
de
estos
experimentos
es
clara
en
este
tipo
de
diseños,
la
dirección
que
deberíamos
tomar
cuando
evaluamos
la
validez
también
tiene
que
ser
clara.
Locos
por
la
Macro
En
la
lectura
de
un
ensayo
a
estudiantes
graduados
de
economía
de
la
Universidad
de
Chicago,
Robert
Lucas
(1988)
describió,
según
su
visión,
lo
que
los
economistas
hacen.
Lucas
uso
la
pregunta
específica
de
la
conexión
entre
la
política
monetaria
y
la
depresión
económica
para
enmarcar
esta
discusión,
que
se
encuentra
bastante
en
el
espíritu
experimental:
“Una
manera
de
demostrar
que
entiendo
esta
conexión
-‐Según
la
que
yo
creo,
la
manera
más
convincente-‐
seria
maquinar
una
depresión
en
los
Estados
Unidos
modificando
la
oferta
monetaria.
“
Eliminando
tal
manipulación
nacional
por
su
inmoralidad,
Lucas
(1988)
describe
cómo
crear
una
depresión
cambiando
la
oferta
monetaria
en
Kennywood
Park,
un
parque
de
diversiones
cercano
a
Pittsburgh
que
se
caracteriza
por
vistas
increíbles
al
rio,
montaña
rusa
de
madera
y
el
hecho
de
que
emite
su
propio
dinero.
La
historia
de
Lucas
es
evocativa
y
persuasiva
(la
alegoría
de
Kennywood
es
una
versión
de
Lucas,
1973).
Estamos
felices
de
ver
un
macroeconomista
del
nivel
de
Lucas
usar
un
punto
de
referencia
experimental
para
definir
causalidad
y
mostrar
una
disposición
para
entretener
evidencia
cuasi-‐experimental
en
los
efectos
de
un
cambio
en
la
oferta
monetaria.
Aun
así
esta
historia
nos
hace
preguntarnos
por
qué
el
mundo
real
de
la
macro
empírica
raramente
presenta
investigación
basada
en
el
diseño.
Muchos
macroeconomistas
han
abandonado
el
trabajo
tradicional
empírico
completamente,
enfocándose
en
los
“experimentos
computacionales”,
como
los
descriptos
en
este
diario
por
Kydland
y
Prescott
(1996).
En
un
experimento
computacional,
los
investigadores
eligen
una
pregunta,
construyen
(teóricamente)
un
modelo
económico,
“calibran”
el
modelo
para
que
su
comportamiento
imite
la
economía
real
junto
con
algunas
dimensiones
estadísticas
claves,
y
después
llevan
a
cabo
un
experimento
computacional
cambiando
los
parámetros
del
modelo
(por
ejemplo,
las
tasas
impositivas
o
la
oferta
monetaria)
para
abordar
la
pregunta
original.
Las
dos
últimas
décadas
han
visto
incontables
estudios
en
este
molde,
usualmente
contextualizados
en
un
marco
de
trabajo
dinámico
estocástico
de
equilibrio
general.
Cualquier
cosa
que
pueda
ser
dicha
en
defensa
de
este
16
marco
de
trabajo
como
herramienta
para
clarificar
las
implicaciones
de
los
modelos
económicos,
no
produce
evidencia
directa
en
la
magnitud
o
existencia
de
efectos
causales.
Un
esfuerzo
para
poner
números
razonables
en
relaciones
teóricas
es
inofensivo
e
incluso,
quizás,
pueda
ser
útil.
Pero
sigue
siendo
teoría.
Algunos
rayos
de
sol
penetran
a
través
de
las
grises
nubes
del
equilibrio
general
dinámico
estocástico.
Un
hilo
de
macroeconomía
empírica
ha
girado
de
los
resultados
de
variables
modelizadas
tales
como
el
crecimiento
del
PIB,
enfocándose
en
el
aislamiento
de
la
útil
variación
en
Estados
Unidos
de
las
políticas
monetarias
y
fiscales.
Una
contribución
que
nos
guía
aquí
es
la
de
Romer
y
Romer
(1989),
quienes,
en
el
espíritu
de
Friedman
y
Schwartz
(1963),
revisan
los
minutos
de
las
reuniones
de
la
Reserva
Federal
y
tratan
de
aislar
eventos
que
parecen
buenos
“experimentos”
de
política
monetaria.
Sus
resultados
sugieren
que
las
contracciones
monetarias
tienen
efectos
significativos
y
duraderos
en
la
economía
real.
Más
tarde,
en
Romer
y
Romer
(2004),
ellos
produjeron
descubrimientos
similares
para
los
efectos
de
la
política
de
shocks
condicionales
en
los
propios
pronósticos
de
los
Federales.
9
El
trabajo
de
los
Romer
está
basado
en
el
diseño,
en
su
espíritu,
y
en
mayor
parte,
en
sus
detalles.
Aunque
vasta
literatura
de
los
modelos
de
la
Reserva
Federal
sobre
la
toma
de
decisiones,
hasta
recientemente,
sorprendentemente
pocos
estudios
han
hecho
un
caso
institucional
para
experimentos
de
políticas
como
el
estudio
de
los
Romer
lo
hace.
Dos
recientes
estudios
sobre
política
monetaria
en
el
espíritu
de
Romer,
y
quizás
más
parecidos
al
tipo
de
trabajo
cuasi-‐experimental
que
hacemos
y
leemos,
son
Richardson
y
Troost
(2009),
quienes
explotan
las
diferencias
regionales
en
el
comportamiento
de
los
Federales
durante
la
depresión
para
estudiar
los
efectos
de
la
liquidez,
y
Velde
(2009),
quien
describe
los
resultados
de
un
experimento
monetario
extremo
bastante
parecido
al
que
Lucas
imaginó
(aunque
en
Francia
del
siglo
dieciocho).
Romer
y
Romer
(2007)
usan
métodos
similares
a
los
que
usaron
para
el
dinero
para
estudiar
la
política
fiscal,
como
también
lo
hacen
Ramey
y
Shapiro
(1998)
y
Barro
y
Redlick
(2009),
quienes
investigan
los
efectos
de
largos
shocks
fiscales
debidos
a
la
guerra.
La
literatura
sobre
el
crecimiento
empírico
ha
venido
sufriendo
por
un
largo
tiempo
de
una
falta
de
imaginación
en
el
diseño
de
investigación,
pero
aquí
también
el
cuadro
ha
mejorado
recientemente.
El
estudio
más
influyente
basado
en
el
diseño
en
esta
área
probablemente
ha
sido
el
de
Acemoglu,
Johnson,
y
Robinson
(2001),
quienes
discuten
que
las
buenas
instituciones
políticas
son
un
ingrediente
clave
en
la
receta
del
crecimiento,
una
idea
de
crecimiento
que
los
economistas
han
alimentado
por
muchas
décadas.
La
dificultad
aquí
es
que
mejores
instituciones
pueden
ser
un
lujo
que
los
países
más
ricos
pueden
disfrutar
más
fácilmente,
llevando
a
un
problema
de
causalidad
revertida
algo
fastidioso.
Acemoglu,
Johnson,
y
Robinson
(2001)
tratan
de
sobrepasar
este
problema
usando
las
tasas
diferenciales
de
mortalidad
de
los
colonizadores
europeos
en
diferentes
colonias
como
un
instrumento
para
las
instituciones
políticas
en
los
modernos
países
sucesores.
Su
argumento
toma
la
siguiente
forma:
donde
los
europeos
enfrentaban
altas
tasas
de
mortalidad,
no
se
podían
establecer,
y
donde
los
europeos
no
se
podían
establecer,
los
regímenes
coloniales
eran
más
extractivos,
con
pequeño
énfasis
en
los
derechos
de
propiedad
e
instituciones
democráticas.
Donde
los
inmigrantes
europeos
no
se
podían
establecer,
frecuentemente
trataban
de
simular
los
ajustes
9
Angrist
y
Kuersteiner
(2007)
implementan
una
versión
de
la
investigación
de
diseño
de
Romer
y
Romer
usando
el
puntaje
de
propensión
y
un
argumento
de
identificación
formado
en
el
lenguaje
de
potenciales
resultados
usados
en
el
programa
microeconometrico
de
evaluación.
17
institucionales
de
sus
países
de
origen,
con
derechos
de
propiedad
más
fuertes
y
más
instituciones
democráticas.
Este
enfoque
nos
lleva
a
una
estrategia
de
variables
instrumentales
donde
el
instrumento
para
el
efecto
de
las
instituciones
en
el
crecimiento
es
la
mortalidad
del
colonizador.
10
Acemoglu,
Johnson,
y
Robinson
(2001)
están
en
la
vanguardia
de
investigación
prometedora
en
las
fuentes
del
crecimiento
económico
usando
un
estilo
similar.
Los
ejemplos
incluyen
a
Bleakley
(2007),
quien
observa
el
efecto
de
la
erradicación
de
un
gusano
intestinal
en
el
ingreso
en
el
sur
americano;
y
Rodrik
y
Wacziarg
(2005)
y
Persson
y
Tabellini
(2008),
quienes
investigan
las
interacciones
entre
democracia
y
crecimiento
usando
el
diseño
del
tipo
diferencias
en
diferencias
(differences-‐in-‐differences)
Con
estos
ejemplos
acumulándose,
la
macroeconomía
parece
llena
de
expectativa
por
una
ola
de
trabajo
empírico
usando
mejores
diseños.
Ricardo
Reis,
un
profesor
recientemente
asignado
como
permanente
en
la
universidad
de
Columbia,
observo
en
el
inicio
de
la
crisis
financiera
de
2008:
“La
macroeconomía
ha
tomado
un
giro
hacia
la
teoría
en
los
últimos
10-‐15
años.
La
mayoría
de
los
macroeconomistas
jóvenes
están
más
cómodos
con
proveer
teoremas
que
con
involucrarse
con
cualquier
data
o
especulación
sobre
eventos
actuales”11.
El
costo
de
que
la
agenda
macroeconómica
contemporánea
esté
empíricamente
empobrecida
surge
también
de
veteranos
de
la
macro
como
Mankiw
(2006)
y
Solow
(2008).
Pero
la
reciente
crisis
económica,
fundamentalmente
un
asunto
relacionado
a
la
macroeconomía
y
al
diseño
de
políticas,
ha
generado
intrigantes
estudios
basados
en
el
diseño
de
los
orígenes
de
la
crisis
en
el
mercado
hipotecario
(Keys,
Mukherjee,
Seru,
y
Vig,
2010;
Bubb
y
Kaufman,
2009).
El
fuerte
macroeconómico
enfocado
en
teoría
parece
ser
mucho
más
difícil
de
defender.
Desorganización
Industrial
Una
pregunta
importante
en
el
centro
de
la
agenda
de
la
organización
industrial
aplicada
es
el
efecto
de
las
fusiones
corporativas
en
los
precios.
Uno
puede
llegar
a
pensar,
por
lo
tanto,
que
los
estudios
de
los
efectos
causales
de
las
fusiones
en
precios
formarían
el
núcleo
de
una
vasta
literatura
micro-‐empírica,
de
la
manera
que
cientos
de
estudios
de
la
economía
laboral
han
mirado
la
unión
de
relativos
efectos
del
salario.
También
podríamos
esperar
una
densa
literatura
paralela
evaluando
la
política
de
fusión,
de
la
manera
que
la
economía
laboral
ha
observado
el
efecto
de
políticas
como
las
leyes
laborales
(right-‐to-‐work).
Pero
no
es
así.
En
una
reseña
reciente,
Ashenfelter,
Hosken,
y
Weinberg
(2009)
encontraron
aproximadamente
solo
20
estudios
empíricos
evaluando
el
efecto
de
precios
en
las
fusiones
directamente
consumadas;
por
ejemplo,
Borenstein
(1990)
compara
los
precios
en
las
rutas
aéreas
de
aeropuertos
centrales
afectados
a
diferentes
niveles
por
fusiones.
La
investigación
en
los
efectos
agregados
de
la
política
de
fusión
parece
ser
todavía
más
limitada;
ver
artículos
de
Baker
(2003)
y
Crandall
y
Winston
(2003)
en
esta
publicación
para
una
reseña
e
interpretaciones
opuestas.
10
Albouy
(200)
genero
dudas
sobre
la
data
de
la
mortalidad
de
los
colonizadores
que
Acemoglu,
Johnson
y
Robinson
(2001)
usaron
para
construir
instrumentos.
Ver
Acemoglu,
Johnson,
y
Robinson
(2006)
para
la
respuesta
de
la
crítica
anterior
de
Albouy.
11
Tal
como
es
citado
por
Justin
Wolfers
(2008)
en
su
columna
del
New
York
Times
“Freakonomics”
(<http://
freakonomics.blogs.nytimes.com/2008/03/31/more-‐on-‐the-‐missing-‐macroeconomists/>).
18
El
paradigma
dominante
para
el
análisis
de
fusión
en
los
estudios
académicos
modernos,
a
veces
llamado
la
“nueva
organización
industrial
empírica”,
es
un
elaborado
ejercicio
que
consiste
de
tres
pasos:
El
primero
estima
un
sistema
de
demanda
para
el
producto
en
cuestión,
usualmente
usando
la
estructura
de
elección
discreta/diferenciación
de
productos
desarrollada
por
Berry,
Levinsohn,
y
Pakes
(1995).
Las
elasticidades
de
la
demanda
típicamente
se
identifican
usando
variables
instrumentales
para
los
precios,
a
menudo,
los
instrumentos
son
precios
en
otros
mercados
(como
en
Hausman,
1996).
Luego,
los
investigadores
postulan
un
modelo
de
conducta
de
mercado,
competencia
Bertrand-‐Nash
basada
en
el
precio
entre
diferentes
marcas
o
productos.
En
el
contexto
de
este
modelo,
el
esfuerzo
de
las
firmas
para
maximizar
beneficio
lleva
a
un
ajuste
de
relaciones
entre
precios
y
costos
marginales
para
cada
producto,
con
el
vínculo
provisto
por
la
matriz
de
sustitución
estimada
en
el
paso
inicial.
Finalmente,
el
comportamiento
de
la
industria
es
simulado
con
y
sin
la
fusión
de
interés.
Nevo
(2000)
usa
este
enfoque
para
estimar
el
efecto
de
las
fusiones
en
el
precio
en
los
cereales
del
desayuno
en
un
renombrado
diario.
El
estudio
de
Nevo
se
distingue
por
el
meticuloso
trabajo
empírico,
atención
a
los
detalles,
y
una
clara
discusión
de
la
estructura
de
supuestos
en
la
que
yace.
El
sistema
de
demanda
postulado
implícitamente
impone
restricciones
en
patrones
de
sustitución
y
otros
aspectos
del
comportamiento
del
consumidor
sobre
el
cual
tenemos
pocas
razones
para
sentir
considerablemente.
La
validez
de
las
variables
instrumentales
usadas
para
identificar
las
ecuaciones
de
demanda
-‐precios
en
otros
mercados-‐
surge
de
la
independencia
de
los
supuestos
a
lo
largo
de
los
mercados,
que
parece
arbitraria.
El
paso
de
la
simulación
típicamente
se
enfoca
en
un
solo
canal
por
el
cual
las
fusiones
afectan
a
los
precios
-‐
la
reducción
en
el
número
de
competidores-‐
cuando
al
menos,
en
teoría,
una
fusión
puede
llevar
a
otros
efectos
como
la
reducción
de
costos
que
hacen
la
competencia
más
dura
para
los
productores
restantes.
En
esta
estructura,
es
difícil
ver
precisamente
que
introducción
de
la
data
nos
lleva
a
los
resultados
definitivos.
¿Pueden
las
fusiones
ser
analizadas
usando
métodos
empíricos
simples,
transparentes
que
tracen
una
ruta
más
corta
de
los
hechos
a
los
descubrimientos?
El
desafío
para
un
análisis
causal
directo
sobre
las
fusiones
es
usar
data
para
describir
un
mundo
contrafactual
en
el
cual
la
fusión
no
sucedió.
Hastings
(2004)
hace
esto
en
un
estudio
sobre
el
mercado
minorista
de
combustible.
Ella
analiza
como
el
gigante
verticalmente
integrado
ARCO,
en
California,
tomo
control
de
estaciones
independientes
baratas
y
pequeñas,
observando
la
fusión
en
los
efectos
de
esta
fusión,
con
la
mirada
puesta
sobre
los
precios
en
los
competidores
de
cada
estación
independiente.
El
diseño
de
investigación
de
Hastings
especifica
un
mercado
local
para
cada
estación:
las
estaciones
de
tratamiento
están
cerca
de
una
de
estas
estaciones
independientes,
las
estaciones
de
control
no.
Luego
compara
los
precios
cercanos
al
momento
de
la
fusión
usando
una
estructura
directa
de
diferencias
en
diferencias.
Una
desventaja
del
análisis
de
Hastings
(2004)
es
que
captura
el
efecto
de
la
fusión
en
los
competidores,
pero
no
en
las
estaciones
previamente
independientes
en
cuestión.
Aun
así,
parece
que
efectos
altamente
no
competitivos
podrían
aparecer
en
cualquier
estación
operando
en
los
mercados
afectados.
Por
lo
tanto,
vemos
la
aproximación
de
Hastings
como
un
cambio
fructífero
en
dirección.
Sus
estimaciones
tienen
implicaciones
claras
en
el
fenómeno
de
interés,
mientras
que
su
validez
resulta
ser
transparente
en
la
calidad
del
grupo
de
control,
un
problema
que
puede
ser
evaluado
usando
observaciones
previas
a
la
fusión
para
comparar
tendencias
de
precios.
El
paper
de
Hastings
ilustra
el
poder
de
esta
aproximación
19
mostrando
tendencias
paralelas
casi
perfectas
para
las
estaciones
de
control
y
de
tratamiento
en
los
dos
mercados
(Los
Angeles
y
San
Diego)
en
los
meses
previos
al
tratamiento,
seguidas
por
una
aguda
subida
en
los
precios
de
los
competidores
después
de
la
fusión.12
Para
propósitos
de
política,
por
supuesto,
los
reguladores
deben
evaluar
las
fusiones
antes
de
que
ocurran;
los
estudios
basados
en
el
diseño
necesariamente
capturan
el
efecto
en
las
fusiones
después
del
hecho.
Muchos
nuevos
estudios
empíricos
de
organización
industrial
pronostican
los
resultados
contrafactuales
basados
en
modelos
y
simulaciones,
sin
una
clara
base
de
experiencia.
Pero,
¿Deberían
los
reguladores
favorecer
los
estimados
basados
en
la
simulación
resultantes
del
nuevo
paradigma
de
organización
industrial
por
sobre
aquellos
análisis
transparentes
provenientes
de
la
experiencia?
Como
mínimo,
esperaríamos
que
tal
juicio
este
basado
en
la
evidencia,
mostrando
que
la
aproximación
basada
en
la
simulación
entregue
predicciones
precisas
y
razonables.
En
esta
postura,
los
defensores
de
este
trabajo
parecen
favorecerlo
por
cuestión
de
principios.
Entonces,
¿En
quién
se
puede
confiar
cuando
se
trata
de
antimonopolios?
¿En
el
estilo
directo
de
evidencia
de
Hastings
(2004)
o
en
la
estructura
derivadas
de
estimaciones
de
Nevo
(2000)?
Estaríamos
felices
de
ver
más
trabajos
intentando
responder
esta
pregunta
mediante
la
contrastación
de
estimados
creíbles,
pseudo-‐experimentales,
con
resultados
provenientes
del
nuevo
paradigma
de
organización
industrial.
Un
esfuerzo
vanguardista
en
esta
dirección
el
análisis
de
contrastación
directa
de
Hausman
y
Leonard
(2002)
(esencialmente,
diferencias
en
diferencias)
y
estimaciones
“indirectas”
(basadas
en
la
simulación)
de
las
consecuencias
del
precio
de
equilibrio
de
una
marca
de
papel
higiénico.
Ellos
evalúan
los
supuestos
económicos
que
yacen
bajo
los
modelos
estructurales
(por
ejemplo,
la
competición
Nash-‐Bertrand)
de
acuerdo
si
las
estimaciones
estructurales
resultantes
se
igualan
a
las
estimaciones
directas.
Esto
es
reminiscente
de
la
comparación
de
Lalonde
(1986)
sobre
el
entrenamiento
de
estimaciones
experimental
y
no
experimental,
pero
en
vez
de
contrastar
estimaciones
basadas
en
el
modelo
con
aquellas
de
juicios
aleatorizados,
las
estimaciones
directas
son
tomadas
para
proveer
un
punto
de
referencia
que
surge
de
menos
supuestos
que
la
aproximación
estructural.
Hausman
y
Leonard
concluyen
que
uno
de
los
tres
modelos
estructurales
produce
estimaciones
“razonablemente
similares”
a
las
estimaciones
directas.
EN
las
mismas
líneas,
Peters
(2006)
observa
el
valor
predictivo
de
los
análisis
predictivos
sobre
las
fusiones
de
aerolíneas,
y
encuentra
que
los
métodos
de
simulación
estructural
arrojan
predicciones
mediocres
sobre
el
precio
de
los
boletos
posteriores
a
la
fusión.
Asimismo,
Ashenfelter
y
Hosken
(2008)
comparan
estimaciones
del
tipo
diferencias
en
diferencias
de
los
efectos
en
las
fusiones
de
las
marcas
de
cereales
a
aquellas
reportadas
por
Nevo
(2000).
Ashenfelter
y
Hosken
(2008)
concluyen
en
que
los
resultados
basados
en
el
diseño
transparentemente
identificados
difieren
acentuadamente
de
aquellos
producidos
por
aproximaciones
estructurales.
Un
buen
modelo
estructurado
podría
decirnos
algo
sobre
los
mecanismos
económicos,
así
también
como
de
los
efectos
causales.
Pero
si
la
información
sobre
mecanismos
vale
de
algo,
las
estimaciones
estructurales
deberían
alinearse
con
aquellas
derivadas
de
supuestos
más
débiles.
¿La
nueva
estructura
empírica
de
organización
industrial
genera
resultados
12
Como
sucede
con
la
mayoría
del
trabajo
empírico,
el
análisis
de
Hastings
(2004)
tiene
sus
problemas
y
sus
conclusiones
pueden
garantizar
calificación.
Taylor,
Kreisle,
y
Zimmerman
(2007)
fallan
al
intentar
replicar
los
descubrimientos
de
Hastings
usando
fuentes
alternativas
de
información.
Aquí
como
en
cualquier
otro
lugar,
una
aproximación
transparente
facilita
los
efectos
de
replicación
y
de
crítica
constructiva
20
creíbles
que
se
igualan
con
los
resultados
basados
en
el
diseño?
Hasta
ahora,
los
resultados
parecen
bastante
mezclados.
Desde
luego,
la
pregunta
sobre
que
estimados
preferir
para
influir
en
la
calidad
de
los
relevantes
diseños
cuasi-‐experimentales
y
nuestra
fe
en
la
habilidad
de
una
estructura
teórica
más
elaborada
para
apoyar
un
modelo
estructural
identificado
como
débil.
Encontramos
los
resultados
empíricos
generados
por
un
buen
diseño
de
investigaciones
más
convincentes
que
las
conclusiones
derivadas
de
una
buena
teoría,
pero
también
esperamos
ver
a
la
organización
industrial
dirigirse
hacia
estrategias
de
investigación
mas
fuertes
y
transparentes,
en
un
marco
de
trabajo
estructural.
¿Se
ha
balanceado
demasiado
el
péndulo
del
diseño
de
investigación?
El
ascenso
del
paradigma
experimental
ha
provocado
una
reacción,
tal
como
lo
hacen
las
revoluciones.
El
primero
costo
contra
revolucionario
hace
crecer
la
pregunta
sobre
la
validez
externa
-‐la
duda
sobre
si
la
evidencia
de
un
cierto
diseño
de
investigación
experimental
o
pseudo-‐experimental
tiene
poco
valor
predictivo
más
allá
del
contexto
del
experimento
original.
El
segundo
costo
es
que
los
experimentalistas
están
ocupando
roles
pequeños
mientras
las
grandes
preguntas
siguen
sin
ser
respondidas.
Validez
Externa
Un
buen
diseño
de
investigación
revela
una
verdad
particular,
pero
no
necesariamente
toda
la
verdad.
Por
ejemplo,
el
experimento
STAR
de
Tennessee
redujo
el
tamaño
de
las
clases
de
25
a
15.
Cambios
de
este
rango
no
necesitan
revelar
el
efecto
de
las
reducciones
de
40
a
30
estudiantes.
De
manera
similar,
los
efectos
podrían
ser
únicos
en
el
caso
del
estado
de
Tennessee.
La
critica
aquí
–
hecha
por
numero
de
autores
incluyendo
a
Heckman
1997);
Rosenzweig
y
Wolpin
(2000);
Heckman
y
Urzua
(2009);
y
Deaton
(2009)-‐
es
que,
en
la
búsqueda
de
la
validez
interna,
los
estudios
basados
en
el
diseño
se
han
vuelto
estrechos
o
idiosincráticos.
Quizás
vale
la
pena
volver
a
exponer
un
punto
obvio.
La
evidencia
empírica
en
cualquier
efecto
causal
dado
es
siempre
loca,
derivada
de
un
tiempo,
lugar,
y
diseño
de
investigación
particular.
Invocar
un
marco
de
estudio
general
estructural
y
superficial
no
hace
que
la
variación
o
ajuste
que
yace
por
debajo
sea
más
representativa.
La
teoría
económica
frecuentemente
sugiere
que
los
principios
generales,
excepto
por
la
extrapolación
de
efectos
causales
para
los
nuevos
ajustes
es
siempre
especulativa.
Sin
embargo,
cualquiera
que
se
gana
la
vida
con
el
análisis
de
información
probablemente
crea
que
la
heterogeneidad
es
lo
suficientemente
limitada
para
que
el
bien
entendido
pasado
pueda
ser
informativo
sobre
el
futuro.
Una
respuesta
constructiva
sobre
la
especificidad
de
un
diseño
de
investigación
dado
es
buscar
más
evidencia,
para
que
una
imagen
más
general
puede
emerger.
Por
ejemplo,
uno
de
nosotros
(Angrist)
ha
estimado
repetidamente
los
efectos
del
servicio
militar,
con
estudios
sobre
los
veteranos
de
la
Segunda
Guerra
Mundial,
la
era
de
Vietnam,
la
Primera
Guerra
del
Golfo,
y
los
periodos
entre
medio.
Las
fuerzas
acumulativas
sobre
estos
estudios
han
hecho
algunas
afirmaciones
sobre
la
validez
externa
-‐esto
es,
que
son
útiles
explicando
los
efectos
del
servicio
militar
para
aquellos
que
lo
cumplieron
en
cualquier
periodo
y,
por
lo
tanto,
con
21
suerte,
para
aquellos
que
pudieran
cumplirlo
en
el
futuro.
En
general,
el
servicio
militar
tiende
a
hundir
las
ganancias
de
los
civiles,
al
menos
para
los
blancos,
un
descubrimiento
que
es
al
mismo
tiempo,
empíricamente
consistente
y
teóricamente
coherente.
El
principal
canal
teórico
por
el
cual
el
servicio
militar
afecta
las
ganancias
es
el
capital
humano,
particularmente
en
la
forma
de
experiencia
civil
perdida.
En
una
estructura
basada
en
el
diseño,
la
teoría
económica
nos
ayuda
a
entender
la
imagen
que
surge
de
una
constelación
de
descubrimientos
empíricos,
pero
no
nos
ayuda
a
generar
una
imagen
propia.
Por
ejemplo,
la
historia
del
capital
humano
no
es
integral
a
la
validez
de
la
variable
instrumental,
usando
los
números
de
la
lotería
como
instrumentos
para
el
servicio
militar
en
la
era
de
Vietnam
(como
en
Angrist,
1990).
Pero
la
teoría
del
capital
humano
provee
una
estructura
que
se
reconcilia
con
perdidas
tempranas
mayores
en
la
carrera
de
un
veterano
(cuando
los
perfiles
experimentados
tienden
a
ser
más
pronunciados)
con
perdidas
disipadas
después
de
muchos
años
(como
se
muestra
en
Angrist
y
Chen,
2008).
El
proceso
de
acumulación
de
evidencia
empírica
es
raramente
atractivo
en
la
separación,
pero
la
acumulación
es
la
ruta
necesaria
para
que
los
resultados
se
vuelvan
más
generales
(Imbens,
2009,
hace
alusión
a
un
punto
parecido).
La
literatura
sobre
el
tamaño
de
las
clases
también
ilustra
este
proceso.
Estudios
razonablemente
buen
identificados
provenientes
de
un
número
de
países
avanzados,
en
diferentes
niveles
y
materias,
y
por
tamaños
de
clases
variados
desde
pocos
estudiantes
hasta
aproximadamente
40,
han
producido
estimaciones
dentro
de
una
banda
remarcablemente
estrecha
(Krueger,
1999;
Angrist
y
Lavy,
1999;
Rivkin,
Hanushek,
y
Kain,
2005;
Heinesen,
venidero).
A
lo
largo
de
estos
estudios,
la
reducción
del
tamaño
de
la
clase
en
10
estudiantes
produce
una
desviación
estándar
de
cerca
de
0.2
a
0.3
en
el
incremento
de
los
puntajes
en
los
exámenes.
Las
clases
más
pequeñas
no
siempre
aumentan
los
puntajes
en
los
exámenes,
entonces
la
estimación
de
los
descubrimientos
debería
estar
calificada
(ver,
por
ejemplo,
Hoxby,
2000).
Pero
el
peso
de
la
evidencia
sugiere
que
la
reducción
en
el
tamaño
de
las
clases
genera
modestas
ganancias
en
los
logros,
a
altos
costos.
La
aplicación
de
la
microeconomía
en
el
campo
no
es
única
en
la
acumulación
de
descubrimientos
empíricos
convincentes.
La
evidencia
del
poder
de
la
política
monetaria
para
influenciar
a
la
macroeconomía
también
parece
razonablemente
convincente.
Como
lo
vemos,
de
todos
modos,
la
evidencia
más
persuasiva
en
este
punto
no
proviene
de
modelos
estructurales
elaborados,
que
solo
nos
dicen
si
la
política
monetaria
afecta
o
no
la
salida
dependiendo
del
modelo,
sino
de
los
diseños
de
investigaciones
empíricos
creíbles,
como
algunos
sobre
los
cuales
hemos
discutido
en
este
trabajo.
No
sorprendentemente,
los
canales
por
los
cuales
la
política
monetaria
afecta
las
salidas
son
menos
claros
que
los
descubrimientos
que
sugieren
que
hay
un
efecto.
Las
preguntas
sobre
por
qué
un
efecto
dado
aparece
son
usualmente
más
difíciles
de
responder
que
las
preguntas
sobre
si
un
efecto
aparece
o
que
tan
grande
es.
Como
la
mayoría
de
los
investigadores,
tenemos
un
interés
en
los
mecanismos,
así
como
también,
en
los
efectos
causales.
Pero
la
evidencia
inconclusa
o
incompleta
sobre
los
mecanismos
no
vacía
la
evidencia
empírica
de
valor
predictivo.
Este
punto
ha
sido
entendido
desde
hace
mucho
tiempo
por
la
medicina,
donde
la
evidencia
clínica
de
la
efectividad
de
una
terapia
ha
corrido
por
siglos
con
mas
ventaja
que
el
entendimiento
teórico
de
la
enfermedad.
¿Sacando
lo
“Econs”
también
fuera
de
la
econometría?
22
Relacionada
a
la
crítica
de
la
validez
externa
también
está
la
afirmación
que
asegura
que
el
paradigma
experimental
lleva
a
los
investigadores
a
buscar
buenos
experimentos,
sin
importar
si
las
preguntas
que
abortan
son
importantes.
En
un
cautivador
reporte
en
The
New
Republic,
Scheiber
(2007)
argumenta
que
los
economistas
jóvenes
se
han
alejado
de
las
preguntas
importantes
como
la
pobreza,
inequidad,
y
desempleo
para
estudiar
el
comportamiento
en
los
programas
de
televisión
de
entretenimiento.
Scheiber
cita
a
un
número
de
economistas
distinguidos
en
el
ámbito
académico
que
comparten
esta
preocupación.
Raj
Chetty
comenta:
“La
gente
piensa
sobre
la
pregunta
más
que
sobre
el
método…
es
así
como
se
obtienen
papers
extraños,
como
sobre
las
instalaciones
sanitarias
en
las
reservas
Nativo
Americanas”
James
Heckman
es
menos
diplomático:
“En
algunos
distritos
de
nuestra
profesión,
el
nivel
de
discusión
se
ha
hundido
al
nivel
de
un
artículo
del
New
Yorker.”
No
hay
un
atajo
para
la
trivialidad
académica.
Aun
así,
la
crítica
de
Sheiber
(2007)
pierde
el
punto
porque
él
iguala
la
trivialidad
con
la
angostura
del
contexto.
Por
ejemplo,
el
critica
a
DellaVigna
y
Malmendier
(2006),
quienes
observan
la
asistencia
y
renovación
de
decisiones
de
miembros
de
un
club
de
salud,
y
a
Conlin,
O’Donoghue,
y
Vogelsang
(2007),
quienes
estudian
las
ventas
por
catalogo
de
ropa
de
invierno.
Ambos
estudios
están
preocupados
con
la
noción
económica
de
la
inclinación
por
el
comportamiento
orientado
hacia
el
presente,
un
asunto
con
implicaciones
de
alto
alcance
para
la
política
y
teoría
económica.
El
mercado
para
las
botas
de
nieve
parece
no
menos
interesante,
en
este
contexto,
que
el
mercado
minorista
de
cualquier
otro
producto,
y
quizás
hasta
más
interesante
si
la
data
es
especialmente
buena.
Podemos
observar
estos
estudios
basados
en
el
diseño
para
validar
los
descubrimientos
del
trabajo
empírico
más
descriptivo
aplicado
en
ítems
con
precios
más
altos.
Por
ejemplo,
DellaVigna
y
Paserman
(2005)
observan
la
inclinación
orientada
hacia
el
presente
en
el
comportamiento
a
la
hora
de
buscar
un
empleo.
En
el
universo
empírico,
la
evidencia
se
acumula
a
través
de
las
configuraciones
y
diseños
de
estudio,
produciendo
al
final
algún
tipo
de
consenso.
Las
apuestas
pequeñas
a
veces
ganan
grandes
jugadas.
En
nuestro
campo,
algunos
de
los
mejores
diseños
de
investigación,
usados
para
estimar
la
elasticidad
en
la
oferta
de
trabajo
y
como
explota
de
manera
natural
e
inducida
por
el
experimentador
en
mercados
de
trabajo
específicos.
Oetinger
(1999)
analiza
el
estado
del
comerciante
y
su
reacción
a
los
cambios
en
los
salarios
ocasionados
por
el
cambio
en
la
asistencia,
mientras
que
Fehr
y
Goette
(2007)
estudian
a
los
mensajeros
en
bicicleta
de
Zurich
quienes,
en
un
experimento
controlado,
recibieron
tasas
de
comisión
mayores
por
solo
un
mes.
Estas
ocupaciones
pueden
parecer
pequeñas
y
especializadas,
pero
no
son
menos
representativas
del
mercado
laboral
contemporáneo
que
aquellas
en
el
sector
manufacturero,
que
ha
sido
de
interés
para
la
economía
laboral
por
un
largo
periodo.
Estos
ejemplos
también
sirven
para
refutar
la
afirmación
que
asegura
que
el
trabajo
empírico
basado
en
el
diseño
se
enfoca
en
los
efectos
estrechos
y
no
puede
descubrir
los
parámetros
teóricos
estructurales
de
los
que
muchos
economistas
se
ocupan.
Los
estudios
sobre
la
oferta
de
empleo
cuasi-‐experimentales
como
los
de
Oettinger
(1999)
y
Ferh
y
Goette
(2007)
intentan
medir
la
elasticidad
de
sustitución
Inter
temporal,
como
un
parámetro
estructural
que
puede
derivar
de
una
estructura
dinámica
estocástica.
La
elasticidad
de
la
demanda
de
trabajo,
estructurada
de
manera
similar,
también
puede
ser
estimada
usando
23
cuasi-‐experimentos,
como
en
Card
(1990b),
quien
explota
la
variación
del
salario
real
generada
por
la
indexación
parcial
de
los
contratos
de
las
uniones.
El
trabajo
empírico
cuasi-‐experimental
también
se
ajusta
bien
a
la
tarea
de
contrastar
hipótesis
económicamente
competitivas.
Las
investigaciones
de
la
inclinación
orientada
hacia
el
presente,
mencionada
más
arriba,
se
enfoca
en
las
implicaciones
claves
de
los
modelos
alternativos.
En
un
estudio
similar
motivado
por
la
teoría,
Karlan
y
Zinman
(2009)
intentan
distinguir
los
peligros
morales
de
la
selección
adversa
en
el
mercado
crediticio
para
los
consumidores
usando
un
diseño
ingenioso
que
incluye
aleatorización
en
dos
pasos.
Primero,
a
los
potenciales
solicitantes
se
les
ofrece
diferentes
tasas
de
interés
antes
de
que
apliquen
para
obtener
los
préstamos.
Su
respuesta
inicial
a
la
variación
en
las
tasas
de
interés
es
usada
para
medir
la
selección
adversa.
A
algunos
de
los
clientes
que
tomaron
los
prestamos,
luego
les
fueron
dadas
tasas
de
interés
menores
a
las
tasas
ofrecidas
al
principio.
Esta
variación
es
usada
para
identificar
los
peligros
morales
en
una
muestra
cuando
todos
ya
se
han
comprometido
a
tomar
el
préstamo.
¿Pero
que
hay
sobre
las
preguntas
más
grandes
que
afectan
a
todo
el
mundo
o
el
curso
de
la
historia?
Nunn
(200)
usa
un
amplio
rango
de
evidencia
histórica,
incluyendo
las
distancias
de
navegación
en
las
rutas
de
comercio,
para
estimar
los
efectos
a
largo
plazo
del
tráfico
de
esclavos
africanos.
Deschënes
y
Greenstone
(2007)
usan
fluctuaciones
aleatorias
en
la
temperatura
que
varían
año
a
año
para
estimar
los
efectos
del
cambio
climático
en
el
uso
energético
y
la
mortalidad.
En
un
estudio
de
los
efectos
de
la
ayuda
internacional
en
el
crecimiento,
Raja
y
Subramanian
(2008)
construyen
instrumentos
para
la
ayuda
económica
internacional
a
partir
de
los
orígenes
de
la
relación
donante-‐receptor.
Estos
ejemplos
y
muchos
más
hablan
elocuentemente
de
la
amplia
aplicación
de
la
aproximación
basada
en
el
diseño.
El
buen
diseño
de
investigación
complementa
a
las
buenas
preguntas.
Al
mismo
tiempo,
a
favor
de
los
estudios
que
incluyen
buenos
diseños,
aceptamos
una
aproximación
incremental
hacia
el
conocimiento
empírico
en
el
cual
los
estudios
bien
diseñados
tienen
mayor
peso,
mientras
que
otra
evidencia
es
tratada
de
manera
más
previsional.
Conclusión
Leamer
(1983)
trazó
una
analogía
entre
la
econometría
aplicada
y
la
experimentación
clásica,
pero
su
propuesta
de
acercarlas
mediante
el
uso
de
análisis
de
límites
extremos
no
es
la
razón
principal
por
la
cual
el
trabajo
empírico
en
la
economía
ha
mejorado.
La
mejora
surge,
mayormente,
de
mejores
diseños
de
investigación,
ya
sea
por
la
virtud
de
la
experimentación
directa
o
a
través
de
la
implementación
cuidadosa
y
bien
fundada
de
los
métodos
cuasi-‐
experimentales.
El
trabajo
empírico
de
este
espíritu
ha
producido
una
revolución
en
la
credibilidad
en
los
campos
del
empleo,
las
finanzas
públicas,
y
el
desarrollo
de
la
economía
durante
los
últimos
20
años.
Los
revolucionarios
basados
en
el
diseño
han
alcanzado
varios
éxitos,
poniendo
números
complejos
en
los
parámetros
de
interés,
tanto
para
hacedores
de
políticas
como
para
los
economistas
teóricos.
Imaginen
que
podría
ser
aprendido
si
una
ola
similar
se
extendiera
por
los
campos
de
la
macroeconomía
y
la
organización
industrial.
24