CL 1.en - Es

Traducido del inglés al español - www.onlinedoctranslator.
com
Artículo
Revisión de Finanzas Públicas
2017, vol. 45(1) 10-43
Evaluación de impacto
ªAutor(es) 2015
Reimpresiones y permiso:
sagepub.com/journalsPermissions.nav
Métodos en Público DOI: 10.1177/1091142115614392

pfr.sagepub.com
Economía: un resumen
Introducción a
Aleatorizado
Evaluaciones y
Comparar con
Otros metodos
dina pomeranz1
Resumen
En los últimos años se ha visto una gran expansión en el uso de técnicas rigurosas de evaluación
de impacto. Cada vez más, las administraciones públicas colaboran con economistas académicos y
otros científicos sociales cuantitativos para aplicar métodos tan rigurosos al estudio de las finanzas
públicas. Estos desarrollos permiten mediciones más confiables de los efectos de diferentes
opciones de política en las respuestas de comportamiento de los ciudadanos, propietarios de
empresas o funcionarios públicos. Pueden ayudar a los tomadores de decisiones en las
administraciones tributarias, las oficinas de adquisiciones públicas y otras agencias públicas a
diseñar programas informados por evidencia bien fundamentada. Este artículo proporciona una
descripción general introductoria de los métodos de evaluación de impacto más utilizados. está
dirigido a
1Harvard Business School y NBER, Boston, MA, EE. UU.
Autor correspondiente:
Dina Pomeranz, Harvard Business School y NBER, Boston, MA 02163, EE. UU. Correo
electrónico: dpomeranz@hbs.edu
pomeranz 11
facilitar la comunicación y la colaboración entre profesionales y académicos mediante

la introducción de vocabulario y conceptos clave utilizados en métodos rigurosos de
evaluación de impacto, comenzando con ensayos controlados aleatorios y
comparándolos con otros métodos que van desde un simple análisis previo y
posterior hasta diferencias en diferencias, estimaciones coincidentes y diseños de
discontinuidad de regresión.
Palabras clave
economía pública, impuestos, evaluación de impacto, ensayos controlados aleatorios
Las decisiones diarias que se toman en las finanzas públicas pueden afectar la economía de todo
un país. Sin embargo, evaluar la efectividad de las diferentes opciones de políticas es un desafío.
Los funcionarios públicos se enfrentan constantemente a una miríada de preguntas importantes
relacionadas con los impactos de las políticas públicas en el comportamiento de los ciudadanos,
las empresas o los funcionarios públicos. ¿Qué políticas son más efectivas contra la evasión fiscal?
¿Con qué fuerza reaccionarán los propietarios de las empresas a los incentivos fiscales? ¿Cómo se
puede optimizar el seguimiento para mejorar el comportamiento y el cumplimiento de los
funcionarios de contratación pública? ¿Qué tipo de comunicación puede motivar a los funcionarios
escolares a distribuir con prontitud las subvenciones para infraestructura educativa? ¿Cómo se ve
afectado el diseño de políticas óptimas por los sesgos conductuales que han sido identificados por
la creciente literatura de economía pública conductual (Chetty 2015)?
Las mejoras recientes en las técnicas de evaluación de impacto permiten

respuestas cada vez más confiables a este tipo de preguntas. Un número
creciente de colaboraciones entre administraciones públicas y académicos ha
facilitado la aplicación de evaluaciones aleatorias y otros métodos
cuasiexperimentales a cuestiones de finanzas públicas y economía del
comportamiento. En la economía pública, las evaluaciones de impacto a
menudo pueden aprovechar los datos administrativos ya disponibles, lo que
reduce considerablemente su costo.
Existen varios métodos de evaluación de impacto, cada uno con diferentes grados
de validez. La calidad de la evaluación es de suma importancia para obtener
resultados informativos e imparciales. Este artículo proporciona una descripción
general de los métodos utilizados con mayor frecuencia, en un lenguaje accesible
tanto para académicos como para profesionales de la economía pública. Ofrece un
breve resumen de cada método, sus ventajas y desventajas, y las condiciones bajo las
cuales el método produce resultados válidos. Además, proporciona una introducción
a los elementos clave de la terminología especializada de impacto.
12 Revisión de Finanzas Públicas 45(1)
evaluaciones para facilitar la comunicación entre los hacedores de políticas y los

académicos que buscan colaborar en estos temas.
Por lo tanto, es útil definir algunos conceptos básicos antes de presentar los
métodos específicos a continuación. El objetivo de toda evaluación de impacto es
demostrar unaefecto causal.El objetivo es medir el impacto de un programa o política
en algún resultado de interés. Por ejemplo, ¿cuál es el efecto de una carta de
notificación en el pago de impuestos? En el contexto de las evaluaciones de impacto,
la política o el programa cuyo impacto queremos analizar a menudo se denomina
tratamiento.El impacto es entonces el resultado que se puede atribuir directamente
al tratamiento, como un cambio en las declaraciones de impuestos como resultado
de la carta de notificación.
El desafío fundamental de la evaluación de impacto es que en un momento
dado solo es posible observar lo que sucedió, dadas las políticas vigentes, no lo
que hubiera ocurrido sin esas políticas. Es posible observar las declaraciones de
impuestos de los contribuyentes que recibieron una notificación, pero no es
posible observar qué habrían hecho esos mismos contribuyentes en ausencia
de dicha notificación. Esta situación hipotética de lo que habría sucedido en
ausencia del tratamiento se denominacontrafactual Comprender el
contrafactual es la clave para comprender el impacto de un programa. La figura
1 proporciona una representación gráfica de este contrafactual no observado.
La Figura 1 representa el desafío fundamental de las evaluaciones de

impacto, que buscan medir la diferencia entre el resultado que de hecho
ocurrió (mostrado en puntos claros/amarillos) y el contrafactual que nunca
se observa (mostrado con puntos oscuros). En este ejemplo, podemos ver
que el resultado primario aumentó más abruptamente después de la
intervención (puntos claros) de lo que hubiera sido sin la intervención
(puntos oscuros). El impacto se mide como la diferencia entre el resultado
con el tratamiento y el resultado que habría ocurrido sin el tratamiento (el
contrafactual).
Si existiera una representación precisa del contrafactual, entonces la
evaluación del impacto sería fácil. El impacto de un programa o política sería la
diferencia entre el resultado observado con el programa y el resultado que
hubiera prevalecido sin el programa. Dado que el contrafactual nunca se puede
observar en la realidad, cada evaluación intenta, de manera explícita o implícita,
construir una estimación del contrafactual para compararlo con lo ocurrido. La
calidad de esa representación impulsa la calidad de la evaluación de impacto.
Normalmente, la estimación contrafactual está representada por un grupo llamado

grupo de contrologrupo de comparación.El grupo de control está formado por
pomeranz 13
Figura 1.Contrafactual. Esta figura representa el desafío fundamental de las evaluaciones

de impacto, que buscan medir la diferencia entre el resultado que ocurrió (mostrado en
puntos claros/amarillos) y un contrafactual que nunca se observa (mostrado con puntos
oscuros/azules). Por lo tanto, las técnicas de evaluación de impacto, implícita o
explícitamente, intentan construir una estimación del contrafactual para medir el impacto.
Esto se hace a menudo mediante el uso de un grupo de control.Fuente: Laboratorio de
Acción contra la Pobreza de Abdul Latif Jameel (2015).
personas o empresas que no participaron en el programa, mientras quegrupo

de tratamientoes el grupo que participó en el programa. Para medir el impacto
de la intervención, los resultados del grupo de tratamiento se comparan con los
resultados del grupo de control. Una evaluación producirá resultados confiables
si el grupo de control es idéntico al grupo de tratamiento en todas sus
características, observables o no, excepto una: su exposición al tratamiento. En
este caso, cualquier diferencia después de la intervención puede atribuirse al
programa. En ausencia de tratamiento, ambos grupos serían iguales, por lo que
el grupo de control constituye una representación válida del contrafactual.
Todos los métodos utilizados para construir el grupo de comparación se basan en
suposiciones según las cuales los dos grupos serían comparables. Cuando los supuestos
son realistas, el grupo de control es una buena representación del contrafactual. Cuando
estos supuestos no sean realistas, la evaluación de impacto resultante serátendencioso.Eso
significa que puede sobreestimar o subestimar el verdadero efecto. Una evaluación
sesgada puede resultar en decisiones de política mal informadas y generar pérdidas en
términos de esfuerzo, tiempo y recursos públicos. Por lo tanto, es importante utilizar
métodos de alta calidad para obtener una estimación de impacto confiable y proporcionar
evidencia sólida para la toma de decisiones.
El sesgo puede provenir de una variedad de razones que hacen que los grupos de tratamiento
y de comparación sean diferentes.Sesgo de selecciónse produce cuando los seleccionados
en el grupo de tratamiento son diferentes de los del grupo de comparación de una

manera que afecta los resultados. Esto también sucede cuando las personas que
eligen participar en un tratamiento son diferentes de las que no lo hacen
(autoselección). El sesgo también puede surgir cuando un factor externo afecta a los
que están en tratamiento de manera diferente a los del grupo de comparación. Esto a
veces se denominasesgo de variable omitida.Sesga la conclusión a la que se llega al
comparar el grupo tratado con un grupo de comparación que ya no representa un
contrafactual válido.
El enfoque en hacer que la estimación sea precisa e imparcial se conoce como
validez interna.La validez interna indica hasta qué punto se justifica una conclusión
causal basada en un estudio, es decir, hasta qué punto un estudio evita el riesgo de
sesgo. Las evaluaciones aleatorias bien ejecutadas tienen una validez interna muy
alta. Otros métodos que se describen a continuación tienen mayores riesgos de
sesgo y, en consecuencia, menor validez interna. Estos se discutirán con más detalle
a continuación.
A diferencia de,validacion externay se refiere a la medida en que los hallazgos
causales de un estudio pueden generalizarse o extrapolarse a otras situaciones y
entornos. Por ejemplo, en el área de la economía pública, una pregunta de validez
externa podría preguntar hasta qué punto los hallazgos de una evaluación en una
región son informativos para una posible implementación de una política a nivel
nacional o incluso para otros países o continentes. La validez externa se puede
evaluar hasta cierto punto en función del conocimiento específico del entorno en
cuestión, o se puede probar explícitamente mediante la replicación del mismo
análisis en diferentes entornos. Ver, Banerjee y Duflo (2009) y Duflo, Glennerster y
Kremer (2008) para una discusión más profunda.
El resto del artículo analiza las características, fortalezas y limitaciones de los diferentes
métodos de evaluación (para un tratamiento más profundo de cualquiera de estos
métodos, consulte, por ejemplo, Angrist y Pischke 2009, 2015; Imbens y Wooldridge 2009; y
Gertler et al. . 2011). La segunda sección comienza con evaluaciones aleatorias como punto
de referencia con el que se pueden comparar los otros métodos. Las secciones tercera y
cuarta discuten la diferencia simple y el análisis previo y posterior simple. Estos métodos
requieren los supuestos más sólidos y es más probable que produzcan resultados
sesgados. Las secciones quinta y sexta presentan análisis de diferencias en diferencias,
procedimientos de emparejamiento y puntajes de propensión. Dependiendo de la
configuración, estos métodos pueden generar estimaciones de impacto confiables, pero
deben aplicarse de manera selectiva y con gran cuidado para garantizar que se cumplan los
supuestos subyacentes. La séptima sección proporciona una introducción al diseño de
discontinuidad de regresión (RDD). Este método puede, bajo ciertas circunstancias,
entregar estimaciones causales que son tan válidas como las de las evaluaciones aleatorias,
con la salvedad de que
pomeranz 15
estimar el efecto solo para una subsección específica de la población. La

octava sección concluye.
Evaluación aleatoria
El objetivo deevaluaciones aleatorias—también llamadoevaluaciones
experimentales, ensayos controlados aleatorios (ECA),oexperimentos de campo
aleatorios—es crear un grupo de comparación ideal por diseño desde el
comienzo de la intervención. Los participantes del estudio, que pueden ser
individuos, empresas o entidades o localidades públicas completas, se asignan
al azar para recibir el tratamiento o estar en el grupo de comparación. Esta
asignación aleatoria asegura que (en promedio) no haya diferencia entre los
individuos del grupo de tratamiento y control, excepto por el hecho de que un
grupo ha sido elegido al azar para participar en el programa y el otro no. Por lo
tanto, podemos descartar que el impacto medido se deba a una diferencia
sistemática entre el grupo de tratamiento y control que habría existido incluso
sin la aplicación del tratamiento (Duflo, Glennerster y Kremer 2008). Por lo
tanto, las evaluaciones aleatorias a menudo se consideran la forma ideal de
realizar una evaluación de impacto. Es por ello que en la evaluación de nuevos
medicamentos y en las investigaciones de laboratorio de ciencias naturales se
utiliza casi exclusivamente este método. (Nota: es importante distinguir entre
una evaluación aleatoria y una muestra aleatoria. Las muestras aleatorias se
utilizan para obtener información descriptiva representativa sobre una
población, no para medir el impacto. La característica distintiva de una
evaluación aleatoria es que el tratamiento se asigna al azar .)
Otro beneficio de las evaluaciones aleatorias es que permiten a los
investigadores identificar el efecto de un componente particular de un
programa más amplio. Para hacerlo, uno puede variar un factor en particular en
varios grupos de tratamiento y compararlos con el grupo de control. De esta
manera, el impacto casual de un componente particular de un programa o
política se puede identificar de una manera que de otro modo sería difícil
(Banerjee y Duflo 2009). Por ejemplo, los estudios sobre qué políticas pueden
mejorar el acceso a la educación y el aprendizaje escolar buscaron medir los
efectos específicos de los libros de texto (Glewwe, Kremer y Moulin 2009), el
tamaño de la clase (Angrist y Lavy 1999) y la salud de los estudiantes (Miguel y
Kremer 2004). ). Evaluaciones aleatorias que manipulan un factor a la vez,
mientras mantienen constantes los otros elementos del entorno del aula. puede
medir el impacto individual de cada factor. Este aislamiento de factores
específicos puede hacer posible probar mecanismos particulares a través de los
cuales una política tiene efecto (Ludwig, Kling y Mullainathan 2011).
dieciséis Revisión de Finanzas Públicas 45(1)
Es importante destacar que la asignación aleatoria requiere que la evaluación se

diseñe antes de que comience el programa. Por esta razón, este método también se
llamaevaluación prospectiva.En un proceso aleatorio, los individuos (u otras
entidades como escuelas, empresas o pueblos) se asignan al grupo de tratamiento y
los que no se seleccionan forman parte del grupo de control. Esto genera dos grupos
que son similares tanto en términos de características observables (como los niveles
de educación) como no observables (como la motivación). Por lo tanto, cualquier
diferencia que surja posteriormente entre los grupos de tratamiento y control puede
atribuirse al programa y no a otros factores. Por esta razón, si se diseña y aplica
adecuadamente, una evaluación aleatoria es el método más válido para medir el
impacto de un programa y requiere la menor cantidad de suposiciones adicionales.
Aleatorización en la práctica
Esta sección presentará una breve descripción general de los diferentes pasos involucrados
en la creación e implementación de un estudio de campo aleatorio (para obtener una
descripción más detallada de los pasos involucrados en los ECA en muchos escenarios
diferentes, consulte Glennerster y Takavarasha 2013, y Gerber y Green 2012 ). El primer
paso es elegir un programa, una población y las principales variables de interés de interés.
Idealmente, este será un programa que sea de interés para el formulador de políticas en la
medida en que aprender sobre su efectividad, o aspectos de su efectividad, alimentará el
proceso de toma de decisiones de la entidad pública.
En segundo lugar, antes de comenzar la evaluación, es útil calcular estimaciones
estadísticas para determinar el tamaño de los grupos de tratamiento y control
necesarios para medir de manera confiable el impacto en las variables de interés de
interés. Este análisis se llamacalculo de potenciaya que estima cuántas observaciones
se necesitan para tener suficiente poder estadístico para detectar un efecto
significativo.
¿Cómo determinamos el número de participantes necesarios en un estudio
aleatorizado? Cuanto mayor sea el número de individuos incluidos en un estudio, más
probable es que ambos grupos sean similares (debido a la "ley estadística de los grandes
números"). Esta es una de las razones por las que el tamaño de la muestra es importante.
Una muestra más grande es mejor ya que reduce la probabilidad de tener grupos
desequilibrados. Además, una muestra más grande mejora la precisión de las estimaciones
de impacto, es decir, aumenta la probabilidad de detectar el verdadero impacto de un
programa. Sin embargo, un estudio más grande puede ser más costoso y no siempre es
factible. Por lo tanto, los cálculos de potencia pueden ayudar a determinar el tamaño de
muestra necesario para medir el impacto en el principal resultado de interés.
pomeranz 17
Los cálculos de potencia estadística incorporan los diferentes factores que afectan
el número de participantes requeridos. Entre los factores a considerar están la
varianza de la variable de resultado de interés y el efecto mínimo que se espera
detectar. Cuanto menor sea el tamaño del efecto que se desea detectar, mayor será
el número de observaciones necesarias. Además, cuanto mayor sea la variación en el
resultado de interés, mayor será el número de observaciones necesarias para
distinguir el verdadero tamaño del efecto del simple ruido en los datos. Finalmente,
el diseño de aleatorización puede afectar el tamaño de grupo necesario. Si la
aleatorización se realiza a nivel de grupo (aleatorización agrupada), se necesitarán
más observaciones que si la aleatorización se realiza a nivel individual (ver más
detalles sobre la aleatorización agrupada a continuación).
El tercer paso en una evaluación aleatoria es la asignación aleatoria del
tratamiento. El proceso de aleatorización puede ser tan simple como lanzar una
moneda o realizar una lotería. Para que el proceso sea transparente y replicable, la
asignación aleatoria a menudo se implementa mediante software estadístico como
Stata. Es importante que el proceso de aleatorización sea verdaderamente aleatorio y
no sólo "aparentemente" arbitrario. Por ejemplo, asignar el tratamiento a personas
cuyos apellidos comienzan con las letras ''A–L'' y dejar como control a aquellas que
comienzan con ''M-Z'' puede parecer aleatorio, pero no lo es. Tal asignación requiere
suponer que los individuos cuyos apellidos comienzan con las letras A–L son los
mismos que los que comienzan con M–Z. Sin embargo, es posible que las familias
cuyos apellidos comiencen con las letras A–L sean diferentes de las familias cuyo
apellido comience con las letras M–Z. Por ejemplo, la composición étnica puede
variar. Para evitar esta situación, se recomienda un método automatizado como el
uso de un programa de computadora para generar números aleatorios que
determinen la asignación del tratamiento.
Una computadora también simplifica procesos de aleatorización más complejos, como
aleatorización estratificada.Se recomienda la aleatorización estratificada cuando el número
de participantes potenciales es relativamente pequeño, para garantizar que ambos grupos
estén equilibrados con respecto a las variables más importantes. Al estratificar, la muestra
se divide en subgrupos de características similares, con participantes dentro de cada
subgrupo asignados aleatoriamente a tratamiento y control, de manera que la proporción
en tratamiento y control es la misma para cada subgrupo. Por ejemplo, si la población se
divide por género, si se asigna el tratamiento al 30 por ciento de hombres y al 30 por ciento
de mujeres, esta asignación estará perfectamente equilibrada en términos de género. El
grupo de tratamiento tendrá exactamente la misma composición de género que el grupo
de control.
Como se mencionó anteriormente, otro diseño de aleatorización de uso
frecuente esaleatorización agrupada.En este procedimiento, la aleatorización no
se realiza a nivel de individuo sino a nivel de grupos de individuos: enteros
se asignan grupos (o "conglomerados") de personas al tratamiento o al

control. Esto es particularmente útil para situaciones en las que se puede
esperar que el tratamiento tenga efectos indirectos sobre otros en el
mismo grupo. Por ejemplo, al probar el efecto de un nuevo libro de texto,
es posible que no sea posible realizar asignaciones aleatorias a nivel de
estudiante, ya que el maestro enseñará del mismo libro a toda la clase. La
tarea debe entonces hacerse a nivel de clase. Otro ejemplo podría ser una
autoridad fiscal que quiera probar una nueva estrategia de comunicación
hacia las pequeñas empresas. Podrían preocuparse de que los contadores
fiscales, que trabajan para varias empresas, puedan compartir información
entre las empresas para las que trabajan. Para remediar esto, la asignación
aleatoria podría hacerse a nivel contable,
No es necesario que ambos grupos sean del mismo tamaño. Sin embargo, es
importante verificar que los grupos estén equilibrados con respecto a las principales
variables de resultado de interés. Es decir, las características promedio (p. ej., ingreso
promedio de la empresa, composición de la industria o porcentaje de mujeres) no son
significativamente diferentes entre el grupo de tratamiento y el de control. Por lo tanto, en
la literatura académica, los estudios experimentales suelen incluir una tabla de equilibrio
que muestra que las características principales son similares en los dos grupos.
El cuarto paso en una evaluación aleatoria debería, siempre que

sea posible, ser una fase piloto de la intervención planificada. Una
implementación piloto a pequeña escala del programa a evaluar
puede proporcionar enormes beneficios para la preparación de la
intervención a gran escala. En la práctica, las lecciones aprendidas
del piloto a menudo marcan la diferencia entre un estudio
aleatorizado informativo exitoso y uno sin éxito. Los pilotos
permiten a los investigadores y a los encargados de formular
políticas aprender sobre desafíos imprevistos a pequeña escala,
cuando aún pueden remediarse, y evitar problemas inesperados
más adelante. Esto se aplica tanto a la implementación del
programa en sí como al proceso de recopilación de datos, la
comunicación interna en la agencia pública sobre la intervención,
etc.
Finalmente, se lleva a cabo la implementación del programa o política a

evaluar. El aspecto más importante de este proceso es asegurarse de que no
haya diferencia entre el grupo de tratamiento y control, excepto la aplicación
del programa. A veces, los funcionarios bien intencionados malinterpretan la
idea del grupo de control y piensan que todas las demás intervenciones
pomeranz 19
hacia los grupos de control también debe detenerse hasta que finalice el
estudio. Sin embargo, esto equivaldría a tratar al grupo de control de manera
diferente al grupo de tratamiento. Por ejemplo, imagine que una autoridad
fiscal quiere probar una nueva estrategia de comunicación mediante el envío de
mensajes de carta específicos a un grupo de contribuyentes seleccionados al
azar y comparando su comportamiento con un grupo de control. Si los
funcionarios ahora decidieran detener todas las actividades de auditoría en el
grupo de control pero continuaran aplicando dichas auditorías al grupo de
tratamiento (o viceversa), se perdería la validez del estudio. En este caso, los dos
grupos no solo se diferenciarían en términos de recibir el tratamiento sino
también en términos de su riesgo de ser auditados. Al observar la diferencia
final entre los dos grupos,
Durante la implementación, también es importante asegurarse de que se respete
la asignación aleatoria de individuos a cada grupo y que los participantes no se
trasladen de un grupo a otro. En el caso de que no se respete la aleatorización en el
proceso de implementación, todavía es posible realizar una evaluación de impacto
válida, siempre que los investigadores tengan información precisa sobre quién
terminó recibiendo el tratamiento y quién no. En este caso, es posible utilizar la
metodología de "intención de tratar" y utilizar variables instrumentales para medir el
efecto "tratamiento sobre el tratado". Este enfoque podría, por ejemplo, usarse si
algunas cartas enviadas a los contribuyentes no se recibieron debido a direcciones
incorrectas (como se hizo en Pomeranz 2015). Es muy importante que aunque esto
suceda, la asignación aleatoria original se utiliza al realizar la evaluación de impacto;
los que fueronasignadoal tratamiento tienen que ser comparados con los asignados
para estar en el grupo de control. Nunca es válido comparar a aquellos que de hecho
fueron tratados con aquellos que debían ser tratados pero que finalmente no
participaron en el programa, porque estos dos grupos no serán comparables. En
nuestro ejemplo, los contribuyentes para quienes la autoridad fiscal tiene direcciones
inválidas probablemente sean sistemáticamente diferentes en muchos aspectos de
aquellos con direcciones válidas.
Experiencias de Evaluaciones Aleatorias en Economía Pública

En los últimos años se ha visto un fuerte aumento en el uso de experimentos de
campo aleatorios para estudiar muchas áreas diferentes de la política pública. Una de
esas áreas es la administración tributaria. Coleman (1996), Blumenthal, Christian y
Slemrod (2001) y Slemrod, Blumenthal y Christian (2001) emprendieron una
colaboración pionera de esta naturaleza con la autoridad fiscal de Minnesota a
mediados de la década de 1990. Muchos académicos han seguido su ejemplo, y un
número creciente de autoridades fiscales colaboran con académicos.
Desde entonces, las autoridades fiscales han llevado a cabo experimentos

aleatorios en Argentina, Australia, Austria, Chile, Dinamarca, Ecuador, Finlandia,
Alemania, Israel, México, Perú, Suiza, Estados Unidos y Venezuela (Hallsworth
2014) y los planes para tales proyectos están en proceso. en Kenia, Liberia,
Ruanda, Uganda y otros países del mundo.
Un tipo de intervención que se utiliza con frecuencia consiste en enviar mensajes de carta a los contribuyentes con el fin de probar diferentes hipótesis
sobre el comportamiento del contribuyente. Las medidas de resultado más utilizadas se relacionan con la cantidad de impuestos pagados, ya que las
administraciones tributarias ya tienen acceso a estos datos; es el primer orden de preocupación para las administraciones tributarias. Un número creciente de
estudios recientes ha medido el impacto de cartas o mensajes de texto aleatorios en el comportamiento de los contribuyentes individuales (Coleman 1996;
Blumenthal, Christian y Slemrod 2001; Slemrod, Blumenthal y Chrisitan 2001; Torgler 2004, 2013; Wenzel 2005, 2006; Organización para la Cooperación y el
Desarrollo Económicos [OCDE] 2010; Kleven et al. 2011; Fellner, Sausgruber y Traxler 2013; Haynes et al. 2013; Dwenger et al. 2014; Hallsworth et al. 2014;
Bhargava y Manoli 2015) , propietarios (Wenzel y Taylor 2004; Del Carpio 2013; Castro y Scartascini 2015), o empresas (Hasseldine et al. 2007; Iyer, Recker y
Sanders 2010; Ariel 2012; Harju, Kosonen y Ropponen 2013; Ortega y Sanguinetti 2013 ; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado
respuestas conductuales a amenazas de auditoría o mensajes de motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del
mensaje (Bhargava y Manoli 2015). Otros estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente
descripción general sobre el uso de experimentos de campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). Ariel 2012; Harju,
Kosonen y Ropponen 2013; Ortega y Sanguinetti 2013; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado respuestas conductuales a
amenazas de auditoría o mensajes de motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del mensaje (Bhargava y
Manoli 2015). Otros estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el
uso de experimentos de campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). Ariel 2012; Harju, Kosonen y Ropponen 2013; Ortega
y Sanguinetti 2013; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado respuestas conductuales a amenazas de auditoría o mensajes de
motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros estudios incluyen
medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de campo
aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros estudios
incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de
campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros
estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de campo aleatorios pa
En colaboración con la autoridad tributaria de Chile, empleamos este tipo de experimento de

mensaje de carta aleatoria para un aspecto particularmente relevante para la política de la
administración tributaria: indicadores de riesgo que predicen qué tipos de contribuyentes tienen
más probabilidades de reaccionar ante un aumento en la probabilidad de auditoría ( Pomeranz,
Marshall y Castellón 2014). Muchas autoridades fiscales utilizan tales indicadores de riesgo para
seleccionar qué contribuyentes serán auditados. Sin embargo, las entradas en tales indicadores de
riesgo a menudo sufren de un problema de círculo autocumplido. La información sobre alta
evasión generalmente se encuentra a través de auditorías. Por lo tanto, esta información está más
disponible a partir de tipos de contribuyentes que ya fueron auditados con mayor frecuencia en el
pasado. Los indicadores de riesgo acaban por tanto teniendo un problema autorreferencial, en
qué tipos de contribuyentes que fueron más auditados en el pasado son más propensos a ser
encontrados como de alto riesgo en el futuro. Desarrollamos un método que soluciona este
problema, usando la respuesta
pomeranz 21
a mensajes de cartas de disuasión aleatorios como entradas en el indicador de riesgo. Las

autoridades tributarias pueden aplicar este método para orientar las actividades de auditoría hacia
categorías de contribuyentes que se espera que tengan una respuesta particularmente sólida.
Además de analizar los impactos de las diferentes estrategias de comunicación y
auditoría, los estudios aleatorios también se pueden utilizar para estudiar las respuestas
conductuales de los contribuyentes a la estructura tributaria en sí. En colaboración con la
autoridad fiscal chilena, evaluamos el papel de la información de terceros para el
cumplimiento del impuesto al valor agregado (IVA) (Pomeranz 2015). Los resultados
muestran que el IVA sí puede tener importantes propiedades de "autoejecución". Sin
embargo, estas propiedades solo se activan si la probabilidad de auditoría es lo
suficientemente alta como para que los contribuyentes tomen en serio el riesgo de
detección. En este caso, la información de terceros puede dar lugar a importantes efectos
secundarios que multiplican la eficacia de las medidas de aplicación de los impuestos.
La fiscalidad no es en modo alguno la única área de la economía pública en la que los
experimentos aleatorios desempeñan un papel cada vez más importante. La contratación
pública es otra área de crecimiento para este tipo de estudios. Actualmente se están
realizando proyectos en agencias de contratación de Brasil, Chile y Colombia, entre otros.
Uno de los pocos estudios aleatorios en esta área que ya se ha completado es el de Litschig
y Zamboni (2013). Analizan si un aumento aleatorio en el riesgo de auditoría disuade la
corrupción y el despilfarro en las compras públicas locales en Brasil. Los resultados
muestran que un aumento de veinte puntos porcentuales en el riesgo de auditoría reduce
la incidencia de corrupción y mala gestión de las compras locales en diecisiete puntos
porcentuales.
Los gobiernos también pueden querer estudiar muchos otros
aspectos relacionados con la efectividad del gasto público. Por
ejemplo, en el área de los ahorros, las evaluaciones aleatorias en
entornos muy diferentes encontraron (variando aleatoriamente la
tasa de interés de los ahorros) que subsidiar las tasas de interés
para alentar a los pobres no es muy efectivo, pero que los mensajes
de seguimiento y retroalimentación pueden tener más impacto.
(Karlan et al. 2010; Karlan y Zinman 2014; Kast, Meier y Pomeranz
2014). Esto sugiere que las barreras para el ahorro pueden ser más
conductuales que financieras, por lo que las intervenciones
económicas, como establecer valores predeterminados (Madrian y
Shea 2001; Carroll et al. 2009) o enviar mensajes de seguimiento,
pueden ser muy eficaces. Esto puede tener impactos importantes
para los afectados.
También hay una gran cantidad de literatura que utiliza evaluaciones aleatorias en las
áreas de salud pública, educación, etc. Proporcionar una visión general de estas áreas.
va más allá del alcance de este artículo. El sitio web de Abdul Latif Jameel
Poverty Action Lab (2015), http://www.povertyactionlab.org, proporciona una
lista de tales evaluaciones realizadas por sus afiliados.
Resumen de evaluaciones aleatorias

Las evaluaciones aleatorias permiten estimar el efecto de un programa o política en el comportamiento de los afectados por el mismo. El hecho de que los
participantes se asignen al azar al tratamiento hace posible medir el efecto simplemente comparando los resultados de los asignados al grupo de tratamiento y
los asignados al grupo de control (también llamado "grupo de comparación"). El contrafactual para el grupo de tratamiento está representado por el grupo de
control. Los miembros del grupo de tratamiento y comparación se seleccionan al azar antes del inicio del programa, entre un grupo de participantes
potenciales. Las estimaciones obtenidas a través de evaluaciones aleatorias tienen una validez interna extremadamente alta. Requieren muy pocas suposiciones
adicionales para ser válidas. Por estas razones, las evaluaciones aleatorias a menudo se denominan "estándar de oro" en las evaluaciones de impacto. La
suposición clave de este método es que el proceso de aleatorización se ejecuta correctamente. Si ese es el caso, se espera que los grupos de tratamiento y de
comparación sean estadísticamente idénticos en cuanto a las características observables y no observables. Además, es importante que no se aplique ningún
otro tratamiento a un solo grupo y no al otro. Un inconveniente práctico es que la asignación aleatoria debe realizarse antes de implementar el programa y,
como resultado, no es posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular
puede no ser factible desde el punto de vista práctico, político o ético. se espera que los grupos de tratamiento y de comparación sean estadísticamente
idénticos en cuanto a las características observables y no observables. Además, es importante que no se aplique ningún otro tratamiento a un solo grupo y no al
otro. Un inconveniente práctico es que la asignación aleatoria debe realizarse antes de implementar el programa y, como resultado, no es posible realizar
evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible desde el punto de
vista práctico, político o ético. se espera que los grupos de tratamiento y de comparación sean estadísticamente idénticos en cuanto a las características
observables y no observables. Además, es importante que no se aplique ningún otro tratamiento a un solo grupo y no al otro. Un inconveniente práctico es que
la asignación aleatoria debe realizarse antes de implementar el programa y, como resultado, no es posible realizar evaluaciones aleatorias retrospectivas.
Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible desde el punto de vista práctico, político o ético. no es
posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible
desde el punto de vista práctico, político o ético. no es posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a
un tratamiento en particular puede no ser factible desde el punto de vista práctico, político o ético.
Las siguientes secciones describen otros métodos de evaluación que

intentan construir una aproximación del contrafactual en circunstancias donde
la aleatorización no es posible. La validez de cada método dependerá de cuán
similar sea el grupo de tratamiento al grupo de control.
Diferencia simple: Comparando lo tratado con lo no

tratado
losdiferencia sencillaes uno de los métodos más utilizados para describir los
impactos. Sin embargo, en muchas circunstancias, su aplicación no proporcionará
resultados correctos e imparciales. Esta sección describe cómo funcionan las
diferencias simples y qué suposiciones deben cumplirse para que sean válidas.
Comprender los límites de las diferencias simples también ilustrará mejor la
pomeranz 23
beneficios de tener un grupo de comparación válido para poder obtener

evaluaciones de impacto imparciales.
La metodología de diferencias simples es sencilla: comparar el
grupo que recibió el programa con otro que no lo recibió. El grupo de
comparación en este caso corresponde a personas o entidades que no
participaron del programa. Es decir, se supone que quienes no
participaron representan un contrafactual válido de lo que les habría
sucedido a quienes recibieron el programa si no lo hubieran recibido.
Desafortunadamente, en muchos casos, esta suposición no es realista.
En muchos programas, existe un proceso de selección que determina
quién recibe el tratamiento. Por ejemplo, considere un programa de
auditoría en el que solo se seleccionan los contribuyentes identificados
como de alto riesgo. Esta asignación no es aleatoria e introduce un
sesgo de selección. En otros casos, cualquier persona puede participar
en un tratamiento, pero las personas autoseleccionan si quieren
participar.
Para ilustrar esta situación con un ejemplo concreto, supongamos que alguien quiere
medir el impacto de un programa que ofrece tutorías gratuitas para niños que tienen
dificultades en la escuela. Este fue el caso en el estudio de Banerjee et al. (2007), que evaluó
el efecto de ofrecer clases separadas a los alumnos más débiles. En estas clases de
recuperación, las mujeres jóvenes asesoraban a los estudiantes (los llamados Balsakhi) en
lectura, escritura y matemáticas básicas para ayudarlos a ponerse al día con sus
compañeros. Si este estudio simplemente comparara las calificaciones de los niños que
recibieron ayuda de un tutor con los que no la recibieron, los resultados serían engañosos.
Es muy posible que los niños con tutores tengan notas más bajas que los que no tienen
tutores. Sin embargo, concluyendo, con base en esta observación, que los tutores
perjudiquen el rendimiento académico de los niños probablemente sería erróneo. En este
programa, los niños que se habían atrasado fueron seleccionados para las clases de
recuperación. Por lo tanto, los niños que tenían calificaciones más bajas tenían más
probabilidades de recibir la ayuda de un tutor. Esto introduce un sesgo de selección. En
este caso, el sesgo de selección conduce a una subestimación del impacto. Debido a que el
grupo tratado tenía calificaciones más bajas al principio, cuando se comparan los que
reciben la ayuda de un tutor con los que no, puede parecer que la tutoría tuvo un efecto
negativo en las calificaciones.
A pesar del potencial de serios problemas con el sesgo de selección, las diferencias
simples a menudo son populares porque pueden llevarse a cabo de manera retrospectiva,
incluso después de que el programa haya concluido, y no requieren muchos datos (p. ej.,
no hay datos sobre la situación). de los participantes antes del inicio del programa). Por lo
tanto, los periódicos y los documentos gubernamentales frecuentemente reportan tales
diferencias como evidencia del beneficio (o la falta de
beneficio) de ciertos programas. Con base en la discusión anterior, tales

declaraciones deben tratarse con mucha cautela.
Resumen sobre diferencias simples

El análisis basado en diferencias simples mide el impacto comparando la situación
posterior al tratamiento de aquellos que participaron en un programa con un grupo
de comparación que no lo hizo. El contrafactual está representado por aquellos en el
grupo de comparación. El supuesto clave de este método es que los del grupo de
comparación son idénticos a los que participaron en el programa, excepto por los
efectos del programa. Una ventaja clave, y motivo de su uso frecuente, es que este
método no requiere datos sobre la situación previa al tratamiento. Sin embargo, un
gran inconveniente es que si los grupos tratados y de comparación son diferentes de
alguna manera antes del programa, el método puede estar sesgado y puede
subestimar o sobrestimar el impacto real de una política, es decir, se introduce un
sesgo de selección en el Estimacion.
Comparación antes y después del tratamiento

Acomparación pre-postes un tipo particular de evaluación de diferencia simple. En
lugar de utilizar otro grupo como grupo de control, se compara el mismo grupo de
personas antes y después de participar en el programa. Por lo tanto, una evaluación
pre-post mide el cambio con el tiempo. El impacto se mide como la diferencia entre
los resultados de interés antes y después de una intervención. El análisis previo y
posterior se utiliza con frecuencia en la evaluación de programas. En muchos casos,
cuando existen datos sobre resultados previos a la intervención, este tipo de análisis
retrospectivo parece conveniente, particularmente porque no requiere información
sobre personas que no participaron en el programa.
En el ejemplo mencionado de un programa de tutoría, una evaluación pre-
post permitiría tener en cuenta las calificaciones iniciales de los estudiantes. Sin
embargo, la pregunta importante para evaluar la validez de una evaluación pre-
post es la siguiente: ¿es la situación de los participantes antes del inicio del
programa una buena representación del contrafactual? En otras palabras, ¿es
correcto suponer que sin el programa, durante este período, no habría habido
cambios en los resultados del grupo tratado? La figura 2 representa
gráficamente este problema.
En el ejemplo del programa de tutoría gratuita, es muy poco probable que los
niños no hayan mejorado su aprendizaje con el tiempo, incluso en ausencia de un
tutor. Sin embargo, una simple evaluación previa y posterior supondría que todas las
mejoras durante el período de tiempo del programa se deben al programa.
pomeranz 25
Figura 2.Supuesto contrafactual para pre-post: ningún cambio en ausencia de tratamiento. En una
evaluación de impacto previa y posterior, la suposición clave es que, en ausencia del tratamiento,
no habría habido cambios en la variable de resultado. Si este es el caso, la situación previa al
tratamiento representa un contrafactual válido para la situación posterior al tratamiento.Fuente:
Laboratorio de Acción contra la Pobreza de Abdul Latif Jameel (2015).
De modo que incluso los aprendizajes resultantes del desarrollo normal de los
niños serían atribuidos al programa de tutoría. En otras palabras, las
estimaciones tendrían un sesgo positivo: sobrestimarían el verdadero efecto del
programa.
Además de estas tendencias temporales generales, los resultados de un análisis previo y
posterior también pueden estar sesgados debido a otros factores que cambian el resultado con el
tiempo pero que no están relacionados con el programa. Por ejemplo, si hay una crisis económica
durante el período de implementación de un programa de auditoría, el comportamiento fiscal
puede cambiar independientemente del programa de auditoría. Entonces no es posible saber si el
cambio en el tiempo se debe a la crisis, a la política oa una combinación de ambos. Es decir, la
evaluación puede verse afectada por el sesgo de la variable omitida.
Experiencias de evaluaciones comparativas pre-post en

economía pública
Si bien una simple comparación previa y posterior a menudo conducirá a resultados
sesgados, hay ciertos entornos en los que un análisis previo y posterior puede generar
estimaciones creíbles, es decir, entornos en los que la situación previa al tratamiento
proporciona un contrafactual válido para la situación posterior al tratamiento. Un ejemplo
de ello es Carrillo, Pomeranz y Singhal (2014). En este estudio, evaluamos un programa de
la autoridad fiscal ecuatoriana. El programa se centró en las empresas cuyos ingresos
declarados eran mucho más bajos que la información sobre los ingresos de las empresas
que la autoridad fiscal obtuvo de fuentes de terceros. Varios años después de la
declaraciones de impuestos correspondientes, la autoridad fiscal envió cartas a las

empresas con una discrepancia particularmente grande, pidiéndoles que modificaran su
declaración. Esto condujo a un aumento inmediato en la tasa de enmiendas, mientras que
era muy poco probable que las empresas que no recibieron una carta hicieran enmiendas
mucho tiempo después de la presentación original. En este caso, un contrafactual válido
para el nuevo monto declarado en la enmienda es el monto declarado en la declaración de
impuestos original. La suposición subyacente en este caso es que, en ausencia de la carta,
estas empresas no habrían presentado una enmienda en este momento. El estudio
encontró que cuando se notificaba a las empresas sobre las discrepancias de ingresos
detectadas, aumentaban los ingresos informados, pero también los costos informados, lo
que solo generaba aumentos menores en la recaudación de impuestos.
Resumen de la comparación previa y posterior
El análisis previo y posterior mide el cambio en los resultados a lo largo del tiempo para los
participantes de un programa. Compara la situación antes y después de un tratamiento. El
contrafactual está representado por los mismos participantes, pero antes del programa. La
suposición clave de este método es que el programa es el único factor que influyó en un
cambio en los resultados durante ese período de tiempo. Sin el programa, los resultados
habrían sido los mismos. Esto es, en realidad, rara vez el caso. Muchos factores que varían
con el tiempo pueden afectar un resultado, lo que contradice la suposición clave hecha
anteriormente. En particular, la comparación previa y posterior no controla las tendencias
de tiempo generales u otras cosas que suceden durante el período de estudio que no están
relacionadas con el programa pero que afectan los resultados. El beneficio de este método
es que no requiere información sobre personas que no participaron en el programa. Esta
es la razón por la que a menudo se utiliza en los medios de comunicación y en las
comunicaciones sobre políticas.
Estimación de diferencias en diferencias

Adiferencia en diferenciasla evaluación combina los dos métodos anteriores
(diferencia simple y pre-post) para tener en cuenta tanto las diferencias entre
los dos grupos como los cambios a lo largo del tiempo. El efecto se calcula
midiendo el cambio a lo largo del tiempo para el grupo tratado y el grupo de
comparación y luego tomando la diferencia entre estas dos diferencias (de ahí el
nombre de "diferencia en diferencias").
La Tabla 1 muestra una ilustración numérica de una estimación de diferencias en
diferencias para el ejemplo de tutoría. Muestra las calificaciones promedio de los
niños con y sin el programa de tutoría, antes y después del programa (en una escala
de 0 a 100). Como vemos, el grupo tratado que recibe un tutor
pomeranz 27
Tabla 1.Estimación de diferencias en diferencias.
resultado antes resultado después diferencia sobre

el programa el programa hora
grupo tratado 24.80 51.22 26.42

grupo no tratado 36.67 56.27 19.60
Estimación de diferencias en diferencias 6.82
Nota:Esta tabla proporciona un ejemplo numérico de una estimación de diferencias en diferencias. Los
números son del ejemplo de tutoría y representan las calificaciones de los niños con y sin el programa de
tutoría, antes y después del programa.
Fuente:Laboratorio de Acción contra la Pobreza de Abdul Latif Jameel (2015).
tiene grados más bajos que el grupo no tratado, tanto antes como después del
tratamiento. Entonces, una simple diferencia habría introducido un sesgo negativo
en el análisis. Los números también ilustran que las calificaciones de ambos grupos
mejoraron con el tiempo. Por lo tanto, un simple análisis previo y posterior habría
introducido un sesgo positivo. Cuando tomamos la diferencia entre las dos
diferencias, vemos que las notas de los que recibieron tutoría mejoraron 6,82 puntos
más que las notas de los que no recibieron tutoría.
Para aquellos familiarizados con el análisis de regresión: En la notación de regresiones
multivariadas, el estimador de diferencias en diferencias está representado por el término
de interacción entre el grupo de tratamiento y el período posterior al tratamiento:
Yeso¼aþB1TIþB2correotþB3TI- correotþmieso;
dondeYesorepresenta la variable de interés para el individuoIen períodot, tIes

una variable binaria que indica si es o no individualIparticipó en el programa y
correotes una variable binaria que indica el período que sigue al programaB3es
el estimador de diferencias en diferencias ymiesorepresenta el término de error.
En esencia, la estimación de diferencias en diferencias utiliza el cambio en el

tiempo para el grupo no tratado como contrafactual para el cambio en el tiempo del
grupo tratado (ver, por ejemplo, Bertrand et al. 2004). Es decir, controla todas las
características que no cambian con el tiempo (tanto observables como no
observables) y todos los cambios con el tiempo que afectan al grupo tratado y no
tratado de la misma manera.
La suposición clave es que sin el programa, el cambio a lo largo del tiempo habría
sido el mismo en ambos grupos. Esto a menudo se conoce como el común o
suposición de tendencia paralela.Si en ausencia del programa, el grupo tratado
hubiera tenido una tendencia diferente a lo largo del tiempo que el grupo de
comparación, esta suposición se viola (ver Meyer [1995] para una discusión de
Figura 3.Suposición contrafáctica en el análisis de diferencias en diferencias: tendencias paralelas.

Esta figura muestra la lógica y los supuestos que subyacen al análisis de diferencias-indiferencias.
El contrafactual del cambio a lo largo del tiempo para quienes participaron en el programa es el
cambio para quienes no participaron (representado por la línea discontinua). Por lo tanto, la
suposición clave es que, en ausencia del tratamiento, los dos grupos habrían seguido la misma
tendencia a lo largo del tiempo. Si esto es cierto, el efecto del tratamiento se puede medir como la
diferencia entre las diferencias a lo largo del tiempo. Véase también la tabla 1.Fuente:Laboratorio
de Acción contra la Pobreza de Abdul Latif Jameel (2015).
el supuesto de tendencia paralela). Estos conceptos se ilustran gráficamente en la

figura 3.
En el caso del ejemplo de tutoría estudiantil, la suposición implica
que sin la ayuda adicional, los niños con un tutor y aquellos sin uno
habrían mejorado sus logros académicos al mismo ritmo. No es obvio
que este sea el caso aquí. Incluso sin el programa, los niños que
originalmente estaban atrasados y, por lo tanto, tenían más
probabilidades de recibir un tutor, podrían haber mejorado más que
los otros niños, dado que tenían más espacio para mejorar. Por otro
lado, dado que a estos niños les costó más aprender, también es
posible que se hayan atrasado aún más. En este caso, la estimación de
diferencias en diferencias podría estar sesgada hacia arriba o hacia
abajo. Esto no es posible de evaluar a partir de los datos ya que no
sabemos cuánto habrían mejorado los niños con un tutor sin un tutor.
Es decir,
pomeranz 29
Figura 4.Comprobación de tendencias paralelas. Esta figura demuestra cómo los datos de series
de tiempo pueden permitirnos verificar tendencias paralelas entre el grupo de tratamiento y el
grupo de control antes del inicio del tratamiento. Como muestra la figura, antes del tratamiento,
los dos grupos tienen una tendencia paralela. Esto le da credibilidad a la suposición de que, en
ausencia de tratamiento, habrían continuado en una tendencia paralela, lo que se requiere para
que el análisis de diferencias en diferencias sea válido. Los dos grupos divergen solo después del
tratamiento, dando credibilidad a la conclusión de que el tratamiento condujo a este efecto.
En estudios recientes, los investigadores han tratado cada vez más de observar series
de tiempo más largas para ver si los grupos de tratamiento y control evolucionaron en
paralelo antes del inicio del tratamiento. Esto se ilustra en la figura 4. Muestra un caso en el
que el grupo de tratamiento y el grupo de control tienen una tendencia paralela antes del
tratamiento. Después de que comienza el tratamiento, los dos grupos divergen. El hallazgo
de una tendencia paralela antes y una diferencia después del tratamiento da credibilidad a
la conclusión de que el tratamiento causó el efecto.
Experiencias de diferencias en diferencias en economía pública

Duflo (2001) proporciona una gran ilustración de la aplicación de la estimación
de diferencia-indiferencia en la práctica. El documento aprovecha la variación en
la construcción de escuelas en Indonesia en todas las regiones y el tiempo para
medir el impacto de la construcción de escuelas en la asistencia escolar. Ilustra
bien cuántos supuestos deben tenerse en cuenta al realizar este tipo de
estimación de manera confiable.
Sobre el tema de la administración tributaria, Naritomi (2015) utiliza un enfoque de
diferencias-indiferencias para estudiar la efectividad de los incentivos para el pago final.
consumidores a pedir a las empresas un recibo. Compara los ingresos declarados de

empresas minoristas y mayoristas, antes y después del cambio de política. Proporcionar a
los consumidores un incentivo financiero para solicitar un recibo demuestra ser eficaz para
impulsar las ventas y los impuestos declarados por las empresas. Los incentivos en forma
de loterías parecen ser particularmente efectivos, lo que sugiere que los consumidores
pueden verse afectados por sesgos de comportamiento. Estos sesgos de comportamiento
hacen que los incentivos en forma de lotería sean más rentables para el gobierno. Sin
embargo, también plantean cuestiones éticas sobre si es legítimo que el gobierno explote
tales sesgos.
Casaburi y Troiano (2015) estudian la respuesta electoral a una política nacional contra
la evasión fiscal en Italia utilizando un estimador de diferencias en diferencias. Al comparar
municipios con más o menos "intensidad" de la intervención contra la evasión fiscal antes y
después del programa, encuentran que una mayor intensidad del programa conduce a
posibilidades de reelección significativamente mayores para el alcalde local. También existe
una amplia literatura sobre tributación, que se centra particularmente en los Estados
Unidos y otros países altamente desarrollados, utilizando la estimación de diferencias en
diferencias para analizar los impactos de los cambios tributarios en el comportamiento
individual, como la oferta de mano de obra y en el comportamiento de las empresas, como
inversión. Revisar esta literatura está más allá del alcance de este artículo.
Bandiera, Prat y Valleti (2009) aplican una versión de la estimación de diferencias-indiferencias
para estudiar el comportamiento de los funcionarios públicos en los procesos de contratación
pública. Aprovechan un experimento natural en el sistema de contratación pública de Italia para
observar los determinantes del desperdicio y las ineficiencias en el proceso de contratación. Las
entidades públicas en Italia pueden adquirir bienes directamente de los proveedores o de una
plataforma central, donde los bienes están disponibles en condiciones prenegociadas. El estudio
explota el hecho de que ciertos bienes solo estaban disponibles en la plataforma central en ciertos
momentos. Al comparar el precio de los bienes adquiridos durante los momentos en que los
bienes estaban disponibles en la plataforma central con los momentos en que no lo estaban, los
autores pueden desentrañar el mecanismo a través del cual ocurre el desperdicio. La
disponibilidad de productos en la plataforma central tiene efectos significativos en el
comportamiento y los precios de las adquisiciones. Los resultados muestran que esta variación en
los precios se debe principalmente al comportamiento pasivo de los agentes públicos más que a la
búsqueda activa de beneficios y el efecto varía con las diferentes estructuras de gobierno.
Un estudio reciente de Lewis-Faupel et al. (2014) también utiliza la estimación de

diferencias-indiferencias para estudiar la contratación pública. El estudio explota la
variación regional y temporal en la adopción de sistemas de contratación electrónica en
India e Indonesia para probar el efecto de la contratación electrónica en el costo y la
calidad de la provisión de infraestructura. El hecho de que ambos países implementaran el
tratamiento de manera gradual por región permitió a los autores realizar
pomeranz 31
una estrategia de diferencias en diferencias, comparando los estados que se trataron

primero con los que siguieron después. No encuentran efecto sobre los precios pagados
por el gobierno, pero sí una mejora significativa en la calidad.
Resumen Análisis de diferencias en diferencias

El análisis de diferencias en diferencias compara el cambio en los resultados a lo
largo del tiempo de aquellos que participaron en el programa con el cambio a lo
largo del tiempo de aquellos que no lo hicieron. El cambio para quienes no participan
en el programa representa el contrafactual del cambio para quienes sí participaron
en el programa. La suposición clave de este método es la suposición de tendencias
comunes. Asume que sin el programa, ambos grupos habrían tenido trayectorias
idénticas a lo largo del tiempo. El beneficio de este método es que controla todas las
características que no cambian con el tiempo (tanto observables como no
observables) y todos los cambios con el tiempo que afectan al grupo tratado y no
tratado de la misma manera. El inconveniente es que normalmente es imposible
evaluar si los dos grupos se habrían desarrollado de la misma manera en ausencia
del programa. De no ser así, el análisis estará sesgado. Cuando se dispone de series
de tiempo más largas, la suposición se puede probar hasta cierto punto al mostrar
que durante un largo período de pretratamiento, los dos grupos tuvieron los mismos
cambios a lo largo del tiempo y solo cuando comenzó el tratamiento, las tendencias
temporales de los dos grupos divergieron. .
Procedimientos de emparejamiento y puntajes de propensión
PareoLos procedimientos se basan en el objetivo original de construir una

representación del contrafactual y tratar de crear un grupo de control que sea
lo más similar posible al grupo de tratamiento. Hay varios métodos de
emparejamiento. En el caso básico, cada individuo del grupo tratado se
empareja con un individuo del grupo no tratado con las mismas características
observables. El grupo de comparación se compone entonces de estos individuos
emparejados. Para estimar el impacto de un programa, el método compara los
resultados entre el grupo de tratamiento y el grupo de comparación
emparejado. Dado que ambos grupos tienen las mismas características
observables antes del programa, se espera que cualquier diferencia después del
programa se deba a haber estado expuesto al programa.
Podemos observar este proceso en el caso del ejemplo del programa de tutoría. Es
posible encontrar niños que no se matricularon en el programa pero que tenían en
promedio las mismas notas que los niños que antes recibían la ayuda de un tutor
Figura 5.Proceso de emparejamiento en el ejemplo del tutor. Este es un ejemplo de un proceso de

coincidencia directa para el ejemplo de tutoría. Hace coincidir a los estudiantes del grupo de tratamiento
con los estudiantes que no recibieron un tutor. El emparejamiento se realiza a lo largo de tres dimensiones
observables: edad, puntuación previa a la prueba y género. Los estudiantes emparejados de la lista de no
tratados sirven como grupo de comparación.Fuente:Laboratorio de Acción contra la Pobreza de Abdul Latif
Jameel (2015).
la intervención. De esta manera, se puede crear un grupo de comparación con

estudiantes no tratados que tengan las mismas características observables que los
niños tratados.
La Figura 5 muestra el proceso de emparejamiento para el ejemplo de tutoría con tres
características: edad, puntuación de la prueba previa y género. Los estudiantes en el grupo
de tratamiento se emparejan con los niños que no recibieron un tutor. Los estudiantes
emparejados de la lista de no tratados sirven como grupo de comparación. El proceso de
encontrar pares similares asegura que los dos grupos sean idénticos en cuanto a las
características observables que se consideran para la coincidencia.
La suposición clave, en este caso, es que aquellos que no participan son, en
promedio, idénticos a sus pares emparejados, excepto por haber participado en el
programa. El desafío es que el emparejamiento nunca puede controlar por
desapercibidovariables En el ejemplo del programa de tutoría, hay una razón no
aleatoria por la que dos niños con las mismas calificaciones recibieron un trato
diferente. Tal vez el maestro sabía que algunos estudiantes tenían más potencial que
otros, o tal vez algunos estudiantes tenían padres más proactivos que presionaban
para que su hijo recibiera un tutor. Si hay tales diferencias que los datos disponibles
no pueden medir, el problema del sesgo de selección surge nuevamente, aunque en
las características observadas, los dos grupos emparejados sean idénticos. Es
probable, por ejemplo, que en ausencia del programa de tutoría, los niños
pomeranz 33
con padres más proactivos habría mejorado más que sus compañeros
con las mismas notas.
En este contexto, los beneficios de la asignación aleatoria de tratamientos se hacen
evidentes. La asignación aleatoria garantiza que los grupos de tratamiento y de
comparación sean similares no solo en las características observables sino también en las
no observadas.
Cuanto mayor sea el número de características que se incluyen en la coincidencia,
más difícil será utilizar la coincidencia uno a uno. Con muchas características
observadas, puede ser imposible encontrar un estudiante idéntico que no haya
tenido un tutor. Por estas razonescoincidencia de puntuación de propensión (PSM)
fue desarrollado. PSM permite combinar con muchas características. Con base en las
características observables de los individuos, se estima su propensión (o
probabilidad) de estar en el grupo tratado. De esta forma, el número de
características se reduce a una única puntuación, que va de cero a uno, que predice
la probabilidad de participar en el programa. En efecto, el puntaje de propensión es
un promedio ponderado de las características incluidas. Luego se realiza el
emparejamiento entre individuos que tienen el mismo puntaje, es decir, la misma
probabilidad de participar en el programa. Para obtener una guía detallada para
implementar técnicas de emparejamiento, (ver Imbens 2015).
Experiencias de Matching en Economía Pública

Uno de los primeros y más conocidos ejemplos de la técnica PSM fue realizado por
Dehejia y Wahba (1999) para analizar el impacto de un programa de capacitación
laboral sobre los ingresos. Al comparar el método de puntaje de propensión con
otros enfoques, encuentran que la estimación del puntaje de propensión estaba, en
este caso, mucho más cerca de los resultados del experimento aleatorio que muchas
de las otras estimaciones no experimentales. En este contexto, Angrist y Pischke
(2009) argumentan que lo más importante es incluir las covariables correctas, no el
tipo de metodología de emparejamiento. En el entorno estudiado por Dehejia y
Wahba, la inclusión de los ingresos previos al tratamiento retrasados dos años
resultó ser decisiva.
Resumen de emparejamiento
Los métodos de emparejamiento comparan los resultados de los individuos tratados con
los de individuos similares que no fueron tratados. En el emparejamiento exacto, los
participantes se emparejan con individuos que son idénticos en cuanto a las características
seleccionadas pero que no participaron en el tratamiento. En PSM, los participantes se
comparan con individuos que tenían la misma probabilidad de participar en el
programa de acuerdo a sus características observables pero no

participó. La suposición clave de este método es que aquellos que
participan en el programa son, en promedio, idénticos a sus pares,
excepto por haber participado en el programa. Asume que cuando
las personas o entidades se emparejan en características
observables, también serán comparables a lo largo de dimensiones
no observadas. El beneficio de este método es que controla las
características observadas. El inconveniente es que normalmente
es imposible descartar que no haya otras características no
observadas que difieran entre los grupos, lo que sesgaría la
estimación del impacto.
RDD
RDDes una metodología que permite sacar conclusiones causales que son casi tan
confiables como el ensayo controlado aleatorizado. Solo se puede aplicar en los casos
en que un programa o política tiene un umbral específico que determina quién es
elegible para participar. Un RDD utiliza el hecho de que las personas o entidades
apenas por encima del umbral son básicamente idénticas a las personas que están
justo por debajo. Bajo ciertas suposiciones, por lo tanto, es posible medir el efecto del
tratamiento en la diferencia entre los resultados de los individuos justo por debajo
del umbral, que por lo tanto no son elegibles, y los resultados de los que están justo
por encima, que por lo tanto son elegibles (Imbens y Lemieux, 2008; Lee y Lemieux,
2010).
Un buen ejemplo ilustrativo es un caso en el que los puntajes de las pruebas
determinan si un estudiante es admitido en una universidad prestigiosa. Imagina que
el umbral para ser admitido es 924 de 1.000 puntos posibles. Los estudiantes que
obtuvieron 923 puntos son casi indistinguibles de los estudiantes con 924 puntos,
pero estos últimos son admitidos y los primeros no. Si los estudiantes con 924 o 925
puntos terminan ganando mucho más que los estudiantes con 922 o 923 puntos,
esta diferencia puede ser el resultado de asistir a la prestigiosa universidad.
Para un ejemplo en la administración tributaria, suponga que una autoridad tributaria
envía una carta de notificación a todas las empresas cuyas declaraciones de impuestos
declaradas indican una gran discrepancia entre sus ingresos autodeclarados y la
información sobre sus ingresos de fuentes de terceros. La autoridad fiscal, por lo tanto,
sospecha que estas empresas hacen trampa. Sin embargo, la autoridad fiscal no quiere
enviar demasiadas notificaciones y decide enviar notificaciones a todas las empresas con
discrepancias superiores a US$1.000. Es decir, si una empresa
pomeranz 35
Figura 6.Ilustración de un diseño de discontinuidad de regresión (RDD). Esta figura proporciona una
representación gráfica de un RDD. Las personas o entidades por encima de un determinado límite de la
variable de selección se incluyen en el tratamiento, y las que se encuentran por debajo del límite no. Es
decir, existe una discontinuidad a lo largo de la variable de selección, por encima de la cual se aplica el
tratamiento. Si se cumplen los supuestos requeridos para un DDR, el fuerte aumento en la variable de
resultado en el punto de corte se puede atribuir al tratamiento.Fuente:Laboratorio de Acción contra la
Pobreza de Abdul Latif Jameel (2015).
recibe una notificación se determina por si tiene más o menos de US$1.000 en

discrepancias. El RDD luego comparará las empresas que tuvieron discrepancias un
poco menores a US$1,000 con las empresas que tuvieron discrepancias un poco
mayores que este límite.
La Figura 6 muestra este ejemplo de una evaluación de discontinuidad de regresión. La
línea continua representa la relación entre el tamaño de la discrepancia y el monto del
impuesto declarado: las empresas con mayores discrepancias también tienden a declarar
más impuestos. Esto probablemente se deba al hecho de que son más grandes en tamaño.
Los contribuyentes por encima del valor de corte (en nuestro ejemplo US$1.000 en
discrepancias) están incluidos en el tratamiento, es decir reciben una notificación. Bajo
ciertos supuestos, el fuerte aumento en la cantidad de impuestos declarados por encima
del corte puede entonces atribuirse a la notificación.
La suposición clave en un RDD es que las entidades o individuos justo debajo del
límite no son sistemáticamente diferentes de los que están justo arriba. Esta
suposición puede ser violada, por ejemplo, si hay una manipulación estratégica
alrededor del umbral. Si, por ejemplo, se sabe antes del envío de las notificaciones
que se enviarán a todas las empresas con más de US$1000 en discrepancia, entonces
las empresas podrían manipular su discrepancia para que esté justo por debajo de
ese límite. Aquellos que lo hacen pueden ser particularmente astutos, bien
informados o diferentes de los que no lo hacen. En ese caso, habrá una diferencia
entre las empresas justo por debajo del umbral y las que están justo por encima.
Tal diferencia alrededor del umbral introduce un sesgo de selección. La buena

noticia es que se puede probar la suposición de que no existe tal comportamiento
alrededor del umbral. Si ocurriera una manipulación, habría una mayor
concentración de empresas (agrupación) justo por debajo del umbral. Esto se puede
verificar. De la misma manera, es posible verificar que no existen diferencias en las
características clave entre las empresas justo por encima o por debajo del umbral.
Finalmente, un DDR también requiere que ningún otro programa o

política se aplique al mismo umbral. Por ejemplo, si las firmas con
discrepancias mayores a US$1.000 también son visitadas por un auditor, no
sería posible distinguir el impacto de esa visita del impacto de la
notificación. Saber si otras cosas cambian en el mismo umbral requiere un
buen conocimiento de los detalles institucionales y el contexto en el que se
lleva a cabo la intervención.
Ambos problemas, la respuesta conductual al umbral y la posibilidad de que se
apliquen otras políticas al mismo umbral, son más frecuentes cuando el corte es
conocido por todos. Por lo tanto, los umbrales óptimos para el uso de esta
metodología a menudo son secretos o se definen solo después de que ya se haya
determinado el puntaje de cada individuo o entidad.
Un límite de los RDD es que la estimación solo se puede aplicar a
observaciones alrededor del límite. No es posible saber cuál fue el impacto para
las empresas con discrepancias mucho mayores a US$1.000, o cuál habría sido
para las empresas con discrepancias mucho menores. Cuán informativos sean
los conocimientos del RDD dependerá, por lo tanto, del contexto de la política y
de la medida en que pensamos que el programa afecta de manera diferente a
las personas o entidades que están lejos del umbral.
Experiencias de discontinuidad de regresión en economía pública

Los RDD son de particular interés para las evaluaciones de impacto en el dominio de la economía
pública, ya que muchas políticas relacionadas con la economía pública se organizan en torno a
puntos de corte. En la administración tributaria, por ejemplo, hay muchas
pomeranz 37
políticas que se aplican de acuerdo a algún punto de corte y frecuentemente los datos
administrativos requeridos para el análisis ya existen. De manera similar, las reglas de auditoría
para la contratación pública, la evasión de impuestos, las leyes laborales, etc., a menudo utilizan
reglas de puntuación con un punto de corte, por encima del cual las entidades tienen un mayor
riesgo de ser auditadas.
En un estudio en curso, aplicamos este método a las prácticas de contratación en Chile
(Gerardino, Litschig y Pomeranz 2015). En colaboración con la contraloría nacional
''Contralorı́a'', explotamos una regla de puntuación que crea mayores probabilidades de
auditoría para las entidades públicas por encima de ciertos umbrales. Luego, el estudio
analiza los impactos de las auditorías en el proceso de contratación pública al comparar las
entidades públicas que quedaron justo por debajo del límite con las entidades que estaban
justo por encima.
Resumen de RDD
Los RDD comparan los resultados de personas o entidades que están justo por
debajo de un umbral que los califica para el tratamiento con los resultados de
aquellos que están justo por encima de este umbral (o límite). Los resultados de las
personas o entidades que caen justo por debajo del umbral representan el
contrafactual de las personas que caen justo por encima. La suposición clave es que
los individuos justo por encima del umbral son, por lo demás, casi idénticos a los que
se encuentran justo por debajo. Esto implica que no hay manipulación alrededor del
umbral y que no se aplican otras políticas basadas en el mismo límite. Este es más
probable que sea el caso cuando el umbral exacto no se conoce ex ante. Los DDR
pueden producir estimaciones de impacto muy fiables. En la administración pública,
hay muchas políticas que se aplican según algún punto de corte y con frecuencia ya
existen los datos administrativos necesarios para el análisis. La debilidad clave de los
RDD es que el efecto solo se puede estimar para personas o entidades que están
cerca del límite.
Conclusión
Las evaluaciones de impacto rigurosas han experimentado una gran expansión en los últimos
años, tanto en sus desarrollos metodológicos como en sus aplicaciones prácticas. Las agencias
públicas interesadas en afectar a sus ciudadanos para fomentar comportamientos como el
cumplimiento tributario, el ahorro o el cumplimiento de las normas están probando cada vez más
la eficacia de las políticas públicas para lograr estos objetivos. Este artículo tiene como objetivo
proporcionar una descripción general introductoria para aquellos interesados en realizar dichas
evaluaciones de manera confiable. Entre los métodos cubiertos, las evaluaciones aleatorias y los
RDD brindan los métodos más rigurosos y
estimaciones causalmente válidas. Si estos métodos no están disponibles, la estimación de

diferencias-indiferencias o los métodos de emparejamiento pueden proporcionar una
alternativa. Es más probable que estos últimos métodos sufran de sesgo de selección o
sesgo de variable omitida y, por lo tanto, deben aplicarse con más precaución. Por último,
las diferencias simples y el análisis previo y posterior, aunque los medios o los responsables
políticos los aplican con frecuencia en la práctica debido a su simplicidad conceptual,
también son los más propensos a los sesgos de estimación y, por lo tanto, generalmente
son los menos confiables de los métodos descritos en este artículo. .
Aparte del método particular que se elija, la calidad de la evaluación dependerá en
gran medida de dos factores: la calidad de la ejecución del análisis y el conocimiento
detallado del contexto del programa que se está evaluando. Esta es la razón por la
cual el creciente número de colaboraciones entre académicos y profesionales es tan
prometedor. La combinación del conocimiento metodológico de académicos
altamente capacitados con la experiencia de los funcionarios públicos sobre el
contexto práctico tiene un enorme potencial para aumentar nuestra comprensión
tanto de las finanzas públicas como de la economía del comportamiento.
Expresiones de gratitud
Agradezco a Michael Eddy y Stephanie Majerowicz por su excelente asistencia en la
investigación y a los funcionarios de las autoridades fiscales chilenas y ecuatorianas, la
autoridad de adquisiciones chilena y la contraloría nacional chilena por sus útiles
comentarios y sugerencias.
Declaración de Conflicto de Intereses

El(los) autor(es) declaró(n) que no existe(n) ningún conflicto de interés potencial con respecto a la
investigación, autoría y/o publicación de este artículo.
Fondos
Los autores declararon haber recibido el siguiente apoyo financiero para la investigación,
autoría y/o publicación de este artículo: Agradezco a Harvard Business School por su
generoso apoyo a la investigación.
Referencias
Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (J-PAL). 2015.¿Por qué aleatorizar? Caso
Estudio.Cambridge, MA: Abdul Latif Jameel Laboratorio de Acción contra la Pobreza.
Angrist, Joshua D. y Victor Lavy. 1999. ''Uso de la regla de Maimónides para estimar
el efecto del tamaño de la clase en el rendimiento escolar.''Revista trimestral de
economía114:533–75.
Angrist, Joshua D. y Jörn-Steffen Pischke. 2009.Econometría mayormente inofensiva:
El compañero de un empirista.Princeton, Nueva Jersey: Princeton University Press.
pomeranz 39
Angrist, Joshua D. y Jörn-Steffen Pischke. 2015.Dominar las 'métricas: el camino

de Causa a Efecto.Princeton, Nueva Jersey: Princeton University Press.
Ariel, Barac. 2012. ''Efectos de disuasión y persuasión moral en el impuesto de sociedades
pliance: Hallazgos de un ensayo controlado aleatorizado.''Criminología50:27–69.
Bandiera, Oriana, Andrea Prat, and Tommaso Valleti. 2009. ''Activa y Pasiva
Despilfarro en el gasto público: evidencia de un experimento de política.''Revisión
económica estadounidense99:1278–308.
Banerjee, Abhijit V., Shawn Cole, Esther Duflo y Leigh Linden. 2007. ''Recuer-
Educación agonizante: Evidencia de dos experimentos aleatorios en la India.''
Revista trimestral de economía122:1235–64.
Banerjee, Abhijit V. y Esther Duflo. 2009. ''El enfoque experimental de
La economía del desarrollo.''Revisiones anuales de economía1:151–78. Bhargava,
Saurabh y Dayanand Manoli. 2015. ''Fricciones psicológicas y la
Cobro incompleto de los beneficios sociales: evidencia de un experimento de campo del IRS.''
Revisión económica estadounidense105:1–42.
Bertrand, Marianne, Esther Duflo y Sendhil Mullainathan. 2004. ''¿Cuánto
¿Deberíamos confiar en las estimaciones de diferencias en diferencias?''La revista trimestral de
Blumenthal, Marsha, Charles Christian y Joel Slemrod. 2001. ''Do Normativo
¿Las apelaciones afectan el cumplimiento tributario? Evidencia de un experimento controlado
en Minnesota.''Diario Tributario Nacional54:125–36.
Carrillo, Paul, Dina Pomeranz y Monica Singhal. 2014. ''Esquivando al recaudador de impuestos:
Informes erróneos de empresas y límites a la aplicación de impuestos''. Documento de trabajo de NBER
n.º 20624, Cambridge, MA.

Carroll, Gabriel D., James J. Choi, David Laibson, Brigitte Madrian y Andrew
Metrick. 2009. ''Incumplimiento óptimo y decisiones activas''.Revista trimestral de
Casaburi, Lorenzo y Ugo Troiano. 2015. ''Cazadores de casas fantasma: El electoral
Respuesta a un gran programa contra la evasión de impuestos''. Documento de trabajo de NBER
n.º 21185, Cambridge, MA.
Castro, Lucio y Carlos Scartascini. 2015. ''Cumplimiento y Ejecución Tributaria en
las pampas. Evidencia de un experimento de campo.''Revista de comportamiento
económico y organización116:65–82.
Chetty, Raj. 2015. ''Economía conductual y políticas públicas: una perspectiva pragmática
tivo.''Revisión económica estadounidense105:1–33.
Coleman, Esteban. 1996. ''El Experimento de Cumplimiento del Impuesto sobre la Renta de Minnesota:
State Tax Results.'' Munich Personal RePec Archive Paper No. 4827, Universidad de
Munich, Alemania.
Dehejia, Rajeev H. y Sadek Wahba. 1999. '' Efectos causales en no experimental

Estudios: Reevaluando la Evaluación de los Programas de Capacitación.''Revista de la
Asociación Estadounidense de Estadística94:1053–62.
Carpio Del, Lucía. 2013. ''¿Están engañando los vecinos? Evidencia de una sociedad
Experimento Normativo sobre Impuestos a la Propiedad en Perú''. Documento de Trabajo de la Universidad de
Princeton, Princeton, NJ.
Duflo, Ester. 2001. ''Educación y consecuencias del mercado laboral de la escuela

Construcción en Indonesia: Evidencia de un Experimento de Política Inusual.'' Revisión
económica estadounidense91:795–813.
Duflo, Esther, Rachel Glennerster y Michael Kremer. 2008. ''Using Randomiza-
ción en la investigación de la economía del desarrollo: un juego de herramientas.''manual de
economía del desarrollo4:3895–62.
Dupas, Pascaline y Jonathan Robinson. 2013. “¿Por qué los pobres no ahorran más?
Evidencia de experimentos de ahorro de salud.''Revisión económica estadounidense103: 1138–
71.
Dwenger, Nadja, Henrik J. Kleven, Imran Rasul y Johannes Rincke. 2014.
''Motivaciones extrínsecas e intrínsecas para el cumplimiento tributario: evidencia de un experimento
de campo en Alemania''. Documento de trabajo, Instituto Max Planck de Derecho Tributario y Finanzas
Públicas, Munich, Alemania.
Fellner, Gerlinde, Rupert Sausgruber y Christian Traxler. 2013. ''Pruebas
Estrategias de Cumplimiento en el Campo: Amenaza, Apelación Moral e
Información Social.''Revista de la Asociación Económica Europea11:634–60.
Gangl, Katharina, Benno Torgler, Erich Kirchler y Eva Hoffmann. 2014.
''Efectos de la Supervisión en el Cumplimiento Tributario''.Cartas de economía123: 378–
82.
Gerardino, María Paula, Stephan Litschig y Dina Pomeranz. 2015.Supervisión
Compras Públicas: Evidencia a partir de un Diseño de Regresión Discontinuidad en Chile.
Nueva York: Mimeo.
Gerber, Alan S. y Donald P. Green. 2012.Experimentos de campo: diseño, análisis,
e Interpretación.Nueva York: WW Norton.
Gertler, Paul, Sebastián Martínez, Patrick Premand, Laura B. Rawlings, Christel M.
J. Vermeersch y el Banco Mundial. 2011.Evaluación de impacto en la práctica.
Washington, DC: Grupo del Banco Mundial.
Glennerster, Rachel y Kudzai Takavarasha. 2013.Ejecución de evaluaciones aleatorias
ciones: una guía práctica.Princeton, Nueva Jersey: Princeton University Press. Glewwe,
Paul, Michael Kremer y Sylvie Moulin. 2009. ''Muchos niños se fueron
¿Detrás? Libros de texto y puntajes de exámenes en Kenia.''American Economic Journal:
Economía Aplicada1:112–35.
Hallworth, Michael. 2014. ''El uso de experimentos de campo para aumentar la com-
cumplimiento.''Revisión de Oxford de política económica30:658–79.
pomeranz 41
Hallsworth, Michael, John A. List, Robert D. Metcalfe e Ivo Vlaev. 2014. ''La
Conductista como recaudador de impuestos: uso de experimentos de campo natural para mejorar el
cumplimiento fiscal. Documento de trabajo NBER #20007, Cambridge, MA.
Harju, Jarkko, Tuomas Kosonen y Oli Ropponen. 2013. ''Haz peluqueros honestos
¿Cortate el pelo? On Tax Rate and Tax Evasion.'' Documento de trabajo del Instituto
Gubernamental de Investigación Económica de Finlandia, Helsinki, Finlandia.
Hasseldine, John, Peggy Hite, Simon James y Marika Toumi. 2007. ''Persuasivo
Comunicaciones: Estrategias de Cumplimiento Tributario para Propietarios Únicos.''
Investigación Contable Contemporánea24:171–94.
Haynes, Laura C., Donald P. Green, Rory Gallagher, Peter John y David J.
Torgerson. 2013. ''Cobro de multas atrasadas: un ensayo aleatorio adaptativo
para evaluar la efectividad de los mensajes de texto alternativos''.Revista de
análisis y gestión de políticas32:718–30.
Imbens, Guido W. 2015. ''Emparejar artículos en la práctica: tres ejemplos''.diario
de Recursos Humanos50:373–419.
Imbens, Guido W. y Thomas Lemieux. 2008. ''Discontinuidad de regresión
Diseños: una guía para la práctica.''Diario de Econometría142:615–35.
Imbens, Guido W. y Jeffrey M. Wooldridge. 2009. ''Desarrollos recientes en
la Econometría de la Evaluación de Programas.''Revista de Literatura Económica
47:5–86.
Iyer, Govind S., Philip MJ Reckers y Debra L. Sanders. 2010. ''Aumento de impuestos
Cumplimiento en el estado de Washington: un experimento de campo.''Diario Tributario Nacional
63:7–32.
Karlan, Dean, Margaret McConnell, Sendhil Mullainathan y Jonathan Zinman.
2010. ''Llegar a la cima de la mente: cómo los recordatorios aumentan el ahorro''. Documento
de trabajo NBER #16205, Cambridge, MA.
Karlan, Dean y Jonathan Zinman. 2014. ''Precio y elasticidades de control de
Demand for Savings.'' Documento de trabajo de la Universidad de Yale, NBER, Cambridge, MA.
Kast, Felipe, Stephan Meier y Dina Pomeranz. 2014. ''Under-savers Anon-

ymous: Evidencia sobre los grupos de autoayuda y la presión de los compañeros como mecanismo de
compromiso de ahorro.'' NBER Working Paper #18417, Cambridge, MA.
Kast, Felipe y Dina Pomeranz. 2014. ''Ahorrar más para pedir prestado menos: experimentación
Tal Evidence from Access to Formal Savings Accounts in Chile.'' NBER
Working Paper #20239, Cambridge, MA.
Kleven, Henrik J., Martin B. Knudsen, Claus T. Kreiner, Soren Pedersen y
Emmanuel Sáez. 2011. '' ¿No quiere o no puede hacer trampa? Evidencia de un
experimento de auditoría fiscal en Dinamarca.''Econométrica79:651–92.
Lee, David S. y Thomas Lemieux. 2010. ''Diseños de discontinuidad de regresión en
Ciencias económicas.''Revista de Literatura Económica48:281–355.
Lewis-Faupel, Sean, Yusuf Neggers, Benjamin A. Olken y Rohini Pande. 2014.

''¿Puede la contratación electrónica mejorar la provisión de infraestructura?
Evidencia de Obras Públicas en India e Indonesia”. NBER Working Paper #20344,
Cambridge, MA.
Litschig, Stephan y Yves Zamboni. 2013. ''Riesgo de Auditoría y Extracción de Rentas:
Evidencia de una evaluación aleatoria en Brasil''. Documento de trabajo de la Barcelona
Graduate School of Economics, Barcelona, España.
Ludwig, Jens, Jeffrey Kling y Sendhil Mullainathan. 2011. ''Mechanism Experiment-
mentos y Evaluaciones de Políticas.''Revista de perspectivas económicas25:17–38.
Madrian, Brigitte C. y Dennis Shea. 2001. ''El poder de la sugestión: la inercia en
Comportamiento de ahorro y participación 401(k)”.Revista trimestral de economía
116:1149–87.
Meyer, Bruce D. 1995. "Experimentos naturales y cuasi-experimentos en economía".Diario de
Estadísticas Económicas y Empresariales13:151–61.
Miguel, Edward y Michael Kremer. 2004. ''Gusanos: Identificación de impactos en
Educación y Salud en Presencia de Externalidades de Tratamiento.''Econométrica
72:159–217.
Naritomi, Joanna. 2015. ''Consumidores como auditores fiscales''. Escuela de Economía de Londres.
Documento de trabajo de ics, Londres, Reino Unido.
OCDE (Organización para la Cooperación y el Desarrollo Económicos). 2010.Bajo-

permanente e Influir en el Comportamiento de Cumplimiento de los Contribuyentes.París, Francia:
OCDE.
Ortega, Daniel y Pablo Sanguinetti. 2013.Efectos de disuasión y reciprocidad en
Cumplimiento Tributario: Evidencia Experimental de Venezuela.Caracas, Venezuela:
Banco de Desarrollo de América Latina.
Pomeranz, Dina. 2015. ''Sin impuestos sin información: disuasión y auto-
aplicación en el Impuesto al Valor Agregado.”Revisión económica estadounidense
105:2539–69. Pomeranz, Dina, Cristobal Marshall, and Pamela Castellon. 2014. ''Al azar
Mensajes de aplicación de impuestos: una herramienta de política para mejorar las estrategias de auditoría.''Revisión de la
Administración Tributaria36:1–21.
Prina, Silvia. 2015. ''Banca para los pobres a través de cuentas de ahorro: evidencia de un campo
Experimentar.''Revista de Economía del Desarrollo115:16–31.
Ries, Eric. 2011.The Lean Startup: cómo los empresarios de hoy utilizan la innovación continua
vación para Crear Negocios Radicalmente Exitosos.Nueva York: Crown Business
Inc. Slemrod, Joel, Marsha Blumenthal y Charles Christian. 2001. ''Contribuyente
Respuesta a una mayor probabilidad de auditoría: evidencia de un experimento
controlado en Minnesota.''Revista de Economía Pública79:455–83. Torgler, Benno.
2004. Persuasión moral: ¿una estrategia de política fiscal alternativa?
Evidencia de un experimento de campo controlado en Suiza.''Economía de la
Gobernanza5:235–53.
pomeranz 43
Torgler, Benno. 2013. ''Un experimento de campo sobre la persuasión moral y el cumplimiento tributario
Centrándose en la subdeclaración y la sobrededucción.''Análisis de Finanzas Públicas
69:393–411.
Wenzel, Michael. 2005. ''Percepciones erróneas de las normas sociales sobre el cumplimiento tributario:
De la teoría a la intervención.''Revista de Psicología Económica26:862–83. Wenzel,
Michael. 2006. ''Una Carta de la Oficina de Impuestos: Efectos de Cumplimiento de
Justicia Informacional e Interpersonal.''Investigación de justicia social19:345–64.
Wenzel, Michael y Natalie Taylor. 2004. ''Una evaluación experimental de
Horarios de declaración de impuestos: un caso de administración tributaria basada en
evidencia.'' Revista de Economía Pública88:2785–99.
Biografía del autor

dina pomeranzes profesor asistente en la Escuela de Negocios de Harvard
que se especializa en economía pública en países en desarrollo y ha
realizado colaboraciones de investigación con autoridades fiscales y
agencias de contratación en varios países. Antes de unirse a la Escuela de
Negocios de Harvard, se desempeñó como becaria postdoctoral en el
Abdul Latif Jameel Poverty Action Lab (J-PAL) del MIT. Recibió su doctorado
en Economía de la Universidad de Harvard y su licenciatura y maestría en
relaciones internacionales del Graduate Institute of International and
Development Studies en Ginebra. Es investigadora de la facultad en la
Oficina Nacional de Investigación Económica, profesora afiliada en BREAD,
CEPR y J-PAL, miembro del Centro de Crecimiento Internacional y la
Iniciativa de Empresa Social de la Escuela de Negocios de Harvard y becaria
no residente en el Centro para Global Desarrollo.

CL 1.en - Es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CL 1.en - Es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Revisión de Finanzas Públicas

2017, vol. 45(1) 10-43

Métodos en Público DOI: 10.1177/1091142115614392

1Harvard Business School y NBER, Boston, MA, EE. UU.

facilitar la comunicación y la colaboración entre profesionales y académicos mediante

Las mejoras recientes en las técnicas de evaluación de impacto permiten

evaluaciones para facilitar la comunicación entre los hacedores de políticas y los

La Figura 1 representa el desafío fundamental de las evaluaciones de

Normalmente, la estimación contrafactual está representada por un grupo llamado

Figura 1.Contrafactual. Esta figura representa el desafío fundamental de las evaluaciones

personas o empresas que no participaron en el programa, mientras quegrupo

en el grupo de tratamiento son diferentes de los del grupo de comparación de una

estimar el efecto solo para una subsección específica de la población. La

Es importante destacar que la asignación aleatoria requiere que la evaluación se

se asignan grupos (o "conglomerados") de personas al tratamiento o al

El cuarto paso en una evaluación aleatoria debería, siempre que

Finalmente, se lleva a cabo la implementación del programa o política a

Experiencias de Evaluaciones Aleatorias en Economía Pública

Desde entonces, las autoridades fiscales han llevado a cabo experimentos

En colaboración con la autoridad tributaria de Chile, empleamos este tipo de experimento de

a mensajes de cartas de disuasión aleatorios como entradas en el indicador de riesgo. Las

Resumen de evaluaciones aleatorias

Las siguientes secciones describen otros métodos de evaluación que

Diferencia simple: Comparando lo tratado con lo no

beneficios de tener un grupo de comparación válido para poder obtener

beneficio) de ciertos programas. Con base en la discusión anterior, tales

Resumen sobre diferencias simples

Comparación antes y después del tratamiento

Experiencias de evaluaciones comparativas pre-post en

declaraciones de impuestos correspondientes, la autoridad fiscal envió cartas a las

Resumen de la comparación previa y posterior

Estimación de diferencias en diferencias

Tabla 1.Estimación de diferencias en diferencias.

resultado antes resultado después diferencia sobre

grupo tratado 24.80 51.22 26.42

dondeYesorepresenta la variable de interés para el individuoIen períodot, tIes

En esencia, la estimación de diferencias en diferencias utiliza el cambio en el

Figura 3.Suposición contrafáctica en el análisis de diferencias en diferencias: tendencias paralelas.

el supuesto de tendencia paralela). Estos conceptos se ilustran gráficamente en la

Experiencias de diferencias en diferencias en economía pública

consumidores a pedir a las empresas un recibo. Compara los ingresos declarados de

Un estudio reciente de Lewis-Faupel et al. (2014) también utiliza la estimación de

una estrategia de diferencias en diferencias, comparando los estados que se trataron

Resumen Análisis de diferencias en diferencias

Procedimientos de emparejamiento y puntajes de propensión

PareoLos procedimientos se basan en el objetivo original de construir una

Figura 5.Proceso de emparejamiento en el ejemplo del tutor. Este es un ejemplo de un proceso de

la intervención. De esta manera, se puede crear un grupo de comparación con

Experiencias de Matching en Economía Pública

programa de acuerdo a sus características observables pero no

recibe una notificación se determina por si tiene más o menos de US$1.000 en

Tal diferencia alrededor del umbral introduce un sesgo de selección. La buena

Finalmente, un DDR también requiere que ningún otro programa o

Experiencias de discontinuidad de regresión en economía pública

estimaciones causalmente válidas. Si estos métodos no están disponibles, la estimación de

Declaración de Conflicto de Intereses

Angrist, Joshua D. y Jörn-Steffen Pischke. 2015.Dominar las 'métricas: el camino

n.º 20624, Cambridge, MA.

Dehejia, Rajeev H. y Sadek Wahba. 1999. '' Efectos causales en no experimental

Princeton, Princeton, NJ.

Duflo, Ester. 2001. ''Educación y consecuencias del mercado laboral de la escuela

Kast, Felipe, Stephan Meier y Dina Pomeranz. 2014. ''Under-savers Anon-