Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
Artículo
Evaluación de impacto
ªAutor(es) 2015
Reimpresiones y permiso:
sagepub.com/journalsPermissions.nav
Economía: un resumen
Introducción a
Aleatorizado
Evaluaciones y
Comparar con
Otros metodos
dina pomeranz1
Resumen
En los últimos años se ha visto una gran expansión en el uso de técnicas rigurosas de evaluación
de impacto. Cada vez más, las administraciones públicas colaboran con economistas académicos y
otros científicos sociales cuantitativos para aplicar métodos tan rigurosos al estudio de las finanzas
públicas. Estos desarrollos permiten mediciones más confiables de los efectos de diferentes
opciones de política en las respuestas de comportamiento de los ciudadanos, propietarios de
empresas o funcionarios públicos. Pueden ayudar a los tomadores de decisiones en las
administraciones tributarias, las oficinas de adquisiciones públicas y otras agencias públicas a
diseñar programas informados por evidencia bien fundamentada. Este artículo proporciona una
descripción general introductoria de los métodos de evaluación de impacto más utilizados. está
dirigido a
Autor correspondiente:
Dina Pomeranz, Harvard Business School y NBER, Boston, MA 02163, EE. UU. Correo
electrónico: dpomeranz@hbs.edu
pomeranz 11
Palabras clave
economía pública, impuestos, evaluación de impacto, ensayos controlados aleatorios
Las decisiones diarias que se toman en las finanzas públicas pueden afectar la economía de todo
un país. Sin embargo, evaluar la efectividad de las diferentes opciones de políticas es un desafío.
Los funcionarios públicos se enfrentan constantemente a una miríada de preguntas importantes
relacionadas con los impactos de las políticas públicas en el comportamiento de los ciudadanos,
las empresas o los funcionarios públicos. ¿Qué políticas son más efectivas contra la evasión fiscal?
¿Con qué fuerza reaccionarán los propietarios de las empresas a los incentivos fiscales? ¿Cómo se
puede optimizar el seguimiento para mejorar el comportamiento y el cumplimiento de los
funcionarios de contratación pública? ¿Qué tipo de comunicación puede motivar a los funcionarios
escolares a distribuir con prontitud las subvenciones para infraestructura educativa? ¿Cómo se ve
afectado el diseño de políticas óptimas por los sesgos conductuales que han sido identificados por
la creciente literatura de economía pública conductual (Chetty 2015)?
Evaluación aleatoria
El objetivo deevaluaciones aleatorias—también llamadoevaluaciones
experimentales, ensayos controlados aleatorios (ECA),oexperimentos de campo
aleatorios—es crear un grupo de comparación ideal por diseño desde el
comienzo de la intervención. Los participantes del estudio, que pueden ser
individuos, empresas o entidades o localidades públicas completas, se asignan
al azar para recibir el tratamiento o estar en el grupo de comparación. Esta
asignación aleatoria asegura que (en promedio) no haya diferencia entre los
individuos del grupo de tratamiento y control, excepto por el hecho de que un
grupo ha sido elegido al azar para participar en el programa y el otro no. Por lo
tanto, podemos descartar que el impacto medido se deba a una diferencia
sistemática entre el grupo de tratamiento y control que habría existido incluso
sin la aplicación del tratamiento (Duflo, Glennerster y Kremer 2008). Por lo
tanto, las evaluaciones aleatorias a menudo se consideran la forma ideal de
realizar una evaluación de impacto. Es por ello que en la evaluación de nuevos
medicamentos y en las investigaciones de laboratorio de ciencias naturales se
utiliza casi exclusivamente este método. (Nota: es importante distinguir entre
una evaluación aleatoria y una muestra aleatoria. Las muestras aleatorias se
utilizan para obtener información descriptiva representativa sobre una
población, no para medir el impacto. La característica distintiva de una
evaluación aleatoria es que el tratamiento se asigna al azar .)
Otro beneficio de las evaluaciones aleatorias es que permiten a los
investigadores identificar el efecto de un componente particular de un
programa más amplio. Para hacerlo, uno puede variar un factor en particular en
varios grupos de tratamiento y compararlos con el grupo de control. De esta
manera, el impacto casual de un componente particular de un programa o
política se puede identificar de una manera que de otro modo sería difícil
(Banerjee y Duflo 2009). Por ejemplo, los estudios sobre qué políticas pueden
mejorar el acceso a la educación y el aprendizaje escolar buscaron medir los
efectos específicos de los libros de texto (Glewwe, Kremer y Moulin 2009), el
tamaño de la clase (Angrist y Lavy 1999) y la salud de los estudiantes (Miguel y
Kremer 2004). ). Evaluaciones aleatorias que manipulan un factor a la vez,
mientras mantienen constantes los otros elementos del entorno del aula. puede
medir el impacto individual de cada factor. Este aislamiento de factores
específicos puede hacer posible probar mecanismos particulares a través de los
cuales una política tiene efecto (Ludwig, Kling y Mullainathan 2011).
dieciséis Revisión de Finanzas Públicas 45(1)
Aleatorización en la práctica
Esta sección presentará una breve descripción general de los diferentes pasos involucrados
en la creación e implementación de un estudio de campo aleatorio (para obtener una
descripción más detallada de los pasos involucrados en los ECA en muchos escenarios
diferentes, consulte Glennerster y Takavarasha 2013, y Gerber y Green 2012 ). El primer
paso es elegir un programa, una población y las principales variables de interés de interés.
Idealmente, este será un programa que sea de interés para el formulador de políticas en la
medida en que aprender sobre su efectividad, o aspectos de su efectividad, alimentará el
proceso de toma de decisiones de la entidad pública.
En segundo lugar, antes de comenzar la evaluación, es útil calcular estimaciones
estadísticas para determinar el tamaño de los grupos de tratamiento y control
necesarios para medir de manera confiable el impacto en las variables de interés de
interés. Este análisis se llamacalculo de potenciaya que estima cuántas observaciones
se necesitan para tener suficiente poder estadístico para detectar un efecto
significativo.
¿Cómo determinamos el número de participantes necesarios en un estudio
aleatorizado? Cuanto mayor sea el número de individuos incluidos en un estudio, más
probable es que ambos grupos sean similares (debido a la "ley estadística de los grandes
números"). Esta es una de las razones por las que el tamaño de la muestra es importante.
Una muestra más grande es mejor ya que reduce la probabilidad de tener grupos
desequilibrados. Además, una muestra más grande mejora la precisión de las estimaciones
de impacto, es decir, aumenta la probabilidad de detectar el verdadero impacto de un
programa. Sin embargo, un estudio más grande puede ser más costoso y no siempre es
factible. Por lo tanto, los cálculos de potencia pueden ayudar a determinar el tamaño de
muestra necesario para medir el impacto en el principal resultado de interés.
pomeranz 17
Los cálculos de potencia estadística incorporan los diferentes factores que afectan
el número de participantes requeridos. Entre los factores a considerar están la
varianza de la variable de resultado de interés y el efecto mínimo que se espera
detectar. Cuanto menor sea el tamaño del efecto que se desea detectar, mayor será
el número de observaciones necesarias. Además, cuanto mayor sea la variación en el
resultado de interés, mayor será el número de observaciones necesarias para
distinguir el verdadero tamaño del efecto del simple ruido en los datos. Finalmente,
el diseño de aleatorización puede afectar el tamaño de grupo necesario. Si la
aleatorización se realiza a nivel de grupo (aleatorización agrupada), se necesitarán
más observaciones que si la aleatorización se realiza a nivel individual (ver más
detalles sobre la aleatorización agrupada a continuación).
El tercer paso en una evaluación aleatoria es la asignación aleatoria del
tratamiento. El proceso de aleatorización puede ser tan simple como lanzar una
moneda o realizar una lotería. Para que el proceso sea transparente y replicable, la
asignación aleatoria a menudo se implementa mediante software estadístico como
Stata. Es importante que el proceso de aleatorización sea verdaderamente aleatorio y
no sólo "aparentemente" arbitrario. Por ejemplo, asignar el tratamiento a personas
cuyos apellidos comienzan con las letras ''A–L'' y dejar como control a aquellas que
comienzan con ''M-Z'' puede parecer aleatorio, pero no lo es. Tal asignación requiere
suponer que los individuos cuyos apellidos comienzan con las letras A–L son los
mismos que los que comienzan con M–Z. Sin embargo, es posible que las familias
cuyos apellidos comiencen con las letras A–L sean diferentes de las familias cuyo
apellido comience con las letras M–Z. Por ejemplo, la composición étnica puede
variar. Para evitar esta situación, se recomienda un método automatizado como el
uso de un programa de computadora para generar números aleatorios que
determinen la asignación del tratamiento.
Una computadora también simplifica procesos de aleatorización más complejos, como
aleatorización estratificada.Se recomienda la aleatorización estratificada cuando el número
de participantes potenciales es relativamente pequeño, para garantizar que ambos grupos
estén equilibrados con respecto a las variables más importantes. Al estratificar, la muestra
se divide en subgrupos de características similares, con participantes dentro de cada
subgrupo asignados aleatoriamente a tratamiento y control, de manera que la proporción
en tratamiento y control es la misma para cada subgrupo. Por ejemplo, si la población se
divide por género, si se asigna el tratamiento al 30 por ciento de hombres y al 30 por ciento
de mujeres, esta asignación estará perfectamente equilibrada en términos de género. El
grupo de tratamiento tendrá exactamente la misma composición de género que el grupo
de control.
Como se mencionó anteriormente, otro diseño de aleatorización de uso
frecuente esaleatorización agrupada.En este procedimiento, la aleatorización no
se realiza a nivel de individuo sino a nivel de grupos de individuos: enteros
18 Revisión de Finanzas Públicas 45(1)
hacia los grupos de control también debe detenerse hasta que finalice el
estudio. Sin embargo, esto equivaldría a tratar al grupo de control de manera
diferente al grupo de tratamiento. Por ejemplo, imagine que una autoridad
fiscal quiere probar una nueva estrategia de comunicación mediante el envío de
mensajes de carta específicos a un grupo de contribuyentes seleccionados al
azar y comparando su comportamiento con un grupo de control. Si los
funcionarios ahora decidieran detener todas las actividades de auditoría en el
grupo de control pero continuaran aplicando dichas auditorías al grupo de
tratamiento (o viceversa), se perdería la validez del estudio. En este caso, los dos
grupos no solo se diferenciarían en términos de recibir el tratamiento sino
también en términos de su riesgo de ser auditados. Al observar la diferencia
final entre los dos grupos,
Durante la implementación, también es importante asegurarse de que se respete
la asignación aleatoria de individuos a cada grupo y que los participantes no se
trasladen de un grupo a otro. En el caso de que no se respete la aleatorización en el
proceso de implementación, todavía es posible realizar una evaluación de impacto
válida, siempre que los investigadores tengan información precisa sobre quién
terminó recibiendo el tratamiento y quién no. En este caso, es posible utilizar la
metodología de "intención de tratar" y utilizar variables instrumentales para medir el
efecto "tratamiento sobre el tratado". Este enfoque podría, por ejemplo, usarse si
algunas cartas enviadas a los contribuyentes no se recibieron debido a direcciones
incorrectas (como se hizo en Pomeranz 2015). Es muy importante que aunque esto
suceda, la asignación aleatoria original se utiliza al realizar la evaluación de impacto;
los que fueronasignadoal tratamiento tienen que ser comparados con los asignados
para estar en el grupo de control. Nunca es válido comparar a aquellos que de hecho
fueron tratados con aquellos que debían ser tratados pero que finalmente no
participaron en el programa, porque estos dos grupos no serán comparables. En
nuestro ejemplo, los contribuyentes para quienes la autoridad fiscal tiene direcciones
inválidas probablemente sean sistemáticamente diferentes en muchos aspectos de
aquellos con direcciones válidas.
sobre el comportamiento del contribuyente. Las medidas de resultado más utilizadas se relacionan con la cantidad de impuestos pagados, ya que las
administraciones tributarias ya tienen acceso a estos datos; es el primer orden de preocupación para las administraciones tributarias. Un número creciente de
estudios recientes ha medido el impacto de cartas o mensajes de texto aleatorios en el comportamiento de los contribuyentes individuales (Coleman 1996;
Blumenthal, Christian y Slemrod 2001; Slemrod, Blumenthal y Chrisitan 2001; Torgler 2004, 2013; Wenzel 2005, 2006; Organización para la Cooperación y el
Desarrollo Económicos [OCDE] 2010; Kleven et al. 2011; Fellner, Sausgruber y Traxler 2013; Haynes et al. 2013; Dwenger et al. 2014; Hallsworth et al. 2014;
Bhargava y Manoli 2015) , propietarios (Wenzel y Taylor 2004; Del Carpio 2013; Castro y Scartascini 2015), o empresas (Hasseldine et al. 2007; Iyer, Recker y
Sanders 2010; Ariel 2012; Harju, Kosonen y Ropponen 2013; Ortega y Sanguinetti 2013 ; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado
respuestas conductuales a amenazas de auditoría o mensajes de motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del
mensaje (Bhargava y Manoli 2015). Otros estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente
descripción general sobre el uso de experimentos de campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). Ariel 2012; Harju,
Kosonen y Ropponen 2013; Ortega y Sanguinetti 2013; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado respuestas conductuales a
amenazas de auditoría o mensajes de motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del mensaje (Bhargava y
Manoli 2015). Otros estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el
uso de experimentos de campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). Ariel 2012; Harju, Kosonen y Ropponen 2013; Ortega
y Sanguinetti 2013; Bhargava y Manoli 2015; Pomeranz 2015). Algunas cartas han probado respuestas conductuales a amenazas de auditoría o mensajes de
motivación. Otros han evaluado la importancia de la redacción, como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros estudios incluyen
medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de campo
aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros estudios
incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de
campo aleatorios para aumentar el cumplimiento tributario (ver Hallsworth 2014). como la sencillez y claridad del mensaje (Bhargava y Manoli 2015). Otros
estudios incluyen medidas adicionales como visitas presenciales (Gangl et al. 2014). Para obtener una excelente descripción general sobre el uso de experimentos de campo aleatorios pa
También hay una gran cantidad de literatura que utiliza evaluaciones aleatorias en las
áreas de salud pública, educación, etc. Proporcionar una visión general de estas áreas.
22 Revisión de Finanzas Públicas 45(1)
va más allá del alcance de este artículo. El sitio web de Abdul Latif Jameel
Poverty Action Lab (2015), http://www.povertyactionlab.org, proporciona una
lista de tales evaluaciones realizadas por sus afiliados.
participantes se asignen al azar al tratamiento hace posible medir el efecto simplemente comparando los resultados de los asignados al grupo de tratamiento y
los asignados al grupo de control (también llamado "grupo de comparación"). El contrafactual para el grupo de tratamiento está representado por el grupo de
control. Los miembros del grupo de tratamiento y comparación se seleccionan al azar antes del inicio del programa, entre un grupo de participantes
potenciales. Las estimaciones obtenidas a través de evaluaciones aleatorias tienen una validez interna extremadamente alta. Requieren muy pocas suposiciones
adicionales para ser válidas. Por estas razones, las evaluaciones aleatorias a menudo se denominan "estándar de oro" en las evaluaciones de impacto. La
suposición clave de este método es que el proceso de aleatorización se ejecuta correctamente. Si ese es el caso, se espera que los grupos de tratamiento y de
comparación sean estadísticamente idénticos en cuanto a las características observables y no observables. Además, es importante que no se aplique ningún
otro tratamiento a un solo grupo y no al otro. Un inconveniente práctico es que la asignación aleatoria debe realizarse antes de implementar el programa y,
como resultado, no es posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular
puede no ser factible desde el punto de vista práctico, político o ético. se espera que los grupos de tratamiento y de comparación sean estadísticamente
idénticos en cuanto a las características observables y no observables. Además, es importante que no se aplique ningún otro tratamiento a un solo grupo y no al
otro. Un inconveniente práctico es que la asignación aleatoria debe realizarse antes de implementar el programa y, como resultado, no es posible realizar
evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible desde el punto de
vista práctico, político o ético. se espera que los grupos de tratamiento y de comparación sean estadísticamente idénticos en cuanto a las características
observables y no observables. Además, es importante que no se aplique ningún otro tratamiento a un solo grupo y no al otro. Un inconveniente práctico es que
la asignación aleatoria debe realizarse antes de implementar el programa y, como resultado, no es posible realizar evaluaciones aleatorias retrospectivas.
Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible desde el punto de vista práctico, político o ético. no es
posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a un tratamiento en particular puede no ser factible
desde el punto de vista práctico, político o ético. no es posible realizar evaluaciones aleatorias retrospectivas. Además, en ciertos casos, la asignación aleatoria a
un tratamiento en particular puede no ser factible desde el punto de vista práctico, político o ético.
Figura 2.Supuesto contrafactual para pre-post: ningún cambio en ausencia de tratamiento. En una
evaluación de impacto previa y posterior, la suposición clave es que, en ausencia del tratamiento,
no habría habido cambios en la variable de resultado. Si este es el caso, la situación previa al
tratamiento representa un contrafactual válido para la situación posterior al tratamiento.Fuente:
Laboratorio de Acción contra la Pobreza de Abdul Latif Jameel (2015).
De modo que incluso los aprendizajes resultantes del desarrollo normal de los
niños serían atribuidos al programa de tutoría. En otras palabras, las
estimaciones tendrían un sesgo positivo: sobrestimarían el verdadero efecto del
programa.
Además de estas tendencias temporales generales, los resultados de un análisis previo y
posterior también pueden estar sesgados debido a otros factores que cambian el resultado con el
tiempo pero que no están relacionados con el programa. Por ejemplo, si hay una crisis económica
durante el período de implementación de un programa de auditoría, el comportamiento fiscal
puede cambiar independientemente del programa de auditoría. Entonces no es posible saber si el
cambio en el tiempo se debe a la crisis, a la política oa una combinación de ambos. Es decir, la
evaluación puede verse afectada por el sesgo de la variable omitida.
El análisis previo y posterior mide el cambio en los resultados a lo largo del tiempo para los
participantes de un programa. Compara la situación antes y después de un tratamiento. El
contrafactual está representado por los mismos participantes, pero antes del programa. La
suposición clave de este método es que el programa es el único factor que influyó en un
cambio en los resultados durante ese período de tiempo. Sin el programa, los resultados
habrían sido los mismos. Esto es, en realidad, rara vez el caso. Muchos factores que varían
con el tiempo pueden afectar un resultado, lo que contradice la suposición clave hecha
anteriormente. En particular, la comparación previa y posterior no controla las tendencias
de tiempo generales u otras cosas que suceden durante el período de estudio que no están
relacionadas con el programa pero que afectan los resultados. El beneficio de este método
es que no requiere información sobre personas que no participaron en el programa. Esta
es la razón por la que a menudo se utiliza en los medios de comunicación y en las
comunicaciones sobre políticas.
tiene grados más bajos que el grupo no tratado, tanto antes como después del
tratamiento. Entonces, una simple diferencia habría introducido un sesgo negativo
en el análisis. Los números también ilustran que las calificaciones de ambos grupos
mejoraron con el tiempo. Por lo tanto, un simple análisis previo y posterior habría
introducido un sesgo positivo. Cuando tomamos la diferencia entre las dos
diferencias, vemos que las notas de los que recibieron tutoría mejoraron 6,82 puntos
más que las notas de los que no recibieron tutoría.
Para aquellos familiarizados con el análisis de regresión: En la notación de regresiones
multivariadas, el estimador de diferencias en diferencias está representado por el término
de interacción entre el grupo de tratamiento y el período posterior al tratamiento:
Yeso¼aþB1TIþB2correotþB3TI- correotþmieso;
Figura 4.Comprobación de tendencias paralelas. Esta figura demuestra cómo los datos de series
de tiempo pueden permitirnos verificar tendencias paralelas entre el grupo de tratamiento y el
grupo de control antes del inicio del tratamiento. Como muestra la figura, antes del tratamiento,
los dos grupos tienen una tendencia paralela. Esto le da credibilidad a la suposición de que, en
ausencia de tratamiento, habrían continuado en una tendencia paralela, lo que se requiere para
que el análisis de diferencias en diferencias sea válido. Los dos grupos divergen solo después del
tratamiento, dando credibilidad a la conclusión de que el tratamiento condujo a este efecto.
En estudios recientes, los investigadores han tratado cada vez más de observar series
de tiempo más largas para ver si los grupos de tratamiento y control evolucionaron en
paralelo antes del inicio del tratamiento. Esto se ilustra en la figura 4. Muestra un caso en el
que el grupo de tratamiento y el grupo de control tienen una tendencia paralela antes del
tratamiento. Después de que comienza el tratamiento, los dos grupos divergen. El hallazgo
de una tendencia paralela antes y una diferencia después del tratamiento da credibilidad a
la conclusión de que el tratamiento causó el efecto.
con padres más proactivos habría mejorado más que sus compañeros
con las mismas notas.
En este contexto, los beneficios de la asignación aleatoria de tratamientos se hacen
evidentes. La asignación aleatoria garantiza que los grupos de tratamiento y de
comparación sean similares no solo en las características observables sino también en las
no observadas.
Cuanto mayor sea el número de características que se incluyen en la coincidencia,
más difícil será utilizar la coincidencia uno a uno. Con muchas características
observadas, puede ser imposible encontrar un estudiante idéntico que no haya
tenido un tutor. Por estas razonescoincidencia de puntuación de propensión (PSM)
fue desarrollado. PSM permite combinar con muchas características. Con base en las
características observables de los individuos, se estima su propensión (o
probabilidad) de estar en el grupo tratado. De esta forma, el número de
características se reduce a una única puntuación, que va de cero a uno, que predice
la probabilidad de participar en el programa. En efecto, el puntaje de propensión es
un promedio ponderado de las características incluidas. Luego se realiza el
emparejamiento entre individuos que tienen el mismo puntaje, es decir, la misma
probabilidad de participar en el programa. Para obtener una guía detallada para
implementar técnicas de emparejamiento, (ver Imbens 2015).
Resumen de emparejamiento
Los métodos de emparejamiento comparan los resultados de los individuos tratados con
los de individuos similares que no fueron tratados. En el emparejamiento exacto, los
participantes se emparejan con individuos que son idénticos en cuanto a las características
seleccionadas pero que no participaron en el tratamiento. En PSM, los participantes se
comparan con individuos que tenían la misma probabilidad de participar en el
34 Revisión de Finanzas Públicas 45(1)
RDD
RDDes una metodología que permite sacar conclusiones causales que son casi tan
confiables como el ensayo controlado aleatorizado. Solo se puede aplicar en los casos
en que un programa o política tiene un umbral específico que determina quién es
elegible para participar. Un RDD utiliza el hecho de que las personas o entidades
apenas por encima del umbral son básicamente idénticas a las personas que están
justo por debajo. Bajo ciertas suposiciones, por lo tanto, es posible medir el efecto del
tratamiento en la diferencia entre los resultados de los individuos justo por debajo
del umbral, que por lo tanto no son elegibles, y los resultados de los que están justo
por encima, que por lo tanto son elegibles (Imbens y Lemieux, 2008; Lee y Lemieux,
2010).
Un buen ejemplo ilustrativo es un caso en el que los puntajes de las pruebas
determinan si un estudiante es admitido en una universidad prestigiosa. Imagina que
el umbral para ser admitido es 924 de 1.000 puntos posibles. Los estudiantes que
obtuvieron 923 puntos son casi indistinguibles de los estudiantes con 924 puntos,
pero estos últimos son admitidos y los primeros no. Si los estudiantes con 924 o 925
puntos terminan ganando mucho más que los estudiantes con 922 o 923 puntos,
esta diferencia puede ser el resultado de asistir a la prestigiosa universidad.
Para un ejemplo en la administración tributaria, suponga que una autoridad tributaria
envía una carta de notificación a todas las empresas cuyas declaraciones de impuestos
declaradas indican una gran discrepancia entre sus ingresos autodeclarados y la
información sobre sus ingresos de fuentes de terceros. La autoridad fiscal, por lo tanto,
sospecha que estas empresas hacen trampa. Sin embargo, la autoridad fiscal no quiere
enviar demasiadas notificaciones y decide enviar notificaciones a todas las empresas con
discrepancias superiores a US$1.000. Es decir, si una empresa
pomeranz 35
Figura 6.Ilustración de un diseño de discontinuidad de regresión (RDD). Esta figura proporciona una
representación gráfica de un RDD. Las personas o entidades por encima de un determinado límite de la
variable de selección se incluyen en el tratamiento, y las que se encuentran por debajo del límite no. Es
decir, existe una discontinuidad a lo largo de la variable de selección, por encima de la cual se aplica el
tratamiento. Si se cumplen los supuestos requeridos para un DDR, el fuerte aumento en la variable de
resultado en el punto de corte se puede atribuir al tratamiento.Fuente:Laboratorio de Acción contra la
Pobreza de Abdul Latif Jameel (2015).
suposición puede ser violada, por ejemplo, si hay una manipulación estratégica
alrededor del umbral. Si, por ejemplo, se sabe antes del envío de las notificaciones
que se enviarán a todas las empresas con más de US$1000 en discrepancia, entonces
las empresas podrían manipular su discrepancia para que esté justo por debajo de
ese límite. Aquellos que lo hacen pueden ser particularmente astutos, bien
informados o diferentes de los que no lo hacen. En ese caso, habrá una diferencia
entre las empresas justo por debajo del umbral y las que están justo por encima.
políticas que se aplican de acuerdo a algún punto de corte y frecuentemente los datos
administrativos requeridos para el análisis ya existen. De manera similar, las reglas de auditoría
para la contratación pública, la evasión de impuestos, las leyes laborales, etc., a menudo utilizan
reglas de puntuación con un punto de corte, por encima del cual las entidades tienen un mayor
riesgo de ser auditadas.
En un estudio en curso, aplicamos este método a las prácticas de contratación en Chile
(Gerardino, Litschig y Pomeranz 2015). En colaboración con la contraloría nacional
''Contralorı́a'', explotamos una regla de puntuación que crea mayores probabilidades de
auditoría para las entidades públicas por encima de ciertos umbrales. Luego, el estudio
analiza los impactos de las auditorías en el proceso de contratación pública al comparar las
entidades públicas que quedaron justo por debajo del límite con las entidades que estaban
justo por encima.
Resumen de RDD
Los RDD comparan los resultados de personas o entidades que están justo por
debajo de un umbral que los califica para el tratamiento con los resultados de
aquellos que están justo por encima de este umbral (o límite). Los resultados de las
personas o entidades que caen justo por debajo del umbral representan el
contrafactual de las personas que caen justo por encima. La suposición clave es que
los individuos justo por encima del umbral son, por lo demás, casi idénticos a los que
se encuentran justo por debajo. Esto implica que no hay manipulación alrededor del
umbral y que no se aplican otras políticas basadas en el mismo límite. Este es más
probable que sea el caso cuando el umbral exacto no se conoce ex ante. Los DDR
pueden producir estimaciones de impacto muy fiables. En la administración pública,
hay muchas políticas que se aplican según algún punto de corte y con frecuencia ya
existen los datos administrativos necesarios para el análisis. La debilidad clave de los
RDD es que el efecto solo se puede estimar para personas o entidades que están
cerca del límite.
Conclusión
Las evaluaciones de impacto rigurosas han experimentado una gran expansión en los últimos
años, tanto en sus desarrollos metodológicos como en sus aplicaciones prácticas. Las agencias
públicas interesadas en afectar a sus ciudadanos para fomentar comportamientos como el
cumplimiento tributario, el ahorro o el cumplimiento de las normas están probando cada vez más
la eficacia de las políticas públicas para lograr estos objetivos. Este artículo tiene como objetivo
proporcionar una descripción general introductoria para aquellos interesados en realizar dichas
evaluaciones de manera confiable. Entre los métodos cubiertos, las evaluaciones aleatorias y los
RDD brindan los métodos más rigurosos y
38 Revisión de Finanzas Públicas 45(1)
Expresiones de gratitud
Agradezco a Michael Eddy y Stephanie Majerowicz por su excelente asistencia en la
investigación y a los funcionarios de las autoridades fiscales chilenas y ecuatorianas, la
autoridad de adquisiciones chilena y la contraloría nacional chilena por sus útiles
comentarios y sugerencias.
Fondos
Los autores declararon haber recibido el siguiente apoyo financiero para la investigación,
autoría y/o publicación de este artículo: Agradezco a Harvard Business School por su
generoso apoyo a la investigación.
Referencias
Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (J-PAL). 2015.¿Por qué aleatorizar? Caso
Estudio.Cambridge, MA: Abdul Latif Jameel Laboratorio de Acción contra la Pobreza.
Angrist, Joshua D. y Victor Lavy. 1999. ''Uso de la regla de Maimónides para estimar
el efecto del tamaño de la clase en el rendimiento escolar.''Revista trimestral de
economía114:533–75.
Angrist, Joshua D. y Jörn-Steffen Pischke. 2009.Econometría mayormente inofensiva:
El compañero de un empirista.Princeton, Nueva Jersey: Princeton University Press.
pomeranz 39
Hallsworth, Michael, John A. List, Robert D. Metcalfe e Ivo Vlaev. 2014. ''La
Conductista como recaudador de impuestos: uso de experimentos de campo natural para mejorar el
cumplimiento fiscal. Documento de trabajo NBER #20007, Cambridge, MA.
Harju, Jarkko, Tuomas Kosonen y Oli Ropponen. 2013. ''Haz peluqueros honestos
¿Cortate el pelo? On Tax Rate and Tax Evasion.'' Documento de trabajo del Instituto
Gubernamental de Investigación Económica de Finlandia, Helsinki, Finlandia.
Hasseldine, John, Peggy Hite, Simon James y Marika Toumi. 2007. ''Persuasivo
Comunicaciones: Estrategias de Cumplimiento Tributario para Propietarios Únicos.''
Investigación Contable Contemporánea24:171–94.
Haynes, Laura C., Donald P. Green, Rory Gallagher, Peter John y David J.
Torgerson. 2013. ''Cobro de multas atrasadas: un ensayo aleatorio adaptativo
para evaluar la efectividad de los mensajes de texto alternativos''.Revista de
análisis y gestión de políticas32:718–30.
Imbens, Guido W. 2015. ''Emparejar artículos en la práctica: tres ejemplos''.diario
de Recursos Humanos50:373–419.
Imbens, Guido W. y Thomas Lemieux. 2008. ''Discontinuidad de regresión
Diseños: una guía para la práctica.''Diario de Econometría142:615–35.
Imbens, Guido W. y Jeffrey M. Wooldridge. 2009. ''Desarrollos recientes en
la Econometría de la Evaluación de Programas.''Revista de Literatura Económica
47:5–86.
Iyer, Govind S., Philip MJ Reckers y Debra L. Sanders. 2010. ''Aumento de impuestos
Cumplimiento en el estado de Washington: un experimento de campo.''Diario Tributario Nacional
63:7–32.
Karlan, Dean, Margaret McConnell, Sendhil Mullainathan y Jonathan Zinman.
2010. ''Llegar a la cima de la mente: cómo los recordatorios aumentan el ahorro''. Documento
de trabajo NBER #16205, Cambridge, MA.
Karlan, Dean y Jonathan Zinman. 2014. ''Precio y elasticidades de control de
Demand for Savings.'' Documento de trabajo de la Universidad de Yale, NBER, Cambridge, MA.
Administración Tributaria36:1–21.
Prina, Silvia. 2015. ''Banca para los pobres a través de cuentas de ahorro: evidencia de un campo
Experimentar.''Revista de Economía del Desarrollo115:16–31.
Ries, Eric. 2011.The Lean Startup: cómo los empresarios de hoy utilizan la innovación continua
vación para Crear Negocios Radicalmente Exitosos.Nueva York: Crown Business
Inc. Slemrod, Joel, Marsha Blumenthal y Charles Christian. 2001. ''Contribuyente
Respuesta a una mayor probabilidad de auditoría: evidencia de un experimento
controlado en Minnesota.''Revista de Economía Pública79:455–83. Torgler, Benno.
2004. Persuasión moral: ¿una estrategia de política fiscal alternativa?
Evidencia de un experimento de campo controlado en Suiza.''Economía de la
Gobernanza5:235–53.
pomeranz 43
Torgler, Benno. 2013. ''Un experimento de campo sobre la persuasión moral y el cumplimiento tributario
Centrándose en la subdeclaración y la sobrededucción.''Análisis de Finanzas Públicas
69:393–411.
Wenzel, Michael. 2005. ''Percepciones erróneas de las normas sociales sobre el cumplimiento tributario:
De la teoría a la intervención.''Revista de Psicología Económica26:862–83. Wenzel,
Michael. 2006. ''Una Carta de la Oficina de Impuestos: Efectos de Cumplimiento de
Justicia Informacional e Interpersonal.''Investigación de justicia social19:345–64.
Wenzel, Michael y Natalie Taylor. 2004. ''Una evaluación experimental de
Horarios de declaración de impuestos: un caso de administración tributaria basada en
evidencia.'' Revista de Economía Pública88:2785–99.