Está en la página 1de 12

Evaluación del impacto del programa de ayuda al desarrollo: el papel de las

evaluaciones aleatorias

Esther Duflo
Instituto de Tecnología de Massachusetts
Laboratorio de Acción del Departamento de Economía y Pobreza
Documento preparado para la Conferencia de la AFD, 25 de noviembre,
París.
Las evaluaciones de impacto creíbles son bienes públicos mundiales en el sentido de que pueden ofrecer
orientación confiable a organizaciones internacionales, gobiernos, donantes y ONG y puede ayudar a construir
apoyo para el desarrollo.

Para una amplia clase de programas de desarrollo, se pueden utilizar evaluaciones aleatorias para abordar
estos problemas. Es probable que los programas dirigidos a individuos o comunidades locales sean fuertes
candidatos para evaluaciones aleatorias.

Las evaluaciones aleatorias prospectivas de los programas de desarrollo han constituido una pequeña fracción
de todas las evaluaciones de desarrollo. En este artículo argumentamos que hay margen para expandir
considerablemente su uso, aunque necesariamente deben seguir siendo una pequeña fracción de todas las
evaluaciones.

Con demasiada frecuencia, la política de desarrollo se basa en modas pasajeras, y las evaluaciones aleatorias
podrían permitir que se base en evidencia.

La Metodología de la Evaluación Aleatoria


El problema de evaluación

El objetivo crítico de la evaluación de impacto es, por lo tanto, establecer un grupo de comparación creíble, un
grupo de individuos que en ausencia del programa hubieran tenido resultados similares a los que estuvieron
expuestos al programa. Este grupo nos da una idea de lo que le habría pasado al grupo del programa si no
hubieran estado expuestos, y así nos permite obtener una estimación del impacto promedio en el grupo en
cuestión.

Cualquier diferencia entre grupos de comparación podría atribuirse a dos factores: diferencias preexistentes (el
llamado "sesgo de selección") y El impacto del programa. Dado que no tenemos una forma confiable de
estimar el tamaño del sesgo de selección, no podemos descomponer la diferencia general en un efecto de
tratamiento y un término de sesgo.

Una situación en la que el sesgo de selección desaparece es cuando el tratamiento y los grupos de
comparación se seleccionan aleatoriamente de una población potencial de beneficiarios. En este caso podemos
estar seguros de que aquellos que están expuestos a los programas no son diferentes a los que no lo están.
Como veremos más adelante en este documento, la selección aleatoria de grupos de tratamiento y
comparación puede ocurrir en varias circunstancias.

Aclaraciones sobre el uso de evaluaciones aleatorias para estimar los efectos del programa. Primero, las
evaluaciones aleatorias se pueden usar para estimar el efecto de un tratamiento en toda la población que
estuvo sujeta a la aleatorización o en un subconjunto de la población definida por características
predeterminadas, mientras que las técnicas de variables instrumentales estiman los efectos del tratamiento
promedio local. Segundo, las evaluaciones aleatorias estiman los efectos del tratamiento de equilibrio parcial,
que pueden diferir de los efectos del tratamiento de equilibrio general.
Otras técnicas para controlar la selección y otros sesgos variables omitidos
Las evaluaciones aleatorias naturales u organizadas no son las únicas metodologías que se pueden utilizar para
obtener evaluaciones de impacto creíbles de los efectos del programa y evitar el sesgo lo mejor posible.

Revisaremos algunas de las técnicas:


Coincidencia de puntaje de propensión
Una estrategia para controlar el sesgo es intentar encontrar un grupo de control que sea lo más comparable posible al
grupo de tratamiento. Esto se puede hacer recolectando tantas covariables como sea posible y luego ajustando las
diferencias calculadas a través de una regresión, o “haciendo coincidir” el programa y el grupo de comparación formando
un grupo de comparación que sea lo más similar posible al grupo del programa.

El desafío con este método es que depende de haber identificado todas las diferencias potencialmente relevantes entre los
grupos de tratamiento y control.

Estimaciones de diferencia en diferencia


En la técnica de "diferencia en diferencia" se puede argumentar que el resultado no habría tenido tendencias diferenciales
si el programa no se hubiera implementado, es posible comparar el crecimiento en las variables de interés entre el
programa y el no programa regiones. Sin embargo, para determinar su plausibilidad es necesario contar con una serie de
datos largos antes de que se implemente el programa y comparar tendencias durante períodos largos. También es
necesario asegurarse de que no se implementó ningún otro programa al mismo tiempo o perturbaciones que puedan
parecer “efectos del programa”.

Duflo aprovechó un programa de expansión escolar rápida que se produjo en Indonesia en la década de 1970 para estimar
el impacto de la construcción de escuelas en la escolarización y los salarios posteriores. Sin embargo, cuando se usan
cambios en las políticas para identificar el efecto de una política en particular, el cambio de política es en sí endógeno a
los resultados que pretendía afectar, lo que hace imposible la identificación.

Diseño de regresión discontinua


Finalmente, la estrategia de "diseño de regresión discontinua", aprovecha el hecho de que las reglas del programa a veces
generan discontinuidades que pueden usarse para identificar el efecto del programa comparando aquellos que están por
encima de un umbral determinado con aquellos que simplemente por debajo de eso. Si los recursos se asignan sobre la
base de un cierto número de puntos, es posible comparar los que están por encima de los que están por debajo del umbral.
Angrist y Lavy (1999) usan esta técnica para evaluar el impacto del tamaño de la clase en Israel, donde se asigna un
segundo maestro cada vez que el tamaño de la clase supera los 40. Esta política genera discontinuidades en el tamaño de
la clase. Tales discontinuidades en las reglas del programa, cuando se aplican, son por lo tanto fuentes de identificación.

Sin embargo, en los países en desarrollo, a menudo es probable que las reglas no se cumplan de manera estrictamente
suficiente para generar discontinuidades que se puedan utilizar con fines de identificación.

Estas tres técnicas están sujetas a grandes sesgos que pueden conducir a una sobreestimación o subestimación
del impacto del programa a menudo, las estimaciones econométricas y grupos de comparación difieren
significativamente de los resultados experimentales.

Los problemas de identificación con métodos de evaluación no aleatorios deben abordarse con extremo
cuidado porque son menos transparentes y están más sujetos a divergencias de opinión que los problemas con
las evaluaciones aleatorias. Si bien las evaluaciones no aleatorias seguirán siendo necesarias, debe haber un
compromiso para realizar evaluaciones aleatorias siempre que sea posible.

Ejemplos de evaluaciones aleatorias prospectivas


Proyecto de piloto. Antes de lanzar un programa a gran escala, a menudo se implementa un proyecto piloto,
necesariamente limitado en alcance. La elección aleatoria de los beneficiarios del piloto se puede hacer en la
mayoría de las circunstancias. El piloto se puede usar si el programa es factible y cuando el programa tiene los
impactos esperados.

Ejemplo: Para ilustrar brevemente cómo estos estudios pueden funcionar en la práctica, analizamos un ejemplo de India, analizado en
Banerjee y otros. Este estudio evaluó el programa de la ONG india Seva Mandir que consistía en la contratación de un segundo
maestro en los centros de educación no formal que dirigen en las aldeas para ayudar a "incorporar" a estos niños al sistema escolar
regular.
Una segunda maestra (a menudo una mujer) fue asignada al azar a 21 de las 42 escuelas. Se buscaba aumentar el número de días que la
escuela estaba abierta, la participación de los niños (especialmente de las niñas) y el rendimiento al proporcionar una atención más
individualizada a los niños. Se monitoreó la asistencia de los maestros y la asistencia de los niños. El impacto del programa en el
aprendizaje se midió evaluando a los niños al final del año escolar. El programa redujo la cantidad de días que una escuela estuvo
cerrada y la asistencia de niñas aumentó en un 50%.

Los proyectos piloto cuidadosamente evaluados forman una base sólida para la decisión de ampliar el
proyecto. En el ejemplo, la ONG no implementó el programa de dos maestros a gran escala, debido a que los
beneficios no fueron suficientes para superar el costo. Los ahorros se usaron para expandir otros programas.

Expansión del proyecto existente


Algunas veces es posible evaluar el impacto de los programas que ya han demostrado su potencial para
implementarse a gran escala, en estos casos se puede estar seguro de que el programa se puede implementar a
gran escala. También puede facilitar la evaluación del programa en varios sitios al mismo tiempo de manera
que la expansión se pueda introducir gradualmente en orden aleatorio.

Ejemplo: La evaluación de un programa de educación correctiva por Banerjee, Cole, Duflo y Linden (2003. El programa fue dirigido
la ONG india Pratham en 1994. El programa de educación correctiva contrata a una joven de la comunidad de niños para que brinde
educación correctiva en las escuelas públicas a niños que han alcanzado los grados 2, 3 o 4 sin haber dominado las competencias
básicas de grado 1. Los niños identificados como rezagados son retirados del aula regular durante dos horas al día para recibir esta
instrucción.

Pratham quería evaluar el impacto de este programa y al mismo tiempo que buscaban expandirse. La
expansión brindó la oportunidad de realizar una evaluación aleatoria. En el primer año, el programa se amplió
a 49 (seleccionadas al azar) de las 123 escuelas gubernamentales de Vadodara. Después de dos años, el
programa aumentó el puntaje promedio de la prueba en 0.39 desviaciones estándar y un impacto aún más
fuerte en los puntajes de las pruebas de los niños que tuvieron puntajes bajos inicialmente. Contratar maestros
de educación correctiva de la comunidad parece ser 10 veces más rentable que contratar nuevos maestros.

Uno puede estar relativamente seguro al recomendar la ampliación de este programa, al menos en la India,
sobre la base de estas estimaciones, ya que el programa continuó durante un período de tiempo, se evaluó en
dos contextos muy diferentes, y ha demostrado su capacidad de desplegarse a gran escala.

Aleatorización inducida por programa


En algunos casos, las consideraciones de equidad o transparencia hacen que la aleatorización sea la mejor
manera de elegir a los destinatarios de un programa. Dichos programas son candidatos naturales para la
evaluación, ya que el ejercicio de evaluación no requiere ninguna modificación del diseño del programa.

La asignación a escuelas particulares a menudo se realiza por sorteo, cuando algunas escuelas están suscritas en
exceso. En algunos sistemas escolares en los EE. UU., Los estudiantes tienen la opción de postularse a "escuelas magnet"
o escuelas con programas especiales, y la admisión a menudo se otorga por sorteo. Cullen, Jacob y Levitt usan esta
función para evaluar el impacto de la elección de escuela en el sistema escolar de Chicago, al evaluar y comparar el
desempeño de ganadores y perdedores de la lotería.

Los programas de cupones constituyen otro ejemplo de programas que a menudo cuentan con una lotería : el gobierno
asigna solo un presupuesto limitado al programa, el programa se suscribe en exceso y se utiliza una lotería para elegir a
los beneficiarios. Angrist y otros evaluaron el programa colombiano donde los cupones para escuelas privadas se
asignaban por sorteo, debido a la limitación en el presupuesto. Los ganadores tenían muchas más probabilidades de
graduarse e ingresar a la universidad. Los beneficios de este programa para los participantes excedieron el costo.

Cuando las políticas a nivel nacional incluyen algún aspecto de aleatorización, esto brinda una oportunidad
para evaluar una política que ya se ha ampliado en varios lugares. El conocimiento obtenido se puede utilizar
para expandir la política en los países, continuar con el programa o expandirse en otros países. Sin embargo,
aún al hacer posible la aleatorización en el diseño de un programa los datos que hacen posible la evaluación
no siempre están disponibles. En este escenario, las agencias internacionales pueden jugar dos roles clave:
Pueden organizar y financiar esfuerzos limitados de recopilación de datos y pueden alentar a los gobiernos y
las oficinas de estadística a vincular las fuentes de datos existentes que pueden usarse para evaluar los
experimentos.

Ejemplo. Los apartados para mujeres y minorías en el gobierno descentralizado, el sistema Panchayat, en India. Recopilaron datos en
465 aldeas en 165 consejos en un distrito, y descubrieron que las mujeres tienden a asignar más recursos para el agua potable,
carreteras y menos para la educación y que esto corresponde al pedido de quejas expresadas por hombres y mujeres. Lo que sugiere
que el género de los encargados de formular políticas es importants tanto en los sistemas políticos más desarrollados como en los
menos desarrollados. Además, proporciona evidencia indirecta de que los funcionarios electos locales tienen poder, incluso en
sistemas relativamente "jóvenes". También evaluaron el impacto de la reserva para las castas programadas, y descubrieron que una
mayor parte de los bienes se atribuye a las aldeas de castas programadas cuando el jefe de un Panchayat proviene de una casta
programada.

En principio, los datos para evaluar el impacto de este experimento en una escala mucho mayor existen: los
datos del censo a nivel de aldea (La NSSO lleva a cabo a gran escala detallada encuestas de consumo y trabajo
cada cinco años). Sin embargo, las barreras administrativas hacen que estos datos sean muy difíciles de usar.
Este es un ejemplo donde, a un costo pequeño, sería posible hacer que la información disponible sea útil para
evaluar un programa muy grande. Requiere la coordinación de varias personas y varias agencias, una tarea
que las organizaciones internacionales deben estar bien posicionadas para cumplir.

Lecciones
Las evaluaciones descritas ofrecen lecciones tanto sustantivas como metodológicas. A continuación,
revisamos algunas de las lecciones metodológicas que se pueden extraer de los ejemplos discutidos.

Los resultados de las evaluaciones aleatorias pueden ser bastante diferentes de los extraídos de las
evaluaciones retrospectivas
Cuando la evaluación no se planifica ex ante, para evaluar el impacto de un programa, los investigadores
deben recurrir a comparaciones antes y después de la línea de base, o comparaciones entre beneficiarios y
comunidades cercanas que no estuvieron expuestas al programa, sin embargo, estas comparaciones podrían
ser sesgadas. La recopilación de datos suele ser tan amplia como para una evaluación aleatoria, pero las
inferencias son parciales.

El sesgo de variable omitida es un problema importante cuando se utilizan métodos no experimentales, un


estudio evaluó los métodos experimentales y no experimentales en el contexto de los programas de asistencia
social, capacitación laboral y servicios de empleo y descubrió que los estimadores no experimentales a
menudo producen resultados dramáticamente diferentes de los de las evaluaciones aleatorias, que el sesgo
estimado es a menudo grande, y que ninguna estrategia parece funcionar consistentemente bien.

Las estimaciones retrospectivas que utilizan regresiones directas de OLS sugieren que los rotafolios aumentan
los puntajes de las pruebas hasta en un 20% de una desviación estándar. Las estimaciones de diferencia en
diferencia sugieren un efecto menor de aproximadamente el 5% de una desviación estándar. Estos resultados
sugieren que el uso de datos retrospectivos para comparar los puntajes de los exámenes sobreestima
seriamente la efectividad de los gráficos y que un enfoque de diferencia en diferencia redujo, pero no eliminó
el problema.

Algunos de los resultados son más alentadores:


Ejmplo: Buddlemeyer y Skoufias (2003) utilizaron resultados de evaluaciones aleatorias como punto de referencia para examinar el
desempeño del diseño de regresión discontinua para evaluar el impacto del programa PROGRESA en la salud infantil y la asistencia
escolar. Las estimaciones de impacto con este método cuasi-experimental coincidieron con la evidencia experimental en diez de doce
casos. Dicha investigación puede proporcionar una guía sobre la validez y los posibles sesgos de los estimadores cuasiexperimentales.

Finalmente, las posibles formas de abordar estas preocupaciones en el futuro incluyen realizar evaluaciones no
experimentales primero, antes de que se publiquen los resultados de las evaluaciones aleatorias, o hacer que
los investigadores realicen evaluaciones ciegas no experimentales sin conocer los resultados de las
evaluaciones aleatorias u otros estudios no experimentales.

Las evaluaciones aleatorias son a menudo factibles


Como señalamos en la introducción, las evaluaciones aleatorias no están adaptadas para todos los tipos de
programas. Están adaptados a programas dirigidos a individuos o comunidades, y donde los objetivos están
bien definidos. Sin embargo, en muchos casos, las evaluaciones aleatorias son factibles. El costo principal de
la evaluación es el costo de la recopilación de datos, y no es más costoso que el costo de recopilar cualquier
otro dato.
De hecho, al imponer cierta disciplina sobre qué datos recopilar puede reducir el costo de la recopilación de
datos, en relación con una situación en la que lo que se está midiendo no está claro.

Las preocupaciones de la economía política a veces dificultan la no implementación del programa en toda la
población, especialmente cuando su éxito ya ha sido demostrado.
Esta objeción puede abordarse en varios niveles.
 Primero, es menos probable que la oposición a la aleatorización decaiga en un entorno donde tiene un
fuerte apoyo, especialmente si una regla prescribe que es necesaria una evaluación antes de la
implementación a gran escala.
 Segundo, las evaluaciones no se financian con préstamos, sino con donaciones, esto puede facilitar
convencer a los socios de su utilidad, especialmente si hace posible que el país expanda un programa.

Ejemplo: Sobre la efectividad de la educación sobre el VIH / SIDA. Actualmente se realiza en Kenia con el apoyo de UNICEF, se ha
creado un programa de capacitación de docentes para la educación sobre el VIH / SIDA. Por falta de fondos, la cobertura del programa
había sido muy parcial. La Asociación para el Desarrollo del Niño, con subvenciones del Banco Mundial, está financiando una
evaluación aleatoria del programa de capacitación de maestros. ICS, una ONG holandesa, está organizando sesiones de capacitación,
con facilitadores del gobierno de Kenia. La evaluación ha permitido ampliar la capacitación a 540 docentes en 160 escuelas, lo que de
otra manera no hubiera sido posible.

Las ONG son adecuadas para realizar evaluaciones aleatorias, pero requerirán asistencia técnica (por
ejemplo, de académicos) y financiamiento externo.
A diferencia de los gobiernos, no se espera que las ONG sirvan a poblaciones enteras. Muchas ONG buscan
frecuentemente nuevos proyectos, por ello es posible encontrar ONG dispuestas a realizar evaluaciones
aleatorias.

Ejemplo: La ONG Kenia Internationaal Christelijk Steunfonds (ICS) estaba muy interesado en utilizar evaluaciones aleatorias para ver
el impacto que tienen sus programas, así compartir resultados de evaluación creíbles con otras partes interesadas y formuladores de
políticas.

Sin embargo, si bien las ONG están bien posicionadas para realizar evaluaciones aleatorias, es menos
razonable que las financien. En general, dado que las estimaciones precisas de los efectos del programa son
bienes públicos internacionales, las evaluaciones aleatorias deben financiarse internacionalmente.

Se pueden reducir los costos y mejorar la comparabilidad realizando una serie de evaluaciones en la
misma área

Una vez que los miembros del personal están capacitados, pueden trabajar en múltiples proyectos. Dado que
la recopilación de datos es el elemento más costoso de estas evaluaciones, el corte transversal de la muestra
también puede reducir drásticamente los costos.

Ejemplo: Muchos de los programas que buscan aumentar la participación escolar se implementaron en la misma área y por la misma
organización. Se evaluaron los programas de incentivos docentes y libros de texto en las mismas 100 escuelas en el oeste de Kenia. Por
lo tanto, el efecto del programa de incentivos debe interpretarse como el efecto de un programa de incentivos condicionado a que la
mitad de las escuelas tengan libros de texto adicionales.

Incluso manteniendo constante el presupuesto de la evaluación del proceso, una reasignación de parte del
dinero que actualmente se gasta en una evaluación poco convincente probablemente contribuiría en gran
medida a financiar la misma cantidad de evaluaciones aleatorias. Por otro lado, si las evaluaciones aleatorias
resultan ser más caras, es probable que el costo sea trivial en comparación con la cantidad de dinero ahorrado
al evitar la expansión de programas ineficaces.
Esta técnica debe tener en cuenta las posibles interacciones entre los programas y puede no ser apropiada si un
programa hace que las escuelas sean atípicas. Pero presenta la ventaja de permitir evaluar la relación costo-
efectividad de diferentes enfoques para combatir el mismo problema.

El momento de la evaluación e implementación


Las evaluaciones prospectivas llevan tiempo: los estudios convincentes a menudo duran dos o tres años. Se
necesita aún más tiempo para obtener el impacto a largo plazo del programa, que puede ser muy importante y
difiere del impacto a corto plazo.

Si bien esto es una preocupación real, esto no debería impedir la configuración de la evaluación en la primera
ayude que se exponga al programa: si bien las decisiones de política deberán tomarse mientras tanto,
seguramente es mejor saber cómo será el escenario del programa a largo plazo que nunca saberlo, que sería el
caso sin dicha evaluación.

Además, a menudo es posible obtener resultados a corto plazo, que se pueden usar para obtener una indicación
de si el programa tiene o no la posibilidad de ser efectivo, y puede guiar la política a corto plazo.

Ejemplo: La evaluación del programa de capacitación docente para VIH / SIDA, se realizó una evaluación unas semanas después de
que se inició el programa (con el programa en curso): los estudiantes en las escuelas donde los maestros fueron capacitados fueron
entrevistados sobre si el VIH / SIDA estaba en el plan de estudios de su escuela, y se les administró un examen de conocimiento,
actitud y práctica. Los resultados preliminares sugieren que el programa fue efectivamente efectivo para aumentar las posibilidades de
que se mencione el VIH / SIDA en clase y para mejorar el conocimiento de los estudiantes sobre el VIH / SIDA y la prevención del
VIH.

Estos resultados podrían comunicarse de inmediato a los responsables políticos.

El primer resultado de una evaluación también se puede combinar con otros resultados o con la teoría para
proporcionar una estimación de cuál será el impacto final del programa. Se debe configurar programas para
poder rastrear los resultados a largo plazo, que luego pueden reivindicar o invalidar estas predicciones.

Finalmente, retrasar algunos gastos en realidad puede valer la pena, dado que sabemos muy poco sobre lo que
funciona y lo que no, especialmente si esto nos puede dar la oportunidad de aprender más.

El hecho de que una evaluación tome dos o tres años parece un período de tiempo muy corto. Puede retrasar
algunos gastos, pero acelerará el proceso de aprender cómo hacer que estos gastos sean útiles.
Las evaluaciones aleatorias tienen varias limitaciones, pero muchas de estas limitaciones también se
aplican a otras técnicas

Muchas de las limitaciones de las evaluaciones aleatorias también se aplican a otras técnicas. En esta
subsección revisamos cuatro temas que afectan tanto las evaluaciones aleatorias como las no aleatorias.

Sesgo de selección de muestra


Podrían surgir problemas de selección de muestras si factores distintos de la asignación aleatoria influyen en
la asignación del programa. Por ejemplo, los padres pueden trasladar a sus hijos fuera de la escuela sin el
programa a una escuela con el programa. Incluso si se han utilizado métodos aleatorios y la asignación
prevista del programa fue aleatoria, la asignación real puede no serlo.

Este problema puede abordarse mediante métodos de "intención de tratar (ITT)" o mediante la asignación
aleatoria como un instrumento de variables para la asignación real. Aunque la asignación inicial no garantiza
en este caso que alguien esté realmente en el programa o en el grupo de comparación, en la mayoría de los
casos es al menos más probable que alguien esté en el grupo del programa si se le asignó inicialmente. De este
modo, el investigador puede comparar los resultados en el grupo inicialmente asignado y ampliar la
diferencia, dividiéndola por la diferencia en la probabilidad de recibir el tratamiento en esos dos grupos, para
obtener la estimación del efecto del tratamiento promedio local.
Métodos como las estimaciones de ITT permiten abordar los problemas de selección con bastante facilidad en
el contexto de evaluaciones aleatorias, pero a menudo es mucho más difícil hacer estas correcciones en el caso
de un análisis retrospectivo.

Sesgo de deserción
Un segundo problema que afecta tanto a las evaluaciones aleatorias como a las no aleatorias es la deserción
diferencial en el tratamiento y los grupos de comparación: aquellos que participan en el programa pueden ser
menos propensos a moverse o abandonar la muestra que aquellos que no lo hacen. Se pueden utilizar técnicas
estadísticas para limitar el sesgo potencial, pero lo ideal es tratar de limitar la deserción tanto como sea
posible.

Por ejemplo, en la evaluación de un programa de educación correctiva en India, se intentó localizar a todos los
niños y administrarles la prueba, incluso si habían abandonado la escuela. Como resultado, la tasa de
deserción se mantuvo relativamente alta, pero no difirió entre las escuelas de tratamiento y comparación, lo
que aumentó la confianza en las estimaciones.

Efectos indirectos
Tercero, los programas pueden crear efectos indirectos en personas que no han sido tratadas. Estos efectos
secundarios pueden ser físicos, como lo encontró el programa de desparasitación de Kenia cuando la
desparasitación interfiere con la transmisión de la enfermedad y, por lo tanto, reduce la infección por gusanos
entre los niños de las escuelas del programa que no recibieron el medicamento y entre niños en escuelas
vecinas.
Tales efectos secundarios también pueden operar a través de los precios, como cuando la provisión de
comidas escolares lleva a las escuelas locales competidoras a reducir las tarifas escolares.

Respuestas de comportamiento
Finalmente, también puede haber efectos de aprendizaje e imitación
Si tales efectos indirectos son globales (por ejemplo, debido a cambios en los precios mundiales), los impactos
totales del programa serán difíciles de identificar con cualquier metodología.

Sin embargo, si tales efectos indirectos son locales, la aleatorización a nivel de grupos puede permitir la
estimación del efecto total del programa dentro de los grupos y puede generar una variación suficiente en la
densidad del tratamiento local para medir los efectos indirectos entre los grupos.

En resumen, aunque la evaluación aleatoria no es una estrategia a prueba de balas, el potencial de sesgos es
bien conocido y, a menudo, puede corregirse. Esto contrasta con los sesgos de la mayoría de los otros tipos de
estudios, donde el sesgo debido a las asignaciones de tratamiento no aleatorio a menudo no puede firmarse ni
estimarse.

El sesgo de publicación parece ser sustancial con estudios retrospectivos; las evaluaciones aleatorias
pueden ayudar a abordar los problemas de sesgo de publicación, pero también se necesitan instituciones

El sesgo de publicación es un tema particularmente importante que debe abordarse. Los resultados positivos
tienden naturalmente a recibir una gran cantidad de publicidad: las agencias que implementan programas
buscan publicidad para sus proyectos exitosos, y los académicos están mucho más interesados y pueden
publicar resultados positivos que resultados modestos o insignificantes.

Sin embargo, claramente muchos programas fallan, y el sesgo de publicación será sustancial si es mucho más
probable que se publiquen resultados positivos. La evidencia disponible sugiere que el problema de sesgo de
publicación es grave y especialmente significativo con estudios que emplean métodos no experimentales.

El sesgo de publicación es probable que sea un problema particular con los estudios retrospectivos. Ex post,
los investigadores o evaluadores definen su propio grupo de comparación y, por lo tanto, pueden elegir una
variedad de grupos de comparación plausibles
En el caso de "experimentos naturales" y estimaciones de variables instrumentales, el sesgo de publicación en
realidad puede más que compensar la reducción en el sesgo causado por el uso de una variable instrumental,
porque estas estimaciones tienden a tener errores estándar más grandes, y porque los investigadores buscan los
resultados significativos solo seleccionarán estimaciones grandes.

Por el contrario, las evaluaciones aleatorias se comprometen de antemano con un grupo de comparación
particular: una vez que se realiza el trabajo para realizar una evaluación aleatoria prospectiva, los resultados
generalmente se documentan y publican, incluso si los resultados sugieren efectos bastante modestos o incluso
ningún efecto.

Es importante establecer instituciones para garantizar la difusión de resultados negativos, documentar las
evaluaciones de los programas sociales ayudaría a aliviar el problema del sesgo de publicación.
Aunque cualquier evaluación aleatorizada se realiza dentro de un marco específico con circunstancias
únicas, las evaluaciones aleatorias pueden arrojar luz sobre cuestiones generales

Una forma de aprender sobre la generalización es alentar réplicas adaptadas de evaluaciones aleatorias en
dominios clave de interés en varios entornos diferentes. Las réplicas adaptadas, guiadas por una teoría de por
qué el programa fue efectivo, contribuirán en gran medida a aliviar esta preocupación.

Esta es un área donde las organizaciones internacionales, que ya están presentes en la mayoría de los países,
pueden desempeñar un papel clave. Se aprovechó esa oportunidad para implementar réplicas adaptadas de
PROGRESA en otros países latinoamericanos.

A menudo, los resultados de la primera fase de un proyecto pueden ser difíciles de interpretar debido a
circunstancias que son exclusivas de la primera fase. Incluso si la elección de los grupos de comparación y
tratamiento garantiza la validez interna de las estimaciones es posible que los resultados no puedan
generalizarse a otros contextos.

Un problema específico de las evaluaciones aleatorias es que los miembros del grupo de tratamiento o de
comparación podrían cambiar su comportamiento simplemente al hecho de que sabrían que son parte de una
evaluación aleatoria.

Ejemplo: la provisión de insumos podría aumentar temporalmente la moral entre los beneficiarios y esto podría mejorar el
rendimiento. Por supuesto, en la medida en que ambos grupos cambien su comportamiento de la misma manera, esto no conducirá a un
sesgo. También es quizás menos probable que esto ocurra durante un período prolongado y que ocurra inmediatamente después de la
introducción de la intervención.

Los efectos del tratamiento también pueden versos afectados por la escala del programa.

Ejemplo: el programa de cupones colombianos que se implementó de forma piloto con una pequeña muestra, pero el resto del sistema
escolar se vio sin cambios (en particular, el número de estudiantes afectados era demasiado pequeño para tener un impacto en la
composición de las escuelas públicas y privadas).

En términos generales, los efectos del tratamiento del "equilibrio parcial" pueden ser diferentes de los efectos
del tratamiento del "equilibrio general". Para abordar estos problemas, necesitamos una evaluación aleatoria
realizada a nivel de la "economía".

Una forma de abordar las preguntas sobre la validez externa de cualquier estudio en particular, ya sea una
evaluación aleatoria o no, es implementar réplicas adaptadas de programas exitosos y potencialmente no
exitosos en diferentes contextos.
Dichas réplicas adaptadas tienen dos ventajas: primero, en el proceso de "trasplante" de un programa, las
circunstancias cambiarán y los programas sólidos mostrarán su efectividad al sobrevivir a estos cambios;
segundo, obtener varias estimaciones en diferentes contextos proporcionará alguna orientación sobre si el
programa tiene impactos notablemente diferentes en diferentes grupos.
La replicación de la fase inicial de un estudio en un nuevo contexto no implica retrasar la implementación a
gran escala del programa si eso se justifica sobre la base de los conocimientos existentes. Sin embargo la
introducción del programa solo puede avanzar por etapas, y la evaluación solo requiere que los participantes
se incorporen gradualmente al programa en orden aleatorio.
Se requiere que las instituciones brinden incentivos para llevar a cabo tales réplicas y para agregar los
resultados para obtener una imagen coherente del impacto de un enfoque particular.

Vale la pena señalar que la variación exógena creada por la aleatorización se puede utilizar para ayudar a
identificar un modelo estructural. Attanasio y otros encontraron que el componente aleatorizado de los datos
de PROGRESA indujo una variación exógena extremadamente útil que ayudó a identificar un modelo
estructural más rico y flexible. Estos estudios se basan en supuestos que uno es libre de creer o no, pero al
menos están libres de algunos supuestos por la presencia de esta variación exógena.

El punto más general es que las evaluaciones aleatorias no impiden el uso de teoría o supuestos: de hecho,
generan datos y variaciones que pueden ser útiles para identificar algunos aspectos de estas teorías.

Es necesaria una teoría de por qué es probable que un programa específico sea efectivo para proporcionar
alguna orientación sobre qué elementos del programa y en su contexto fueron claves para su éxito. Es
importante destacar que la teoría ayudará a desempaquetar componentes distintos de un programa y
discriminar entre las variantes que probablemente sean importantes y las variantes que no lo son.

Ejemplo: Un análisis económico del programa PROGRESA sugiere que puede haber sido útil debido a su impacto en los ingresos, en
el poder de negociación de las mujeres o por su efecto en los incentivos. Los aspectos del programa con mayor probabilidad de ser
relevantes para el éxito del programa son el tamaño de la transferencia, su destinatario y la condicionalidad adjunta.

La replicación de los programas puede variar diferentes aspectos, para determinar cuál de ellos es el más
importante. Esto también sugiere que los programas que están justificados por algún razonamiento teórico
bien fundado deben evaluarse con prioridad, ya que las conclusiones de la evaluación tienen más
probabilidades de generalizarse.

La teoría proporciona alguna orientación sobre qué programas es probable que funcionen y, a su vez, la
evaluación de estos programas forma una prueba de la predicción de la teoría. Dado que las evaluaciones
prospectivas deben planificarse con anticipación, a menudo también es posible diseñar programas piloto de tal
manera que ayuden a responder una pregunta específica o a probar una teoría específica.
Ejemplo: Una serie de evaluaciones aleatorias realizadas en Kenia con Michael Kremer y Jonathan Robinson. Estaban motivados por
la pregunta general: ¿Por qué hay tan pocos agricultores en esta región de Kenia que usan fertilizantes, a pesar de que parece ser
rentable y es ampliamente utilizado en otros países en desarrollo?. Llevaron a cabo una serie de ensayos en las granjas de agricultores
seleccionados al azar, y confirmaron que, en pequeñas cantidades, el fertilizante es extremadamente rentable.

Algunas preguntas son muy importantes para nuestra comprensión de la adopción y difusión de tecnología, y
la capacidad de generar variación exógena a través de la evaluación aleatoria del programa.

El papel que pueden desempeñar las agencias internacionales

Practica actual
Los ejemplos discutidos anteriormente muestran que es posible obtener evidencia convincente sobre el
impacto de un programa organizando proyectos piloto, aprovechando la expansión de los proyectos existentes
o aprovechando el diseño del proyecto.

Si bien no todos los programas se pueden evaluar utilizando estos métodos, una fracción muy pequeña de los
que podrían serlo sí lo son. La mayoría de las organizaciones internacionales requieren que una fracción del
presupuesto se gaste en evaluación. Algunos países también hacen que la evaluación sea obligatoria.
Sin embargo, en la práctica, esta parte del presupuesto no siempre se gasta de manera eficiente: las
evaluaciones se subcontratan a equipos de consultoría no capacitados, con poca orientación sobre lo que
deben lograr o se confían a organizaciones que tienen interés en el resultado.

Cuando se realiza una evaluación, generalmente se limita a una evaluación del proceso: se auditan las cuentas,
se siguen los flujos de recursos, se confirma la entrega real de los insumos y encuestas cualitativas se usan
para determinar si los aportes fueron realmente utilizados por sus beneficiarios y finalmente, si los
beneficiarios del programa estaban satisfechos por el programa.

La evaluación del proceso es claramente esencial y también debe ser parte de cualquier evaluación del
programa. Sin embargo, solo observar las reacciones de los beneficiarios a un programa puede llevar a
conclusiones muy engañosas sobre su efectividad, algunos programas pueden, según todas las observaciones,
parecer éxitos rotundos, incluso si no lograron sus objetivos. En la mayoría de los casos, las evaluaciones de
impacto son una ocurrencia tardía y no se planifican desde el inicio del programa.

La economía política de la evaluación del programa


Se ha argumentado que los problemas de sesgo variable omitido de las evaluaciones aleatorias están diseñados
para abordar son reales y que las evaluaciones aleatorias son factibles. No son más costosos que otros tipos de
encuestas, y son mucho más baratos que seguir políticas ineficaces. Entonces, ¿por qué son tan raros?

 Cook atribuye su rareza en la educación a la cultura posmoderna en las escuelas de educación


estadounidenses, que es hostil a la concepción tradicional de causalidad que subyace en la
implementación estadística.

 Pritchett argumenta que los defensores del programa engañan sistemáticamente a los votantes indecisos
para que crean estimaciones exageradas de los impactos del programa. Los defensores bloquean las
evaluaciones aleatorias ya que revelarían los verdaderos impactos de los programas para los votantes.

 Kremer propuso una explicación complementaria, donde los responsables políticos tienen dificultades
para evaluar la calidad de la evidencia, sabiendo que los defensores pueden suprimir resultados de
evaluación desfavorables. Los defensores del programa seleccionan las estimaciones más altas para
presentar a los encargados de formular políticas, mientras que cualquier oponente selecciona las
estimaciones más negativas.

Sabiendo esto, los encargados de formular políticas descartan racionalmente estas estimaciones ya que hay
pocos incentivos para realizar evaluaciones aleatorias: dado que las estimaciones resultantes no incluyen
término de sesgo, es poco probable que sean lo suficientemente altas o bajas como para que los defensores las
presenten a los responsables políticos.

En este mundo, una organización internacional puede desempeñar un papel clave fomentando evaluaciones
aleatorias y financiándolas. Además, si resulta más fácil para los formuladores de políticas y los indicadores
identificar una evaluación creíble cuando ya hay ejemplos.

Evaluación en organismos internacionales


Las organizaciones internacionales podrían desempeñar varios roles en la promoción y financiación de
evaluaciones rigurosas.

Es casi seguro que sea contraproducente exigir que todos los proyectos estén sujetos a evaluaciones de
impacto. Algunos programas simplemente no pueden evaluarse con los métodos ya discutidos. E incluso entre
los proyectos que podrían evaluarse potencialmente, no todos necesitan evaluaciones de impacto.

El valor de una evaluación de impacto mal identificada es muy bajo y su costo, en términos de credibilidad, es
alto, especialmente si las organizaciones internacionales toman un papel de liderazgo en la promoción de la
evaluación de calidad. Por lo tanto, un primer objetivo es reducir el número de evaluaciones derrochadoras.
Cualquier evaluación de impacto propuesta debe ser revisada por un comité antes de gastar dinero en la
recopilación de datos. La responsabilidad del comité sería evaluar la capacidad de la evaluación para entregar
estimaciones causales confiables, además debe realizar evaluaciones creíbles en áreas clave. Cada
organización debe determinar las áreas clave donde promoverá las evaluaciones de impacto.
Las evaluaciones aleatorias también podrían establecerse en otras áreas cuando se presenta la oportunidad.

Una solución eficaz puede ser integrar las evaluaciones de impacto en el marco institucional de las estructuras
de las agencias internacionales que proporcionarán incentivos suficientes para los evaluadores. Dada la
escasez actual de evaluaciones aleatorias dentro del entorno institucional de las organizaciones
internacionales, se podría establecer un fondo especializado para alentar, realizar y financiar evaluaciones
rigurosas de impacto, y difundir los resultados.

Existe una oferta potencial de evaluadores listos para trabajar tanto dentro de las propias agencias
internacionales como dentro de la academia y en colaboración con ONG que ofrecen muchas oportunidades
para evaluar políticas de gran relevancia.

Dicho fondo de evaluación alentaría la recopilación de datos y el estudio de verdaderas "evaluaciones


aleatorias naturales" con aleatorización inducida por el programa.
Las evaluaciones aleatorias no son el único método para realizar buenas evaluaciones de impacto, sin
embargo, a diferencia de los otros tipos de evaluaciones, estas no se llevan a cabo con suficiente frecuencia a
la luz de su valor y las oportunidades para realizarlas. Parte del problema es que nadie considera que realizar
tales evaluaciones sea su trabajo y, por lo tanto, nadie invierte para realizarlas.

Todas las evaluaciones tienen características comunes y, por lo tanto, se beneficiarían de una unidad
especializada con experiencia específica. Dado que las evaluaciones de impacto generan bienes públicos
internacionales, la unidad debería tener un presupuesto que se utilizaría para financiar y realizar evaluaciones
rigurosas de proyectos internos y externos.

Labores de la unidad especializada:

 Posibilidad de trabajar con socios, especialmente ONG y académicos.


 Para los proyectos enviados desde fuera de la unidad, un comité dentro de la unidad podría recibir propuestas de dentro de la
organización o de personas externas, y desde allí elegir proyectos para apoyar.
 La unidad también podría alentar la replicación de evaluaciones importantes enviando llamadas para propuestas específicas.
 El proyecto podría llevarse a cabo en colaboración con personas de la unidad u otros investigadores (académicos, en particular).
 La unidad podría proporcionar apoyo financiero y técnico para el proyecto, con personal dedicado e investigadores.
 Con el tiempo, sobre la base de la experiencia adquirida, la unidad también podría servir como un centro de recursos más general
mediante el desarrollo y la difusión de módulos de capacitación, herramientas y directrices para facilitar la aleatorización para la
evaluación aleatoria.
 La unidad también podría patrocinar sesiones de capacitación para profesionales.

Otro papel que la unidad podría cumplir, después de establecer una reputación de calidad, es el de una agencia
de difusión. Para que sean útiles, los resultados de la evaluación deben ser accesibles para los profesionales
tanto dentro como fuera de las agencias de desarrollo.

Un papel clave de la unidad podría ser realizar búsquedas sistemáticas de todas las evaluaciones de impacto,
evaluar su confiabilidad y publicar los resultados en forma de resúmenes de políticas y en una base de datos
de búsqueda fácilmente accesible.

Conclusión: Uso de la evaluación para generar consenso a largo plazo para el desarrollo
Las evaluaciones rigurosas y sistémicas tienen el potencial de aprovechar el impacto de las organizaciones
internacionales mucho más allá de su capacidad para financiar programas. Las evaluaciones de impacto
creíbles son bienes públicos internacionales: los beneficios de saber que un programa funciona o no funciona
se extienden mucho más allá de la organización o del país que implementa el programa. Los programas que
han demostrado tener éxito pueden adaptarse para su uso en otros países y ampliarse dentro de los países,
mientras que los programas que no tienen éxito pueden abandonarse. Mediante la promoción, el fomento y el
financiamiento de evaluaciones rigurosas (tales como evaluaciones aleatorias creíbles) de los programas que
apoyan, así como de los programas respaldados por otros, las organizaciones internacionales pueden brindar
orientación a las propias organizaciones internacionales, así como a otros donantes, gobiernos y las ONG en la
búsqueda continua de programas exitosos, y así mejorar la efectividad de la ayuda al desarrollo. Además, al
establecer de manera creíble qué programas funcionan y cuáles no, las agencias internacionales pueden
contrarrestar el escepticismo sobre la posibilidad de gastar la ayuda de manera efectiva y generar apoyo a
largo plazo para el desarrollo. Esta es la oportunidad de lograr una verdadera "ampliación".

También podría gustarte