Está en la página 1de 57

Suscríbete a DeepL Pro para poder editar este docum

Entra en www.DeepL.com/pro para más información.

Libro de texto interactivo


en
59998
http://www.worldbank.org/pdt
Divulgación Pública
Autorizada

La
evaluación
Divulgación Pública

de impacto
Autorizada

en la
práctica
Autorizad
Divulgaci

Paul J. Gertler, Sebastian Martinez,


Patrick Premand, Laura B.
Rawlings, Christel M. J.
Vermeersch
Divulgación Pública
Autorizada
CAPÍTULO
1

¿Por qué evaluar?

Los programas y políticas de desarrollo están diseñados típicamente


para cambiar, por ejemplo, para aumentar los ingresos, mejorar el
aprendizaje o reducir los males. El hecho de que se logren o no estos
cambios es una cuestión crucial de política pública, pero que no se
examina con frecuencia. Más comúnmente, los administradores de
programas y los encargados de formular políticas se centran en controlar
y medir los insumos y los resultados inmediatos de un programa -cuánto
dinero se gasta, cuántos libros de texto se distribuyen- en lugar de
evaluar si los programas pro-gramos han logrado sus objetivos de
mejorar el bienestar.

Elaboración de políticas basadas en datos empíricos

Las evaluaciones de impacto forman parte de un programa más


amplio de formulación de políticas basadas en datos empíricos. Esta
tendencia mundial creciente se caracteriza por un cambio de enfoque
de los insumos a los efectos y resultados. Desde los Objetivos de
Desarrollo del Milenio hasta los incentivos para pagar por el
desempeño de los proveedores de servicios públicos, esta tendencia
mundial está cambiando la forma en que se están llevando a cabo las
políticas públicas. No sólo se está utilizando el enfoque en los
resultados para establecer y hacer un seguimiento de los resultados a
nivel nacional e internacional, sino que los resultados están siendo
utilizados cada vez más por los directores de programas y se les están
exigiendo para mejorar la rendición de cuentas, informar sobre las
asignaciones presupuestarias y orientar las decisiones de política.
El seguimiento y la evaluación son fundamentales para la formulación
de políticas basadas en datos empíricos. Proporcionan un conjunto
básico de herramientas que las partes interesadas pueden utilizar para
verificar

3
y mejorar la calidad, eficiencia y eficacia de las intervenciones en las
distintas etapas de la ejecución, es decir, centrarse en los resultados. Las
partes interesadas que utilizan el monitoreo y la evaluación pueden
encontrarse tanto dentro como fuera de los gobiernos. Dentro de una
agencia gubernamental o ministerio, los funcionarios a menudo necesitan
argumentar ante sus superiores que los programas trabajan para obtener
asignaciones presupuestarias para continuarlas o ampliarlas. A nivel
nacional, los ministerios seccionales compiten entre sí para obtener fondos
del Ministerio de finance Y finally, los gobiernos en su conjunto tienen
interés en convencer a sus electores de que las inversiones que han
elegido tienen un rendimiento positivo. En este sentido, la información y
las pruebas se convierten en medios para facilitar la concienciación
pública y promover la rendición de cuentas por parte de los gobiernos. La
información producida por los sistemas de monitoreo y evaluación puede
compartirse regularmente con los mandantes para informarles sobre el
desempeño de los programas gubernamentales y para construir una base
sólida para la transparencia y la rendición de cuentas. En un contexto en
el que los responsables de la formulación de políticas y la sociedad civil
exigen resultados y rendición de cuentas a los programas públicos, la
evaluación del impacto puede proporcionar pruebas sólidas y creíbles
sobre el desempeño y, lo que es crucial, sobre si un programa en
particular logró los resultados deseados. A nivel mundial, las
evaluaciones de impacto también son fundamentales para adquirir
conocimientos sobre la eficacia de los programas de desarrollo, ya que
ponen de manifiesto lo que hace y lo que no hace un programa de
desarrollo.
no trabaja para reducir la pobreza y mejorar el bienestar.
En pocas palabras, una evaluación de impacto evalúa los cambios en
el bienestar de los individuos que pueden ser atribuidos a un proyecto,
programa o política en particular. Este enfoque en la atribución es el sello
de las evaluaciones de impacto. De manera espontánea, el desafío central
en la realización de evaluaciones de impacto efectivas es identificar la
relación causal entre el proyecto, programa o política y los resultados de
interés.
Como se discutirá más adelante, las evaluaciones de impacto
generalmente estiman los impactos promedio de un programa en el
bienestar de beneficiaries Por ejemplo, ¿la introducción de un nuevo
plan de estudios elevó los resultados de las pruebas entre los
estudiantes? ¿Un programa de agua y saneamiento aumentó el acceso
al agua potable y mejoró los resultados de salud? ¿Fue un programa de
formación de jóvenes eficaz para fomentar el espíritu empresarial y
aumentar los ingresos? Además, si la evaluación de impacto incluye
4 La evaluación de impacto en
la práctica
una muestra suficientemente grande de receptores, los resultados
también pueden compararse entre subgrupos de receptores. Por
ejemplo, ¿la introducción del nuevo plan de estudios elevó los
resultados de las pruebas entre los estudiantes de sexo femenino y
masculino? Las evaluaciones de impacto también pueden utilizarse
para probar explícitamente las opciones de programas alternativos. Por
ejemplo, una evaluación podría comparar el desempeño de un
programa de capacitación con el de una campaña de promoción para
aumentar la alfabetización en financial En cada uno de estos casos, la
evaluación de impacto proporciona información sobre el impacto
general de un programa, en contraposición a la información específica.

¿Por qué 5
evaluar?
cific estudios de caso o anécdotas, que sólo pueden dar información
parcial y pueden no ser representativos de los impactos generales del
programa. En este sentido, las evaluaciones bien diseñadas y aplicadas
pueden proporcionar pruebas convincentes y exhaustivas que pueden
utilizarse para fundamentar las decisiones políticas y formar la
opinión pública. El resumen en el recuadro 1.1 ilustra

Recuadro 1.1: Evaluaciones y sostenibilidad política


El Programa de Transferencia Condicionada de Efectivo Progresa/Oportunidades en México

En los años 90, el gobierno de México lanzó de un promedio de 0,7 años adicionales de
un innovador programa de transferencias escolaridad. Gertler (2004) encontró que la
condicionadas de efectivo llamado incidencia de la enfermedad en los niños
"Progresa". Sus objetivos eran proporcionar
disminuyó en un 23 por ciento, mientras que
a los hogares pobres un apoyo a los
los adultos reportaron una reducción del 19
ingresos a corto plazo y crear incentivos a
por ciento en el número de días de
las inversiones en el capital humano de los
enfermedad o incapacidad. Entre los
niños, principalmente mediante
resultados nutricionales, Behrman y
transferencias de dinero a las madres de
Hoddinott (2001) encontraron que el
hogares pobres condicionadas a que sus
programa redujo la probabilidad de retraso
hijos asistan regularmente a la escuela y
en el crecimiento en aproximadamente 1
visiten un centro de salud.
Desde el principio, el gobierno consideró centímetro por año para los niños en el
que era esencial monitorear y evaluar el rango crítico de edad de 12 a 36 meses.
programa. Los funcionarios del programa Estos resultados de la evaluación
contrataron a un grupo de investigadores apoyaron un diálogo político basado en
para diseñar una evaluación de impacto e evidencias y contribuyeron a la decisión de la
incorporarla a la expansión del programa al nueva administración de continuar el
mismo tiempo que se extendía programa. Por ejemplo, el gobierno amplió el
sucesivamente a las comunidades alcance del programa, introduciendo becas en
participantes. las escuelas de nivel medio-alto y mejorando
Las elecciones presidenciales de 2000 los programas de salud para adolescentes. Al
condujeron a un cambio de partido en el mismo tiempo, los resultados se utilizaron
poder. En 2001, los evaluadores externos de para modificar otros programas de asistencia
Pro-gresa presentaron sus conclusiones a la social, como el subsidio a la tortilla, que fue
nueva administración elegida. Los resultados reducido.
del programa fueron impresionantes: La evaluación exitosa del Progresa
demostraron que el programa estaba bien también contribuyó a la rápida adopción de
orientado a los pobres y había generado las TMC en todo el mundo, así como a la
cambios prometedores en el capital humano adopción por parte de México de legislación
de los hogares. Schultz (2004) encontró que que requiere que todos los proyectos sociales
el programa mejoró significativamente la sean evaluados.
matrícula escolar.

6 La evaluación de impacto en
la práctica
Fuentes: Behrman y Hoddinott 2001; Gertler 2004; Fiszbein y Schady 2009; Levy y Rodríguez 2005; Schultz
2004; Skoufias y McClafferty 2001.

¿Por qué 7
evaluar?
cómo la evaluación de impacto contribuyó a las discusiones de política
en torno a la expansión de un programa de transferencias monetarias
condicionadas en México. 1 El recuadro 1.2 ilustra cómo la evaluación
del impacto ayudó a mejorar las asignaciones de los recursos
gubernamentales indoesianos al documentar qué políticas fueron más
eficaces para disminuir las tasas de fecundidad.

Recuadro 1.2: Evaluación para mejorar la asignación de recursos


Planificación familiar y fertilidad en Indonesia
observaron que antes del inicio del programa
En el decenio de 1970, los innovadores de planificación familiar muy pocas mujeres de
esfuerzos de Indonesia en materia de reproducción
planificación de la familia obtuvieron
reconocimiento internacional por su éxito
en la reducción de las tasas de fecundidad
del país. La aclamación surgió de dos
fenómenos paralelos: (1) las tasas de
fecundidad disminuyeron en un 22 por
ciento entre 1970 y 1980, en un 25 por
ciento entre 1981 y 1990, y un poco más
moderadamente entre 1991 y 1994; y (2)
durante el mismo período, el gobierno
indonesio incrementó sustancialmente los
recursos asignados a la planificación
familiar (en particular a la anticoncepción
subcutánea). Dado que las dos cosas
sucedieron contemporáneamente, muchos
concluyeron que fue el aumento de la
inversión en la planificación familiar lo que
llevó a una menor fecundidad.
Sin estar convencido por las pruebas
disponibles, un
El equipo de investigadores probó si los
programas de planificación familiar
realmente reducían las tasas de fecundidad.
Encontraron, contrariamente a lo que se
creía genéricamente, que los programas de
planificación familiar sólo tenían un impacto
moderado en la fecundidad, y
argumentaron que, en cambio, era un
cambio en la condición de la mujer lo que
era responsable de la disminución de las
tasas de fecundidad. Los investigadores
6 La evaluación de impacto en
la práctica
mayores salarios y el empoderamiento
La edad de cinco años había terminado explicaron el 70 por ciento de la
la educación primaria. Sin embargo, disminución observada en la fecundidad,
durante el mismo período que el más que la inversión en programas de
programa de planificación familiar, el planificación familiar.
gobierno emprendió un programa de Los resultados de la evaluación sirvieron de base para la política
educación a gran escala para las niñas, Las decisiones subsiguientes de los
de modo que al final del programa, las responsables de la asignación de recursos: los
mujeres que entraban en edad fondos se reprogramaron para que no se
reproductiva se habían beneficiado de destinaran a subsidios de anticoncepción y se
esa educación adicional. Cuando el destinaran a programas que aumentaran la
auge del petróleo trajo consigo la matrícula escolar de las mujeres. Aunque los
expansión económica y el aumento de objetivos finales de los dos tipos de
la demanda de mano de obra en programas eran similares, los estudios de
Indonesia, la participación de las evaluación habían demostrado que, en el
mujeres educadas en la fuerza laboral contexto de la India, las tasas de fecundidad
aumentó significativamente. A medida más bajas podían obtenerse de manera más
que aumentaba el valor del tiempo de eficiente invirtiendo en educación que
trabajo de las mujeres, también lo hacía invirtiendo en planificación familiar.
el uso de anticonceptivos. Al final, los

Fuentes: Gertler y Molyneaux 1994, 2000.

¿Por qué 7
evaluar?
¿Qué es la evaluación de impacto?

Evaluación de impacto figures entre una amplia gama de métodos


complementarios que apoyan las políticas basadas en la evidencia. Aunque
este libro se centra en los métodos de evaluación del impacto cuantitativo,
empezaremos por situarlos en el contexto más amplio de los resultados, que
también incluye el seguimiento y otros tipos de evaluación. El monitoreo es un
proceso continuo que rastrea lo que está sucediendo dentro de un
programa y utiliza los datos recolectados para informar la implementación
del programa y la gestión y las decisiones diarias. Utilizando
principalmente datos administrativos, el monitoreo rastrea el desempeño
del programa contra los resultados esperados, hace comparaciones entre
programas y analiza las tendencias a lo largo del tiempo. Por lo general, el
monitoreo hace un seguimiento de los insumos, las actividades y los
productos, aunque ocasionalmente puede incluir resultados, tales como el
progreso hacia
objetivos nacionales de desarrollo.
Las evaluaciones son evaluaciones periódicas y objetivas de un
proyecto, programa o política planificado, en curso o finalizado. Las
evaluaciones se utilizan para responder a preguntas relacionadas con el
diseño, la implementación y los resultados. A diferencia de la
supervisión continua, se llevan a cabo en momentos discretos y a
menudo buscan una perspectiva externa de los expertos técnicos. Su
diseño, método y costo varían sustancialmente dependiendo del tipo de
pregunta que la evaluación está tratando de responder. En términos
generales, las evaluaciones pueden abordar tres tipos de preguntas (Imas
y Rist 2009):
• Preguntas descriptivas. La evaluación busca determinar lo que está
ocurriendo y describe los procesos, las condiciones, las relaciones
organizacionales y las opiniones de las partes interesadas.
• Cuestiones normativas. La evaluación compara lo que está ocurriendo
con lo que debería estar ocurriendo; valora las actividades y si se
logran o no los objetivos de alquitrán. Las preguntas normativas
pueden aplicarse a los insumos, actividades y productos.
• Preguntas de causa y efecto. La evaluación examina los resultados y
trata de determinar qué diferencia hace la intervención en los
resultados.
Las evaluaciones de impacto son un tipo particular de evaluación que busca
responder preguntas de causa y efecto. A diferencia de las evaluaciones
generales, que pueden responder a muchos tipos de preguntas, las
8 La evaluación de impacto en
la práctica
evaluaciones de impacto se estructuran en torno a un tipo de pregunta
específico: ¿Cuál es el impacto (o efecto causal) de un programa en un resultado
de interés? Esta pregunta básica incorpora una importante dimensión
causal: sólo nos interesa el impacto del programa, es decir, el efecto sobre
los resultados que el programa causa directamente. Una evaluación de
impacto busca los cambios en los resultados que son directamente
atribuibles al programa.

¿Por qué 9
evaluar?
El enfoque en la causalidad y la atribución es el sello de las
evaluaciones de impacto y determina las metodologías que pueden
utilizarse. Para poder estimar el efecto causal o el impacto de un
programa en los resultados, cualquier método elegido debe estimar el
llamado contrafáctico, es decir, cuál habría sido el resultado para las
participantes del programa si no hubieran participado en el programa.
En la práctica, la evaluación de impacto requiere que el evaluador find
un grupo de comparación para estimar lo que habría sucedido a los
participantes del programa sin el programa. La Parte 2 del libro describe
Concepto clave: los principales métodos que pueden utilizarse para establecer grupos de
La pregunta comparación adecuados.
básica de la La pregunta básica de la evaluación -cuál es el impacto o efecto causal de
evaluación de un programa en un resultado de interés- puede aplicarse a muchos
impacto contextos. Por ejemplo, ¿cuál es el efecto causal de las becas sobre la
puede formularse asistencia a la escuela y el rendimiento académico? ¿Cuál es el impacto
como,
en el acceso a la atención de salud de la subcontratación de la atención
¿Cuál es el
primaria a proveedores privados? Si la suciedad floors se sustituye por
impacto (o efecto
causal) de un cemento floors, ¿cuál será el impacto en la salud de los niños? ¿La
programa en un mejora de las carreteras aumenta el acceso a los mercados laborales y
resultado de interés? los ingresos de los hogares y, de ser así, en qué medida? ¿Tiene el
tamaño de la clase influence el rendimiento de los estudiantes, y si lo
tiene, en cuánto? ¿Las campañas por correo o las sesiones de
capacitación son más eficaces para aumentar el uso de mosquiteros en
las zonas afectadas por el paludismo?

Evaluación del impacto de las decisiones políticas

Las evaluaciones de impacto son necesarias para informar a los


responsables de la formulación de políticas sobre una serie de decisiones,
desde la reducción de los programas ineficientes hasta la ampliación de
las intervenciones que funcionan, pasando por el ajuste del programa
benefits y la selección entre varias alternativas de programas. Son más
eficaces cuando se aplican de manera selectiva para responder
preguntas importantes sobre políticas, y pueden ser particularmente
eficaces cuando se aplican a programas piloto innovadores que están
probando un enfoque nuevo, no comprobado, pero prometedor. La
evaluación mexicana del Progresa/Oportunidades descrita en el
recuadro 1.1 se convirtió en una de ellas, no sólo por la naturaleza
innovadora del programa, sino también porque su evaluación de
impacto proporcionó evidencia creíble y sólida que no pudo ser
ignorada en las decisiones de política subsiguientes. La adopción y
8 La evaluación de impacto en
la práctica
expans de impacto pueden utilizarse para explorar diferentes tipos de
ión del preguntas sobre políticas. La forma básica de evaluación de impacto
progra probará la efectividad de un programa dado. En otras palabras,
ma fue responderá a la pregunta: ¿Es un programa determinado eficaz en
fuerte comparación con la ausencia del programa? Como se presenta en la parte 2,
mente este tipo de evaluación de impacto se basa en la comparación de un
influen grupo de tratamiento que
ced
por los
resulta
dos de
la
evalua
ción.
Hoy en
día, el
progra
ma
Oportu
nidade
s llega
a cerca
de uno
de
cada
cuatro
mexica
nos y
es una
pieza
central
de la
estrate
gia de
México
para
comba
tir la
pobrez
a.
Las
evalua
ciones
¿Por qué 9
evaluar?
recibió un proyecto, programa o política a un grupo de comparación
que no lo hizo con el fin de estimar la efectividad del programa.
Más allá de responder a esta pregunta básica de la evaluación, las
evaluaciones también pueden ser utilizadas para probar la efectividad
de las alternativas de implementación del programa, es decir, para
responder a la pregunta: Cuando un programa puede ser implementado de
varias maneras, ¿cuál es la más efectiva? En este tipo de evaluación, dos o
más enfoques dentro de un programa pueden ser comparados entre sí
para generar evidencia sobre cuál es la mejor alternativa para alcanzar
una meta en particular. Estas alternativas del programa se denominan a
menudo "brazos de tratamiento". Por ejemplo, cuando la cantidad de
benefits que un programa debe proporcionar para ser efectivo no está
clara (¿20 horas de capacitación u 80 horas?), las evaluaciones de impacto
pueden probar el impacto relativo de las diferentes intensidades de
tratamiento (véase el cuadro 1.3 para un ejemplo). Las evaluaciones de
impacto que evalúan los tratamientos alternativos pro-gramo
normalmente incluyen un grupo de tratamiento para cada uno de los
brazos de tratamiento, así como un grupo de comparación "puro" que
no recibe ninguna intervención del programa. Las evaluaciones de
impacto también pueden utilizarse para probar innovaciones o
alternativas de implementación dentro de un programa. Por ejemplo,
un programa puede querer probar campañas de extensión alternativas
y seleccionar un grupo para recibir una campaña de correo, mientras
que otros recibieron visitas casa por casa, para evaluar cuál es la más
efectiva.

Recuadro 1.3: Evaluación para mejorar el diseño de los programas


La desnutrición y el desarrollo cognitivo en Colombia
los niños en edad preescolar de familias de
A principios de la década de 1970, la Estación bajos ingresos y (2) si las intervenciones
de Investigación de Ecología Humana, en también podrían conducir a mejoras en el
colaboración con el Ministerio de Educación desarrollo cognitivo.
de Colombia, implementó un programa El programa finalmente se hizo disponible
piloto para abordar la desnutrición infantil en para todas las familias elegibles, pero durante el
Cali, Colombia, proporcionando atención
médica y actividades educativas, así como
alimentos y suplementos nutricionales. Como
parte del proyecto piloto, se encargó a un
equipo de evaluadores que determinara (1)
cuánto tiempo debería durar un programa de
este tipo para reducir la desnutrición entre

10 La evaluación de impacto en
la práctica
los evaluadores pudieron comparar grupos
similares de niños que recibieron
diferentes duraciones de tratamiento. Los
evaluadores primero utilizaron un proceso
de selección para identificar un grupo
objetivo de 333 niños desnutridos. Estos
niños fueron clasificados en 20 sectores
por barrio, y cada segundo fue asignado
aleatoriamente a uno de los cuatro grupos
de tratamiento. Los grupos difirieron sólo
en la secuencia en la que comenzaron el
tratamiento y, por lo tanto, en la cantidad
de tiempo que pasaron en el programa. El
grupo 4 comenzó lo más temprano posible
y estuvo expuesto al tratamiento durante
el período más largo, seguido por los
grupos 3, 2 y luego 1. El tratamiento en sí
consistió en 6 horas de atención de
salud y

(continu
ación)

¿Por qué 11
evaluar?
Recuadro 1.3 continuación

actividades educativas por día, además de Prueba de inteligencia Binet, que estima la
alimentos y suplementos nutricionales edad mental menos la edad cronológica, el
adicionales. A intervalos regulares durante el grupo de 4 niños promedió -5 meses, y el
transcurso del programa, los evaluadores grupo de 1 niños promedió -15 meses.
utilizaron pruebas cognitivas para rastrear el Este ejemplo ilustra cómo los
progreso de los niños en los cuatro grupos. implementadores de programas y los
Los evaluadores encontraron que los encargados de formular políticas pueden
niños que estuvieron en el programa durante utilizar evaluaciones de múltiples brazos de
más tiempo demostraron los mayores tratamiento para determinar la alternativa
avances en la mejora cognitiva. En el de programa más efectiva.
Stanford.

Fuente: McKay et al. 1978.

Decidir si se evalúa o no

No todos los programas justifican una evaluación de impacto. Las


evaluaciones de impacto pueden ser costosas, y su presupuesto de
evaluación debe ser utilizado estratégicamente. Si usted está
comenzando, o pensando en expandir, un nuevo programa y se
pregunta si debe seguir adelante con una evaluación de impacto, hacer
algunas preguntas básicas le ayudará a tomar la decisión.
La pregunta a hacer en first sería, ¿Cuáles son los retos de este
programa? La respuesta a esa pregunta dependerá tanto del
presupuesto involucrado como del número de personas que se vean o
se vean afectadas por el programa. Por lo tanto, las siguientes
preguntas: ¿Requiere o requerirá el programa una gran parte del presupuesto
disponible? y, ¿Afecta o afectará el programa a un gran número de personas?
Si el programa no requiere un presupuesto o sólo afecta a unas pocas
personas, puede que no valga la pena evaluarlo. Por ejemplo, para un
programa que proporciona asesoramiento a pacientes del hospital
utilizando voluntarios, el presupuesto involucrado y el número de
personas afectadas pueden no justificar una evaluación de impacto.
Por el contrario, una reforma salarial para los maestros que, con el
tiempo, afectará a todos los maestros de primaria del país sería un
programa con mucho más en juego.
Si usted determina que hay mucho en juego, entonces la siguiente
pregunta es si existe alguna evidencia que demuestre que el programa

10 La evaluación de impacto en
la práctica
funciona. En particular, ¿sabe qué tan grande sería el impacto del
programa? ¿La evidencia disponible proviene de un país similar con
circunstancias similares? Si no hay evidencia disponible sobre el
potencial del tipo de programa que se está contemplando, puede
comenzar con un programa piloto que incorpore una evaluación de
impacto. Por el contrario, si se dispone de pruebas procedentes de
circunstancias similares, la

¿Por qué 11
evaluar?
El costo de una evaluación de impacto probablemente será justified sólo
si puede abordar una cuestión política importante y nueva. Este sería el
caso si su programa incluye algunas innovaciones importantes que aún
no han sido probadas.
Para justificar la movilización de los recursos técnicos y técnicos
necesarios para llevar a cabo una evaluación de impacto de alta
calidad, el programa a ser evaluado debe ser
• Innovador. Está probando un nuevo y prometedor enfoque.
• Replicable. El programa se puede ampliar o aplicar en una
configuración diferente.
• Estratégicamente relevante. El programa es una iniciativa de flagship;
requiere recursos sustanciales; cubre, o podría ampliarse para cubrir,
a un gran número de personas; o podría generar ahorros
sustanciales.
• Sin probar. Se sabe poco sobre la eficacia del programa, a nivel
mundial o en un contexto particular.
• Influential Los resultados se utilizarán para fundamentar las decisiones políticas clave.

Este análisis
Análisis de rentabilidad
de costo-
efectividad
Una vez que los resultados de la evaluación de impacto estén
compara el
disponibles, se pueden combinar con información sobre los costos del
desempeño
programa para responder a dos preguntas adicionales. En primer lugar,
relativo de
para la forma básica de evaluación de impacto, la adición de información
dos o más
de costos nos permitirá realizar un análisis de costobenefit, que
programas o
responderá a la pregunta, ¿Cuál es el balance costobenefit para un programa
alternativas
dado? El análisis de Cost-benefit estima el total esperado de benefits de
de programas
un programa, comparado con sus costos totales esperados. Busca
para alcanzar
cuantificar todos los costos y benefits de un programa en términos
un resultado
monetarios y evalúa si benefits supera los costos.
común.
En un mundo ideal, el análisis de costobenefit basado en la evaluación
En un
de impacto existiría no sólo para un programa en particular, sino
análisis de
también para una serie de programas o alternativas de programas, de
costobenefit o
modo que los responsables de la formulación de políticas pudieran
de costo-
evaluar qué programa o alternativa es más rentable para alcanzar una
efectividad,
meta en particular. Cuando una evaluación de impacto está probando
la evaluación
alternativas de programas, la adición de información de costos nos
de impacto
permite responder a la segunda pregunta: ¿Cómo se comparan las diversas
estima el lado
alternativas de implementación de programas con la relación costo-efectividad?
12 La evaluación de impacto en
la práctica
de benefit y de efectividad, y el análisis de costos proporciona la
información de costos. Este libro se centra en la evaluación del impacto
y no en
Concepto clave:
El análisis de costo-
beneficio estima los
beneficios totales
esperados de un
programa, comparados
con sus costos
totales esperados.

Concepto clave:
El análisis de costo-
efectividad compara
el desempeño relativo
de dos o más
programas o
alternativas de
programas para
alcanzar un
resultado común.

¿Por qué 13
evaluar?
discutir en detalle cómo recopilar datos de costos o realizar un análisis
de costos en benefit 2 Sin embargo, es de suma importancia que la
evaluación del impacto se complete con información sobre el costo del
proyecto, programa o política que se está evaluando. Una vez que se
dispone de información sobre el impacto y los costos de una variedad
de programas, el análisis de costo-efectividad puede identificar qué
inversiones producen la tasa de rendimiento más alta y permitir a los
responsables de la formulación de políticas tomar decisiones
informadas sobre en qué intervención invertir. El cuadro 1.4 ilustra
cómo las evaluaciones de impacto pueden utilizarse para identificar
los programas más rentables y mejorar la asignación de recursos.

Recuadro 1.4: Evaluación de la relación costo-eficacia


Comparación de estrategias para aumentar la asistencia a la escuela en Kenya
participación escolar, incluyendo las
Al evaluar un número de programas en un
externalidades experimentadas por niños y
entorno similar, es posible comparar la
adultos no en las escuelas sino en las
rentabilidad relativa de diferentes
comunidades que se benefician de la reducción
enfoques para mejorar resultados como la
de la transmisión de parásitos.
asistencia a la escuela. En Kenia, la
organización no gubernamental Una segunda intervención, el Programa de
International Child Sup- port Africa (ICS Esponjas Infantiles, redujo el costo de la escuela.

Africa) implementó una serie de


intervenciones educativas que incluyeron
el tratamiento contra los parásitos
intestinales, la provisión de uniformes
escolares gratuitos y la provisión de
comidas escolares. Cada una de las
intervenciones fue sometida a una
evaluación aleatoria y a un análisis de
costo-beneficio, y la comparación entre
ellas proporciona ideas interesantes sobre
cómo aumentar la asistencia a la escuela.
Un programa que proporcionaba
medicamentos
contra los parásitos intestinales a los
escolares aumentó la asistencia en
aproximadamente 0,14 años por niño
tratado, con un costo estimado de 0,49
dólares por niño. Esta cantidad asciende a
unos 2.000 millones de euros.
3,50 dólares por año adicional de
12 La evaluación de impacto en
la práctica
azar condujo a un aumento del 30 por ciento
asistencia proporcionando uniformes en la asistencia a las escuelas de tratamiento,
escolares a los alumnos de siete escuelas
con un costo estimado de 36 dólares por año
seleccionadas al azar. Las tasas de
adicional de escolarización. Los resultados de
deserción escolar disminuyeron
las pruebas también aumentaron en alrededor
drásticamente en las escuelas de
de 0,4 desviaciones estándar, siempre y
tratamiento y, después de 5 años, se
cuando el maestro estuviera bien entrenado
estimó que el programa aumentaba los
antes del programa. Aunque intervenciones
años en la escuela en un promedio de 17 similares pueden tener diferentes resultados
por ciento. Sin embargo, incluso bajo las objetivo, como los efectos sobre la salud de la
suposiciones más optimistas, el costo de eliminación de parásitos o el logro educativo,
aumentar la asistencia escolar usando el además de una mayor participación, la
programa de uniformes escolares se
comparación de varias evaluaciones
estimó en aproximadamente $99 por año
realizadas en el mismo contexto puede
adicional de asistencia escolar.
revelar qué programas lograron los objetivos
Finalmente, un programa que
deseados.
proporcionó desayunos gratuitos a los
al menor costo.
niños de 25 preescolares seleccionados al

Fuentes: Kremer y Miguel 2004; Kremer, Moulin y Namunyu 2003; Poverty Action Lab 2005; Vermeersch y
Kremer 2005.

¿Por qué 13
evaluar?
existen
Evaluación prospectiva versus evaluación
muchas más
retrospectiva opciones para
llevar a cabo
Las evaluaciones de impacto pueden dividirse en dos categorías:
evaluaciones
prospectivas y retrospectivas. Las evaluaciones prospectivas se
válidas
desarrollan al mismo tiempo que se diseña el programa y se incorporan
cuando las
a la ejecución del mismo. Los datos de línea de base se recopilan antes
evaluaciones
de la implementación del programa, tanto para los grupos de
se planifican
tratamiento como para los de comparación. Las evaluaciones
desde el
retrospectivas evalúan el impacto del programa después de su
principio y se
implementación, generando grupos de tratamiento y comparación ex-
basan en la
post.
ejecución de
En general, las evaluaciones de impacto prospectivas tienen más
un proyecto.
probabilidades de producir resultados de evaluación sólidos y creíbles,
En las partes
por tres razones.
2 y 3
En primer lugar, se pueden recopilar datos de referencia para
argumentamo
establecer medidas preprogramáticas de los resultados de interés. Los
s que casi
datos de línea de base proporcionan información sobre beneficia- ries y
siempre se
grupos de comparación antes de que el programa sea implementado y
puede
son importantes para medir los resultados de la preintervención. Se
encontrar
deben analizar los datos de referencia sobre los grupos de tratamiento
una
y de comparación para asegurar que los grupos sean similares. Las
estimación
líneas de base también se pueden utilizar para evaluar la eficacia de la
válida del
focalización, es decir, si el programa va a alcanzar o no su objetivo
contrafactual
beneficiaries
para
En segundo lugar, las mediciones del éxito de un programa en la cualquier
etapa de planificación del programa centran la evaluación y el programa con
programa en los resultados previstos. Como veremos, las evaluaciones reglas de
de impacto se arraigan en la teoría de cambio o en la cadena de asignación
resultados de un programa. El diseño de una evaluación de impacto claras y
ayuda a clarificar los objetivos del programa, en particular porque transparentes,
requiere establecer medidas del éxito de un programa. Los siempre y
responsables de la formulación de políticas deben establecer objetivos cuando la
y preguntas claros para la evaluación a fin de garantizar que los evaluación se
resultados sean altamente relevantes para las políticas. De hecho, el diseñe de
pleno apoyo de los responsables políticos es un requisito previo para manera
llevar a cabo una evaluación satisfactoria; las evaluaciones de impacto prospectiva.
no deberían realizarse a menos que los responsables políticos estén En resumen,
convencidos de la legitimidad de la evaluación y de su valor para la las
toma de decisiones políticas importantes. evaluaciones
Tercero y más importante, en una evaluación prospectiva, los grupos prospectivas
de tratamiento y comparación son identified antes de que se implemente el tienen la
programa. Como se explicará con más detalle en los capítulos siguientes,
14 La evaluación de impacto en
la práctica
mejor oportunidad de generar contrafactuaciones válidas. En la etapa de
diseño, se pueden considerar formas alternativas de estimar un
contrafáctico válido. El diseño de la evaluación de impacto también
puede estar totalmente alineado con las reglas de operación del
programa, así como con la ruta de despliegue o expansión del programa.

Concepto clave:
Las evaluaciones
prospectivas son
desarrollado cuando
el programa
está diseñado e
integrado en la
implementación
del programa.

¿Por qué 15
evaluar?
Por el contrario, en las evaluaciones retrospectivas, el evaluador a
menudo tiene una información tan limitada que es difícil analizar si el
programa fue implementado con éxito y si sus participantes realmente
se han beneficiado de él. En parte, la razón es que muchos programas
no recopilan datos de referencia a menos que la evaluación se haya
incorporado desde el principio, y una vez que el programa está en
marcha, es demasiado tarde para hacerlo.
Las evaluaciones retrospectivas que utilizan los datos existentes son
necesarias para evaluar los programas que se asignaron en el pasado.
Generalmente, las opciones para obtener una estimación válida del
contrafáctico son mucho más limitadas en esas situaciones. La evaluación
depende de reglas claras de funcionamiento del programa en lo que
respecta a la asignación de benefits También depende de la
disponibilidad de datos con suficiente cobertura de los grupos de
tratamiento y comparación antes y después de la implementación del
programa. En consecuencia, la viabilidad de una evaluación
retrospectiva depende del contexto y nunca está garantizada. Incluso
cuando es factible, las evaluaciones retrospectivas a menudo utilizan
métodos cuasiexperimentales y se basan en hipótesis más sólidas; por lo
tanto, pueden producir pruebas que son más discutibles.

Estudios de Eficacia y Estudios de Efectividad

El papel principal de la evaluación de impacto es producir evidencia


sobre la eficacia de los programas para uso de los funcionarios
gubernamentales, los gerentes de programas, la sociedad civil y otras
partes interesadas. Los resultados de la evaluación de impacto son
particularmente útiles cuando las conclusiones pueden aplicarse a la
población más amplia de interés. La cuestión de la generalizabilidad
(conocida como "validez externa" en la literatura sobre métodos de
investigación) es clave para los responsables políticos, ya que determina
si los resultados de la evaluación pueden ser replicados para grupos
más allá de los estudiados en la evaluación si el programa se amplía. En
los primeros días de las evaluaciones de impacto de los programas de
desarrollo, una gran parte de la evidencia se basaba en estudios de
eficacia llevados a cabo en circunstancias muy específicas;
desafortunadamente, los resultados de esos estudios a menudo no eran
generalizables más allá del alcance de la evaluación. Los estudios de
eficacia se llevan a cabo normalmente en un entorno muy specific, con
una gran participación técnica de los investigadores durante la
14 La evaluación de impacto en
la práctica
implementación del programa. Tales estudios de eficacia a menudo se
llevan a cabo como prueba de la eficacia, para comprobar la viabilidad
de un nuevo programa. Si el programa no genera impactos anticipados
bajo estas condiciones a menudo cuidadosamente manejadas, es poco
probable que funcione si se implementa bajo circunstancias normales.
Debido a que los estudios de eficacia a menudo se llevan a cabo como
proyectos piloto bajo una estrecha supervisión.

¿Por qué 15
evaluar?
Los impactos de estos proyectos piloto de eficacia, a menudo en
pequeña escala, pueden no ser necesariamente informativos sobre el
impacto de un proyecto similar implementado a mayor escala en
circunstancias normales. Por ejemplo, una intervención piloto que
introduce nuevos protocolos de tratamiento puede funcionar en un
hospital con excelentes administradores y personal médico, pero la
misma intervención puede no funcionar en un hospital promedio con
administradores menos atentos y personal limitado. Además, los
cálculos de costobenefit variarán, ya que los costos y economías de
escala de fixed pueden no ser capturados en pequeños estudios de
eficacia. Como resultado, mientras que la evidencia de los estudios de
eficacia puede ser útil para probar un enfoque, los resultados a
menudo tienen una validez externa limitada y no siempre representan
de manera adecuada entornos más generales, que suelen ser la
principal preocupación de los responsables de la formulación de
políticas.
Por el contrario, los estudios de eficacia proporcionan pruebas de
intervenciones que tienen lugar en circunstancias normales, utilizando
canales de implementación regulares. Cuando las evaluaciones de
efectividad se diseñan e implementan adecuadamente, los resultados
obtenidos serán válidos no sólo para la evaluación de la misma, sino
también para otras evaluaciones fuera de la muestra. Esta validez externa
es de importancia crítica para los responsables de la formulación de
políticas, ya que les permite utilizar los resultados de la evaluación para
fundamentar las decisiones a nivel de todo el programa que se aplican a
la muestra de evaluación que se pretende obtener.

Combinación de fuentes de información


para evaluar tanto el "qué" como el "por
qué".

Las evaluaciones de impacto realizadas aisladamente de otras fuentes


de información son vulnerables tanto desde el punto de vista técnico
como en términos de su efectividad potencial. Sin información sobre la
naturaleza y el contenido del programa para contextualizar los
resultados de la evaluación, los responsables de la formulación de
políticas se quedan perplejos acerca de por qué se lograron o no ciertos
resultados. Si bien las evaluaciones de impacto pueden producir
estimaciones confiables de los efectos causales de un programa, por lo
general no están diseñadas para proporcionar información sobre la
implementación del programa. Además, las evaluaciones de impacto
16 La evaluación de impacto en
la práctica
deben estar bien alineadas con la implementación de un programa y,
por lo tanto, deben estar guiadas por información sobre cómo, cuándo
y dónde se está implementando el programa que se está evaluando.
Se necesitan datos cualitativos, datos de monitoreo y evaluaciones de
procesos para dar seguimiento a la implementación del programa y para
examinar cuestiones de proceso que son críticas para informar e
interpretar los resultados de las evaluaciones de impacto. En este sentido,
las evaluaciones de impacto y otras formas de evaluación son
complementarias y no sustitutivas.

¿Por qué 17
evaluar?
Por ejemplo, un gobierno provincial puede decidir anunciar que
pagará primas a las clínicas de salud rurales si aumentan el porcentaje
de nacimientos en la clínica atendida por un profesional de la salud. Si
la evaluación finds indica que no hay cambios en el porcentaje de
partos atendidos en la clínica, pueden existir muchas explicaciones
posibles y las correspondientes necesidades de acción. En primer
lugar, puede ser que el personal de las clínicas rurales no tenga
suficiente información sobre los bonos o que no entienda las reglas del
programa. En ese caso, es posible que el gobierno provincial tenga que
intensificar su campaña de información y educación en los centros de
salud. Alternativamente, si la falta de equipo o la falta de electricidad
impiden que las clínicas de salud admitan a más pacientes, puede ser
necesario mejorar el sistema de apoyo y el suministro de energía. Por
último, es posible que las mujeres embarazadas de las zonas rurales no
quieran acudir a las clínicas; tal vez prefieran las parteras tradicionales
y los partos en el hogar por razones culturales. En ese caso, puede ser
más eficiente abordar las barreras de acceso de las mujeres que dar
bonos a las clínicas. Por lo tanto, una buena evaluación de impacto
permitirá al gobierno determinar si la tasa de nacimientos asistidos
cambió o no como resultado del programa de bonos, pero se necesitan
enfoques de evaluación complementarios para entender si el programa
se llevó a cabo según lo planeado y dónde están los eslabones faltantes.
En este ejemplo, los evaluadores desearían complementar su análisis
de impacto viendo al personal de las clínicas de salud en relación con
su conocimiento del programa, revisando la disponibilidad de equipo
en las clínicas, llevando a cabo discusiones de grupos focales con las
mujeres embarazadas para entender sus preferencias y barreras de
acceso, y examinando cualquier dato disponible sobre el acceso a las
clínicas de salud en las áreas rurales.

Utilización de datos cualitativos

Los datos cualitativos son un complemento clave de las evaluaciones


cuantitativas de impacto, ya que pueden proporcionar perspectivas
complementarias sobre el desempeño de un programa. Las evaluaciones
que integran el análisis cualitativo y cuantitativo se caracterizan por
utilizar "métodos mixtos" (Bamberger, Rao y Wool- cock 2010). Los
enfoques cualitativos incluyen grupos focales y entrevistas con
beneficiaries seleccionados y otros informantes clave (Rao y Woolcock
2003). Aunque los puntos de vista y opiniones recogidos durante las
entrevistas y los grupos focales pueden no ser representativos de
beneficiaries del programa, son particularmente útiles durante las tres
16 La evaluación de impacto en
la práctica
etapas de una evaluación de impacto:
1. Al diseñar una evaluación de impacto, los evaluadores pueden
utilizar grupos focales y entrevistas con informantes clave para
desarrollar hipótesis acerca de cómo

¿Por qué 17
evaluar?
y por qué funcionaría el programa y aclarar las cuestiones de
investigación que deben abordarse en el trabajo de evaluación
cuantitativa del impacto.
2. En la etapa intermedia, antes de que los resultados cuantitativos de
la evaluación de impacto estén disponibles, el trabajo cualitativo
puede ayudar a los responsables de la formulación de políticas a
comprender rápidamente lo que está sucediendo en el programa.
3. En la etapa de análisis, los evaluadores pueden aplicar métodos
cualitativos al contexto pro-video y a las explicaciones de los
resultados cuantitativos, para explorar casos "atípicos" de éxito y
fracaso, y para desarrollar una explicación sistemática del
desempeño del programa tal como se encontró en los resultados
cuantitativos. En ese sentido, el trabajo cualitativo puede ayudar a
explicar por qué se observan ciertos resultados en el análisis
cuantitativo, y puede ser utilizado para entrar en la "caja negra" de
lo que ocurrió en el programa (Bamberger, Rao y Woolcock 2010).

Utilización de datos de supervisión y evaluaciones de procesos

Los datos de monitoreo son también un recurso crítico en una evaluación


de impacto. Permiten que el evaluador verifique qué participantes
recibieron el programa, qué tan rápido se está expandiendo el
programa, cómo se están gastando los recursos y, en general, si las
actividades se están implementando según lo planeado. Esta
información es crítica para implementar la evaluación, por ejemplo,
para asegurar que los datos de línea base sean recolectados antes de
que el programa sea introducido y para verificar la integridad de los
grupos de tratamiento y comparación. Además, el sistema de
monitoreo puede proporcionar información sobre el costo de
implementación del programa, que también es necesario para el
análisis de costos en benefit
Por último, las evaluaciones del proceso se centran en cómo se
implementa y opera un programa, valorando si se ajusta a su diseño
original y documentando su desarrollo y funcionamiento. Las
evaluaciones de procesos se pueden llevar a cabo normalmente con
relativa rapidez y a un coste razonable. En los proyectos piloto y en las
etapas iniciales de un programa, pueden ser una valiosa fuente de
información sobre cómo mejorar la implementación del programa.

Notas
18 La evaluación de impacto en
la práctica
1. Véase Fiszbein y Schady (2009) para una visión general de los
programas de TCE y el papel desempeñado por
Progresa/Oportunidades en influential debido a su evaluación de
impacto.
2. Para una discusión detallada del análisis de costobenefit, ver Belli et al.
2001; Boardman et al. 2001; Brent 1996; o Zerbe y Dively 1994.

¿Por qué 19
evaluar?
Referencias

Bamberger, Michael, Vijayendra Rao y Michael Woolcock. 2010. "Utilización de


métodos mixtos en el seguimiento y la evaluación: Experiencias de
Desarrollo Internacional". Policy Research Working Paper 5245. Banco
Mundial, Washington, DC.
Behrman, Jere R., y John Hoddinott. 2001. "Evaluación del impacto de
PROGRESA en la estatura del niño en edad preescolar". FCND Briefs
104, Instituto Internacional de Investigación sobre Políticas
Alimentarias, Washington, DC.
Belli, Pedro, Jock Anderson, Howard Barnum, John Dixon y Jee-Peng Tan.
2001. Handbook of Economic Analysis of Investment Operations. Washington,
DC: Banco Mundial.
Boardman, Anthony, Aidan Vining, David Greenberg y David Weimer. 2001.
Costo: Benefit Análisis: Conceptos y Práctica. Nueva Jersey: Prentice Hall.
Brent, Robert. 1996. Applied Cost-Benefit Analysis. Inglaterra: Edward Elgar.
Fiszbein, Ariel y Norbert Schady. 2009. Transferencia de efectivo condicional,
reducción
Pobreza presente y futura. Informe de investigación sobre políticas del Banco Mundial. Banco
Mundial,
Washington, DC.
Gertler, Paul J. 2004. "¿Las transferencias monetarias condicionadas
mejoran la salud infantil? Evidencia del Experimento de Control
Aleatorio de PROGRESA". American Economic Review 94 (2): 336-41.
Gertler, Paul J. y John W. Molyneaux. 1994. "Cómo se combinaron los programas
de desarrollo económico y planificación familiar para reducir la fertilidad
indonesia". Demography 31 (1): 33-63.
———. 2000. "El impacto de los programas de planificación familiar en Indonesia".
Population and Development Review 26: 61-85.
Imas, Linda G. M., y Ray C. Rist. 2009. El camino hacia los resultados: Diseño y
Realización de Evaluaciones Efectivas de Desarrollo. Washington, DC: Banco
Mundial.
Kremer, Michael y Edward Miguel. 2004. "Gusanos: Identificar los impactos en
la educación y la salud en presencia de factores externos del tratamiento".
Economet- rica 72 (1): 159-217.
Kremer, Michael, Sylvie Moulin y Robert Namunyu. 2003. "Descentralización:
Una Historia Precautoria". Poverty Action Lab Paper 10, Massachusetts
Institute of Technology, Cambridge, MA.
Levy, Santiago y Evelyne Rodríguez. 2005. Sin Herencia de Pobreza: El
Programa Progresa-Oportunidades de México. Washington, DC: Banco
Interamericano de Desarrollo.
McKay, Harrison, Arlene McKay, Leonardo Siniestra, Hernando Gómez y
Pascuala Lloreda. 1978. "Mejorar la capacidad cognitiva en niños con
privaciones crónicas". Science 200 (21): 270-78.
Laboratorio de Acción contra la Pobreza. 2005. "Educación primaria para
todos". Lucha contra la pobreza: ¿Qué funciona? 1 (Otoño): n.p.
http://www.povertyactionlab.org.
18 La evaluación de impacto en
la práctica
Rao, Vijayendra y Michael Woolcock. 2003. "Integrando Enfoques
Cualitativos y Cuantitativos en la Evaluación de Programas". En The
Impact of Economic Policies on Poverty and Income Distribution: Técnicas y
herramientas de evaluación,

¿Por qué 19
evaluar?
ed. F. J. Bourguignon y L. Pereira da Silva, 165-90. Nueva York:
Oxford University Press.
Schultz, Paul. 2004. "Subsidios Escolares para los Pobres: Evaluando el
Programa de Pobreza del Progresista Mexicano". Journal of Development
Economics 74 (1): 199-250.
Skoufias, Emmanuel y Bonnie McClafferty. 2001. "¿Funciona el Progresa?
Resumen de los resultados de una evaluación del IFPRI". Instituto
Internacional de Investigación sobre Políticas Alimentarias, Washington, DC.
Vermeersch, Christel y Michael Kremer. 2005. "Comidas Escolares, Logros
Educativos y Competencia Escolar: Evidencia de una evaluación aleatoria".
Policy Research Working Paper 3523, Banco Mundial, Washington, DC.
Zerbe, Richard y Dwight Dively. 1994. Benefit Análisis de costes en teoría y
práctica. Nueva York: Harper Collins Publishing.

20 La evaluación de impacto en
la práctica
CAPÍTULO
2

Determinación de
preguntas de
evaluación

Este capítulo describe los pasos iniciales para establecer una


evaluación. Los pasos incluyen establecer el tipo de pregunta a ser
contestada por la evaluación, construir una teoría del cambio que
esboce cómo se supone que el proyecto debe lograr los resultados
deseados, desarrollar una cadena de resultados, mullir las hipótesis a
ser probadas por la evaluación, y seleccionar indicadores de
desempeño.
Todos estos pasos contribuyen a determinar una pregunta de
evaluación y es mejor tomarlos desde el principio del programa,
involucrando a una variedad de interesados, desde los encargados de
formular políticas hasta los gerentes del programa, para forjar una
visión común de las metas del programa y de cómo se lograrán. Este
compromiso crea consenso sobre las principales preguntas que se
deben responder y fortalecerá los vínculos entre la evaluación, la
implementación del programa y la política. La aplicación de los pasos
proporciona claridad y specificity que son útiles tanto para desarrollar
una buena evaluación de impacto como para diseñar e implementar un
programa eficaz. Cada paso -desde el claro specification de metas y
preguntas, a la articulación de ideas incorporadas en la teoría del

21
cambio, a los resultados que el programa espera proporcionar- es
claramente defined y se articula dentro del modelo lógico incorporado
en la cadena de resultados.

22 La evaluación de impacto en
la práctica
Tipos de preguntas de evaluación

Cualquier evaluación comienza con la formulación de una pregunta de


estudio que enfoca la investigación y que se adapta al interés de la
política en cuestión. La evaluación consiste entonces en generar
pruebas creíbles para responder a esa pregunta. Como explicaremos
más adelante, la pregunta básica de la evaluación de impacto puede
formularse como: ¿Cuál es el impacto o efecto causal del programa sobre un
resultado de interés? En un ejemplo que aplicaremos a lo largo de la
segunda parte, la pregunta del estudio es: ¿Cuál es el efecto del Programa
de Subsidio de Seguro de Salud en los gastos de salud de bolsillo de los
hogares? La pregunta también puede orientarse hacia opciones de
pruebas, tales como, ¿Qué combinación de campañas por correo y consejería
familiar funciona mejor para fomentar la lactancia materna exclusiva? Una
pregunta de evaluación clara es el punto de partida de cualquier
evaluación eficaz.

Teorías de Cambio

Una teoría del cambio es una descripción de cómo se supone que una
intervención debe producir los resultados deseados. Describe la lógica
causal de cómo y por qué un proyecto, programa o política en
particular alcanzará los resultados previstos. Una teoría del cambio es
un fundamento clave de cualquier evaluación de impacto, dado el
enfoque de causa y efecto de la investigación. Como uno de los pasos
de first en el diseño de la evaluación, una teoría del cambio puede
ayudar a especificar las preguntas de la investigación. Las teorías de
cambio describen una secuencia de eventos que conducen a resultados;
exploran las condiciones y suposiciones necesarias para que el cambio
tenga lugar, explicitan la lógica causal detrás del programa y trazan un
mapa de las intervenciones del programa a lo largo de las vías causales
lógicas. Trabajar con las partes interesadas del programa para elaborar
una teoría del cambio puede aclarar y mejorar el diseño del programa.
Esto es especialmente importante en los programas que buscan el
comportamiento: las teorías del cambio pueden ayudar a desentrañar
los insumos y las actividades que intervienen en la provisión de las
intervenciones del programa, los productos que se entregan y los
resultados que se derivan de los resultados esperados.
cambios de comportamiento entre beneficiaries
El mejor momento para desarrollar una teoría de cambio para un
programa es al principio del proceso de diseño, cuando las partes
23
interesadas pueden reunirse para desarrollar una visión común para el
programa, sus metas y el camino para alcanzar esas metas. Las partes
interesadas pueden entonces iniciar la implementación del programa a
partir de una comprensión común del programa, de cómo funciona y
de sus objetivos.

24 La evaluación de impacto en
la práctica
Además, los diseñadores de programas deben revisar la literatura
para conocer las experiencias con programas similares, y deben
verificar los contextos y suposiciones detrás de las vías causales en la
teoría del cambio que están esbozando. En el caso del proyecto de
cemento floors en México, descrito en el recuadro 2.1, por ejemplo, la
literatura proporcionaría información valiosa sobre cómo se
transmiten los parásitos y cómo la infestación de parásitos conduce a
la diarrea infantil.

Recuadro 2.1: Teoría del cambio


De los Pisos de Cemento a la Felicidad en México
resultados es que los suelos de tierra son un
En su evaluación del proyecto Piso Firme o vector de parásitos.
"piso firme", Cattaneo et al. (2009)
Fuente: Catteneo et al. 2009.
examinaron el impacto de la mejora de la
vivienda en la salud y el bienestar. Tanto el
proyecto como la evaluación fueron
motivados por una clara teoría del cambio.
El objetivo del proyecto Piso Firme es
mejorar las condiciones de vida,
especialmente la salud, de los grupos
vulnerables que viven en zonas
densamente pobladas y de bajos ingresos
de México. El programa se inició en el
norteño estado de Coahuila y se basó en
una evaluación de la situación realizada por
el equipo de campaña del gobernador
Enrique Martínez y Martínez.
La cadena de resultados del programa es
clara. Los vecindarios elegibles son
inspeccionados de puerta en puerta, y a las
familias se les ofrece hasta 50 metros
cuadrados de cemento. El gobierno compra
y entrega el cemento, y la casa tiene y los
voluntarios de la comunidad proveen la
mano de obra para instalar el piso. El
resultado es la construcción de un piso de
cemento, que se puede terminar en
aproximadamente un día. Los resultados
esperados de la mejora del ambiente del
hogar incluyen la limpieza, la salud y la
felicidad.
La razón de ser de esta cadena de
Determinación de preguntas de 23
evaluación
porque son más difíciles de mantener
limpios. Los parásitos viven y se
reproducen en las heces y pueden ser
ingeridos por los seres humanos cuando
los animales, los niños o los zapatos los
rastrean hasta la casa. La evidencia
muestra que los niños pequeños que
viven en casas con pisos de tierra tienen
más probabilidades de estar infectados
con parásitos intestinales, que pueden
causar diarrea y desnutrición, lo que a
menudo conduce a un desarrollo
cognitivo deficiente o incluso a la
muerte. Los suelos de cemento
interrumpen la transmisión de
infestaciones parasitarias. También
permiten un mejor control de la
temperatura y son más agradables
desde el punto de vista estético.
Esos resultados esperados
informaron las preguntas de
investigación abordadas en la evaluación
por Cattaneo y sus colegas. Se planteó la
hipótesis de que reemplazar los pisos de
tierra por pisos de cemento reduciría la
incidencia de diarrea, desnutrición y
deficiencia de micronutrientes. Hacer
esto a su vez debería resultar en un
mejor desarrollo cognitivo en los niños
pequeños. Los investigadores también
anticiparon y probaron mejoras en el
bienestar de los adultos, medido por la
mayor satisfacción de las personas con
su situación de vivienda y los menores
índices de depresión y estrés percibido.

24 La evaluación de impacto en
la práctica
La cadena de resultados

Una teoría del cambio puede ser modelada de varias maneras, por
ejemplo usando modelos teóricos, modelos lógicos, marcos lógicos y
modelos de resultados, y cadenas de resultados. 1 Todos ellos incluyen
los elementos básicos de una teoría del cambio, es decir, una cadena
causal, las condiciones externas y los supuestos clave. En este libro,
utilizaremos el modelo de la cadena de resultados porque find
considera que es el modelo más simple y claro para esbozar la teoría
Concepto clave: del cambio en el contexto operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece un esquema lógico y plausible
resultados de cómo una secuencia de insumos, actividades y productos de los
establece la cuales un proyecto es directamente responsable interactúa con el
secuencia de
comportamiento para establecer las vías a través de las cuales se logran
insumos,
actividades y los impactos (figure 2.1). Establece la lógica causal desde el inicio del
productos que se proyecto, comenzando con los recursos disponibles, hasta el final,
espera mejoren los buscando metas a largo plazo. Una cadena básica de resultados
resultados y los mapeará los siguientes elementos:
resultados finales.
Entradas: Recursos a disposición del proyecto, incluyendo
personal y presupuesto
Actividades: Medidas adoptadas o trabajo realizado para convertir
las entradas en salidas
Salidas: Los bienes y servicios tangibles que las actividades del
proyecto producen (Están directamente bajo el control de la agencia
ejecutora).
Resultados: Resultados que probablemente se lograrán una vez que
la población de beneficiary utilice los productos del proyecto (por lo
general se logran a corto plazo).
Resultados finales: Los objetivos del proyecto final (Pueden ser
influenced por factores múltiples y típicamente se logran en un
período de tiempo más largo).
La cadena de resultados tiene tres partes principales:
Implementación: Trabajo planificado realizado por el proyecto,
incluyendo insumos, actividades y productos. Estas son las áreas
que la agencia de implementación puede monitorear directamente
para medir el desempeño del proyecto.
Resultados: Los resultados previstos consisten en los resultados y los
resultados de final, que no están bajo el control directo del proyecto
Determinación de preguntas de 25
evaluación
y la oferta (implementación) y el lado de la demanda (beneficiaries).
dep Estas son las áreas sujetas a evaluación de impacto para medir la
end eficacia.
en
de
los
ca
mbi
os
de
co
mp
orta
mie
nto
del
pro
gra
ma
ben
efic
iari
es
En
otra
s
pal
abr
as,
dep
end
en
de
las
inte
racc
ion
es
entr
e el
lad
o
de
26 La evaluación de impacto en
la práctica
Figura 2.1 ¿Qué es una cadena de resultados?

Fuente: Autores, procedentes de múltiples fuentes.

Supuestos y riesgos: Estos no están representados en figure 2.1.


Incluyen cualquier evidencia de la literatura sobre la lógica causal
propuesta y las suposiciones en las que se basa, referencias a la
actuación de programas similares, y una mención de los riesgos que
pueden afectar la realización de los resultados previstos y cualquier
estrategia de mitigación establecida para gestionar esos riesgos.
Por ejemplo, imagínese que el ministerio de educación del país A está
pensando en introducir un nuevo enfoque para la enseñanza de las
matemáticas en la escuela secundaria. Como se muestra en figure 2.2,
los aportes al programa incluirían personal del ministerio, maestros de
escuela secundaria, un presupuesto para el nuevo programa de
matemáticas y las instalaciones municipales donde se capacitará a los
maestros de matemáticas. Las actividades del programa consisten en el
diseño del nuevo plan de estudios de matemáticas, el desarrollo de un
programa de formación de profesores, la formación de los profesores y
la puesta en marcha, impresión y distribución de nuevos libros de
texto. Los resultados son el número de profesores formados, el número
de libros de texto entregados en las aulas y la adaptación de las
Determinación de preguntas de 25
evaluación
pruebas estandarizadas al nuevo plan de estudios. Los resultados a
corto plazo consisten en el uso que hacen los profesores de la

26 La evaluación de impacto en
la práctica
Figura 2.2 Cadena de resultados de un programa de matemáticas en la escuela secundaria

Fuente: Autores, procedentes de múltiples fuentes.

nuevos métodos y libros de texto en sus aulas y la aplicación de las


nuevas pruebas. Los resultados a medio plazo son mejoras en el
rendimiento de los estudiantes en las pruebas estandarizadas de
matemáticas. Los resultados finales son el aumento de las tasas de
finalización de la escuela secundaria y de las tasas de empleo y de
ingresos de los graduados.
Las cadenas de resultados son útiles para todos los proyectos,
independientemente de que incluyan o no una evaluación de impacto,
ya que permiten a los responsables de la formulación de políticas y a los
gerentes de programas hacer explícitas las metas del programa,
ayudándoles así a comprender la lógica causal y la secuencia de eventos
detrás de un programa. Las cadenas de resultados también facilitan las
discusiones en torno al monitoreo y la evaluación, ya que ponen de
manifiesto qué información debe ser monitoreada y qué cambios deben
incluirse cuando se evalúa el proyecto.
Para comparar enfoques de programas alternativos, las cadenas de
resultados pueden agregarse en árboles de resultados que representen
todas las opciones viables consideradas durante el diseño del programa
o la reestructuración del programa. Estos árboles de resultados
representan alternativas políticas y operativas para alcanzar los objetivos
de specific; pueden utilizarse para pensar a través de qué opciones de
programa se podrían probar y evaluar. Por ejemplo, si el objetivo es
mejorar la alfabetización en financial, se pueden investigar opciones como
una campaña publicitaria o la instrucción en el aula para adultos.
Determinación de preguntas de 27
evaluación
Hipótesis para la evaluación

Una vez que se ha esbozado la cadena de resultados, se pueden


formular las hipótesis que se desea probar utilizando la evaluación de
impacto. En el ejemplo de las matemáticas de la escuela secundaria, las
hipótesis a ser probadas podrían ser las siguientes:
• El nuevo plan de estudios es superior al antiguo en la transmisión
de conocimientos de matemáticas.
• Los maestros capacitados utilizan el nuevo plan de estudios de una
manera más eficaz que otros maestros.
• Si capacitamos a los maestros y distribuimos los libros de texto,
entonces los maestros usarán los nuevos libros de texto y el currículo
en clase, y los estudiantes seguirán el currículo.
• Si entrenamos a los maestros y distribuimos los libros de texto,
entonces los resultados del examen de matemáticas mejorarán en 5
puntos en promedio.
• Desempeño en matemáticas en la escuela secundaria influences tasas
de finalización y desempeño en el mercado laboral.

Selección de indicadores de desempeño • Realista:


garantizar
Una cadena de resultados claramente articulada proporciona un mapa que los
útil para seleccionar los indicadores que se medirán a lo largo de la datos
cadena. Incluirán indicadores utilizados tanto para monitorear la puedan
implementación del programa como para evaluar los resultados. Una obtenerse
vez más, es útil involucrar a los actores del programa en la selección de a tiempo,
estos indicadores, para asegurar que los seleccionados sean buenas con una
medidas de desempeño del programa. El acrónimo SMART es una regla frecuencia
general ampliamente utilizada y útil para asegurar que los indicadores razonable
utilizados sean y a un
coste
• Specific: para medir la información requerida con la mayor precisión
razonable.
posible
• Dirigida: a
• Mensurable: para asegurar que la información pueda obtenerse
la
fácilmente.
población
• Atribuible: garantizar que cada medida esté vinculada a los esfuerzos objetivo.
del proyecto.

Determinación de preguntas de 27
evaluación
Concepto clave:
Los buenos indicadores son específicos, mensurables, atribuibles, realistas y específicos.

28 La evaluación de impacto en
la práctica
Al elegir los indicadores, recuerde que es importante identificar los
indicadores a lo largo de toda la cadena de resultados, y no sólo a nivel
de los resultados, de modo que pueda hacer un seguimiento de la
lógica causal de cualquier resultado del programa que se observe.
Incluso cuando se implementa una evaluación de impacto, es importante
hacer un seguimiento de los indicadores de implementación, de
manera que se pueda determinar si las intervenciones se han llevado a
cabo según lo planeado, si han llegado a su destino beneficiaries, y si
han llegado a tiempo (ver Kusek y Rist 2004 o Imas y Rist 2009 para la
discusión de cómo seleccionar los indicadores de desempeño). Sin
estos indicadores a lo largo de toda la cadena de resultados, la
evaluación de impacto sólo producirá una "caja negra" que indique si
los resultados previstos se materializaron o no; no podrá explicar por
qué fue así.
Además de la selección de los indicadores, también es útil
considerar las modalidades de producción de los datos. La Tabla 2.1
enumera los elementos básicos de un plan de monitoreo y evaluación
(M&E), cubriendo los arreglos necesarios para producir cada uno de los
indicadores de manera confiable y a tiempo.

Tabla 2.1 Elementos de un plan de monitoreo y evaluación

Element Descripción
Resultados esperados Obtenido a partir de los documentos de diseño
(efectos y productos) del programa y de la cadena de resultados.
Indicadores Derivado de la cadena de resultados; los
(con líneas de base y indicadores deben ser SMART.
objetivos indicativos)
source Fuente de datossource y lugar de donde
se obtendrán los datos, por ejemplo, una
encuesta, una revisión, una reunión con las
partes interesadas.
Datosfrequency Frecuencia de disponibilidad defrequency los datos.
Responsibilities ¿Quién es responsable de organizar la
recolección de datos y de verificar la calidad y
la fuente de los mismos?
Análisis yreporting Frecuencia de análisis, método de análisis, y
responsabilidad de la presentación de informes.
Resources Estimación de los recursos necesarios y
comprometidos para llevar a cabo las actividades
de M&E planificadas.
use ¿Quién recibirá y revisará la información?
¿Para qué sirve?

Determinación de preguntas de 29
evaluación
Risks ¿Cuáles son los riesgos y supuestos al llevar a
cabo las actividades de M&E planificadas?
¿Cómo podrían afectar los eventos de M&E
planificados y la calidad de los datos?

Fuente: Adaptado de PNUD 2009.

30 La evaluación de impacto en
la práctica
Hoja de ruta para las Partes 2 y 3

En esta parte del libro, first, discutimos por qué se podría llevar a cabo
una evaluación de impacto y cuándo vale la pena hacerlo. Revisamos
los diversos objetivos que puede alcanzar una evaluación de impacto y
destacamos las cuestiones políticas fundamentales que puede abordar
una evaluación. Insistimos en la necesidad de trazar cuidadosamente
la teoría del cambio que explica los canales a través de los cuales un
programa puede obtener resultados en influence final Las evaluaciones
de impacto comprueban esencialmente si esa teoría del cambio
funciona o no funciona en la práctica.
En la parte 2 consideramos cómo evaluar, revisando varias
metodologías alternativas que producen grupos de comparación
válidos y permiten estimar los impactos válidos del programa.
Comenzamos introduciendo el contra-hecho como el quid de cualquier
evaluación de impacto, detallando las propiedades que debe tener la
estimación del contra-hecho y proporcionando ejemplos de
estimaciones inválidas o falsificadas del contra-hecho. A
continuación, pasamos a presentar un menú de opciones de
evaluación de impacto que pueden producir estimaciones válidas del
contrafáctico. En particular, discutimos la intuición básica detrás de
cuatro categorías de metodologías: métodos de selección aleatoria,
diseño de la discontinuidad de regresión, diferencia en diferencias y
emparejamiento. Discutimos por qué y cómo cada método puede
producir una estimación válida del contrafáctico, en cuyo contexto
político cada uno puede ser implementado, y las principales
limitaciones de cada método. A lo largo de esta parte del libro, se
utiliza un estudio de caso -el Programa de Subsidio de Seguro de
Salud- para ilustrar cómo se pueden aplicar los métodos. Además,
presentamos spe- cific ejemplos de evaluaciones de impacto que han
utilizado cada método.
La Parte 3 describe los pasos para implementar, gestionar o encargar
una evaluación de impacto. Asumimos en este punto que los objetivos
de la evaluación han sido defined, la teoría del cambio formulada y las
preguntas de la evaluación specified Revisamos las preguntas clave
que deben ser respondidas al formular un plan de evaluación de
impacto. Comenzamos por proporcionar reglas claras para decidir de
dónde vienen los grupos de comparación. Se establece un marco
sencillo para determinar cuál de las metodologías de evaluación de
impacto presentadas en la parte 2 es la más adecuada para un
programa determinado, en función de sus normas de funcionamiento.
Luego revisamos los pasos en cuatro fases clave de la implementación
Determinación de preguntas de 29
evaluación
de una evaluación: poner en marcha el diseño de la evaluación, elegir
una muestra, recopilar datos y producir y difundir findings

30 La evaluación de impacto en
la práctica
Nota

1. University of Wisconsin-Extension (2010) contiene una discusión detallada


sobre cómo construir una cadena de resultados, así como una lista
completa de referencias. Imas y Rist (2009) ofrecen una buena revisión de
las teorías del cambio.

Referencias

Cattaneo, Matías, Sebastián Galiani, Paul Gertler, Sebastián Martínez y Rocío


Titiunik. 2009. "Vivienda, salud y felicidad". American Economic Journal:
Economic Policy 1 (1): 75-105.
Imas, Linda G. M., y Ray C. Rist. 2009. El camino hacia los resultados: Diseño y
Realización de Evaluaciones Efectivas de Desarrollo. Washington, DC: Banco
Mundial.
Kusek, Jody Zall y Ray C. Rist. 2004. Diez pasos hacia un sistema de
seguimiento y evaluación basado en los resultados. Washington DC: Banco
Mundial.
PNUD (Programa de las Naciones Unidas para el Desarrollo). 2009. Handbook
on Planning, Monitoring and Evaluating for Development Results. Nueva
York: PNUD.
Universidad de Wisconsin-Extensión. 2010. "Mejorando el rendimiento del
programa con modelos lógicos". Curso online.
http://www.uwex.edu/ces/pdande/evaluation/ evallogicmodel.html.

Determinación de preguntas de 31
evaluación