Guia Contenido Evaluación de Impacto CAF

Importancia de la
evaluacion de impacto.
ÍNDICE
I. Importancia de la evaluación de impacto.

I.1.- Aprendizajes para la gestión pública y privada. (2)
I.2.- ¿Qué es una evaluación de impacto y para qué nos sirve dentro
de la gestión pública y privada? (8)
I.3.- ¿Qué nos ayuda a entender/responder la evaluación de

impacto? (11)
I.4.- La importancia de la medición. (16)
I.5.- Monitoreo y Evaluación. (19)
I.6.- ¿Qué necesitamos para llevar a cabo una evaluación de

impacto? (21)
"1
!
I.1.- Aprendizajes para la gestión pública y privada.
¡Bienvenidos al curso Evaluación de Impacto para la gestión pública!
Un tema, sin duda, de altísima importancia en la gestión de proyectos
en la administración pública en toda América Latina.
De entrada, podemos decir que una de las características distintivas
del subdesarrollo es la deficiente provisión y gestión de bienes y
servicios, tanto públicos como privados: sistemas de salud exiguos,
pobre calidad y cobertura educativa, sistemas de justicia criminal
inefectivos, infraestructura de transporte intra- e inter- urbana
insuficiente, desarticulada y mal mantenida, baja calidad de servicios
en general, por mencionar algunos ejemplos.
Estas deficiencias se traducen en bajos niveles de educación, salud e
infraestructura general, bajo nivel de productividad agregada, pocos
incentivos para la innovación y de creación de empresas, e
inseguridad jurídica, todo lo cual redunda en mayor pobreza y
desigualdad.
Mejorar la calidad de la gestión pública y privada es, por lo tanto, uno
de los desafíos más apremiantes del desarrollo, y el principio que
buscamos transmitir a lo largo de este curso es que este proceso
descansa, en gran medida, en la capacidad de las instituciones de
generar e internalizar aprendizajes sobre las políticas que ejecutan y la
implementación de las mismas.
"2
!
Desde luego, lo anterior no solo aplica a la provisión pública de
bienes y servicios, sino que es una reflexión que abarca también
aquellos programas e intervenciones que se gestionan desde el
sector privado (organizaciones no gubernamentales, iglesias,
sociedad civil, entre otros).
La evaluación de impacto se presenta en este contexto como una
herramienta de particular importancia, dado que difícilmente se
puede aspirar a mejorar la calidad de la gestión, si para empezar no
se cuenta con un diagnóstico claro sobre cuán efectiva está siendo la
misma en lograr sus objetivos.
La evaluación de impacto genera, sin embargo, muchos otros
aprendizajes que van más allá de la existencia y/o magnitud de un
impacto, es también una herramienta que sirve para catalizar un
proceso de mejoramiento institucional en el que se ponen en valor
algunas actividades como la sistematización de datos administrativos,
el análisis de las brechas o dificultades de implementación de
proyectos y la recolección de datos nuevos sobre procesos.
De aquí que la evaluación de impacto deba trascender la medición de
programas específicos y deba convertirse en una herramienta de uso
generalizado en las instituciones.
Su aplicación en varios contextos dentro de una misma institución
sirve para promover una cultura de aprendizaje donde es
potencialmente posible aprender y generar mejoras en todas las
"3
!
actividades que se realizan. Esta es, en nuestra opinión, la clave para
el mejoramiento continuo y sostenible de la gestión pública y privada.
Para comprender lo descrito anteriormente, podemos hacer
referencia a un caso que se dio en 2013 cuando la CAF recibió una
solicitud de apoyo de una agencia de recaudación tributaria nacional.
La Agencia requería evaluar el impacto de una actividad de cobranzas
que se realizaba anualmente, pero sobre la que no se sabía bien su
efectividad.
Específicamente, la actividad consistía en el envío, una o dos veces al
año, de funcionarios de la institución para que llevaran personalmente
una carta de cobro a contribuyentes con deudas pendientes.
El equipo de CAF trabajó de la mano de la institución para entender
los detalles de la intervención y también para visualizar otras
alternativas como mecanismo de cobranza.
Esto condujo a la realización de un estudio a gran escala (con
alrededor de 20.000 contribuyentes) en el que se midió con precisión
el retorno tributario de enviar a un funcionario a entregar
personalmente una comunicación con la información de la deuda
pendiente, versus enviarlo por correo físico, enviarlo por correo
electrónico, o no contactar al contribuyente de ninguna manera como
una cuarta y última opción.
La información resultante de la evaluación dejó lecciones muy
concretas sobre el valor de utilizar correos electrónicos masivamente y
"4
!
de focalizar las visitas personales solo en los casos donde hubiera
mucha confianza en la calidad de la información sobre la dirección
física.
La organización hizo ajustes al año siguiente e incrementó la tasa de
contacto efectivo con las visitas de 15% a 85%, mejorando de manera
importante no solo el recaudo, sino la gestión de los recursos
destinados a las cobranzas por parte de la institución.
Este ejercicio llevó al área de cobranzas a preguntarse si sería posible
hacer algo similar para cuantificar la efectividad de llamadas
telefónicas para agendar citas de pago con contribuyentes que
tuvieran deudas pendientes.
Se realizó entonces, una evaluación de impacto similar donde se
comprobó que para el tipo de contribuyentes incluidos en el estudio,
el recibir la llamada aumentó la probabilidad de pago, lo que ayudó a
mejorar el uso de la herramienta y a valorar la costo-efectividad de un
call center.
Las experiencias en el área de cobranzas despertaron el interés de la
Gerencia General de la entidad, que propuso buscar otras instancias
en las que se pudiera hacer evaluaciones, de bajo costo económico,
pero de gran valor para la gestión interna.
En el marco del programa de capacitación interna de la institución,
surgió otra oportunidad para aprender sobre el impacto de un taller
en prácticas de atención al cliente interno (funcionarios de la
"5
!
institución), con el fin de mejorar la prestación de servicios de las
oficinas del nivel central hacia las seccionales de la propia
organización distribuidas en todo el país.
Uno de los aprendizajes más importantes generados de esta
colaboración fue la importancia de cuantificar apropiadamente las
deficiencias de gestión que las capacitaciones pretenden resolver.
La evaluación les permitió saber que la satisfacción de los funcionarios
de las seccionales con la atención recibida desde las oficinas centrales
en realidad no era tan baja, aunque desde luego, sí muy mejorable,
como la evaluación pudo comprobar.
Estas diversas instancias de aprendizaje se construyeron a partir de la
convicción de ambas partes de que la gestión pública puede y debe
ser mejorada a través de ejercicios de aprendizaje que son, al mismo
tiempo, rigurosos y de bajo costo para la institución.
Lo más importante de la colaboración, sin embargo, es que la
conversación interna continúa, y esta entidad nacional de recaudación
de impuestos, además de estar avanzando en la evaluación del
impacto de innovaciones en el esquema de fiscalización, busca
formalizar la creación de un “grupo de aprendizaje”, conformado por
un pequeño equipo de funcionarios (potencialmente con algo de
apoyo técnico de CAF en una fase inicial), que sirva de caja de
resonancia para las ideas que surjan y de promotores de la evaluación
y el aprendizaje dentro de la organización.
"6
!
El cambio en esta institución es aún incipiente, pero al mismo tiempo
promisorio, pues ha permeado la institución dentro de sus diferentes
áreas. La instalación de una cultura de aprendizaje donde las
innovaciones que surgen internamente se sometan al escrutinio de la
ciencia y se compartan para ser adoptados cuando corresponda, es
un proceso gradual y que probablemente requiere del liderazgo de
muchas personas interesadas en esta agenda.
La evaluación de impacto es una herramienta poderosa para avanzar y
puede servir de punta de lanza para procesos mucho más amplios de
aprendizaje. Aprendizajes que pueden partir de acciones simples
como sistematizar información sobre la gestión y analizarla para
identificar oportunidades de mejora.
El compromiso de la CAF en este tema es un compromiso con el
aprendizaje y el fortalecimiento sostenible de nuestras instituciones
para que sean capaces de generar y aprovechar conocimiento a partir
de su experiencia.
La evaluación de impacto es una herramienta muy poderosa para ese
propósito y es por eso que acá se verán los detalles de lo que
significa, lo que implica llevar una a cabo, y el tipo de usos que se les
puede dar.
Con este curso tenemos la aspiración de que además de dominar los
conceptos técnicos, el egresado también encuentre en su quehacer
"7
!
una forma de usar estas herramientas para mover nuestras
instituciones en la dirección que la región lo necesita.
I.2.- ¿Qué es una evaluación de impacto y para qué nos sirve dentro de
la gestión pública y privada?
En primer lugar, tengamos en cuenta lo siguiente:
La evaluación de impacto busca cuantificar la diferencia entre los
resultados que obtienen los beneficiarios de un programa con
respecto a lo que esos mismos beneficiarios hubiesen obtenido en
ausencia del programa.
La evaluación de impacto responde a las inquietudes que el
funcionario o empleado plantea sobre el funcionamiento de su
programa, por tanto informa la gestión y puede indicar un camino
hacia la aplicación de ajustes en la política para mejorar la efectividad.
Más que una herramienta para hacer auditoría o evaluación del
ejercicio del funcionario, la evaluación de impacto debe verse como
una herramienta para mejorar la calidad de la gestión de recursos
públicos.
Para entender mejor esta primera definición de lo que es la
evaluación de impacto podemos pensar en un ejemplo:
"8
!
Queremos hacer una evaluación sobre el impacto que tiene la
inducción recibida por trabajadores, en su primer día de
trabajo, sobre su productividad.
Específicamente, vamos a trabajar con una compañía que recoge
cartas de los buzones. La productividad del cartero está medida por
el número de cartas que recoge o el número de buzones revisados en
un día.
El objetivo de una inducción es que el trabajador conozca:
procedimientos, horarios y rutas. En principio esperaríamos que un
cartero que atiende la inducción va tener unas mejores herramientas
para poder recoger el mayor número de cartas posible desde sus
primeros días de trabajo.
Pero esto es algo que creemos que debe suceder y debemos
comprobar si estamos en lo correcto.
Lo que logramos mediante la evaluación de la inducción el primer día
de trabajo de los carteros (programa) es conocer cuántas cartas va a
recoger un cartero que recibe la inducción en su primer día de trabajo
(el resultado del beneficiario) con respecto al número de cartas que
este mismo cartero recogería si no hubiera recibido la inducción (el
resultado del contrafactual).
Por ejemplo pensemos que el cartero con inducción puede recoger
80 cartas por día (10 cartas por 8 horas de trabajo), mientras que si el
"9
!
cartero no hubiese recibió la inducción, este hubiese recogido 64
cartas por día (8 cartas por 8 horas de trabajo).
Esto indica que el efecto de la inducción sobre la productividad del
cartero es de 16 cartas por día. Este diferencial nos mide exactamente
cuál es el impacto o valor que tiene la inducción sobre la
productividad de los carteros.
Este ejemplo resulta útil para guiar a la compañía de recolección de
cartas para cuantificar: Los beneficios que recibe de la inducción / Si
este programa de inducción resulta ser rentable para la compañía.
Es decir, con los resultados de la evaluación se puede hacer un
análisis costo-beneficio de la inducción.
Los carteros con inducción recogen 10 cartas por hora y los que no
tienen inducción recogen 8 cartas por hora. Esto quiere decir que la
inducción hace que los carteros recojan 2 cartas adicionales por hora.
Los carteros con inducción son 25% más productivos en una hora de
trabajo. Si la empresa necesita recolectar 40 cartas por hora en toda
la ciudad. Esto lo harían 4 carteros con inducción (4*10=40) o 5
carteros sin inducción (5*8=40).
La compañía debe evaluar si resulta más rentable invertir en la
inducción (pagar el costo de la inducción de los 4 carteros) o contratar
cinco carteros sin darles inducción. Esta sería la manera de encontrar
cuál de las dos políticas es la más rentable o beneficiosa para la
compañía.
"10
!
I.3.- ¿Qué nos ayuda a entender/responder la evaluación de impacto?
Hagamos cuatro preguntas clave:
¿El programa tiene los impactos esperados sobre los participantes
tanto en dirección (son positivos o negativos) como en magnitud?
¿Los impactos son mayores o más efectivos para algún subgrupo de
participantes?
¿El resultado de la evaluación (esperado o no-esperado) puede
depender de la implementación o funcionamiento de los programas/
políticas?
¿Cómo puede ser mejorado o rediseñado el programa? Esto puede
ser importante por ejemplo si llegamos a encontrar que los impactos
son diferenciados por subgrupos.
¿El programa tiene efectos no esperados (externalidades positivas o
negativas) en comportamientos sobre los mismos beneficiarios o
sobre otros individuos?
Utilizaremos un ejemplo para luego discutir sobre lo que nos ha
ayudado a entender esta evaluación de impacto.
Primero, conozcamos un poco el Programa Un Computador por
Niño en Perú (OLPC- por su sigla en inglés).1
1 Puedes conocer detalles sobre este programa ingresando en: one.laptop.org

"11
!
El Programa Un Computador por Niño busca proveer el uso de
tecnologías y conexión a internet para todos los niños y profesores de
escuelas en diferentes lugares del mundo. Cada niño recibe un
aparato de bajo costo que lo empodera en su aprendizaje.
Pero, vayamos al análisis del caso. ¿Es posible considerar que la
entrega de computadores portátiles a los estudiantes es una iniciativa
que lograría tener efectos positivos, negativos o nulos sobre el
rendimiento escolar de los niños?
"12
!
Inicialmente, la gran mayoría de personas creería que dar un
computador portátil a un niño que asiste a la escuela puede generar
un gran entusiasmo e interés por el estudio, y por tanto mejorar su
rendimiento académico.
Para responder a esta pregunta los autores Cristia et al. (2012)
llevaron a cabo un estudio para el caso de un computador por niño
en Perú.
Específicamente, toman una muestra de 320 colegios para llevar a
cabo su evaluación. El programa efectivamente incrementa el acceso
a los computadores, mostrando que en promedio existen 1,18
computadores por estudiante en el grupo de colegios que recibieron
los computadores y 0,12 computadores por estudiante en el grupo de
colegios que no recibió computadores.
El programa claramente explica el incremento en la tenencia de
computadores y es de esperar que también impacte su uso.
En cuanto al uso del computador: en el colegio beneficiario del
programa los niños usan los computadores en un 82% de los casos,
mientras que en los colegios no beneficiarios del programa los niños
lo usan en un 26% de los casos. El uso del computador en el hogar,
tiene un diferencial de uso aún más pronunciado: 42% para
estudiantes beneficiados por el programa y 4% para estudiantes no
beneficiados.
"13
!
Extrañamente, la evaluación encontró que la entrega de un
computador portátil no tiene efectos sobre los resultados escolares
de lenguaje y matemáticas.
Los autores argumentan que esto no resulta sorprendente debido a
que el programa no planeó que el uso del computador se integrara al
currículo de estudios y a que los computadores no incluían paquetes
de trabajo en las áreas de lenguaje o matemáticas.
El programa tampoco tiene efectos sobre el tiempo que se dedica a
hacer tareas o la asistencia a la escuela.
Por su parte, los computadores tampoco parecen tener un efecto
sobre la calidad de enseñanza en clase.
Los autores también llevaron a cabo dos pruebas cognitivas
adicionales que miden condiciones tales como: fluidez verbal, lógica,
abstracción y razonamiento analógico.
Los resultados de estas pruebas son positivos en términos del
desarrollo que reportan tener los estudiantes beneficiarios en
comparación con los no beneficiarios.
Ahora, conociendo los resultados de esta evaluación de impacto,
podemos reflexionar sobre qué nos ayuda a entender esta evaluación
de acuerdo con los puntos mencionados anteriormente.
El programa no tiene efectos sobre el desempeño escolar de los
beneficiarios de los computadores. Esto desvirtúa la idea inicial que
teníamos sobre el impacto positivo que podrían tener los
"14
!
computadores sobre el aprendizaje. Pero sí tiene impactos sobre tests
cognitivos adicionales que se llevan a cabo.
Existen tres condiciones importantes que se deben tener en cuenta y
que pueden explicar el resultado:
1) El programa se implementó en zonas rurales dispersas del Perú
donde puede existir acceso limitado de servicio de electricidad o
de internet.
2) El portátil NO incluía ningún software diseñado para mejorar las
habilidades en las áreas de matemáticas o lenguaje.
3) No existía mayor vinculación entre el uso del portátil y el currículo
de clase.
Las condiciones mencionadas anteriormente, puede indicarnos por
qué los resultados difieren con respecto a lo esperado.
El programa podría ser rediseñado teniendo en cuenta los tres puntos
anteriores. Para ello se podría incluir:
a) Verificar conectividad de hogares de los niños beneficiarios.
b) Incluir una capacitación a los profesores para incorporar el uso del
portátil dentro del contenido de clase e incluir programas útiles para
este fin.
c) Alertar a los padres sobre no descuidar la supervisión o cuidado de
sus hijos, pues los niños pueden usar el computador y sustituir tiempo
de estudio por otras actividades de juego.
"15
!
No se puede asumir que el uso del computador va a estar relacionado
sólo con actividades escolares.
Podría llegar a existir efecto de externalidad positiva, si por ejemplo:
el computador resulta ser usado por otros miembros del hogar y esto
tuviera impactos sobre la participación laboral.
I.4.- La importancia de la medición de lo cotidiano

Pensemos por un momento sobre estas interrogantes: ¿Por qué cree
que es importante medir y monitorear? ¿Cómo se imagina que puede
hacerlo dentro de su institución? ¿Qué indicadores existen en su
institución o en su trabajo del día a día que vea que se pueden
organizar y sistematizar para llevar a cabo una medición? Piense por
qué son importantes y ¿Qué le ayudarían a medir o a contestar?
Ahora tomemos en cuenta lo siguiente:
Existen datos o registros administrativos que se recopilan diariamente,
y en muchas ocasiones, estos son una fuente de información sobre la
gestión que no utilizamos lo suficiente.
Los registros administrativos, en principio, pueden ser útiles para
construir indicadores para verificar el cumplimiento de metas
preestablecidas en un determinado período de tiempo, por parte de
la institución. Esto se conoce como seguimiento o monitoreo de la
política.
"16
!
Los registros administrativos también pueden llegar a ser la fuente de
información de base para llevar a cabo una evaluación de impacto.
Por ejemplo: pensemos en el registro de matrícula de una escuela. En
este registro encontramos información detallada de los padres como
lo es: su edad, educación, condición laboral e ingresos. También
podemos conocer si el niño pertenece a un hogar monoparental o
biparental y el estado civil actual de los padres. Podemos conocer
sobre el número de hermanos, sus edades, y la composición
demográfica en general del hogar.
Digitalizar la información de la matrícula nos puede proveer
información para hacer una caracterización de los hogares y conocer
sus necesidades.
En ciertas ocasiones los beneficios de digitalizar esta información no
son tan claros para la institución. A lo largo de este curso
entenderemos la utilidad de tener registros administrativos
organizados que brindan información de la gestión y de sus
beneficiarios.
Los datos requieren cierto orden y limpieza para ser utilizados como
fuente de información estadística de la población objetivo.
Otros datos administrativos de recolección por parte de la institución
educativa son las listas de asistencia diaria, el registro de notas de los
estudiantes, los salones, profesores, computadores, libros en
biblioteca, almuerzos, etc.
"17
!
Luego de tener datos organizados por estudiante, estos pueden ser
útiles para construir indicadores para verificar el cumplimiento de
metas por los estudiantes, el maestro o el rector dentro de la
institución. Dentro de los indicadores podemos tener:
• Indicadores de producto: son aquellos que cuantifican el
nivel de ejecución o implementación de la política
(materiales, personal) que se utilizan para llevar a cabo las
actividades del programa.
• Indicadores de resultado: son aquellos que identifican los
objetivos finales que busca el programa.
En nuestro ejemplo:
Indicadores de producto serían: número de cupos que se ofrece la
institución educativa, número de profesores en escuela, salones,
computadores, almuerzos.
Indicadores de resultado serían: En el corto plazo, rendimiento escolar
(notas al finalizar bimestres) o asistencia escolar. En el largo plazo y
con un seguimiento a través de los años podríamos construir
indicadores de reprobación, rezago escolar, e incluso de deserción.
Debemos entender los datos administrativos como un repositorio de
información del funcionamiento de la política pública o privada. Que
nos sirven para hacer seguimiento a estas políticas.
"18
!
En general, es deseable que nuestro indicador sea SMART (Specific,
Measurable, Achievable, Relevant, Time-bound). La traducción al
español de esta sigla es: específico, medible, realizable, relevante,
delimitado en el tiempo.
Veamos si el indicador de Asistencia Escolar cumple con las
características de un indicador SMART:
Específico: La asistencia se refiere a la acción específica de ir o no a
clases.
Medible: es posible determinar diariamente cuántos niños asisten al
colegio.
Realizable: es relativamente sencillo de medirla. Es suficiente con
listar diariamente por salón, por ejemplo, quiénes asisten y quién no.
Relevante: con asistencia medimos directamente un indicador que es
relevante para evaluar el desempeño del colegio.
Delimitado en el tiempo: puedo calcular la asistencia diaria o
número de días en un mes, semestre o año. Calcular un porcentaje de
asistencia para un determinado periodo de tiempo.
I.5.- Monitoreo y Evaluación.

Cuando se trata de monitoreo y evaluación de impacto, los
indicadores con las características ya mencionadas, son vitales para
"19
!
poder llevar a cabo un buen seguimiento a las políticas y esta resulta
ser una primera forma de medir dentro de la gestión.
Los indicadores de seguimiento nos dan una idea de la evolución de
las variables que estudiamos en el tiempo, pero no tenemos certeza
sobre las razones por las cuales llevan una determinada tendencia.
La evaluación de impacto es necesaria para poder establecer una
relación causal del impacto que puede tener una política sobre el
indicador relacionado con esta. Un ejemplo de esto puede ser el
análisis del número de firmas que se registran por año.
Si observamos una tendencia creciente a lo largo del tiempo esto
puede estar explicado por:
• Una reforma tributaria que da nuevas exenciones a
pequeñas empresas.
• Una simplificación del registro de firmas que fue
aprobado.
• Un mayor seguimiento a la actividad informal.
• Un mayor crecimiento económico que incentiva la
inversión.
Cualquiera de las anteriores son razones que podrían explicar este
comportamiento y evolución de las firmas y pueden de una u otra
manera cuantificarse.
"20
!
Sin embargo, hasta no tener una evaluación rigurosa, no podemos
argumentar a qué se debe el patrón que sigue el indicador.
Quizás, si lo meditas un poco, podrías dar otras razones que
expliquen este comportamiento. De ser así, enuméralas en los
comentarios de esta lección.
I.6.- ¿Qué necesitamos para llevar a cabo una evaluación de impacto?

Para poder llevar a cabo una evaluación de impacto debemos contar
con:
1. Una actividad, programa, intervención o política pública
que se esté realizando (o se vaya a realizar) y cuyo
impacto se quiera medir, y al menos alguna hipótesis
sobre los canales que vinculan conceptualmente la
intervención con ciertas variables de resultado.
2. Una pregunta puntual sobre el impacto o la gestión del
programa, para resolver y/o cuantificar.
3. Datos administrativos pertinentes para la pregunta de
evaluación o tener la posibilidad de recolectar
información primaria para el análisis cuantitativo.
"21
!
Por información primaria se entiende el diseño de cuestionarios o
encuestas específicos para recoger la información que se necesita
para hacer la medición.
A continuación, daremos un ejemplo de una evaluación de impacto
inviable por no cumplir con el segundo principio. Con este ejemplo
ahondaremos en cómo formular la pregunta de investigación de una
evaluación. Pensemos en la siguiente pregunta de evaluación:
¿Cuál es el impacto de la provisión de servicios de educación sobre el
bienestar de los niños beneficiarios?
Lo primero que debemos preguntarnos es si los conceptos de
servicios de educación y bienestar de los niños son puntuales o
concretos.
Podríamos hacer una lista de cosas que están inmersas dentro de los
dos “conceptos” que queremos evaluar:
Bienestar de los niños:

• Aprendizaje y aprobación de materias.
• Progresión escolar.
• Conocimientos.
• Salud.
• Desarrollo y habilidades físicas y motoras.
"22
!
Servicios educación:
• Contenidos enseñados en clase.
• Alimentación.
• Cuidado.
• Recreación.
• Interacción social con pares.
• Capacitación en el manejo de computadores.
El problema con esta evaluación es que el programa o actividad que

queremos evaluar “los servicios de educación” son muchos y la
variable de resultado “bienestar” es muy amplia y multi-dimensional.
Justamente por esto decimos que para poder hacer una evaluación la
pregunta debe ser puntual. Ahora podemos plantear una nueva
pregunta:
¿Cuál es el impacto de la provisión de alimentación escolar
sobre la salud de los niños beneficiarios?
En este caso ya usamos una actividad o servicio de educación
puntual, que se refiere a la alimentación escolar, pero aún tenemos un
indicador de resultado que puede contener muchas medidas
diferentes, por ejemplo: por salud puedo medir la desnutrición, la
anemia, el peso o la estatura.
"23
!
Por tanto, la actividad y el resultado deben ser tan puntuales y
medibles como sean posible. Específicamente, los indicadores como
lo mencionamos en la lección anterior, deben cumplir con la
condición de ser SMART.
Ahora podemos plantear una última pregunta, que usaremos como
caso de estudio a lo largo del curso:
¿Cuál es el impacto de la provisión de alimentación escolar

sobre la estatura de los niños beneficiarios?
¿Cómo podemos usar los resultados de una evaluación de
impacto?
Cuando obtenemos un resultado de una evaluación de impacto de un

determinado programa nos sirve para verificar el cumplimiento del
objetivo planteado por la política o plan que se evalúa.
Es el insumo para calcular un análisis de los costos y los beneficios
asociados al programa, y así, podemos comparar con otras
alternativas de política que impacten este mismo objetivo. Es decir,
que podemos comparar entre evaluaciones para lograr la mejor
política, en términos de mayores beneficios y menores costos.
Éste nos ayuda a revisar su diseño y así podemos mejorar el uso de
recursos escasos que se invierten en el programa o a mejorar la
"24
!
gestión del programa. Así se logra hacer más eficiente la gestión, es
decir, con los mismos recursos o presupuesto obtenemos mejores
resultados.
Ante los rediseños debemos percibir una mejora del programa o
proyecto evaluado. Nos sirve para verificar la efectividad de la
inversión en términos de dinero y esfuerzos que se hacen dentro de la
política o plan.
La cantidad de recursos invertidos no siempre garantizan un resultado
positivo, óptimo o esperado. Podemos usar estos resultados como
sustento para argumentar por qué es relevante invertir más recursos
(del gobierno, ONG, sector privado con interés en proyectos de
responsabilidad social, o multilaterales) en nuestra política o plan.
Podemos redefinir el programa anticipándonos a comportamientos
estratégicos (incentivos) que la política genera tanto para los
beneficiarios como los no beneficiarios.
Podemos usarlos como un mecanismo de rendición de cuentas muy
completo. Incluso más completo que los indicadores de seguimiento
y monitoreo, tradicionalmente utilizados. Pues para estos últimos no
logramos saber o explicar exactamente a qué se debe, o que explica,
su evolución.
En el ejemplo que mencionamos al inicio del módulo, sobre la
entidad nacional responsable de la recaudación de impuestos, la
evaluación de impacto arrojó información sobre la efectividad de
"25
!
distintas estrategias de contacto para contribuyentes con deudas
pendientes: enviar a un funcionario para que entregue la
comunicación en persona genera, en casi la totalidad de los casos,
que el contribuyente cumpla con su obligación.
Sin embargo, para la institución es muy costoso enviar a un
funcionario a realizar esta actividad, que además, se vuelve imposible
cuando las direcciones están incorrectas o no se encuentra al
contribuyente en el lugar.
Cuando tomamos en cuenta estas dificultades, la realidad es que
enviar un correo electrónico es tan costo efectivo como enviar a un
funcionario. Este aprendizaje fue realmente importante para la
institución porque le permitió ahorrar recursos y aumentar la eficiencia
en la gestión de sus distintas actividades:
• Decidieron focalizar el instrumento de las visitas
personales solo sobre contribuyentes con deudas muy
altas.
• A los demás contribuyentes, era suficiente con enviarles
un correo electrónico.
• Entendieron la importancia de contar con datos de
contacto actualizados y certeros, por lo que decidieron
asociarse con otras instituciones públicas, para cruzar
datos y mejorar la calidad de lo que ya tenían.
"26
!
• Aumentaron la recaudación gracias a los cambios
realizados.
Como vemos, la evaluación no sólo permitió determinar si la actividad
que estaban realizando estaba logrando los objetivos o no, sino que
generó una cantidad de aprendizajes y reflexiones en el camino que
permitieron: modificar el programa, emprender acciones adicionales
para mejorar lo que ya estaban haciendo, y mejorar su efectividad
como institución.
Adicionalmente, como institución, encontraron el valor de la
evaluación a su gestión y han ido implementando diferentes
evaluaciones a programas donde existe la posibilidad de llevarlas a
cabo y de aprender de sus resultados.
Enfoque de la CAF hacia las evaluaciones

Las evaluaciones generan información sobre el impacto de la política,
pero también ayudan a mejorar la gestión de los recursos.
En la CAF queremos promover a la evaluación y la medición como
una herramienta de gestión, este objetivo se logra al:
• Generar aprendizajes sobre las políticas implementadas
que permitan mejorar la provisión de bienes y servicios
públicos o privados.
"27
!
• Generar capacidades y conocimientos de evaluación
dentro de los funcionarios o empleados que se muestran
interesados en responder una pregunta de gestión
dentro de su institución o empresa.
• Mostrar a los funcionarios como la evaluación puede
ayudar a mejorar sus procesos de gestión.
• Llevar a cabo una evaluación que siempre tenga un
trabajo en equipo entre la institución y CAF para
asegurar que todos aprendemos de la experiencia de
evaluación.
• Generar una cultura de aprendizaje y un proceso de
trabajo conjunto, donde el objetivo más importante de la
evaluación es el de contribuir al crecimiento de la
institución. Así mismo, al generar confianza en cuanto al
manejo de la información privilegiada que obtenga CAF
de la institución.
• Brindar una evaluación que cumple con requerimientos
técnicos de alta calidad.
• Proveer herramientas de evaluación de impacto,
asistencia técnica y acompañamiento a lo largo de la
evaluación y de la implementación de recomendaciones,
para que el funcionario público o el empleado aprenda
"28
!
de los resultados de la evaluación y vea mejoras en su
programa.
Conclusiones.
Con una evaluación logramos mejorar el diseño, eliminar, escalar o
ajustar un programa dentro de una política pública o privada con la
que se ha llevado a cabo este proceso de evaluación.
Lo que queremos lograr de manera puntual es la mejora del proyecto
que se evaluó, pero de manera general, queremos mejorar la
capacidad institucional en términos de los conocimientos que los
funcionarios y los empleados tienen en evaluación y cómo la pueden
incorporar en su gestión como herramienta de aprendizaje.
"29
!
2018
Conceptos básicos de la
evaluación de impacto y
del método experimental.
ÍNDICE
II. Conceptos básicos de la evaluación de impacto y del

método experimental.
2.1.- Recordemos que es una evaluación de impacto y los

experimentos. (2)
2.2.- La clave de las evaluaciones de impacto: concepto de

contrafactual. (3)
2.3.- Requisitos técnicos de una evaluación de impacto experimental

- Aleatorización como solución al problema de selección. (12)
2.4.- Modelo analítico para calcular la magnitud del impacto. (23)
!1
!
2.1.- Recordemos que es una evaluación de impacto y los
experimentos.
La evaluación de impacto busca medir la diferencia entre los
resultados que obtienen los beneficiarios de un programa vs. lo que
esos mismos beneficiarios hubiesen obtenido en ausencia de ese
mismo programa.
Un experimento es la metodología ideal (estándar de oro), pues
replica lo que se hace en un “laboratorio”. Esta metodología,
comúnmente utilizada en las investigaciones científicas, toma dos
muestras de unidades de observaciones (animales/células), una de
ellas como grupo tratamiento y la otra como grupo de control.
Estos dos grupos deben ser idénticos en sus características, y se les
dan las mismas condiciones externas (temperatura, comida, etc.). Esto
implica que todos los factores se encuentran controlados y la única
modificación, que NO interviene sobre el grupo de control, es el
tratamiento.
Por tanto, el experimento de laboratorio va a medir de manera
controlada, los efectos causales de un tratamiento determinado. Ello
se logra comparando el resultado del tratamiento y del control luego
de haber llevado a cabo la intervención.
!2
!
2.2.- La clave de las evaluaciones de impacto: concepto de
contrafactual.
Dentro del concepto de evaluación de impacto, anteriormente,
mencionamos que para medir qué impacto ha tenido un programa,
necesitábamos comparar los resultados que se dan cuando un
individuo es beneficiado por el programa con los resultados que se
dan cuando ese mismo individuo no es beneficiado.
Lo anterior implica comparar los resultados de un hecho que ocurrió
(el programa) con los resultados de algo que no ocurrió (pero que sí
hubiese ocurrido de no existir el programa). Para un mismo individuo
sólo existe uno de estos dos resultados; el otro no se puede observar,
ni mucho menos medir.
Poder observar al mismo individuo, en un mismo momento, pero en
dos condiciones diferentes, es algo imposible. Lo ideal es conseguir a
alguien tan parecido a él como sea posible, es decir un “clon” o un
“gemelo”.
¿Por qué es necesario el grupo de control o contrafactual? ¿Y cuáles
son las condiciones que debe cumplir?
No podemos evaluar el impacto de un programa observando
únicamente el resultado de los individuos beneficiados ... ¡ya
entenderemos por qué!
!3
!
Recordemos nuestra pregunta de evaluación de impacto: ¿Cuál es el
impacto de la provisión de alimentación escolar sobre la estatura de
los niños beneficiarios?
En la siguiente figura tenemos el resultado (estatura) de los niños que
reciben el programa de alimentación escolar durante el año 2017,
período identificado por la línea verde. La figura nos muestra que
antes de iniciar el programa, en 2016, los niños beneficiarios tenían
una estatura promedio de 120 cm. Luego del programa, en 2018 los
niños beneficiarios tienen una estatura promedio de 130 cm. Ante
este resultado ¿Podríamos decir que el impacto que tiene el
programa de alimentación escolar sobre la estatura de los niños
beneficiarios es de 10 centímetros en promedio por año de
intervención?
130 ¿Impacto del

programa?
NO.
120
!4
!
La respuesta es NO… porque de todas maneras esperaríamos que,
con el tiempo, los niños crezcan, incluso en ausencia del programa de
alimentación escolar.
Pensemos ¿qué otros factores pueden modificar el curso normal de la
estatura de los niños?:
• Cantidad y calidad de la alimentación que recibe en el hogar.
• Los hábitos alimenticios.
• El estado de salud.
• La actividad física.
Entre el 2016 y 2018 (antes y después de la intervención), suceden
dos cosas:
1) Programa de alimentación escolar
2) Otros factores que pueden modificar a su vez el curso normal de
la variable de resultado (estatura del niño).
En la comparación que hacemos en el gráfico, no sabemos si estamos
midiendo (1) o estamos midiendo (2), o hasta qué punto ambos
factores se combinan.
Por lo tanto, necesitamos saber si el crecimiento que los niños
experimentan cuando participan en el programa es mayor, menor o
igual al que experimentarían en ausencia de este. Es decir, para saber
el impacto del programa necesitamos saber qué hubiese pasado con
!5
!
la estatura de esos niños si no hubiesen participado y comparar esa
estatura con la que efectivamente podemos observar en 2017.
Como no podemos saber qué hubiese pasado sin el programa de
alimentación (debido a que los niños ya han sido beneficiados por el
mismo) necesitamos un contrafactual o grupo de control (o grupo de
comparación). Es decir, otro grupo de niños que no haya sido
beneficiado por el programa y que nos ayude a aproximar ese
contrafactual que no podemos observar.
• ¿Cuál es un buen grupo de control?
Grupo idéntico o “gemelo - clon” del tratamiento que no sea
beneficiario del programa. En nuestro ejemplo, el mejor control sería
“literalmente” el hermano gemelo de cada niño que es beneficiario
del programa de alimentación escolar. Al no haber recibido el
beneficio del programa de alimentación escolar, este gemelo va a ser
alimentado en su hogar.
• El grupo de control debe cumplir con las siguientes condiciones:
1.Es un grupo que nos muestra qué hubiera pasado con los
tratados en caso de no haber recibido el tratamiento.
2.Los efectos del programa deberían ser los mismos para ambos
grupos (tratamiento o control). Esto quiere decir que, si las
unidades del grupo de control son las que reciben el
tratamiento (en lugar de lo que realmente ocurre: los del
tratamiento son los beneficiados), el impacto sería exactamente
!6
!
el mismo que vamos a medir a través de la evaluación. En otras
palabras, los grupos son parecidos entre sí, y es irrelevante qué
personas específicamente dentro de cada grupo reciben el
tratamiento.
3.Los factores externos, que afectan a todos los niños, deberían
tener el mismo efecto sobre el grupo de comparación (control) y
el tratamiento.
Pensemos estos tres puntos en términos de nuestro ejemplo:
El hermano gemelo, en comparación con su hermano que participa
en el programa de alimentación, tiene más o menos las mismas
características genéticas que determinan el crecimiento, vive en el
mismo hogar, en general es alimentado de la misma manera, participa
más o menos en las mismas actividades. Si el tratamiento no
ocurriera, podríamos esperar que ambos gemelos tengan un patrón
de crecimiento similar. Por este motivo, claramente el gemelo que no
participa nos da información sobre qué hubiera pasado si su hermano
no hubiera recibido el programa de alimentación escolar.
Supongamos que el gemelo que no recibe programa de alimentación
escolar en un año creció 8 cm.
Si tenemos múltiples parejas de gemelos, dentro de cada pareja uno
va a ser el gemelo A y otro el gemelo B. Si para todas las parejas,
tomamos al gemelo A como beneficiario, esperamos que los efectos
del programa sean idénticos que si tomáramos todos los gemelos B
!7
!
de cada pareja. Es decir, si el gemelo A es el beneficiario del
programa, este crecerá 10 cm y el gemelo B crecerá 8 cm. Pero si
tomamos al gemelo B como beneficiario del programa en todas las
parejas, él crecerá 10 cm y su hermano que no tiene el tratamiento, el
gemelo A, crecerá 8 cm. Por lo tanto, independientemente de cuál
de los dos niños es asignado al tratamiento, el impacto promedio del
programa será siempre de 2 cm.
En cuanto a factores externos, pensemos que el año 2017 fue un año
de muchas lluvias y por tanto los niños presentaron muchas
enfermedades respiratorias. Esperaríamos que las lluvias afecten de la
misma forma el apetito y crecimiento de los niños del grupo
tratamiento y del grupo de control, por tanto, el crecimiento de los
dos grupos se va a ver disminuido en magnitudes similares.
Otro ejemplo, que afectaría positivamente el crecimiento, se daría en
el caso de que la escuela iniciara unos entrenamientos de baloncesto
para todos los niños, esto va a afectar de la misma manera al grupo
tratamiento que al grupo control.
Ahora vamos a incluir dentro de nuestra gráfica a los dos grupos de
niños: i) los que recibieron el programa de alimentación escolar
(grupo tratamiento) y ii) los que NO recibieron el programa de
alimentación escolar (grupo de control).
!8
!
Es decir, vamos a tener la evolución de la estatura de los hermanos
tratados y de sus hermanos gemelos, que NO participaron en el
programa durante 2017.
Para saber la evolución de estas dos líneas, debemos suponer algo
sobre la alimentación escolar y la alimentación en el hogar: Por ahora
supongamos que la alimentación del colegio es mucho más nutritiva
que la que hubiera recibido en su hogar.
¿Cómo se vería este resultado del programa de alimentación escolar
para los grupos de tratamiento y de control? (Escoja Gráfico A o B)
GRAFICO A
!9
!
GRAFICO B
El gráfico A muestra que lo niños, tanto del grupo de tratamiento

como los del grupo de control, crecieron entre 2016 y 2018. Vamos a
explicar paso a paso la evolución de la estatura de los niños
beneficiarios y no beneficiarios.
Como habíamos mencionado anteriormente, los niños beneficiarios,
en promedio crecieron 10 cm. Esto se debe a que inician con una
estatura promedio de 120 cms en 2016, y luego de dos años, en 2018
llegan a medir 130 cms.
Por su parte, los niños del grupo de control crecieron 8 cms en
promedio, debido a que inician con una estatura promedio de 120
cms (igual a la de los niños del grupo control), y dos años después
!10
!
miden en promedio 128 cms. En este caso, los niños del grupo de
control crecieron en promedio 8 cms.
Por lo tanto, podemos concluir que en ausencia del programa el
crecimiento sería de 8 cm y con el programa de alimentación escolar
el crecimiento sería de 10 cms, lo que quiere decir que el programa
tiene un resultado positivo (correspondiente a la distancia horizontal
entre el punto azul y el punto morado) de 2 cm, en promedio, en la
estatura de los niños que participaron con respecto a los niños del
grupo de control.
Por su parte, el gráfico B también observamos que ambos niños
crecen, pero los niños que participaron en el programa crecieron
menos que los niños que no participaron. En este caso los niños
beneficiarios, en promedio crecieron 10 cm, igual que en el caso
anterior, mientras que los niños del grupo de control crecieron 12 cm
en promedio.
El resultado es negativo por lo que el crecimiento del grupo de
control resultó ser mayor que el del grupo de tratamiento. Esto
indicaría que en ausencia del tratamiento los niños hubiesen crecido
2cm más y por lo tanto el impacto del programa es negativo en 2 cm.
Bajo el supuesto de que la comida de la institución educativa es más
nutritiva, el resultado debe ser la gráfica A.
Bajo este esquema hipotético del programa, en donde los
beneficiarios solo son hermanos con un gemelo, es muy sencillo tener
!11
!
un contrafactual perfecto. Pero por ser los gemelos una población tan
minoritaria en el mundo (sólo alrededor del 2% de los individuos son
gemelos) en general los programas no se evalúan sobre esta
población.
Generalmente, las evaluaciones de los programas utilizan un grupo de
control que debe ser tan parecido “como sea posible” al grupo de
tratamiento… idealmente su “gemelo”.
Por otra parte, para un individuo es imposible saber el impacto que
tiene su participación en un programa con un 100% de certeza,
incluso si tiene un gemelo.
Dado lo anterior, lo que generalmente se hace es comparar grupos
porque es posible construir grupos parecidos (lo que no es posible en
el caso de individuos específicos).
2.3.- Requisitos técnicos de una evaluación de impacto experimental -

Aleatorización como solución al problema de selección.
¿Cuál es el problema de selección?

Como hemos mencionado anteriormente, el contrafactual debe ser lo
más parecido posible al tratamiento. Por lo cual, tanto el grupo de
tratamiento como el control deben haber estado inicialmente
interesados en participar en el programa.
!12
!
Si esto no se cumple, ya serían diferentes en la necesidad o deseo por
participar y esta diferencia puede afectar a la variable de resultado, y,
por lo tanto, a lo que interpretaremos como impacto.
En este caso habría sesgo de selección. Por ejemplo, aquellos con
mayor deseo de participar son más proactivos y esta característica
intrínseca a ellos hace que siempre les vaya mejor que al individuo
promedio ya sea parte del grupo tratamiento o del grupo de control.
Por lo anterior, resulta útil tener siempre exceso de demanda de los
programas que se ofrecen. De esta forma, dentro del total de los
individuos que quieren acceder al programa (los que hemos llamado
“más proactivos”) debemos escoger al azar o de manera aleatoria
algunos individuos para hacer parte del grupo de tratamiento y otros
del grupo de control.
La selección aleatoria, que explicaremos en detalle en la siguiente
sección, resulta ser la manera más JUSTA de asignar los individuos al
grupo de tratamiento y control, por lo que no discrimina por ninguna
característica individual, sino que, en principio, cualquier persona
tiene exactamente el mismo chance de participar.
Definición de una asignación aleatoria

• Una asignación o selección aleatoria está dada
completamente por el azar. Es decir, lo que determina
!13
!
quién recibe el programa y quién no es la suerte y no
una característica específica de los individuos.
• Para hacer una asignación aleatoria a dos grupos puedo
hacer el ejercicio de lanzar una moneda.
• Voy a tener el grupo “cara” y el grupo “sello/cruz”.
• Al lanzar la moneda tengo 50% de probabilidad de
quedar en el grupo cara y 50% de probabilidad de
quedar en el grupo sello/cruz.
• Ahora podemos llamar al grupo cara “tratamiento” y al
grupo sello/cruz “control”.
Esta resulta ser una manera sencilla de aleatorizar individuos al grupo
tratamiento y control. Ahora veremos qué otras opciones pueden
existir.
Formas de aleatorizar
Lanzar una moneda, como ya vimos, puede asignar individuos en dos
grupos al azar. Una lotería en donde todos los nombres de los
potenciales participantes (aquellos individuos que van a hacer parte
del grupo tratamiento y del grupo control) se introducen dentro de
una bolsa. Se sacan los nombres de las primeras x personas que van a
hacer parte del tratamiento. Si por ejemplo se tienen 200 potenciales
participantes, los primeros 100 nombres se asignan al grupo de
!14
!
tratamiento y todos aquellos que se queden dentro de la bolsa queda
en el grupo de control.
Otra manera, si queremos seleccionar a la mitad de los participantes
para el grupo de tratamiento y la otra mitad al grupo de control, es
determinar que las personas con identificación terminada en número
par entran al tratamiento y los impares no entran al tratamiento. Este
mecanismo de selección es completamente verificable y es una
condición ajena a la decisión de las personas. Es decir que no hay
forma de modificarla para poder quedar dentro del grupo de
tratamiento o de control.
Generar un número aleatorio (puede ser en Excel o en un paquete
estadístico), ordenarlo y tomar uno sí uno no. O tomar la primera
mitad para un grupo y la segunda mitad para otro grupo.
Lo positivo de estos métodos de aleatorización es que son
completamente transparentes y comprobables para cualquier
individuo que se encuentre presente durante la aleatorización o que
quiera verificarlo en el caso de los documentos de identificación o el
número aleatorio generado por un computador.
Poder verificar la aleatorización es sumamente importante, pues
evidencia que el evaluador o ejecutor de la política no quiere o tiene
interés en beneficiar/perjudicar a algún individuo al darle el programa
o tratamiento.
!15
!
Adicionalmente cualquiera de estos métodos de aleatorización tiene
el beneficio de que la selección dada no está relacionada con la
variable de impacto. Por ejemplo, la primera letra de tu nombre no te
hace crecer más o menos rápido, ni el último número de tu cédula, y
así sucesivamente.
Pueden existir casos en los que queremos aleatorizar en más de dos
grupos. En este caso debemos encontrar la forma de aleatorizar
correctamente. Una moneda no sería útil en esta situación. Pero
pensemos por ejemplo que queremos aleatorizar en seis grupos, en
este caso un dado sería ideal para generar una asignación aleatoria.
¿Qué garantiza una selección aleatoria?

• Que de ninguna manera los individuos fueron seleccionados
de acuerdo con sus características específicas.
• Una vez se tiene identificado el grupo de beneficiarios al
cual debe llegar un programa o políticas, los individuos NO
se van a seleccionar por características adicionales: más
pobre, mayor número de hermanos para recibir la
alimentación escolar, mayor gusto por deporte, mayor juicio
para comer.
!16
!
La selección aleatoria es ideal cuando:
• Los recursos existentes para el programa son limitados, o no
se tienen las capacidades suficientes para poder atender a
todo aquellos que quieren participar del programa.
• En muchos casos los cupos para atender a la población son
más escasos que la demanda por los programas o que los
casos por atender. Entonces una selección al azar, resulta ser
la manera más justa para definir quién recibe el programa
en una primera ronda de tratamiento y quién en una ronda
posterior.
Mientras la primera ronda de implementación del programa se lleva a
cabo, los participantes que salen seleccionados hacen parte del grupo de
tratamiento en la evaluación de impacto y el grupo de personas que
tomará el programa en una segunda ronda, harán parte del grupo de
control.
En este caso la aleatorización nos ayuda a implementar el programa por
fases y a que unos individuos se beneficien primero que otros, ya sea por
restricciones logísticas, o de recursos.
Por ejemplo: Un programa que tiene cupos limitados para atender a 100
familias podría aleatorizar la entrada cuando existe una mayor demanda
por el programa, es decir, cuando más de 100 familias quisieran acceder a
sus beneficios.
!17
!
Por tanto, en una primera ronda del programa (6 meses de intervención)
se benefician 100 familias, seleccionadas al azar de la lista de inscritos. Por
esto primeros 6 meses, a estas 100 familias, las llamaremos grupo
tratamiento y a aquellas familias no seleccionadas las llamaremos grupo
de control.
Luego de llevar a cabo la medición y en una segunda ronda del programa,
las familias del grupo de control podrán ingresar y beneficiarse del
programa. En este caso se estaría dando un tratamiento de manera
escalonada.
También se puede entender la asignación aleatoria como justa, pensando
en que el tratamiento en ciertos casos puede ser algo deseable y en otros
casos no. Por ejemplo, pensemos en un tratamiento donde los individuos
están recibiendo una carta de la entidad encargada de la recolección de
impuestos y se le está requiriendo hacer una corrección en sus pagos.
Por tanto, en casos benéficos, como recibir un almuerzo, o en casos poco
benéficos, como ser requerido para revisar sus pagos, resulta justo ser
seleccionado de manera aleatoria. La razón es que no se está haciendo
discriminación por ninguna característica específica, sino que, en principio,
cualquier persona tiene exactamente la misma probabilidad de participar
o de quedar fuera.
En nuestro ejemplo y pensando en una de las condiciones que debe
cumplir un buen contrafactual, ya habíamos mencionado que escoger al
!18
!
gemelo A o al gemelo B, para ser parte del grupo de tratamiento, debería
generar exactamente el mismo resultado promedio.
Vamos a ver, a partir de nuestro ejemplo, que cuando la selección se
realiza de forma aleatoria hay mayor probabilidad de que esta condición
se cumpla…
Supongamos que los hogares tienen la posibilidad de escoger a qué
hermano (dentro de los dos gemelos) deciden enviar como participante
del programa de alimentación escolar.
Si los dos hermanos son muy parecidos, la familia va a ser indiferente en
cuanto a quién escoger.
Uno de los dos gemelos tiene ciertas condiciones que hacen que su
familia lo escoja para ir. Por ejemplo:
• Si alguno de los dos gemelos come mejor sin supervisión,
entonces la familia escogerá que él sea quien vaya al
programa de alimentación escolar.
• Si la alimentación del programa es más nutritiva que la
consumen en la casa, entonces los padres escogerían para
participar al niño con menor estatura: “quien más lo
necesita”.
Podríamos enumerar varios ejemplos de cómo los hogares pueden
racionalizar y tomar una decisión según más les convenga. Lo importante
es entender que, si la selección de participación a un programa se hace de
acuerdo con una característica determinada, entonces el resultado de la
!19
!
evaluación no será CAUSAL, es decir que cualquier diferencia encontrada
NO corresponderá exclusivamente al tratamiento.
La razón es que, si la selección determina que solo un tipo específico de
personas participa en el programa, ya no estamos construyendo grupos
similares, sino que hay una diferencia preexistente entre ellos (unos
participan siempre porque son más disciplinados, o participan siempre
porque son los más pequeños).
De esta forma, cuando se compara el crecimiento de ambos grupos, se
observarán diferencias que no podrán ser atribuidas al programa
únicamente, sino que se deberán “quizás” en parte al programa y
“quizás” en parte a que ya eran grupos con diferentes características y
seguramente, con diferente potencial de crecimiento.
Por lo tanto, al comparar grupos diferentes, el sesgo de selección impide
que la diferencia entre grupos pueda ser interpretada como el impacto
real de esta intervención, para ser extrapolada para una población
general.
Analicemos detalladamente cómo sería el resultado de la evaluación si
escogemos a los niños para el tratamiento de acuerdo con las
características antes mencionadas. Es decir que los hogares seleccionan al
niño de la manera en que más les convenga:
• En el primer caso, pensemos que los hogares seleccionan al niño
que no requiere de supervisión para comer bien. Dentro de un
grupo aleatorio de niños, van a existir dos tipos de niños: algunos
!20
!
que sin supervisión comerán todo y otros que sin supervisión no
comerán todo (o comerían cosas menos nutritivas). Otra manera
de verlo es que los niños que sus padres seleccionaron para
recibir el almuerzo en la escuela comen todo el plato y los que se
quedan almorzando en sus casas solo comen la mitad del plato,
es de esperar entonces, que cuando la selección ocurre de esta
manera estimamos un impacto del programa de alimentación
escolar, en promedio, más alto solo porque los niños
seleccionados por naturaleza comen más, no porque el programa
los alimente mejor.
• En el segundo caso, pensemos que los hogares seleccionan al
niño que tiene menor estatura; supongamos que la diferencia en
estatura inicial solo se debe a que este gemelo tiene un menor
gusto por hacer actividad física y esto resulta importante por lo
que el ejercicio y la comida son complementarios para tener un
mejor desarrollo.
Dentro de un grupo aleatorio de niños, van a existir los dos tipos de niños:
algunos que les gusta hacer mucho deporte y otros a los que no les gusta
tanto hacer deporte (y por tanto crecen menos). Todo lo anterior
suponiendo que la actividad física y la alimentación son complementarios
para lograr un mayor crecimiento.
Los niños que participan, al hacer menos actividad física, crecerán menos,
por lo que nuestro cálculo nos estará arrojando un impacto promedio
!21
!
menor. Sin embargo, este valor se deberá en parte a la selección (niños
menos activos) y no necesariamente al programa.
Claramente, los efectos calculados en casos donde los grupos tienen
diferencias preexistentes no se pueden entender como “el efecto
promedio” verdadero de un programa.
Este efecto encontrado incorpora, por una parte, una diferencia por ciertas
características iniciales o preexistentes entre los dos grupos, y, por otra
parte, el efecto verdadero del programa.
Dentro de nuestro ejemplo, en el primer caso, el efecto del programa (o
del tratamiento) es calculado utilizando un grupo de beneficiarios que
come muy bien, por tanto, un programa de nutrición pareciera ser más
efectivo que lo que resultaría para un grupo seleccionado aleatoriamente.
En el segundo caso, el efecto del programa o tratamiento es para un
grupo de beneficiarios que no hace deporte, actividad complementaria a
la nutrición, por lo tanto, el programa resulta menos efectivo que si se
hubiera seleccionado un grupo de beneficiarios de manera aleatoria.
En ambos casos los estimativos de los efectos del programa están errados
y no pueden ser usados para hacer, rediseñar o cambiar una política cuyo
objetivo es impactar a la población general.
Ahora es más fácil entender, por qué las características del grupo
tratamiento y control deben ser idénticas para poder tener una evaluación
causal.
!22
!
El problema que planteamos anteriormente se conoce como un problema
de selección. Cuando las personas se autoseleccionan a participar de
acuerdo con sus características, ellas ya son diferentes a las que no
aplicaron o no recibieron el programa. Y, por lo tanto, cualquier diferencia
de desempeño entre ellas, puede ser atribuida a la diferencia preexistente
en estas características y no al programa que se quiere evaluar. Por esta
razón, tanto el tratamiento como el control deben ser escogidos de
manera aleatoria.
La metodología de evaluación de impacto por excelencia es un
experimento con selección aleatoria. En casos en que llegue a ser difícil
de implementar existen otras metodologías disponibles. Estas
metodologías alternativas pueden tener mayor factibilidad de ser
implementadas y pueden arrojar resultados de calidad valiosos para
aprender sobre las políticas o programas evaluados.
2.4.- Modelo analítico para calcular la magnitud del impacto.

Una pregunta que nos resta por contestar es: ¿Cómo estimamos o
cuantificamos el impacto de un experimento aleatorio?
Hemos dado detalle de qué condiciones debe cumplir el experimento en
términos de la selección de dos grupos, uno tratamiento y otro control,
también sabemos que esta selección debe ser aleatoria para poder tener
grupos “idénticos” antes de la intervención. Pero y todo esto … ¿cómo lo
usamos?
!23
!
Tenemos un indicador de resultado sobre el cual queremos evaluar un
programa. Si volvemos a nuestro ejemplo anterior, el indicador de
resultado sería la estatura, el programa sería el de alimentación escolar.
Entonces el impacto lo calculamos teniendo en cuenta cuál es el resultado
promedio del grupo que recibió el tratamiento, menos el resultado
promedio del grupo que no recibió tratamiento.
Este último grupo nos indica, cuánto hubiera crecido un niño sin el
tratamiento y adicionalmente tiene en cuenta condiciones especiales que
ocurren al tiempo con la intervención (todos los otros factores que
debemos aislar), por esta razón es que descontamos este crecimiento para
poder encontrar el impacto atribuible exclusivamente al programa (o al
tratamiento).
Si utilizamos el gráfico A como nuestro resultado dado. Encontramos que
tanto los niños del grupo de tratamiento como los del grupo de control,
crecieron entre 2016 y 2018.
Como habíamos mencionado anteriormente, los niños beneficiarios, en
promedio, crecieron 10 cm. Esto se debe a que inician con una estatura
promedio de 120 cms en 2016, y luego de dos años, en 2018 llegan a
medir 130 cms. Por su parte, los niños del grupo de control crecieron 8
cms en promedio, debido a que inician con una estatura promedio de 120
cms (igual a la de los niños del grupo de tratamiento), y dos años después
miden en promedio 128 cms.
!24
!
Por lo tanto, podemos concluir que en ausencia del programa el
crecimiento sería de 8 cm y con el programa de alimentación escolar el
crecimiento sería de 10 cms, lo que quiere decir que el programa tiene un
resultado positivo de 2 cm, en promedio, en la estatura de los niños que
participaron con respecto a los niños del grupo de control.
Conclusiones.
• El módulo explica cómo calcular de una manera “limpia” el impacto
exclusivo de un programa. En principio, quisiéramos ver al mismo
individuo con y sin la intervención, pero esto es imposible.
• Debemos construir un buen individuo “clon” que nos sirva como
contrafactual/control de este beneficiario. Es decir, debe ser
idéntico en todas sus características a excepción de la recepción
del programa.
• Como tener clones de individuos es generalmente imposible, lo
que hacemos es construir grupos y clones de estos grupos, a los
cuales conocemos como tratamiento y control respectivamente.
• Siempre es necesario tener un contrafactual cuando se piensa en
evaluación de impacto.
• No cualquier grupo de comparación es adecuado. Si los grupos
que estamos comparando difieren de forma sistemática (unos son
más proactivos que otros, o más interesados o mejor alimentados),
!25
!
los resultados de ambos grupos diferirán de forma sistemática
también, incluso si no hay programa de por medio.
• Es importante, usar técnicas adecuadas, como la aleatorización. La
aleatorización de la entrada al tratamiento resulta ser la manera más
justa de asignar los individuos a cada uno de los grupos de estudio.
• Una de las ventajas del experimento aleatorio controlado, es que
brinda la posibilidad de llevar a cabo una evaluación causal sin
tener problemas de sesgo de selección (no existe la autoselección):
La decisión de cuál individuo pertenece al grupo de tratamiento y
cuál al control no depende de ninguna característica.
• Todos los individuos del estudio son asignados a cada grupo de
manera aleatoria o al azar. Por lo tanto, sus características no deben
estar relacionadas con su pertenencia al grupo.
El impacto, en su cálculo más simple y condicional que estamos

comparando grupos similares (ex-ante), se puede obtener como la
diferencia de medias para la variable de interés entre el grupo que
participó en el programa y el grupo que no participó.
!26
!
2018
Teoría de Cambio.
ÍNDICE
III. Teoría de Cambio.
3.1.- Teoría de cambio y su utilidad. (2)
3.2.- La teoría de cambio en la práctica. (8)
3.3.- Oportunidades de aprendizaje que surgen a lo largo de la

cadena causal. (41)
3.4.- Conclusiones. (58)
!1
!
3.1.- Teoría de cambio y su utilidad.
¿Qué es?
La teoría de cambio es una herramienta metodológica en donde
construimos de manera detallada la ruta que un programa sigue para
lograr un cambio o una solución a la necesidad de la población
objetivo.
La teoría de cambio también la podemos definir como una guía que
nos indica un camino hacia el destino deseado (resultados intermedio
e impactos) y cómo llegamos a él (intervención y productos).
Para poder tener una teoría de cambio completa es importante hacer
un análisis profundo del problema y la política (o programa) que se va
a llevar a cabo. En otras palabras, debemos entender completamente
el contexto, condiciones o entorno donde se aplica la política.
Dentro de este análisis donde se construye la cadena causal, se
trabajan e identifican los siguientes pasos:
Necesidades: las entendemos como aquellos problemas que afronta
una población determinada y que pueden ser modificadas a través de
una intervención.
Intervención o programa: Es aquella actividad que se planea para
lograr atender la necesidad planteada.
!2
!
Productos: son aquellos bienes o servicios que se proveen de manera
directa durante la implementación del programa.
Resultados intermedio: es el cambio que logra la intervención a través
del uso de los productos.
Impactos: es el resultado sobre un indicador final y puntual en el cual
se quiere incidir para reducir los problemas o necesidades de la
población. También se pueden plantear posibles impactos indirectos
de la intervención.
Cuando tenemos identificados cada uno de los componentes de esta
ruta, podemos entender cómo y por qué el programa funcionaría. En
ocasiones asumimos que los productos son útiles para resolver
diversas necesidades de la población, pero esto puede no ser
completamente cierto. Para que una intervención logre impactar los
resultados a través de la política, es necesario que ciertas condiciones
se cumplan.
Para aclarar un poco más esta idea, pensemos en un nuestro ejemplo
previo sobre la entrega de computadores y los diferentes
componentes de la cadena causal:
Necesidad: Mejorar el rendimiento escolar.
Intervención: Entrega de computadores en escuelas rurales
Producto: cada niño recibe un portátil.
!3
!
Resultado intermedio: apropiación y uso del computador como
herramienta de estudio.
Impacto: mejores notas en pruebas en diferentes áreas (matemáticas,
inglés, ciencias, español).
Hasta este momento todo suena muy bien, pero ¿qué pasa si dentro
de la intervención no consideramos que el acceso a servicio de luz e
internet es muy limitado en los hogares rurales?
Podemos haber hecho entrega completa de los computadores, pero
si estos no pueden usarse por falta de luz o conexión a internet, es
imposible que logremos el resultado intermedio esperado
(apropiación y uso del computador) y no vamos a encontrar el
impacto que esperábamos sobre los resultados escolares de los niños
beneficiarios de esta política. Por esto, como lo mencionamos
anteriormente, la teoría de cambio es útil para organizar la política y
pensar en todos los posibles mecanismos y canales que pueden llegar
a incidir para llegar a los impactos esperados.
En la ciencia sucede algo similar, cuando tenemos una hipótesis en
principio conocemos la intervención y afirmamos que esta impacta el
resultado de una determinada manera. Pero no conocemos los
mecanismos por los cuales esto ocurre, o cómo estos mecanismos
pueden ser potencializados o aminorados para llegar a un resultado
final. Por lo tanto, hasta no haber realizado un experimento para
probar nuestra hipótesis, no podríamos decir que esta es cierta.
!4
!
De igual forma, la teoría de cambio también ayuda cuando sabemos
que existe una necesidad y queremos implementar un programa para
atenderla. Un programa efectivo en resolver el problema inicial, es
uno que atiende las causas más importantes del problema, y que se
diseña atendiendo el contexto donde se da el problema y hasta
donde sea posible, todos los obstáculos.
Si la necesidad es aumentar el rendimiento escolar, entonces
podríamos pensar que hay varios factores que afectan el rendimiento:
la calidad docente, la infraestructura física, la calidad del currículo
educativo, el acceso a la tecnología, entre otros. A su vez, cada uno
de estos factores tiene causantes. Podríamos decir, por ejemplo, que
hay bajo acceso a la tecnología porque no hay disponibilidad de
equipos de computación, por lo que un programa puede ser la
compra de computadoras portátiles. De esta forma, estaríamos
resolviendo (teóricamente) una de las posibles causas del bajo
rendimiento. Sin embargo, la teoría de cambio también nos ha
ayudado a identificar otros determinantes, y a través de ella podemos
determinar si el factor más importante es el bajo acceso a tecnología
o hay otras cosas que debemos atender primero.
Vamos a ver en este módulo en qué consiste la teoría de cambio,
cómo se hace y cómo contribuye a la realización de una evaluación de
impacto.
!5
!
¿Para qué sirve?
Muchas instituciones, públicas y privadas, implementan programas
para mejorar el bienestar de la sociedad. Algunos de esos programas
son efectivos en lograr sus objetivos, pero también es común que
algunos otros no puedan generar los resultados esperados.
Por lo tanto la teoría de cambio nos sirve para:
• Entender cuál es la necesidad específica que vamos a abordar con
un determinado programa (se debe identificar un problema puntual
a trabajar).
• Ordenar las ideas sobre los componentes de la política, y cómo se
van a combinar para generar los resultados esperados.
• Plantearnos resultados intermedios de mediano y largo plazo, y
construir sus indicadores respectivos.
• Facilitar la construcción de múltiples indicadores de impacto tanto
de corto, como de largo plazo.
• Restringirse a una sola intervención con productos determinados.
• Identificar a través de qué canales esperamos impactar los
indicadores de resultados intermedios y de impacto.
• Asegurarnos de conocer y entender cuáles son los requerimientos
para que la política sea efectiva, y así, lograr el cambio deseado.
!6
!
¿Qué preguntas responde?
La teoría de cambio permite responder si el diseño de un programa
es el correcto, si la cantidad de productos provistos logra un
determinado resultado intermedio y por tanto un impacto final.
También ayuda a responder cuáles son los determinantes de un
problema, y cómo esos determinantes se conectan en toda la cadena
causal e incluso determinan hasta cierto punto, la efectividad de
alguna acción.
La teoría de cambio nos permite responder:
Si las diferentes acciones, intervenciones o actividades que se realizan
en el marco del programa nos pueden ayudar a atender la necesidad
de la población.
Cuáles son los supuestos y condiciones que aseguran que la
intervención tiene un efecto sobre los resultados intermedios y los
impactos que se buscan.
Reconoce los resultados inmediatos, mecanismos o canales a través
de los cuales se esperaría que el programa funcione y se traduzca en
mejoras de bienestar.
Identifica los resultados finales esperados para mejorar el bienestar de
la población.
Cuáles son los diferentes determinantes de un problema.
!7
!
Cuáles son las posibles acciones que se pueden realizar para atender
la necesidad identificada.
Solo a través de la evaluación de impacto es posible verificar que la
ruta propuesta dentro de la teoría de cambio o cadena de valor se
cumple y en qué magnitud.
3.2.- La teoría de cambio en la práctica.

En la práctica, el proceso de hacer la teoría de cambio puede
depender de si ya hay una intervención claramente definida o de si
más bien partimos de un problema que hemos identificado y
queremos determinar un programa (o intervención) para atenderlo.
En realidad, son dos caras de una misma moneda, lo importante es
conocer cuál es nuestro punto de partida.
En las zonas más rurales y dispersas de los países en Latinoamérica, el
rendimiento de los estudiantes suele ser menor que el rendimiento en
las zonas más urbanas.
Esto se puede observar claramente en los resultados de pruebas
estandarizadas. Este es un problema común que enfrentan nuestros
países y naturalmente, esta brecha genera persistencia en la
desigualdad que se tiene en las posibilidades de empleo, de ingresos
y de calidad de vida futura de las personas que nacen y crecen en el
área rural.
!8
!
Una política que se podría utilizar para tratar de reducir la brecha en
rendimiento escolar, es la de atraer a docentes mejor preparados a las
zonas rurales para aumentar la calidad de la educación que allí se
provee.
Por ejemplo, podrían utilizarse incentivos monetarios de forma que un
docente que decida ir a trabajar al área rural por un tiempo
determinado reciba mensualmente un bono equivalente, por
ejemplo, al 15% de su salario básico.
Sin embargo, surgen varias preguntas interesantes cuando uno piensa
en el posible impacto de esta política:
¿Hasta qué punto el rendimiento escolar está determinado por la
calidad de los docentes? ¿Hay otros determinantes que son
complementarios a la calidad de los docentes, y por tanto también
deberían atenderse? Ellos pueden ser una infraestructura de
aprendizaje adecuada, acceso a tecnología y a la información.
¿Qué tipo de docentes atraemos con un bono de 15%: a los de
mayor calidad, a docentes de calidad intermedia o a los de calidad
más baja?
¿Atraeríamos a docentes mejor preparados con un incentivo
monetario o más bien atraeríamos a los que tienen menos (y peores)
alternativas en las zonas urbanas? Esto va a depender de cómo se
entrega el cupo con la bonificación, ¿Se evalúa la calidad y/o
experiencia del docente que aplica a esta posición?
!9
!
¿Es suficiente un incentivo monetario para atraer docentes o
necesitamos modificar otras características del área rural para hacerla
más atractiva?
¿Es suficiente un bono de 15% o por cuánto tiempo se debe dar en
incentivo adicional? El bono debe más que compensar los costos de
lo que implica para el docente movilizarse a la zona rural.
¿Y si en vez de atraer a mejores docentes, hacemos programas de
formación para docentes que ya están en el área rural?
Desde luego, al momento de implementar la política de incentivos
monetarios para atraer a mejores docentes debemos pensar en todas
estas preguntas (y muchas más).
La teoría de cambio ayuda a responder estas preguntas de una forma
ordenada y sistemática, que además facilita identificar cuándo y
dónde hay posibilidad de mejorar nuestra intervención para garantizar
su efectividad.
En otras ocasiones, tenemos la oportunidad de participar en el ciclo
de política mucho antes y podemos incidir en la selección de la
política que se va a implementar (en este caso, para disminuir la
brecha en rendimiento entre zonas rurales y urbanas). Aquí, la
pregunta relevante es entonces: de todas las alternativas de políticas
¿cuál implementamos? ¿el bono de 15%, o es más bien un subsidio
para la formación de docentes que ya están en el área rural? o ¿qué
otras opciones hay?
!10
!
Para responder a esta pregunta se debe entender bien el problema al
que nos enfrentamos, el contexto, los actores que participan y los
otros determinantes. La teoría de cambio ayuda, en este caso, a
fragmentar el problema en pequeñas partes y ayuda a pensar en
cómo distintas acciones nos acercan o nos alejan de nuestro objetivo
o necesidad planteada inicialmente.
Tanto si partimos de la necesidad de entender la cadena causal de un
programa, como si partimos de un problema y de la necesidad de
identificar una posible solución, vemos que el objetivo de la teoría de
cambio es el mismo: construir la cadena causal que va desde una
necesidad hasta un posible impacto dada una intervención de política
pública.
Sin embargo, la forma en la que se realiza el proceso de construcción
de la cadena de valor es diferente, ya que en un caso partimos del
problema e identificamos posibles soluciones al mismo tiempo; y en
el otro, partimos de una solución e identificamos si esa actividad nos
ayuda a resolver la necesidad.
Cuando la intervención está definida.

Dadas las brechas entre zonas urbanas y rurales en el rendimiento
escolar, el Ministerio de Educación ha decidido otorgar un bono
mensual del 15% del salario básico a aquellos docentes que den
!11
!
clases en zonas rurales. Aquí tenemos una necesidad y un programa
a través del cual se busca resolverlo.
Partimos de la definición detallada del problema. Una vez hemos

hecho esto, pensamos en nuestro programa, en sus insumos y
actividades, y en cómo a través de productos y resultados
intermedios y finales, el programa genera impactos que resuelven (o
no) la necesidad planteado.
Veamos la necesidad antes expuesta un poco más de cerca.
La necesidad: El rendimiento de los estudiantes en las zonas rurales es
inferior al de estudiantes en zonas urbanas.
Esta necesidad puede estar causada por factores como:
• Baja oferta de docentes calificados o con experiencia en las

zonas rurales.
• Baja preparación para sobrellevar contextos de enseñanza
retadores.
• Bajo acceso a tecnologías de la información.
• Baja calidad gerencial de los establecimientos educativos en
el sector rural.
• Baja asistencia escolar por distancias entre lugar de
residencia y establecimiento educativo.
!12
!
Una vez hemos definido la necesidad e identificado algunas causas,
debemos, en la medida de lo posible, cuantificarlos para tener una
idea de cuán graves son las necesidades, y sobre todo, para poder
saber posteriormente hasta qué punto hemos logrado atenderlas con
nuestra intervención. Veamos:
Necesidad Medida
El rendimiento de los estudiantes en zonas Diferencia en puntaje de pruebas

rurales es inferior al de estudiantes en estandarizadas entre la zona rural y la
zonas urbanas urbana es de 1 punto sobre una escala de
10, en promedio, en matemáticas y
lenguaje.
Baja oferta de docentes calificados en las En las zonas rurales, 25% de los docentes
zonas rurales. tiene una especialización mientras que
este número es de 50% en las zonas
urbanas
Baja preparación para sobrellevar En las zonas rurales 5% de los niños

contextos de enseñanza retadores. repiten grado mientras que en las zonas
urbanas, el 2% de los niños repite
Bajo acceso a tecnologías de la El acceso a internet en los municipios más

información. rurales del país es 30%, mientras que en
las áreas urbanas es cercano al 100%.
!13
!
Baja calidad gerencial de los En el área rural, 15% de los rectores tiene
establecimientos educativos. una maestría en gerencia, versus 45% en el
área urbana.
Más adelante, vamos a pensar sobre la construcción de indicadores.

Por ahora, es suficiente con indicar que a través de los mismos
podemos describir el problema, contextualizarlo, y fijar un parámetro
respecto al cual podemos medir el éxito de nuestra intervención.
La intervención.
Una vez descrito el problema, pensamos en la intervención. Esto
implica planificar los insumos que se requieren, así como en las
actividades concretas que debemos llevar a cabo en el marco de la
intervención:
Intervención
Política o programa que se implementará para Otorgar un bono mensual del 15% del salario
resolver la necesidad planteada originalmente básico a aquellos docentes que decidan ir a
trabajar a áreas rurales
!14
!
Insumos: Recursos financieros para otorgar el bono.
Conjunto de recursos financieros, físicos, Por ejemplo, si en promedio el 15% del salario
humanos y logísticos que se requieren para básico es aproximadamente USD 90 y el bono
realizar la intervención quiere otorgarse a 20.000 docentes, se
necesita el equivalente a casi USD 2 millones.
Datos: información precisa sobre:

• Ubicación de colegios
• Ubicación de docentes
• Nómina docente
Actividad:
Acciones que componen la intervención 1. Definir qué se considera como
como la coordinación con el pago de área rural
nómina mensual para incluir el bono. 2. Definir condiciones de
otorgamiento del bono (por
ejemplo tiempo de permanencia)
3. Difundir la existencia del bono en
todo el sistema de enseñanza
pública
4. Notificar a quienes cumplan con
las condiciones
5. Implementar un sistema para
verificar periódicamente que los
docentes continúan en el área rural
6. Empezar a desembolsar el bono a
los seleccionados
!15
!
En esta parte de la teoría de cambio se busca describir la intervención con
el mayor detalle posible con el objetivo de:
• Tener muy claros todos los elementos y acciones que se
requieren para implementar el programa.
• Anticiparnos a los posibles obstáculos que pudiéramos
encontrar en el proceso de implementación. En nuestro
ejemplo:
▪ ¿Existen los recursos necesarios para otorgar el bono?
▪ ¿Todos los docentes están enterados de la existencia del
bono y por lo tanto pueden actuar en consecuencia?
▪ ¿Estamos focalizando correctamente el bono?
▪ ¿Podemos realmente verificar que los docentes
beneficiados están laborando en el área rural?
El éxito de la política depende crucialmente de una buena

implementación. La implementación a su vez depende de que se tengan
todos los insumos y que todas las actividades contempladas por la política
se lleven a cabo correctamente. El primer paso es identificar insumos y
actividades, y luego viene un trabajo importante de monitoreo y ajuste en
el funcionamiento de la política. Los implementadores deben entonces
cuantificar, al igual que se hizo para la definición del problema:
!16
!
• Cuál es la necesidad de insumos, cuántos de esos insumos
y en qué medida están disponibles.
• Hasta qué punto cada una de las actividades se están
realizando de acuerdo a lo planificado.
En nuestro ejemplo sobre bonos a docentes en las zonas rurales:
Insumos ● Recursos financieros

○ Necesidad: USD 2 millones por 10 años.
○ Disponibilidad: en total hay 10 millones disponibles. Esto equivale
a implementar el programa por 5 años. No se espera que aumente
el número de docentes que requerirán el bono en los próximos 5
años.
● Datos
○ Nómina docente para identificar en qué establecimiento está
trabajando cada docente y cuál es su salario básico.
!17
!
Actividades 1. Se definió que una zona rural es aquella ubicada al menos a 30
kilómetros de una capital de municipio.
2. El bono se otorgará por un máximo de 10 años, el docente en ese
tiempo debe permanecer en uno o en varios colegios rurales.
3. Todas las oficinas regionales del Ministerio de Educación realizaron
charlas presenciales en los colegios rurales focalizados, entregando
información sobre el bono y el proceso de otorgamiento,
incluyendo fechas de pago y montos.
4. El Ministerio colgó en su página web la información, la envió por
correo electrónico a todos los establecimientos educativos y la
publicó en todos los principales medios nacionales y regionales
del país.
5. Se realizó la selección escogiendo a los primeros 20.000 docentes
del área rural que se registraron.
6. Se empezó a desembolsar el bono con periodicidad mensual.
Adicionalmente, para cada uno de los aspectos mencionados

anteriormente, surgen múltiples preguntas de implementación que
deben atenderse para garantizar un programa exitoso. Algunos
ejemplos:
Si aplican más de 20.000 docentes, ¿se otorga a los que apliquen
primero o definimos otros criterios?
¿Y no sería mejor otorgar el bono a todos los docentes de colegios
identificados como rurales? ¿Se tienen los recursos suficientes?
!18
!
¿Tenemos una base de datos con información georreferenciada sobre
la ubicación de los colegios? ¿Podemos verificar que están a más de
30 kilómetros de distancia de la capital municipal?
¿Bajo qué figura legal se manejarán los recursos para el bono? ¿qué
instancia es responsable de los recursos?
¿Qué pasa con los docentes que se van incorporando a la nómina,
aplican o no al bono?
Desde luego, será muy difícil que podamos anticipar todos los
posibles obstáculos, pero las políticas más exitosas dependen, en
gran medida, de la capacidad para identificar y mitigar esos
obstáculos de manera anticipada.
Los productos:
Ahora debemos pensar en lo que ocurre inmediatamente después
que hemos llevado a cabo todas las actividades planificadas: ¿qué
observamos? ¿qué bienes o servicios concretos se han generado
gracias a la intervención?
Es muy importante que sepamos distinguir entre el producto
inmediato de nuestra política y los impactos generados por la misma.
El producto de una política es algo que siempre existe dado que se
han realizado actividades específicas, mientras que el impacto habla
de la posibilidad de que los productos creados generen cambios en la
realidad. Por lo tanto, una política siempre que se implemente
!19
!
correctamente genera “un producto”, pero ese producto no
necesariamente genera un impacto.
Los productos son por lo tanto una consecuencia natural de las
intervenciones, y en el marco de la teoría de cambio, lo que
buscamos es cuantificar hasta qué punto esos bienes y servicios se
produjeron. En algunos casos, será difícil definir los productos de
nuestra intervención porque se mezclan con las actividades mismas.
Por ejemplo, cuando la intervención es un entrenamiento, el producto
es el número de personas que recibieron el entrenamiento. Sin
embargo, cuando la actividad es la construcción de una carretera, la
actividad se mezcla ligeramente con el producto: cantidad de
kilómetros construidos.
En todo caso, pensar en los productos ayuda a identificar qué
cambios concretos deberíamos observar luego de realizar las
actividades, lo que facilita entender cómo es que nuestras acciones
pueden, potencialmente, generar los cambios requeridos para
resolver el problema que planteamos.
En esta fase de la teoría de cambio, queremos por lo tanto identificar
los productos y definir métricas para cuantificar los cambios
generados por la intervención. En nuestro ejemplo, podríamos
esperar que se generen los siguientes productos:
Número de docentes que están recibiendo el bono en un año
determinado es 20.000.
!20
!
Si encontráramos que el número de docentes que está recibiendo el
bono es muy pequeño (respecto a lo esperado), entonces hay un
problema de implementación y difícilmente podemos esperar que
nuestra política ayude a resolver la brecha de rendimiento escolar
entre zonas rurales y urbanas. Más adelante, veremos cómo
problemas a lo largo de la cadena causal afectan la probabilidad de
que nuestra intervención tenga algún impacto.
Resultados intermedios.
Aquí queremos definir y cuantificar los posibles cambios que son
generados por los productos en el corto plazo. Dependiendo del
problema que hayamos definido anteriormente, es posible que estos
resultados ya se refieran a los impactos que queremos generar con
nuestra intervención.
Por ejemplo, si enviamos comunicaciones electrónicas a
contribuyentes con deudas pendientes, podemos definir como
producto la entrega de las comunicaciones y como resultado el pago
realizado por parte del contribuyente. En este ejemplo no hay muchas
etapas intermedias: el contribuyente recibe la comunicación, es
persuadido o no por el mensaje, y en función de eso decide pagar o
no. En otros casos, como en nuestro ejemplo de bonos para la
movilización de docentes, sí podemos pensar en varias cosas que
!21
!
tienen que suceder a partir del otorgamiento del bono para lograr
atender la necesidad planteada.
En esta etapa de la teoría de cambio, el proceso consiste en visualizar
los cambios que esperamos vayan ocurriendo por el camino a partir
de la actividad, y en definir qué variables podrían cambiar gracias a la
intervención, en qué sentido, y hasta donde se pueda, en qué
magnitud. Una forma de entender los resultados intermedios es
pensar en los cambios en conocimientos, actitudes, capacidades y
comportamientos que resultan de la intervención.
En nuestro ejemplo, tenemos que un número concreto de docentes
está recibiendo el bono en un año determinado. Sin embargo, no nos
interesa únicamente que los docentes reciban el bono, queremos que
el bono genere movilización de docentes de mejor calidad hacia las
zonas más necesitadas. Por lo tanto, algunos resultados intermedios
que nos podrían interesar en este caso son:
• Número de docentes que se movilizaron de zonas urbanas a
las zonas rurales focalizadas como consecuencia del bono.
• Número de docentes con estudios de postgrado, o
experiencia mayor a 10 años, que se movilizaron a zonas
rurales como consecuencia del bono.
Notemos que estos resultados intermedios se definen con algunas de
las mismas variables que utilizamos para definir el problema
originalmente. En este caso, podríamos medir el impacto del bono
!22
!
sobre la probabilidad de movilizar a los docentes a zonas rurales.
Adicionalmente, es importante tener en cuenta que para lograr el
objetivo final de reducir la brecha de rendimiento es vital que esta
parte de la cadena se cumpla: si no mejora la calidad docente, es
difícil esperar que mejore el rendimiento estudiantil.
Impactos finales.
Estos se refieren al último eslabón de la cadena causal: ¿en qué
medida se resuelve la necesidad planteada inicialmente gracias al
programa implementado? En esta parte, estaríamos tratando de
cuantificar qué cambios esperamos que ocurran una vez se ha
implementado la actividad, hay bienes o servicios producidos y
posiblemente se han producido algunos resultados intermedios. Los
resultados finales deberían definirse usando las mismas variables que
se utilizaron para describir el problema inicial.
En nuestro ejemplo, definimos el problema como una brecha rural-
urbana en el rendimiento escolar. Por lo tanto, los impactos finales de
nuestra cadena causal deben definirse como el cambio observado en
la brecha de rendimiento escolar posterior a la implementación del
programa.
En particular, deberíamos esperar que la brecha disminuya. Debemos
verificar que la reducción en la brecha está dada por mejoras en el
rendimiento escolar de las áreas rurales y no solo por un posible
!23
!
empeoramiento del rendimiento en las zonas urbanas. Estos dos
efectos se pueden estar presentando simultáneamente por lo que el
programa busca trasladar docentes de mejor calidad de las zonas
urbanas a las zonas rurales.
Hemos construido por lo tanto una cadena que parte de la
descripción de un problema, y que va detallando cómo una
intervención se implementa y genera bienes y servicios que cambian
los comportamientos, conocimientos, actitudes y/o capacidades que
eventualmente contribuyen a resolver el problema o la necesidad de
política identificada.
!24
!
En resumen, en nuestro ejemplo:
Necesidad Insumos Actividades Productos Resultados Impactos finales

intermedios
El -Recursos -Definir Número de -Aumento en el Disminución de la

rendimiento financieros características docentes número de brecha de
de los -Datos de zona rural que están docentes que rendimiento escolar
estudiantes recibiendo se movilizaron rural-urbana
en zonas -Definir el bono al área rural
rurales es condiciones -Aumento del
inferior al de para recibir el número de
estudiantes bono docentes con
en zonas maestría que se
urbanas -Difundir movilizaron al
existencia del área rural
bono y sus
condiciones
-Seleccionar y
difundir
nombres de los
docentes que
recibirán el
bono
-Desembolsar
recursos
!25
!
El rol de los supuestos:
A lo largo del ciclo de la política pública, estamos suponiendo que los
insumos de alguna manera siempre derivan en ciertas actividades,
que las actividades siempre se convierten en productos y los
productos en resultados intermedios y finalmente, en impactos.
Ocurre sin embargo, que en cada una de las transiciones estamos
haciendo supuestos sobre elementos que afectan la cadena causal y
que no controlamos por completo. Es recomendable que esté
siempre muy claro qué supuestos se están haciendo y qué tan
plausibles son:
Es clave identificar qué es realmente un supuesto (y por lo tanto no
podemos modificar) y qué es un insumo o actividad que requerimos
para implementar adecuadamente y debemos contemplar en la
intervención e incluir en la cadena causal.
Al momento de analizar los impactos, conviene estar consciente de
qué cosas afectan la cadena causal que están fuera de nuestro
control.
En nuestro ejemplo, algunos supuestos que podríamos hacer son:
• Hay recursos para implementar la política por mínimo 5 años.
Si solo implementáramos la política por un año, en el
mediano plazo no estaríamos resolviendo el problema.
!26
!
• Hay recursos para otorgar el bono a un número lo
suficientemente grande de docentes en áreas rurales.
• Los docentes se van a sentir atraídos por el monto del bono
ofrecido: si el bono no atrae docentes, entonces la política no
será efectiva.
• El bono atrae a los docentes que buscamos movilizar a las
zonas rurales: los docentes con estudios de postgrado o
mayor experiencia.
Docentes de mejor calidad ayudan a aumentar el aprendizaje y el
rendimiento de los estudiantes. Lo más seguro es que el rendimiento
dependa de muchos factores, uno de los cuales es la calidad de los
docentes. Sin embargo, si la importancia de los demás factores es
mayor, entonces lograremos cambiar la calidad docente, pero quizás
no el rendimiento. Por ejemplo, si ocurre que los niños van mal
alimentados a clase, el solo hecho de tener mejores docentes pudiera
no impactar su rendimiento, debido a que tienen muy baja
concentración.
La teoría de cambio y la inexistencia de impactos (o los impactos

inesperados)
A veces los programas no tienen los impactos que se esperaban, o

tienen impactos que no se había previsto. Un buen ejercicio de teoría
!27
!
de cambio, puede ayudar a reflexionar sobre qué causa estos
resultados.
Insumos Actividades Productos Resultados Resultados Interpretación

intermedios finales
X X X X X Falla en implementación
! ! X X X Falla en
implementación:
adherencia
! ! ! X X Falla en la teoría (link

causal temprano)
! ! ! ! X Falla en la teoría (link

causal tardío)
! ! ! ! ! Política exitosa y teoría

de cambio correcta
La reflexión anterior nos permite identificar qué parte de la cadena

causal se está rompiendo o donde se presentan los cuellos de botella
de la política. También, ayuda a resultar algunas cosas que deben
tenerse en cuenta a la hora de implementar y evaluar un programa:
!28
!
• Es importante planear la intervención y pensar con antelación
en posibles obstáculos y en cómo resolverlos. Hacer la teoría
de cambio ayuda a pensar en estos obstáculos de una forma
estructurada.
• Es importante monitorear la implementación del programa y
asegurar que todas las actividades necesarias se están
realizando. Hacer la teoría de cambio con tiempo puede
ayudar en esta labor de implementación del programa.
• En la etapa de análisis de resultados, pensar en estos términos
nos ayuda a entender por qué no hubo impacto, o por qué el
impacto no fue el que esperábamos, o por qué estamos
observado impactos en variables que no habíamos
planificado. La teoría de cambio ayuda a hacer esta reflexión,
a descartar algunas causas y a identificar si hay un problema
de implementación o es un problema de la construcción
teórica que hicimos.
El caso del ejemplo del bono, supongamos que se implementa el

bono y además se diseña y realiza una evaluación de impacto rigurosa
del mismo. La evaluación arroja que la brecha de rendimiento
estudiantil en unas pruebas estandarizadas no cambió
significativamente como consecuencia del programa. En función de
nuestra teoría de cambio, ¿qué pudo haber salido mal?
!29
!
Cuando la intervención no está definida
Cuando hay un problema de política pero aún no se ha seleccionado
una intervención específica, la teoría de cambio es útil para hacer un
mapa estructurado donde podemos visualizar cuáles son las distintas
vías a través de las cuáles podría resolverse la necesidad, de forma
que podamos seleccionar una de ellas. En este caso, el proceso que
seguiremos será el inverso al descrito en la sección anterior:
partiremos de una necesidad, identificamos sus causas
secuencialmente, y seleccionamos una intervención. Es decir,
procederemos de forma jerárquica identificando primero las causas
inmediatas de la necesidad, y a partir de allí las causas indirectas. En
este camino, nos encontraremos de manera recurrente con algunos
causantes que se repiten a lo largo de la cadena causal.
La necesidad
El primer paso, al igual que antes, es describir la necesidad con la
mayor claridad posible. En nuestro ejemplo, hemos detectado que:
Diferencia en puntaje de pruebas estandarizadas entre la zona
rural y la urbana es de 1 punto sobre una escala de 10, en
promedio en matemáticas y lenguaje.
!30
!
1.Causas inmediatas:
Seguidamente, debemos pensar en cuáles son los causantes

inmediatos del problema que observamos, es decir, en aquellos
factores que de forma directa dan lugar a la existencia de una
necesidad determinada. En la medida de lo posible, debemos definir
estos causantes como sustantivos. En nuestro ejemplo, algunos
posibles causantes inmediatos son:
• Desempeño docente deficiente

• Infraestructura inadecuada
• Acceso precario a tecnologías de la información
• Habilidades gerenciales deficientes en establecimientos
educativos
• Alimentación deficiente
• Apoyo familiar de baja calidad
• Material de soporte escaso y deficiente
!31
!
Causantes inmediatos Indicadores para cuantificar o evidenciar
la existencia de los causantes
Infraestructura inadecuada Número de estudiantes por salón

Número de pupitres por estudiante
Disponibilidad de espacios para educación
física
Número de pizarrones por salón
Acceso precario a tecnologías de la Número de colegios que no tienen acceso

información a internet
Número de colegios que no tienen
laboratorio de computación
Número de días de interrupción de luz en
el establecimiento educativo.
Alimentación deficiente La fracción de niños que come tres veces

al día
Apoyo familiar de baja calidad Nivel educativo de los padres
En algunos casos, no será posible cuantificar todos los elementos por

ausencia de información. Por ejemplo, la calidad gerencial de los
establecimientos tendría que medirse con algún instrumento que
mida variables objetivas como calidad del ambiente laboral o rotación
de personal. Lo más seguro es que haya poca información para medir
variables como la calidad de gerencial o el desempeño docente. El
!32
!
desempeño generalmente se mide a través del desempeño
estudiantil, pero pocas veces se mide directamente.
Estos elementos a su vez, tienen sus causantes, que definimos aquí
como causas indirectas y que trataremos a continuación. Conviene
pensar de todas formas en la capacidad de la institución (en este caso
el Ministerio de Educación) para incidir directamente en estos factores
y en el costo de hacerlo. No necesariamente hay que hacerlo en este
punto, pero hay que tenerlo presente para decidir cuán lejos en la
cadena causal queremos ir.
2. Causas indirectas:
Las causas indirectas son aquellos factores que explican o dan lugar a
la existencia de las causas inmediatas. En este parte, por lo tanto,
partimos de los causantes inmediatos identificados en la etapa
anterior, y reflexionamos sobre todas aquellas cosas que creemos son
responsables de su existencia. Es decir, para cada causa inmediata,
repetimos el ejercicio anterior, identificando su cadena causal. Aquí,
podríamos descartar algunos elementos en los que creamos no
podemos incidir.
En el ejemplo, la política de bonificación docente se trabaja desde la
oficina de Recursos Humanos del Ministerio de Educación, y esta
puede tener poca incidencia sobre la calidad y disponibilidad de
infraestructura física de los colegios. Si este es el caso, quizás no sea
!33
!
muy relevante elaborar demasiado la cadena causal de la
infraestructura, y convenga más concentrarnos en aquellos elementos
sobre los cuales sí podemos incidir. De ser así, la infraestructura sigue
siendo un factor importante que determina el desempeño estudiantil,
pero desde el punto de vista de nuestra acción es un factor exógeno
y lo debemos trabajar como un algo dado. Lo mismo podría decirse
de la calidad del apoyo familiar y la alimentación deficiente. Vamos a
suponer para nuestra teoría de cambio que la infraestructura es la
adecuada, que los niños tienen una alimentación correcta y que la
calidad del apoyo familiar es baja.
Para las demás causas, elaboramos a su vez su propia cadena causal.
En este etapa puede ocurrir que algunos factores que identificamos
antes como responsables directos de la necesidad primaria, aparezcan
de nuevo como responsables de los causantes directos. Estos factores
que se repiten a lo largo de la cadena causal, suelen ser buenos
puntos de entradas al momento de pensar en posibles soluciones.
!34
!
Causas inmediatas Causas indirectos
Desempeño docente deficiente Bajo nivel educativo de los docentes

Bajas capacidades para laborar en
ambientes complejos (por ejemplo, con
salones multigrado)
Baja o nula actualización docente
Bajos niveles de motivación
Acceso precario a tecnologías de la Acceso limitado a internet en zonas

información remotas
Recursos escasos para actualización
tecnológica
Personal con capacidades tecnológicas
precarias
Habilidades gerenciales deficientes en Bajo nivel educativo de personal gerencial

establecimientos educativos y administrativo
Baja formación gerencial
Material de soporte escaso y deficiente Recursos escasos para adquirir material de

soporte y material existente
desactualizado
Al igual que antes, aquí también podríamos tratar de cuantificar cada

uno de los causantes. El nivel educativo de docentes y personal
directivo y administrativo es seguramente algo que podemos
cuantificar fácilmente, al igual que los cursos de actualización docente
o gerencial en los que han participado. Lo mismo podríamos hacer
!35
!
con el acceso a internet, y el tamaño de los presupuestos que se
manejan a nivel de establecimientos docentes.
Al ir avanzando en la cadena causal, vemos que algunos elementos se
repiten en varias de sus ramas. En nuestro ejemplo, podríamos
mencionar el tema presupuestario y el tema de formación y
capacidades de los docentes. Esto quiere decir que cuando
decidimos intervenir para modificar alguno de estos elementos,
encontraremos que su incidencia en la resolución de la problemática
original ocurrirá a través de varios caminos. Si decidimos que atraer a
docentes con mayor nivel educativo, estamos atrayendo seguramente
a docentes con mayor propensión a introducir la tecnología en sus
clases o con mayores capacidades para trabajar con salones
multigrados. Si más bien decidimos que los colegios deberían tener
un mayor presupuesto, entonces podríamos estar impactando el
acceso y uso de nuevas tecnologías y también un acceso más amplio
a materiales de soporte. De igual forma, directores mejor preparados
no solo influyen en una mejor gestión de los recursos económicos,
sino en una mejor gestión del personal docente y por lo tanto, en una
mayor motivación.
A partir de aquí, podríamos seguir elaborando la cadena incluyendo
más niveles de causalidad, es decir, realizando la cadena causal de
cada una de las causas, tanto inmediatas como indirectas. Por
ejemplo, podríamos pensar en qué genera el bajo nivel educativo de
los docentes:
!36
!
Baja oferta de docentes con formación profesional.
A su vez, esto pudiera estar causado por la precariedad del nivel de
vida en las zonas rurales (menor acceso a servicios de salud, vivienda
o servicios públicos en general) que es poco atractivo para los
docentes con mayor formación.
Podríamos pensar también en qué genera los bajos niveles de
motivación en los docentes:
• Salarios precarios.
• Apoyo deficiente por parte de directivos y autoridades
educativas.
Lo mismo podríamos hacer con cada uno de los elementos del cuadro
anterior. Cuando creamos que ya tenemos un panorama lo
suficientemente amplio e informativo, podríamos entonces empezar a
pensar en posibles intervenciones que atiendan algún elemento
específicamente.
Definiendo la intervención
Dada la descripción detallada de la necesidad que hemos realizado,
en este punto debemos decidir cuál de las diferentes causas
identificadas queremos atacar directamente, lo que dependerá del
nivel de competencia institucional que se tenga, de los recursos
disponibles, de cuán visible sea el problema de política pública, entre
!37
!
otras cosas. Realizar la cadena causal de esta manera debería
ayudarnos a concentrar nuestras acciones en aquellos elementos que
creamos son los más relevantes para el problema que hemos
planteado. Como vemos en nuestro ejemplo, todos los elementos son
importantes, pero hay unos más centrales que otros. El acceso a la
tecnología es importante, pero si no tenemos docentes preparados
para introducir la tecnología de forma pedagógica, en realidad, el
impacto de una intervención enfocada en este componente pudiera
ser muy bajo, por lo que concentrar nuestros recursos en garantizar
mayor acceso no tendría mucho sentido.
Vemos que la calidad de los docentes es realmente vital y está
presente en varios puntos de la cadena, entonces tiene sentido que
pensemos en algún programa para atraer a docentes con mayor
educación al área rural. En este sentido podríamos pensar en cosas
como:
• Bonos monetarios
• Becas de formación de cuarto nivel
• Subsidios para vivienda en el área rural
!38
!
!39
!
Obviamente, estos beneficios tendrían que atarse a que el docente
permanezca en el área rural. De igual forma, al pensar en la posible
efectividad de cada uno de ellos, vemos que la misma podría estar
relacionada a varios de los elementos identificados en el mapa. Podríamos
otorgar, como vimos en el ejemplo de la sección anterior, un bono
mensual del 15% del salario básico, lo que podría ayudarnos a atraer a
docentes con formación de postgrado. Sin embargo, si las condiciones de
vida local son muy precarias, o si la calidad de la gestión de los colegios
es muy deficiente, puede que este bono no sea suficiente para atraer a
mejores docentes. En este caso, vale la pregunta: ¿les damos
directamente un salario mayor o más bien facilitamos una ayuda para que
accedan a una vivienda en buenas condiciones en los lugares de
residencia rural? ¿Cuál de las dos intervenciones sería más efectiva?
Construir la cadena causal de esta manera, de adelante hacia atrás, nos
ayuda a pensar en las conexiones que existen entre cada uno de los
elementos que de alguna u otra forma causan nuestro problema. También,
nos ayuda a hacernos un mapa amplio de nuestro problema, y a
considerar todos los caminos posibles que podríamos recorrer para
resolverlo.
Con respecto a la elección de una posible intervención para resolverlo, la
cadena causal nos permite entender que:
!40
!
• Hay varios causantes, y que por lo tanto, habrá cosas que
podremos controlar y otras que no.
• Debemos concentrarnos en modificar aquellos factores
que creamos sean los más relevantes en todo el mapa
del problema. Para que nuestra intervención tenga éxito,
hay muchas cosas que deben funcionar bien, y tenerlas
muy claras desde un principio nos ayudará a atender
esos elementos de una forma temprana y planificada.
Incluso si no podemos atenderlas, sabremos en todo
momento que esos factores podrían estar afectando la
efectividad de la intervención seleccionada.
3.3.- Oportunidades de aprendizaje que surgen a lo largo de la cadena

causal.
En la sección anterior vimos cómo al construir la cadena causal de una
intervención trazamos explícitamente el camino que va desde unas
acciones concretas hasta los resultados finales. Una de las ventajas de
hacer la teoría de cambio de una intervención es que en el proceso
de reflexión salen a la luz oportunidades de aprendizaje que van más
allá de solo conocer el impacto de la intervención en las variables
finales.
En el marco de una evaluación de impacto, hacer la teoría de cambio
ayuda en primer lugar a definir los indicadores de resultados a lo
!41
!
largo de todo el proceso. Al pensar en la intervención como una
cadena de elementos, la teoría de cambio contribuye a que estos
indicadores sean relevantes y a que podamos localizarlos en el tiempo
ordenadamente.
La teoría de cambio, además, ayuda a identificar otras oportunidades
de aprendizaje que pueden ayudar a mejorar la gestión de la política
a evaluar, además de la evaluación misma, referidas a: la
implementación, la cadena causal y los supuestos de la cadena causal.
La utilidad de estas oportunidades de aprendizaje adicionales es que
aportan infor mación de calidad que per mite mejorar la
implementación de la política y aumentan la probabilidad de que esta
logre los objetivos deseados. El mensaje primordial aquí es que
alrededor de la evaluación de impacto se genera la posibilidad de
aprender sobre muchas cosas, y esto es beneficioso para la
evaluación misma, pero sobre todo para las instituciones
implementadoras, en la medida que los aprendizajes generados
ayudan a tomar mejores decisiones.
Variables de impacto y de resultados:

Uno de los pilares de una buena evaluación de impacto es la
definición de variables, tanto de impacto, como de resultados. Una
definición incorrecta puede llevar a concluir erróneamente que un
programa no tiene impacto, ni resultados.
!42
!
Por este motivo, un ejercicio de teoría de cambio exhaustivo y serio
es fundamental para identificar cuáles son las variables que
potencialmente podrían ser afectadas por el programa. Esto además
resalta la importancia de trabajar en la teoría de cambio lo más
temprano posible, sobre todo en los casos donde hay que recolectar
información primaria.
Las variables de impacto son aquellas variables objetivo que
esperamos sean afectadas por el programa y que cuantifican cuánto
de la necesidad inicial se ha resuelto.
En nuestro ejemplo, la variable que buscamos modificar con el
programa de bonificación docente es la brecha de rendimiento
escolar entre colegios rurales y urbanos.
Las variables de resultados son aquellas variables que también
cambian como consecuencia del programa, pero que no son las
variables de interés último y solo reflejan cambios en dimensiones a lo
largo de la cadena causal.
En nuestro ejemplo, el número de docentes con maestría es una
variable de resultado, que puede cambiar como consecuencia del
programa, pero que no es el cambio específico que el programa
busca lograr.
Una manera de definirlas es empezar por el problema o necesidad
que justifica la intervención, así como en sus causantes inmediatos e
indirectos, y en cómo medimos estas dimensiones.
!43
!
En nuestro ejemplo hemos definido la necesidad como la existencia
de una brecha de rendimiento educativo entre alumnos de zonas
rurales y alumnos de zonas urbanas. Por lo tanto, si diseñamos e
implementamos una política para resolver ese problema, el impacto
de la misma debería definirse en términos de la brecha de
rendimiento:
¿Cuál es el impacto en la brecha educativa rural-urbana, de otorgar
bonos monetarios a docentes que se desplazan a las zonas rurales?
La variable de impacto es por lo tanto: la brecha educativa rural-
urbana.
La teoría de cambio nos permite identificar varios cambios que van
manifestándose en el tiempo, por lo que al definir las variables, no
solo debemos pensar en la resolución última del problema (o
variables de impacto), sino también en el logro de objetivos
intermedios (o variables de resultados).
En nuestro ejemplo:
¿Cuál es el impacto de otorgar bonos monetarios en las decisiones de
localización de los docentes entre áreas rurales y urbanas?
La variable de resultado es la que identifica, posterior al otorgamiento
del bono, los docentes que se ubican en áreas rurales o urbanas.
Se supone que para mejorar el rendimiento (y disminuir la brecha)
debemos mejorar la calidad de los docentes no solo a través de más
docentes, sino de docentes con mayor calidad.
!44
!
Cuando construimos la cadena causal identificamos estas etapas
intermedias, por lo que también debemos definir variables de
impacto para ellas, en la medida que la política también las afecta.
No resuelven directamente el problema principal (docentes de mayor
calidad, como vimos, no necesariamente garantizan un mejor
rendimiento), pero son un resultado directo de la intervención, y son
el canal a través del cual la misma resuelve el problema principal.
Otra ventaja de la teoría de cambio es que ayuda a determinar
claramente qué variables deberían cambiar primero (o como
requisitos) del cambio de otras, lo que sirve para decidir cuándo
debemos levantar la información y qué información debemos levantar
en cada momento.
En nuestro ejemplo, se supone que si nuestra teoría es correcta,
primero aumentamos la dotación de docentes de calidad, y luego
debería cambiar el rendimiento educativo.
Tipos de variables de impacto

Cada programa tiene asociado un grupo determinado de variables de
impacto y resultado, y la naturaleza de las mismas depende de los
cambios que se espera lograr con el programa. La teoría de cambio
ayuda a identificar qué tipo de cambios se quieren lograr, y qué tipo
de variables deberíamos buscar medir.
!45
!
Usando nuestro ejemplo como referencia. Podríamos observar cambio
en:
Conductas: ¿Cambia la decisión de los docentes sobre dónde vivir y
trabajar?
Habilidad promedio de los docentes en el área rural: ¿Cambia el nivel
de habilidades promedio de los docentes que enseñan en el área
rural? ¿Aumenta, disminuye?
Satisfacción: ¿Los docentes que laboran en el área rural tienen un
mayor nivel de satisfacción con su trabajo y por lo tanto un mejor
desempeño gracias al bono?
Resultados en educación: ¿Aumenta el rendimiento rural como
consecuencia de la atracción de docentes con estudios de maestría?
Estos son algunos ejemplos de variables que pueden verse
modificadas por un programa. El tipo específico de variables
cambiará dependiendo de lo que se esté evaluando.
Nivel de desagregación para la medición

Es importante definir sobre quién (o qué) se hará la medición de las
variables de impacto y a qué nivel de desagregación. Podemos medir
personas o grupos de personas como familias, salones de clase,
colegios, ciudades o municipios. Podemos medir a alumnos o
directamente a los docentes. En intervenciones de emprendimiento,
!46
!
por ejemplo, podríamos medir a emprendedores o a empresas. El
tipo de unidad de medición va a variar dependiendo del tipo de
intervención, y la teoría de cambio nos ayuda a identificar qué medir y
cuál es el nivel de desagregación adecuado.
En ocasiones, no vamos a poder medir directamente a la unidad que
nos interesa (por disponibilidad de información o por problemas
logísticos para recoger la información).
La primera pregunta que debemos responder es ¿cuál es la unidad
directamente afectada por la intervención? En nuestro ejemplo:
El docente es quien recibe el bono. Por lo tanto, en un primer nivel
quisiéramos saber si un docente tiene mayor probabilidad de
desplazarse a zonas rurales si se le ofrece el bono. Queremos
entonces medir las decisiones de localización de los docentes. Estas
decisiones se pueden medir a nivel individual o quizás también a nivel
de colegio.
En segundo nivel, quisiéramos saber si más docentes o mejores
docentes ayudan a mejorar el rendimiento. Este posible cambio
podría medirse a nivel de salones de clase, o de colegios e incluso a
niveles más agregados como municipio o estado (departamento).
Para cada variable de impacto o de resultado se debe hacer el mismo
ejercicio:
!47
!
Problema de política Variable de impacto o de Unidad/Nivel de medición
resultado
Escasez de docentes con Probabilidad de que un Docentes

postgrado en zonas rurales docente con maestría en Grados
educación decida trabajar Municipios
en el área rural Estados/Departamentos
Número de docentes con Grados

maestría que trabajan en el Colegios
área rural Municipios
Estados/Departamentos
Número de alumnos por
cada docente con maestría
en el área rural
Escasez de docentes en Probabilidad de que un Docentes

zonas rurales docente decida trabajar en Grados
el área rural Municipios
Estados/Departamentos
Número de docentes en el Grados

área rural Colegios
Municipios
Número de alumnos por
Estados/Departamento
cada docente en el área
rural
Amplia brecha rural-urbana Diferencia del puntaje Cursos

de rendimiento educativo promedio en una prueba Grados
estandarizada entre el área Colegios
rural y el área urbana Municipios
Estados/Departamento
!48
!
Las variables de impacto son las que nos indican hasta qué punto se
ha resuelto el problema planteado originalmente, por ello es tan
importante comenzar la teoría de cambio definiendo el problema de
política.
En nuestro ejemplo, deberíamos ver primero que las decisiones de
localización de los docentes cambian como resultado del bono: quizás
ahora es más probable que un docente quiera trabajar en el área
rural. Si esto es cierto, podríamos observar que hay más docentes (y
más docentes calificados) en el área rural, y quizás también que el
ratio alumnos/docentes disminuye. Todo lo anterior, mostraría que la
escasez (el problema original de segundo nivel) ha sido resuelto en
cierta medida. Posteriormente, si nuestros supuestos se cumplen,
podríamos encontrar que con más y mejores docentes, el rendimiento
de los alumnos en las zonas rurales respecto a sus pares en el área
urbana ha aumentado, lo que indicaría que la necesidad se ha
resuelto (en cierta medida).
Algunas de las variables se tendrán que medir a nivel individual, como
la decisión del docente de trabajar en el área rural. Otras tienen que
medirse agregadamente a nivel de salones de clase, o de cursos
enteros o colegios, como el número de docentes, el ratio alumnos/
docentes o el rendimiento educativo. Lo ideal es siempre tener la
información lo más desagregada posible, como tener información del
!49
!
nivel educativo, experiencia y localización de cada docente en todo el
sistema escolar. Con información de este tipo, podríamos construir las
variables que definimos anteriormente. Sin embargo, en ocasiones no
hay microdatos disponibles, por lo que es preciso trabajar con
información agregada a nivel colegios, municipios o estados /
departamentos, en nuestro ejemplo.
Momento para la medición

Es normal que una intervención tenga impactos en distintos
momentos del tiempo y la teoría de cambio nos ayuda a definir la
secuencia lógica de variables, a partir de los cambios que esperamos
vayan ocurriendo en el tiempo.
En nuestro ejemplo, dado que una intervención donde se otorga un
bono afecta directamente a los docentes, es en ellos donde
deberíamos observar los primeros cambios, específicamente en sus
decisiones de localización. Posteriormente, podríamos observar
cambios en el número de docentes y sus características en distintas
zonas del país (acumulados de las decisiones individuales), y por
último, al haber más docentes, podríamos observar cambios en las
condiciones y resultados de la enseñanza en las zonas rurales.
Seguramente, si pensamos en todas las cosas que deseamos que
cambien como consecuencia del bono podríamos llegar a esta misma
lista de variables; sin embargo, el esfuerzo de hacer la teoría de
!50
!
cambio y plantearnos la intervención como una sucesión de cambios,
nos ayuda a ordenar esos cambios en el tiempo y definir claramente,
cuándo es que debemos medir cada variable.
Otras oportunidades de aprendizaje

Reflexionar sobre la política y toda la sucesión de eventos que deben
ocurrir para que la política se transforme en impactos, es también útil
para reflexionar sobre el diseño y el funcionamiento de la política
misma, e incluso de las instituciones involucradas en su
implementación. La teoría de cambio enfatiza la importancia de
asegurar una buena implementación, y ayuda a identificar los
requisitos para ello. Nos ayuda a pensar sobre el diseño ideal de la
política, qué procesos deben implementarse y cómo, qué resultados
inmediatos debemos obtener, y también, si la(s) institución(es) está(n)
alineada(s) orgánicamente para el logro de los objetivos de política.
Se desprenden por tanto, oportunidades de aprendizaje sobre la
propia implementación de las políticas que van más allá de la
evaluación de impacto y que tienen un gran valor para la institución,
como lo son las evaluaciones de procesos, de resultados o las
evaluaciones institucionales. En ocasiones, después de hacer la teoría
de cambio puede suceder que se determine que la necesidad de las
instituciones participantes no es hacer una evaluación de impacto,
sino que es necesario hacer alguna de las otras evaluaciones. Puede
!51
!
ser el caso que se determine que antes de hacer una evaluación de
impacto es necesario, por ejemplo, hacer una evaluación de procesos.
Por lo tanto, estas oportunidades de aprendizaje adicionales pueden
ser a veces complementarias a la evaluación de impacto, y la teoría
de cambio es vital para detectar su necesidad.
Existen diferentes tipos de evaluación. En este caso describiremos
algunos tipos de evaluación cuantitativa y podremos compararlas con
la evaluación de impacto que es el tipo de evaluación que trabajamos
en este curso. Para cada evaluación utilizaremos un ejemplo de lo que
se podría aprender tratando de mantenernos cerca al ejemplo que
anteriormente hemos utilizado, así puede ser más fácil hacer
comparaciones y conocer que brinda cada una de estas evaluaciones.
1. Evaluación de operaciones o de procesos
• Identifica relaciones de actividades y procesos (pasos

planeados) para producir un bien o servicio.
• Se determinan protocolos y se define qué tanto
cumplimiento se les ha dado.
Por ejemplo: en el caso del bono para la movilización docente,

podríamos conocer sobre el proceso que se sigue para convocar a los
!52
!
interesados en recibir el bono, y para otorgar el bono; también
podríamos querer conocer sobre el proceso de desembolso de
recursos a los docentes.
Cuando estamos pensando en la cadena causal, vemos que hay

procesos que tienen que realizarse para garantizar una
implementación óptima del programa, y que sin una buena
implementación, será difícil obtener algún impacto. En este contexto,
surge entonces la necesidad de evaluar si los procesos del programa
se están realizando adecuadamente y cómo podrían mejorarse de ser
necesario.
En el ejemplo, si los docentes potencialmente interesados ni siquiera

se enteran de la existencia del bono, el programa no podrá tener un
efecto en el rendimiento escolar. Una buena teoría de cambio,
debería ayudar a identificar la necesidad de evaluar todos los
procesos que garantizan una buena implementación.
2. Evaluación institucional
• Analiza el arreglo y articulación inter-intra-institucional

con el que opera la intervención evaluada, y las razones
!53
!
por las cuales falla la capacidad institucional en la
provisión de los bienes y servicios.
• Encuentra cuellos de botella para que la política, aunque
tenga diversos productos, no logre sus metas
intermedias o resultados.
Por ejemplo: bajo qué figura legal se adoptan los bonos y cómo se
integra con la reglamentación de remuneración; existe algún riesgo
de discriminación en contra de docentes que no puedan desplazarse
a zonas rurales, cómo se sostendrá la política en el largo plazo.
En ocasiones, los programas no tienen una buena implementación,
porque el marco institucional bajo el que funcionan no es el
adecuado, según los objetivos planteados para los programas. Una
buena teoría de cambio, nuevamente, debería ayudar a identificar la
necesidad de que la institución esté organizada adecuadamente y
tenga un funcionamiento que conduzca hacia el éxito de sus
programas. Por lo tanto, si existen dudas al respecto, una evaluación
institucional puede ayudar a detectar fallas, y esto a su vez puede
redundar en una mejor implementación.
!54
!
3. Evaluación de resultados
• Determina los efectos de correlación directos e indirectos

de la intervención pública.
• ¿Luego de la intervención se obtienen resultados que
van en el sentido esperado?
Por ejemplo: cuántos docentes están recibiendo el bono, qué

características tienen esos docentes (ubicación, especialidad, nivel
educativo), cuánto tiempo tienen enseñando en la zona rural, cómo es
el desempeño de los estudiantes en la zona rural donde hay
profesores que tienen el bono.
La teoría de cambio nos ayuda a visualizar un programa como una
cadena de acciones y eventos que tienen que darse sucesivamente y
que generan cambios en variables de interés. Entender el programa
de esta manera, resalta la importancia de ir midiendo los resultados
de cada acción para asegurar que la implementación es adecuada, y
por lo tanto de realizar evaluaciones de resultados, siempre que sea
posible. Esto generará aprendizajes para la institución, y también
aumentará la calidad de las conclusiones que se obtendrán a partir de
una evaluación de impacto.
!55
!
Cada una de las preguntas anteriores, corresponden a distintas etapas
de la implementación. Su diferencia fundamental con las preguntas
que responde una evaluación de impacto es que la evaluación de
impacto:
• Identifica los efectos exclusivamente atribuibles al
programa evaluado. No solo es medir resultados o
procesos, es identificar hasta qué punto los resultados
han sido causados por la política y no por otras cosas. A
esto lo llamamos efectos causales de la intervención
pública. En nuestro ejemplo: si otorgamos bonos
docentes, ¿logramos que más docentes se desplacen a
áreas rurales? o ¿el otorgamiento del bono atrae a
docentes más preparados, lo que ayuda a aumentar el
rendimiento en las áreas rurales?
• Cuando tenemos en cuenta el concepto de una relación
causal estamos pensando en que el resultado que
observamos es solo atribuible al otorgamiento del bono y
hemos descartado otras posibles causas que una buena
teoría del cambio nos puede ayudar a identificar, por
ejemplo: mayor uso de tecnología en el área rural.
!56
!
¿Qué tienen en común los diferentes tipos de evaluación?
• Todas buscan hacer una medición para encontrar una

respuesta.
• Todas definen indicadores, unidades de medición.
• Todas generan un aprendizaje para las instituciones que
implementan.
¿En qué se diferencian los tipos de evaluación?
• Las preguntas que responden son diferentes y,

generalmente, corresponden a distintas etapas de la
implementación de una política.
• Los métodos que se utilizan para cada tipo difieren
sustancialmente entre sí. En las evaluaciones de
procesos, resultados o institucionales, se busca levantar
indicadores para entender una determinada realidad,
mientras que en la evaluación de impacto se busca
adicionalmente, generar un grupo de control adecuado
que sirva para deducir qué hubiera pasado en ausencia
del programa. Esto último supone, como se ha visto, un
reto enorme para los evaluadores porque en ocasiones
!57
!
no es posible llevar a cabo con las técnicas existentes
(incluso si los indicadores están disponibles).
Conclusiones
• La teoría de cambio es una herramienta metodológica en donde

construimos de manera detallada la ruta que una política pública
sigue para lograr un cambio o una solución a la necesidad de la
población objetivo.
• Para poder tener una teoría de cambio completa es importante

hacer un análisis profundo del problema y la política que se va a
llevar a cabo. En otras palabras, debemos entender completamente
el contexto, condiciones o entorno donde se aplica la política.
• La teoría de cambio puede hacerse cuando ya hay una política

definida, y en ese caso busca identificar los insumos, actividades,
productos y resultados (intermedios y finales) que constituyen la
política, así como los supuestos que subyacen a la cadena causal. El
objetivo de la teoría de cambio en este caso es entender los
mecanismos a través de los cuales una política resuelve el problema
de política.
!58
!
• Cuando no hay una política ya definida, la teoría de cambio ayuda a
fragmentar el problema en pequeñas partes y ayuda a pensar en
cómo distintas acciones son más o menos adecuadas para resolver
el problema de política.
• La teoría de cambio es la forma más adecuada de definir los

indicadores de impacto en una evaluación porque nos permite
entender la política como una cadena de insumos, actividades y
productos que van generando cambios en el tiempo.
• Un buen esfuerzo de teoría de cambio ayuda a identificar

oportunidades de aprendizaje que van más allá de la evaluación de
impacto, relacionadas a la efectividad de distintos componentes y a
la calidad de la implementación.
!59
!
2018
Evaluaciones de Gestión:
Evaluando el cómo en
lugar del qué.
ÍNDICE
IV. Evaluaciones de Gestión: Evaluando el cómo en lugar del

qué.
4.1.- ¿Qué es una evaluación de gestión? (2)
4.2.- Las evaluaciones de gestión vs. las evaluaciones de

política. (4)
4.3.- Evaluaciones de gestión en procesos. (14)
4.4.- Actividades complementarias al proceso existente. (24)
4.5.- Importancia de las evaluaciones de gestión. (35)
4.6.- Cómo identificar oportunidades de evaluaciones de

gestión. (38)
!1
!
4.1.- ¿Qué es una evaluación de gestión?
Una evaluación de gestión es aquella que mide el impacto de un
cambio en algún proceso o actividad de una institución (su gestión) y
que busca aumentar la efectividad de la misma. Para el logro de sus
objetivos, las instituciones ofrecen variados bienes y servicios.
Por ejemplo:
Una institución que recauda impuestos tiene como objetivo contribuir
a las finanzas públicas a través del fomento del pago voluntario de las
obligaciones tributarias por parte de empresas y personas. Y para
lograrlo puede: realizar actividades de cobro a contribuyentes con
deudas pendientes; ofrecer incentivos para el pago temprano de las
obligaciones; o diseñar procesos de gestión de cobro en línea.
Las escuelas tienen como objetivo formar ciudadanos educados y
productivos, y este objetivo se puede lograr a través de: la
contratación de docentes bien formados; o una dotación física y
tecnológica adecuada; o un diseño curricular educativo moderno y
pertinente.
Detrás de cada uno de estos servicios, hay una multiplicidad de
actividades y procesos que las instituciones deben realizar, y que a
menudo no son visibles para los beneficiarios finales de las políticas y
programas. A continuación tomaremos uno de los bienes y servicios
!2
!
mencionados en los dos ejemplos anteriores para explicar algunos
procesos.
En cuanto a las actividades de cobro a los contribuyentes, las
agencias tributarias deben decidir si contactan a los contribuyentes
morosos personalmente, telefónicamente o a través de
comunicaciones escritas. De igual forma, deben decidir qué
contenido deben llevar las comunicaciones.
Por su parte, las escuelas pueden contratar docentes bien formados.
Para ello, la escuela debe decidir si utiliza bonos para atraer a
docentes con estudios de post-grado o si ofrece becas para que los
docentes que ya se encuentran en los establecimientos aumenten su
nivel de educación.
Si las instituciones tienen éxito con estas actividades, como
ciudadanos veremos en un caso, mayor recaudo y cumplimiento
tributario, y en el otro caso, un mejor rendimiento escolar. Pero como
ciudadanos, difícilmente habremos visto las decisiones y procesos
que tuvieron que realizarse para el logro de los objetivos
institucionales.
Por lo tanto, tiene una enorme importancia para las instituciones
garantizar que estos procesos se realizan de la forma más eficiente
posible, porque su efectividad como institución no solo depende de
qué actividades hacen, sino también de cómo se hacen esas
!3
!
actividades y cómo se mejora su funcionamiento a través de
actividades complementarias.
Cuando las instituciones hacen evaluaciones de impacto de estos
procesos o de las actividades complementarias con el fin de mejorar
la gestión de sus recursos, entonces estamos hablando de una
evaluación de gestión.
Las evaluaciones de gestión se concentran principalmente en las
actividades y procesos intermedios que realizan las instituciones, y
que no necesariamente tienen un beneficiario directo. Benefician a la
sociedad porque ayudan a mejorar la gestión de los bienes y
servicios, pero lo hacen indirectamente.
El objetivo en estos casos es determinar la mejor manera de realizar
los procesos intermedios, comparando varias alternativas de
implementación, o añadiendo pequeños cambios en la forma como
se ejecutan las actividades.
4.2.- Las evaluaciones de gestión vs. las evaluaciones de política.

La evaluación del programa Progresa (ahora Oportunidades) en
México fue una de las primeras evaluaciones donde se usaron
técnicas experimentales para medir el impacto de una política
pública. Entre otras cosas, se evaluó si una transferencia condicionada
en efectivo lograba mejorar la salud de los niños en zonas pobres de
México (Gertler y Boyce, 2001).
!4
!
Como vemos, Progresa es una política de inclusión social que tiene
unos beneficiarios finales muy bien definidos, que son las familias que
reciben la transferencia. Esta es una típica evaluación de política que
busca conocer el impacto que tiene el programa sobre las familias
beneficiadas. La gran mayoría de las evaluaciones de impacto son de
este mismo tipo.
Las evaluaciones que miden el impacto de cambios en los procesos o
actividades intermedias (gestión) son menos comunes en el ámbito
académico, aunque hay buenas excepciones, como lo son las
evaluaciones en temas tributarios.
Dado que los procesos internos de las instituciones suelen tener
menos visibilidad y pueden ser incluso secundarios en comparación
con los programas que afectan directamente a la población, hay
menos preguntas sobre su efectividad, y por lo tanto es normal que
haya menos evaluaciones de impacto. En las evaluaciones de gestión,
por lo tanto, el vínculo entre las instituciones y el equipo evaluador
tiene que ser muy cercano desde el principio para identificar el
proceso alrededor del cual se va a hacer la evaluación y diseñar la
misma.
En este módulo, queremos presentar una visión diferente en la que
las evaluaciones que giran alrededor de los procesos de la institución
tienen una importancia grande, y en donde su poca visibilidad
!5
!
representa quizás una oportunidad para evaluar su impacto, y no
necesariamente una desventaja.
La pregunta que responden

En las evaluaciones de política se quiere evaluar el impacto de ofrecer
algún bien o servicio o de realizar una actividad. En este caso, las
instituciones tienen un objetivo, y la evaluación consiste en determinar
en qué medida la actividad determinada ayuda a lograr el objetivo
institucional.
Por ejemplo:
● ¿Comunicarse con los contribuyentes aumenta la probabilidad
de que paguen sus obligaciones tributarias?
● ¿Docentes con mayor nivel educativo aumentan el aprendizaje y
el rendimiento escolar de los niños?
En las evaluaciones de gestión el énfasis está más bien en los

procesos intermedios y en determinar la mejor forma de llevar a cabo
esos procesos, con miras a mejorar la gestión de la institución.
!6
!
● Supongamos que se ha decidido que se dedicarán recursos a
aumentar la comunicación con los contribuyentes morosos. Una
pregunta diferente es: ¿Se realiza la comunicación por vía
telefónica, se hace presencialmente o se envían comunicaciones
escritas? Aquí el énfasis no está en determinar la efectividad de
la actividad (la comunicación), sino en determinar cuál es la
mejor forma de realizar esa comunicación.
● Estamos convencidos de que es necesario contar con docentes

con mayor nivel educativo. Esta es la pregunta de política. Una
pregunta de gestión alrededor esta política es: ¿atraemos a
nuevos docentes con un mayor nivel educativo u otorgamos
becas para que los docentes actuales adquieran un mayor nivel
de educación?
En las preguntas de gestión hay una intención clara de mejorar la

implementación de alguna actividad.
En el módulo 3 vimos que la efectividad de un programa depende de

varios pasos intermedios que podemos identificar a través de un
ejercicio de teoría de cambio. Una manera de entender la distinción
entre las evaluaciones de política y las de gestión, es pensar que en el
primer caso, nos estamos concentrando en medir los impactos finales,
!7
!
mientras que en el segundo caso, nos concentramos en medir qué
tanto mejora la implementación del programa cuando realizamos
pequeños cambios en los procesos intermedios, con el fin de mejorar
estos procesos, que a su vez, esperamos aumenten los impactos
finales.
En el Diagrama 1, vemos que la evaluación de impacto trata de

determinar si una política o programa, implementado por una
institución dada, tiene o no impactos sobre los beneficiarios finales.
Hay una cantidad de procesos intermedios que determinan cómo es
que la institución elige y focaliza la política en un grupo de
beneficiarios y finalmente la implementa. Posteriormente, mide las
variables de impacto y determina si los beneficiarios fueron
impactados positivamente, negativamente o no recibieron impacto
alguno. Los procesos intermedios son parte del “paquete” de política
que se evalúa, pero no son el foco de la evaluación.
!8
!
Diagrama 1. Evaluaciones de políticas públicas
!9
!
Diagrama 2. Evaluaciones de gestión
!10
!
En el Diagrama 2, por su parte, vemos que alrededor de la política
que se evaluaba en el diagrama anterior, hay un énfasis en los
procesos que ocurren durante la implementación y entrega del bien o
servicio público a los ciudadanos. Estos procesos pueden o no tener
impactos sobre la implementación de la política, y las evaluaciones de
gestión se enfocan por lo tanto en cuantificar dichos impactos.
El usuario de la evaluación
En general, cualquier evaluación de impacto genera aprendizajes
sobre el impacto y sobre temas de implementación alrededor de las
actividades evaluadas, que son valiosos para las instituciones que
implementan, y quizás también para otras instituciones.
Las evaluaciones de gestión, en particular, tienen una utilidad
primordial para los implementadores porque a través de ellas se
busca, explícitamente, generar conocimiento que permita introducir
modificaciones en las actividades que hace la institución. De esta
forma, aunque los resultados pudieran ser interesantes para externos,
en general, al ser muy específicos a la institución generan menos
interés y expectación fuera de la misma.
!11
!
Las evaluaciones de política, por el contrario, tienen un grupo de
usuarios potenciales mucho mayor ya que por lo general, atienden a
problemas fundamentales de la política pública y del desarrollo, y
afectan directamente las necesidades de la ciudadanía.
En el Módulo 2 se mencionó que cuando los resultados de una
evaluación de impacto se pueden extrapolar a un contexto diferente,
la misma tiene validez externa, lo que hace que los resultados puedan
ser aprovechados no solo por los implementadores de la política
evaluada, sino por externos que también podrían aprender de ella
para el diseño y ejecución de sus propias políticas. Las evaluaciones
de política pueden o no tener validez externa, y esto se determinará
en cada caso dependiendo de las características del programa
evaluado. Sin embargo, las evaluaciones de gestión por lo general
suelen tener menor validez externa porque se enfocan en procesos
que son muy específicos a las instituciones y que son difícilmente
replicables en otros contextos.
El contenido del mensaje o el canal que se utilice para enviar la
comunicación son decisiones importantes para la institución dado que
afectan su efectividad en el cobro de impuestos, y la eficiencia en el
uso de recursos. Sin embargo, para el público en general, estos
procesos carecen de interés, al contrario de lo que sucedería por
ejemplo, si la institución cambiara las penalidades por incumplimiento
en el pago.
!12
!
Estas diferencias en el público potencial de interesados en los
resultados, tienen implicaciones importantes sobre los incentivos para
realizar un tipo de evaluación u otro. Las evaluaciones de política son
muy públicas y por lo tanto, suponen un riesgo reputacional para la
institución que las realiza, mientras que las evaluaciones de gestión, al
tener un público interesado más restringido, pueden ser más
atractivas dado que generalmente suponen un bajo riesgo
reputacional.
Los cambios en procesos y actividades requieren por lo general,
reasignar recursos que ya se estaban usando en la institución para
fines adicionales. En otros casos, el costo de implementar estos
cambios es muy bajo en comparación con la cantidad de recursos que
manejan las instituciones implementadoras. Por el contrario, un nuevo
programa (un nuevo bien o servicio público) requiere recursos
adicionales que dependiendo de la magnitud de lo que se quiera
implementar, pueden ser cuantiosos.
Lo anterior pone de relieve el hecho de que implementar un cambio
de proceso y evaluar su efecto puede ser menos costoso que
implementar un cambio de programa o de política y evaluar su
efecto. Por lo tanto, en la mayoría de los casos, sujeto a la factibilidad
técnica, a veces una evaluación de gestión es mucho más factible de
implementar que una de política.
!13
!
La agencia tributaria podría considerar un cambio en la legislación
para medir el impacto de aumentar las penalidades por el pago tardío
de las obligaciones tributarias. Naturalmente, un cambio como este
puede tomar tiempo y algo de capital político. Una evaluación de
gestión, en la que se mide el impacto de enviar correos electrónicos
en vez de enviar a los funcionarios a hacer la cobranza personalmente,
sería más fácil de promover porque no necesariamente utilizará
recursos adicionales, sino que en el peor de los casos, implicará
reasignar recursos de una actividad a otra.
4.3.- Evaluaciones de gestión en procesos.
Mejorando el proceso de investigación criminal en Colombia

La investigación criminal es una de las actividades principales de la rama
judicial y los servicios de investigación. En todos los casos el resultado de
la investigación depende de la capacidad de recolectar, guardar, procesar
y analizar material relevante de manera efectiva. La correcta gestión de
estos procesos permite concluir que se cometió un crimen y atribuir la
responsabilidad del mismo de manera creíble y oportuna.
Dadas las bajas tasas de imputación en los casos de homicidios, la Fiscalía
General de la Nación (FGN) de Colombia decidió analizar el proceso de
investigación de este tipo casos con el fin de identificar posibilidades de
!14
!
mejora en la organización de los recursos que condujeran a un proceso de
investigación más efectivo.
En un estudio para la Fiscalía, Bernal y La Rota (2014) identificaron dos
factores que afectan la continuidad del proceso de investigación y su
resultado:
● Existencia de múltiples funcionarios en diferentes etapas del
proceso de investigación bajo un liderazgo difuso; y
● Retrasos derivados de la constante reasignación del caso
entre distintos fiscales.
Lo anterior podría estar causado por el hecho de que no hay una persona
o grupo de personas que lideren de forma única la investigación desde su
inicio.
En función de este análisis, la FGN decidió reestructurar el proceso de
investigación buscando evitar la pérdida de información entre las distintas
fases del mismo. Principalmente, se decidió que cada caso se iba a asignar
a un equipo de investigación que lideraría el proceso de principio a fin.
En comparación con el proceso normal, los cambios más importantes
fueron:
● El equipo del laboratorio criminalístico sabe desde el
momento en que van a la escena del crimen, quién es el fiscal
!15
!
asignado al caso. Esto permite que haya comunicación desde
el principio, para recibir directrices o proveer información.
● Un único fiscal es responsable del proceso de investigación
desde los actos urgentes hasta la acusación.
● El fiscal se puede reunir en cualquier momento con su equipo
para discutir la estrategia de investigación y las hipótesis
criminales.
● En el momento de la acusación el caso se transfiere a otro
fiscal de la Unidad Vital, para que este se encargue del
proceso de judicialización. El objetivo de este cambio es que
el fiscal inicial se concentre solo en el proceso de
investigación.
Antes de escalar este nuevo proceso a todos los casos de investigación de

homicidios, la FGN con el apoyo de la CAF, decidió realizar una evaluación
de impacto rigurosa para determinar si el nuevo proceso de investigación
era más o menos efectivo que el anterior en resolver los casos de
homicidios en Bogotá.
Para responder a esta pregunta, se diseñó un experimento donde el 66%
de los 1.683 casos de homicidios ocurridos en Bogotá durante 2.016, fue
asignado al nuevo procedimiento y el resto al procedimiento de
costumbre.
!16
!
Transcurrido el año de implementación, se comparó el desempeño de los
casos atendidos bajo cada tipo de procedimiento. La conclusión principal
fue que la estructuración de equipos investigativos sin rotación de sus
miembros parece ser un factor importante en la calidad de las
investigaciones de homicidio, evitando problemas de comunicación,
pérdida de información y fragmentación del liderazgo.
Algunos resultados específicos importantes:
● La nueva estructura mejoró los resultados iniciales de la
investigación. Tanto el conjunto de acciones investigativas
mínimas como los procedimientos y pruebas forenses
aumentaron.
● El grupo de tratamiento se demora 17 días más para realizar
una imputación, pero esto no retrasa el escrito de acusación.
Esto es consistente con un análisis inicial más detallado, que
toma tiempo, pero mejora la calidad de la imputación, de
modo que el escrito de acusación se hace más rápido.
Esta evaluación de gestión parte de haber detectado la necesidad de

mejorar la efectividad del proceso de investigación de homicidios, y de
haber dedicado recursos a analizar el problema e identificar posibles
causas. Sus resultados permitieron a la FGN aprender sobre sus procesos y
sobre posibles cambios a los mismos con el fin de mejorar su gestión.
!17
!
La necesidad de probar los cambios en un piloto antes de escalarlos a
todo el país, la disponibilidad de datos administrativos y la disposición de
la FGN para realizar una asignación aleatoria, abrieron la oportunidad de
generar aprendizajes rigurosos y de gran utilidad para la institución.
¡Tan sólo un clic! Minimizando las barreras para aumentar la

recaudación tributaria
El cobro de impuestos es una actividad fundamental para el sector
público, particularmente para los gobiernos locales. Los ingresos
obtenidos a partir de la recaudación representan un porcentaje no
despreciable de los ingresos totales de estos gobiernos. Sin embargo, la
tasa de morosidad ha sido tradicionalmente muy alta, limitando la
capacidad de acción del sector público. Entonces, ¿cómo podemos lograr
un cambio en el comportamiento de los ciudadanos para aumentar la
recaudación tributaria?
En el año 2017 el Servicio Desconcentrado de Administración Tributaria
del Municipio Sucre (SEDAT) junto con la CAF, decidió iniciar un proceso
para identificar qué cambios o actividades adicionales e innovadoras
podrían realizarse con el fin de disminuir la morosidad en el municipio.
Después de un análisis de los patrones de morosidad y de revisar la
evidencia existente sobre la efectividad de distintas opciones de política,
se decidió realizar algunas pruebas dirigidas a alterar el comportamiento
de los contribuyentes a través de pequeños empujones (“nudges”). El
!18
!
comportamiento deseado (pagar los impuestos) implica costos en
términos de tiempo y dinero y posiblemente ninguna contraprestación
visible en el corto plazo para el ciudadano. Por lo tanto, es fundamental
identificar y limitar las barreras que reducen la probabilidad de que el
comportamiento se realice.
Bajo la premisa de que es posible disminuir la morosidad facilitando el

proceso de pago, se decidió introducir algunos cambios en el
procedimiento y medir su efectividad:
1) Probar nuevas vías de comunicación con los contribuyentes

para informar sobre los saldos pendientes y las fechas límite de
pago, así como para ofrecer información sobre alternativas de
pago y vínculos a sitios de las preguntas más frecuentes.
2) Incluir en los correos un botón de pago a través del cual los

ciudadanos podían cancelar su deuda inmediatamente. De
esta forma, se estaba ofreciendo una alternativa de pago a los
contribuyentes que permitió disminuir el esfuerzo que estos
debían realizar para pagar
Las fricciones existentes
!19
!
Para pagar el impuesto sobre vehículos en el Municipio Sucre en Caracas,
los ciudadanos tienen tres métodos de pago disponibles (1) pagar online
con tarjeta de crédito a través de la oficina virtual del SEDAT, (2) en un
banco autorizado o (3) directamente en las oficinas del SEDAT con tarjeta
de débito o crédito.
Todas las opciones de pago vienen acompañadas de costos de

transacción que los ciudadanos deben asumir para poder pagar el
impuesto, lo que disminuye la probabilidad de que efectivamente lo
hagan. Es fácil identificar alternativas que son menos costosas que otras,
sin embargo, la falta de información sobre su existencia, se convierte en
una barrera adicional que disminuye su uso y efectividad.
Una solución a dos tiempos: simplificar y recordar

En este contexto, el SEDAT, con el apoyo de CAF, diseñó una intervención
que consistió en determinar la efectividad del envío de notificaciones de
cobro por correo electrónico y anuncios publicitarios en Facebook sobre el
nivel de recaudación del impuesto sobre vehículos.
A través de este experimento, la institución buscaba responder las
siguientes preguntas (1) ¿Los correos electrónicos masivos incrementan la
recaudación del impuesto de vehículos en el Municipio Sucre? (2) ¿La
publicidad en Facebook, dirigida a audiencias específicas, incrementa la
recaudación del impuesto de vehículos en el Municipio Sucre?
!20
!
A partir de una muestra de 6.183 contribuyentes morosos, se asignaron
aleatoriamente a los siguientes grupos de igual tamaño:
Correos electrónicos: los contribuyentes asignados a este grupo recibieron

un correo personalizado que informaba sobre la deuda, la fecha límite de
pago y la información de la(s) cuenta(s) de vehículo(s). El correo incluía un
botón de pago, las instrucciones para pagar, un hipervínculo a las
preguntas frecuentes en la página del SEDAT y un mensaje disuasivo
acompañado por una imagen que reforzaba el mensaje.
Este correo cumplía dos grandes funciones (1) servir de recordatorio y (2)
disminuir las fricciones asociadas al proceso de pago. En particular, la
inclusión del botón de pago ofrecía a los contribuyentes la posibilidad de
cancelar su deuda sin necesidad de movilizarse o acceder a páginas
adicionales. Este elemento buscó minimizar las barreras para aumentar la
probabilidad de que los contribuyentes pagaran efectivamente el
impuesto.
!21
!
Anuncio en Facebook: el anuncio incluía la fecha límite de pago, un
mensaje disuasivo, una imagen que reforzaba el mensaje y un
hipervínculo que dirigía a los contribuyentes a la página del SEDAT.
Con el uso del correo de los contribuyentes asignados a este grupo,
se creó una audiencia específica a la cual estaba dirigida esta
campaña.
Anuncio en Facebook y correo: este grupo recibió ambos
tratamientos mencionados anteriormente.
Control: no recibió ningún tipo de intervención.
Pequeños cambios con grandes impactos

La intervención tuvo una duración de 20 días, después de los cuales fue
posible calcular los resultados a partir de los datos administrativos
facilitados por el SEDAT (ID, deuda, monto del pago, fecha y método de
pago) y las tasas de apertura y lectura de los correos.
Los datos obtenidos indican que los contribuyentes que recibieron el
correo tuvieron una probabilidad 6 veces mayor de pagar que el grupo
control, cuyo porcentaje fue cercano al 2%. Por su parte, el anuncio en
redes sociales complementó el efecto de los correos masivos, al aumentar
la probabilidad de pago en 2 puntos porcentuales, con una probabilidad
de pago 7 veces mayor al grupo control.
Los contribuyentes que recibieron el correo tuvieron una probabilidad tres
veces mayor de pagar en línea que el grupo control. Además, la
!22
!
probabilidad de utilizar el método online fue significativamente mayor que
los otros métodos (entre 2 y 3 puntos porcentuales) para aquellos
contribuyentes que recibieron el correo. Estos resultados resaltan la
incidencia del botón de pago en la disminución de barreras y por ende en
la probabilidad de cancelar la deuda.
Superando retos y sumando aprendizajes a la gestión tributaria

La intervención permitió incluir un proceso de pago alternativo a los
tradicionalmente ofrecidos por la institución. Para ello fue fundamental
desarrollar las capacidades internas necesarias para poder realizar, de
forma efectiva, las actividades enmarcadas en esta intervención.
Esto representó un gran reto, ya que, el funcionamiento incorrecto de los
elementos claves del correo (personalización, botón de pago e
hipervínculos) podría generar reclamos e inconformidad por parte de los
contribuyentes, una consecuencia contraria al objetivo deseado y, por
demás, contraproducente.
Además, la evaluación vino acompañada de muchas externalidades
positivas para la gestión tributaria; entre ellas, permitió simplificar el
proceso de pago y disminuir las fricciones, enviar notificaciones de cobro
como solución a otros impuestos y, finalmente, permitió priorizar las
estrategias de cobro, enviando correos como primera línea de defensa y
luego estrategias más costosas (como visitas de los fiscales), dirigidas a
aquellos contribuyentes que permanecen morosos.
!23
!
Esta intervención representa un ejemplo de una evaluación de gestión
porque tuvo como fin aumentar la recaudación tributaria por medio de la
implementación de un cambio en el proceso de pago. La inclusión del
botón de pago buscó generar un cambio en el comportamiento de los
ciudadanos a través de la simplificación del proceso y la minimización de
las barreras existentes, y el envío de correos y anuncios por Facebook
permitió pilotar una forma alternativa de enviar información a los
contribuyentes con el fin de agilizar el cumplimiento de las obligaciones.
4.4.- Actividades complementarias al proceso existente.
Un “empujón” para aumentar las inscripciones en un programa público

en Argentina
En el año 2013 la Ciudad de Buenos Aires, Argentina, experimentó un
aumento en el índice de mortalidad infantil: pasó de 6,7 por mil nacidos
vivos a 8,5 por mil nacidos vivos. Para hacer frente a esta situación, surge
el programa social "Red Primeros Meses" pues el Gobierno de la Ciudad
logró identificar que existen algunas causas de este fenómeno que
pueden ser evitadas con controles médicos oportunos.
La Red Primeros Meses (RPM) tiene el objetivo de garantizar la salud, tanto
de las mujeres como de los bebés, a través del otorgamiento de una
transferencia a madres y embarazadas condicionada a que asistan a todos
sus controles médicos durante el embarazo y el primer año del bebé. El
!24
!
Gobierno ha identificado, sin embargo, un problema en la adherencia al
programa por parte de mujeres en situación de vulnerabilidad, ya que
solamente 23% de la población potencialmente elegible para el programa
está inscrita en la Red. Por tanto, el programa está dejando de atender
una fracción importante de la población para la cual fue diseñado y para la
cual hay recursos públicos disponibles y subutilizados.
Para fortalecer el alcance y aumentar la inscripción de madres en la Red, el
Gobierno de la Ciudad de Buenos Aires, con el apoyo de la CAF, inició un
proceso para analizar su funcionamiento e identificar innovaciones útiles.
Con el fin de investigar acerca de posibles intervenciones a evaluar, el
equipo de CAF decidió profundizar más en las causas de las bajas tasas de
inscripción: ¿por qué las potenciales beneficiarias no se inscriben en la
RPM? Para responder esta pregunta, se realizó un estudio cualitativo que
contemplaba grupos focales tanto con madres y embarazadas ya inscritas,
para tener su perspectiva sobre cómo se enteraron del programa y por
qué se inscribieron; como con madres y embarazadas no inscritas (pero
elegibles al programa), para conocer sus necesidades y explorar el
atractivo del programa RPM para ellas.
Los resultados de esta investigación cualitativa señalaron como principal
obstáculo la falta de comunicación acerca de la existencia del programa y
sus beneficios. Asimismo, las participantes presentaron opiniones diversas
en relación a si consideraban más importantes los beneficios económicos
!25
!
del programa (hasta ARS 3.000) o los no económicos (ejemplo: más salud
y protección al bebe y embarazada).
A partir de la reflexión con equipo del Gobierno y de los resultados de la
evaluación cualitativa, se diseñó una intervención basada en la difusión de
información de la RPM y sus beneficios a las potenciales beneficiarias, para
aumentar las tasas de inscripción. Para tal fin, se decidió enviar mensajes
vía Whatsapp, ya que en los grupos focales se señaló esta herramienta
como la más utilizada por el programa. Por otro lado, se decidió evaluar la
efectividad de dos tipos de mensajes al momento de incentivar a las
personas a inscribirse en la RPM, uno enfocado en los beneficios
económicos del programa, y otro en sus beneficios no económicos.
Con los datos administrativos, se identificaron 7.834 hogares utilizando
como criterio de selección el hecho de no tener algún miembro inscrito en
la RPM y de poseer al menos una embarazada, madre o mujer entre 12 y
49 años (edad fértil).
Se prosiguió entonces a dividir la muestra en tres grupos de evaluación:
• Grupo de mensaje enfocado en beneficio económico: 2.610
hogares.
• Grupo de mensaje enfocado en beneficio no económico:
2.613 hogares
• Grupo de control: 2.611 hogares.
Los mensajes contemplarían aspectos conductuales que motivaran y
facilitaran la acción deseada (inscribirse en la RPM). De estos, se destacan
!26
!
aspectos como personalizar el mensaje, indicar claramente los pasos a
seguir, hacerlo atractivo (se incluyeron emojis e imágenes adjuntas) y fácil
de leer (corto en longitud). Cada uno de estos componentes se adaptaba
al grupo de evaluación respectivo, por ejemplo, si el mensaje era del
grupo de beneficio económico, el texto indicaba claramente la
oportunidad de obtener recursos financieros al inscribirse. En total, se
enviaron 10 mensajes a cada grupo de evaluación, por un periodo de 5
semanas.
!27
!
Ejemplo de mensajes (grupos beneficio económico y grupo no económico)
Para verificar el impacto de los mensajes, podrá constatarse a través del

registro de beneficiarias de la RPM, quiénes se han inscrito y si han
recibido las transferencias. Además, se explorará la posibilidad de analizar
en qué medida las usuarias están cumpliendo con los controles, a cuántos
han ido y si lo han hecho a tiempo, según el grupo de evaluación al que
estén asignadas.
Los resultados de esta evaluación de impacto tendrán implicaciones
importantes para el Gobierno de Buenos Aires y su estrategia de difusión
de la RPM. Primero, se podrá identificar si existe un efecto diferenciado
entre los dos tipos de mensaje y, en caso de ser así, se podrán alinear las
comunicaciones actuales al enfoque más efectivo (centrarse en beneficios
económicos o no económicos) o incluso conocer si los mensajes resultan
ser algo efectivos respecto al grupo de control.
Asimismo, los aprendizajes pueden ser de fácil adopción por parte del
Gobierno, al tratarse de una intervención de bajo costo y con lineamientos
comunicacionales ya propuestos por CAF.
Por último, se podría esperar que, si más mujeres se inscriben en la RPM,
esto se pueda traducir en mejores resultados en indicadores de salud de
!28
!
las embarazadas y sus bebés, por lo que se podría realizar un seguimiento
de estos impactos en el mediano/largo plazo con información
administrativa que sea proporcionada por el Gobierno.
En esta evaluación de gestión se busca identificar una estrategia efectiva
para aumentar la inscripción a un programa de transferencias
condicionadas a través del envío de información. Sus resultados pueden
ayudar al equipo del programa de la RPM a mejorar el funcionamiento del
mismo aumentando su alcance de una forma poco costosa y novedosa.
Entre otras cosas, la evaluación fue posible gracias a la existencia de datos
administrativos detallados, y al bajo riesgo reputacional que supuso para
los administradores del programa enviar información de estímulo a las
familias focalizadas.
Racionalización de trámites en Colombia

En Colombia, el Departamento Administrativo de la Función Pública
(DAFP) es la institución que tiene la responsabilidad de promover la
racionalización de todos los trámites que se ofrecen en el Sistema Único
de Información de Trámites (SUIT).
El SUIT tiene tres objetivos primordiales:
1. constituirse como la única fuente válida de información de los
trámites que las instituciones del Estado ofrecen a la ciudadanía;
!29
!
2. promover el uso de las tecnologías de la información y las
comunicaciones (TIC) para facilitar el acceso de la ciudadanía a la
información y ejecución de los trámites; y
3. promover una mayor eficiencia en la gestión de las entidades,
de modo que puedan proporcionar respuestas ágiles ante las
solicitudes de la ciudadanía en lo que respecta a la gestión de los
trámites que ofrecen.
Por tanto, el SUIT resulta ser una herramienta de gestión que promueve y
garantiza una mayor cercanía y transparencia en las relaciones entre el
gobierno y los ciudadanos.
Diagnóstico y problemática
La política de racionalización de trámites, busca tener los trámites
registrados dentro del sistema de información SUIT para agilizar los
procesos para los ciudadanos, pero el avance promedio de las entidades
en este proceso es de aproximadamente 39%; lo que quiere decir que, en
promedio, los entes registrados en el SUIT han inscrito alrededor de 4 de
cada 10 trámites que se encuentran dentro de su inventario.
Adicionalmente, dentro de las fases de inscripción, la mayoría de los
trámites que ya han iniciado su registro se encuentran en fases iniciales.
Por este motivo, la DAFP decidió buscar el apoyo de la CAF con el fin de
identificar actividades innovadoras que permitieran aumentar la tasa de
registros y mejorar el funcionamiento del SUIT.
!30
!
En primer lugar, con objetivo de identificar los principales problemas
asociados con el registro de trámites, entender mejor el proceso de
racionalización y las acciones implementadas para mejorarlo y caracterizar
a las entidades que conforman la muestra, se decidió llevar a cabo una
etapa de diagnóstico a través de técnicas de carácter cuantitativo y
cualitativo.
En lo que respecta al análisis cuantitativo, se revisaron y analizaron a
profundidad el compendio de datos administrativos provistos por el DAFP,
y así se identificaron aspectos como las tasas de avance de las entidades
en el registro de sus trámites, la duración y el número de trámites en cada
una de las fases del registro, el tipo de entidades que avanzan más y sus
características, entre otros aspectos de relevancia.
El análisis cualitativo estuvo basado en un grupo focal dirigido a los ocho
asesores de política que trabajan en el DAFP, allí se discutieron los
siguientes temas:
● Conocer a fondo el funcionamiento de la política de
racionalización desde la perspectiva de los asesores
● Caracterizar y entender el esquema de trabajo de los
asesores,
● Indagar sobre las principales causas de los retrasos en el
registro de trámites
!31
!
● Identificar algunas estrategias ya empleadas por los
asesores y la manera cómo estos interactúan e incentivan a las
entidades a avanzar con el registro de sus trámites.
De este trabajo se pudo concluir de manera general que las instituciones
no avanzan en sus trámites por: cambios frecuentes en administradores del
SUIT dentro de las entidades, falta de capacidades (personal disponible)
dentro de las entidades para llevar a cabo registros.
Esta experiencia de complementar el trabajo cuantitativo y cualitativo fue
valiosa para el diseño de la intervención a evaluar y para fortalecer el
trabajo en equipo que se estaba llevando a cabo en la DAFP. Así mismo,
brindó luces sobre las posibles razones por las cuales no se estaba
cumpliendo con el objetivo de registro de trámites del Gobierno.
Dentro del marco de uso de la información como mecanismo para mejorar
los esquemas de gestión pública, la intervención tenía por objetivo
encontrar diversos mensajes y/o piezas de comunicación que
promovieran, tanto el registro de los trámites en el SUIT, como su calidad.
Basado en la comunicación tradicional que realizaba la DAFP se diseñó un
mensaje disuasivo y otro comparativo. El primero buscaba alertar al ente
de los posibles costos económicos y legales que se tienen al no cumplir
con el registro de trámites. Por su parte, el mensaje comparativo busca
replicar un “comportamiento manada” mostrando algunas entidades con
alto avance en su registro de trámites para tratar de promover este buen
ejemplo.
!32
!
El aspecto más importante, el mensaje disuasivo, hacía referencia a la
posibilidad de que los ingresos de la entidad disminuyeran si los
ciudadanos se abstenían de realizar pagos dado que el trámite no estaba
presente en el SUIT.
En el caso del mensaje comparativo o de “comportamiento manada”, se
destacó, entre otras cosas, la existencia de 664 entidades en toda
Colombia que habían registrado 8 de cada 10 trámites ofrecidos a la
ciudadanía.
Población estudiada y recolección de información.

El universo de entidades públicas en Colombia supera las 7.000
instituciones, sin embargo, la muestra para el estudio está conformada por
2.794 entidades territoriales y nacionales que, antes del envío de los
mensajes, son las que se encuentran registradas en el SUIT y poseen
información de contacto.
Dentro de estas 2.794 instituciones se tienen 122.295 trámites. Definimos
a las instituciones como nuestra unidad de tratamiento para llevar a cabo
la intervención. De esta forma las instituciones se dividieron
aleatoriamente en 3 grupos.
Una intervención a nivel de trámite va a generar problemas de
contaminación/derrame para otros trámites dentro de una misma
institución. De la misma forma podríamos pensar que las instituciones
dentro de un municipio intercambian información, pero creemos que este
!33
!
problema es menor y sopesamos tener un mayor tamaño de muestra para
nuestra intervención, por esta razón la unidad de aleatorización es la
institución.
Al contar con una selección aleatoria de un tamaño relativamente grande
se obtienen tres grupos idénticos en características observables y
presumiblemente también los son en características no observables. El
primer grupo recibió un mensaje de carácter disuasivo, el segundo recibió
un mensaje de carácter comparativo y el tercero, como grupo de control,
no recibió comunicación.
Este grupo de control es el que permitirá conocer las tasas de avance y la
calidad del registro de las entidades en ausencia de la intervención o del
recibimiento de cualquier tipo de comunicación de parte del DAFP.
Este diseño de corte experimental permitirá contestar a la pregunta de si
el envió de mensajes disuasivo y comparativo ayuda a aumentar el registro
de trámites de las instituciones públicas tratadas respecto a las no tratadas
o control.
Cualquier diferencia encontrada entre el grupo que recibe comunicación
(ya sea la disuasiva o la comparativa) y el grupo de control, en términos de
las tasas de avance y de las otras variables de interés del estudio, se
deberá única y exclusivamente al efecto de la comunicación sobre las
entidades y no a otro factor externo que pudiera incidir también en tales
variables.
!34
!
Asimismo, las diferencias entre el grupo que recibe la comunicación
disuasiva y el grupo que recibe el mensaje comparativo, permitirán
determinar cuál de los dos mensajes es más efectivo en impulsar a las
entidades con el registro de sus trámites, así como en la calidad de dicho
registro.
Todos los resultados intermedios y variables de impacto para esta
evaluación han sido organizados de la información administrativa
recopilada por el SUIT. Mensualmente se puede generar un cierre de
información sobre los diferentes indicadores y de esta manera se puede
mirar la evolución de los indicadores a lo largo del tiempo. Esto resulta
muy importante para entender si los efectos de la intervención son
permanentes o se van diluyendo en el tiempo.
Esta es una evaluación de gestión y no se considera una evaluación de
política debido a que la intervención que se dio fue un envío de mensajes
diferenciado, incorporando una modificación a los procesos de contacto
que tradicionalmente estaba llevando a cabo la Función Pública. Esta
intervención buscaba mejorar la manera de realizar los procesos
intermedios, comparando varias alternativas de implementación, como
son los mensajes disuasivos y comparativos.
4.5.- Importancia de las evaluaciones de gestión.

Cada instancia de implementación de una iniciativa es una oportunidad
para aprender sobre su efectividad para alcanzar el objetivo que se
!35
!
propone. En principio, desde el punto de vista del bienestar social,
siempre es deseable tener mejor conocimiento sobre el impacto de las
iniciativas. Sin embargo, esta no es la única consideración de un
formulador de políticas al decidir si somete alguna de sus iniciativas a un
escrutinio metódico, especialmente si tiene un interés político inmerso en
las iniciativas.
Partiendo de la base de que el formulador de políticas públicas está
motivado, hasta cierto punto, por un interés electoral o político, decidir
poner una iniciativa bajo la lupa de analistas implica ciertos riesgos:
● descubrir problemas básicos en la implementación de los
programas
● mostrar que el programa tiene efectos menores de lo que se
esperaba o de lo que las autoridades prometían e incluso efectos
contraproducentes.
En estos escenarios, generar conocimiento tiene un costo en términos de

reputación y de apoyo político. Por otra parte, si la evaluación muestra
resultados positivos el beneficio político también puede ser muy grande.
En suma, someter una iniciativa a un escrutinio metódico tiene grandes
beneficios potenciales pero también grandes riesgos, y el formulador de
políticas decidirá en cada caso implementar una nueva intervención y
evaluar dependiendo de su expectativa sobre los mismos.
!36
!
Cuando la evaluación se percibe como más riesgosa o menos provechosa
desde el punto de vista político, será menos probable que el formulador
de políticas decida implementarla. Para incrementar el atractivo de las
evaluaciones de iniciativas públicas es entonces necesario, entre otras
cosas, minimizar el costo político de llevarlas a cabo.
Las evaluaciones de gestión son menos riesgosas (políticamente), y por lo
tanto, su factibilidad institucional puede ser mayor.
Por ejemplo, si un ente público decide implementar un esquema de pago
por desempeño para sus empleados y lleva a cabo un experimento para
medir cuantitativamente la efectividad de la medida, no es claro que el
riesgo al que se enfrenta sea electoral, al menos en una primera instancia,
lo que podría aumentar la disposición a implementar el esquema de pago
por desempeño y evaluarlo.
De esta forma, las evaluaciones de gestión, al ser potencialmente menos
riesgosas, pueden ser más atractivas para las instituciones, lo que puede
llevar a que se hagan más evaluaciones de impacto de programas
públicos. Más evaluaciones de gestión implica por un lado que las
instituciones están utilizando su propia experiencia para generar
aprendizajes que las pueden ayudar a mejorar la gestión de sus recursos,
lo que debería redundar eventualmente en mejores bienes y servicios
públicos.
Por otro lado, más evaluaciones de gestión implica que hay más
instituciones involucradas en el mundo de la evaluación de impacto,
!37
!
intercambiando experiencia entre ellas, y pavimentando el camino hacia
una cultura de gestión pública donde el monitoreo, la evaluación y el
aprendizaje constantes son práctica común y poco riesgosa, en general.
4.6.- Cómo identificar oportunidades de evaluaciones de gestión.
En principio, una evaluación de gestión es posible siempre que se quiera
mejorar un proceso o se quiera introducir una actividad complementaria a
lo que ya hace la institución. Sin embargo, quisiéramos destacar algunos
elementos que podrían ayudar a identificar cuándo estamos ante la
posibilidad de evaluar el impacto de una iniciativa de gestión.
1. Posibilidad de modificar procesos:

Independientemente de si la política actual cumple con sus objetivos,
siempre hay espacio para mejorarla. Si se revisa el proceso de
implementación, es posible identificar cambios que potencialmente
podrían mejorar los resultados. Si probar estas alternativas no implica
grandes costos, ¿por qué no evaluar el impacto de las diferentes
alternativas de implementación para así saber cuál es la más efectiva?
Cuando en una política es posible logísticamente introducir un cambio,
realizar una evaluación de impacto es más viable, además, políticamente
puede ser aún más factible hacer la evaluación, ya que si el cambio es
menor habrá menos resistencia.
Ejemplo: el patrullaje policial normalmente consiste en asignar a equipos

!38
!
de policías a que patrullen ciertas áreas de la ciudad, a ciertas horas del
día. Sin embargo, comúnmente existe poca estructura acerca de cómo
debe ser la rutina de patrullaje y sobre qué deben hacer los policías
cuando estén estacionados en algún lugar. Esta situación ha dado paso al
patrullaje de puntos calientes que da algo más de estructura al patrullaje
ordinario, planificando con detalle dónde tienen que estar las patrullas,
cuánto tiempo y que deben hacer los policías en cada punto donde
patrullan. Además, el patrullaje de puntos calientes selecciona con
criterios muy específicos qué puntos de la ciudad se van a patrullar, en vez
de permitirle a los policías rodar aleatoriamente por las calles. Aquí,
claramente hay un cambio de proceso que podría evaluarse sin demasiado
costo para la institución y que puede arrojar respuestas realmente útiles
para la gestión de los recursos policiales.
2. Posibilidad de agregar, a bajo costo, actividades innovadoras

complementarias:
En la cadena de eventos que tiene que ocurrir para que una política
cumpla con su objetivo, usualmente se pueden identificar algunas
actividades innovadoras de bajo costo que podrían aumentar la
efectividad de la política. Esta es una excelente oportunidad para realizar
una evaluación de impacto, dado que podrían identificarse cambios con el
potencial de aumentar la efectividad de la política, sin que esto suponga
!39
!
un cambio drástico en la forma en que ya se está implementando la
misma.
Ejemplo: como vimos arriba, la efectividad de la política de transferencias

condicionadas para aumentar los controles pre- y post- natales en el
programa Red Primeros Meses de Argentina, depende crucialmente de
que las familias beneficiarias potenciales estén enteradas de la existencia
del programa y de sus requisitos y procedimientos. De lo contrario, el
programa llegaría a una fracción menor de la deseada y no tendría el
impacto deseado de aumentar los controles sobre la población total.
Alrededor de este obstáculo de gestión, pueden intentarse distintas
alternativas para informar de la existencia del programa, hacer énfasis en
distintos tipos de mensaje y evaluar qué opción es más efectiva en
aumentar la inscripciones. Luego, este conocimiento queda disponible
para que la institución lo adapte e incorpore a sus procedimientos
rutinarios.
3. Cuando hay dudas sobre el mejor curso de acción … lo mejor

son los pilotos
Cuando no haya consenso institucional sobre el cambio específico que
debe realizarse para mejorar un proceso o sobre la innovación que se va a
intentar, o cuando haya abiertamente dudas sobre el mejor curso de
acción, estamos ante la oportunidad de oro para proponer una evaluación
!40
!
de gestión. En estos casos, también puede ser muy útil proponer que se
implemente el cambio como piloto para probar antes de escalar.
En el cambio del proceso de investigación de homicidios en la Fiscalía

General de la Nación en Colombia, el cambio se implementó inicialmente
como piloto, y esto además abrió la oportunidad de diseñar una
evaluación rigurosa ante el desconocimiento sobre el efecto real del
cambio de procedimiento.
En el siguiente módulo se abordarán temas relacionados con los retos que

se enfrentan al evaluar, incluyendo los de identificar una posibilidad de
evaluación.
Conclusiones.
● Una evaluación de gestión es aquella que mide el impacto del
cambio en algún proceso o actividad de una institución (su gestión) y
que busca aumentar la efectividad de la misma.
● Las evaluaciones de gestión se concentran principalmente en las

actividades y procesos intermedios que realizan las instituciones, y
que no necesariamente tienen un beneficiario directo.
!41
!
● Las evaluaciones de impacto de política buscan evaluar el impacto
de ofrecer algún bien o servicio o de realizar una actividad en los
beneficiarios finales (que suele ser la ciudadanía), mientras que las
evaluaciones de gestión, miden el impacto de cambios en los
procesos o de la introducción de actividades innovadoras dentro de
la entrega de bienes o prestación de servicios a la ciudadanía .
● Las evaluaciones de gestión, en particular, tienen una utilidad

primordial para los implementadores porque a través de ellas se
busca explícitamente generar conocimiento que permita introducir
modificaciones en las actividades que hace la institución.
● Puede haber importantes ventajas de costos y de disponibilidad de

datos a la hora de hacer evaluaciones de gestión, lo que aumenta su
factibilidad técnica e institucional respecto a la posibilidad de hacer
evaluaciones de política.
● Hay mucho espacio en las instituciones para hacer evaluaciones de

gestión de distinta índole, lo que puede ayudar a impulsar una
mayor cultura de aprendizaje y experimentación con el fin de
mejorar la gestión de las instituciones.
!42
!
2018
Cómo comenzar a pensar
en una evaluación:
retos técnicos, logísticos,
institucionales y éticos.
ÍNDICE
V. Cómo comenzar a pensar en una evaluación: retos técnicos,

logísticos, institucionales y éticos.
5.1.- Preguntas que debemos resolver a la hora de pensar en una

evaluación de impacto. (2)
5.2.- Aspectos Técnicos. (5)
5.3.- Aspectos logísticos, institucionales y políticos. (22)
5.4.- Aspectos Éticos. (31)
!1
!
5.1.- Preguntas que debemos resolver a la hora de pensar en una
evaluación de impacto.
Existen varios requerimientos de tipo técnico, logístico, institucional o
político, y ético que debemos revisar y tener claros antes de iniciar
una evaluación o durante el proceso de diseño de la misma.
Dependiendo del cumplimiento de estos requerimientos podemos
determinar la viabilidad o factibilidad de una evaluación de impacto
de calidad.
A lo largo de este capítulo vamos a ir planteando y desarrollando
cada una de las preguntas y/o retos que debemos tener en cuenta,
dando una breve explicación y plasmando algunos ejemplo que lo
expliquen.
De manera general debemos responder a las siguientes preguntas:
1) ¿Cuál es el problema que se ha identificado y dentro de
qué programa, política se enmarca?
Es importante conocer el contexto o marco conceptual de la política o
programa dentro del cual hemos identificado una problemática que
queremos solucionar mediante una intervención, que luego
esperamos evaluar. El problema identificado debe ser puntual para
poder diseñar estrategias específicas que tengan un impacto directo y
le den solución al mismo. El conocimiento a fondo de la política o
programa nos brinda herramientas para identificar los posibles cuellos
de botella y construir una teoría de cambio completa basada en las
!2
!
actividades y procesos intermedios de la intervención específica, que
esperamos modifique la problemática identificada a través de un
impacto en resultados intermedios y resultados finales.
Por ejemplo, pensemos que el gerente general de un banco está
preocupado por el bajo uso de su red de cajeros electrónicos. Esta
resulta ser una problemática puntual identificada dentro de un
programa que podría conocerse como: “estrategia de servicios del
Banco”. Cuando hacemos referencia a la importancia del
conocimiento de contexto y marco conceptual de la política o
programa es importante en este caso conocer por ejemplo si: ¿el
banco tiene una cobro por retiro en cajero más alto que sus
competidores? ¿la ubicación de los cajeros es en lugares donde las
personas frecuentemente hacen retiros? ¿el manejo de la máquina es
complejo? ¿existe una percepción de inseguridad en la ciudad en
general, o en los lugares donde se encuentran los cajeros? ¿existe una
mala reputación respecto a transacciones erradas que ocurren en los
cajeros del Banco?
Todas estas preguntas nos enmarcan y nos ayudan a identificar cual
sería una estrategia correcta. Vamos presentando una a uno en el
orden de los problemas planteados:
• se puede hacer una campaña publicitaria donde se
anuncia el cambio de cobros
!3
!
• se pueden incrementar el número de cajeros en la
ciudad
• se pueden modernizar los cajeros con nuevas
tecnologías que brindan una mayor facilidad de uso
• se puede incrementar la vigilancia en lugares con
cajeros electrónicos
Ejercicio para el estudiante: Piense en una intervención que logre mejorar la

última problemática planteada sobre mala reputación de transacciones
erradas.
Ahora, si quisiéramos conocer cuál de las estrategias planteadas

anteriormente funciona o no para mejorar el uso de los cajeros
electrónicos, debemos llevar a cabo una evaluación en donde
introducimos una intervención a la vez. Si todas estas intervenciones
ocurren en un mismo momento del tiempo y se dan para todos los
clientes del banco, no podremos lograr tener una evaluación de
impacto que identifique específicamente de dónde viene el cambio
en uso que observamos al comparar este indicador en una línea de
base y en los datos de seguimiento.
!4
!
2) ¿Cuáles son los cambios esperados después de la
intervención?
Cuando implementamos una intervención, lo hacemos porque esperamos
que se generen ciertos cambios que contribuyan a resolver un problema
identificado previamente. Por lo tanto, al momento de diseñar la
evaluación de impacto de la intervención, debemos tener claridad sobre
los cambios que esperamos observar gracias a la misma.
Para identificar los cambios esperados es necesario llevar a cabo el
ejercicio de Teoría de cambio de la política que vamos a evaluar. Es
importante que este ejercicio se explique y lleve a cabo con los
funcionarios que participan dentro de la política. Por otra parte, puede
que la política, como parte de su diseño, ya cuente con una teoría de
cambio y debemos es modificarla o ajustarla a la intervención que
planeamos hacer para entender los posibles resultados intermedios y
finales que esperamos encontrar luego de la intervención sobre un
problema particular de la política.
5.2.- Aspectos Técnicos.
Disponibilidad de datos administrativos.

¿Se genera información periódica de monitoreo de actividades y procesos
de la institución o sobre variables relevantes para la efectividad de la
institución? ¿Estos datos se almacenan ordenadamente y son de confiar?
!5
!
Si este es el caso, puede existir una excelente oportunidad de hacer una
evaluación de impacto, dado que el levantamiento de información antes y
después de la intervención suele ser costoso y es clave para la medición.
La generación automática de datos puede ayudar inicialmente a identificar
deficiencias en los procesos y posteriormente a medir la efectividad de los
cambios realizados para superarlas.
También, las evaluaciones logran retroalimentar los sistemas de
información al ordenarlos y encontrar los indicadores de mayor utilidad
dados los objetivos de los programas que lleva a cabo la institución.
¿Cuáles son los indicadores que miden resultados y productos de esta

política?
Debemos revisar la recolección de información que se lleva a cabo dentro
de una institución para saber si de allí se pueden construir indicadores de
seguimiento. También debemos conocer la calidad de esta información y
su representatividad.
Por ejemplo, el Servicio Público de Empleo de Colombia tiene un sistema
automatizado con el que gestionan su intermediación entre oferentes de
empleo (ciudadanos) y demandantes (empresas). El hecho de que toda la
información quede registrada y sea descargable facilita la evaluación del
impacto de distintos cambios de procesos que buscan mejorar la calidad
de la intermediación laboral que realiza la agencia.
!6
!
Por ejemplo, cambios para aumentar la asistencia de buscadores de
trabajo a ferias de empleo o para mejorar el emparejamiento entre los
buscadores de trabajo y los oferentes.
Imaginemos otro caso: tenemos reportes de visitas a los centros de
urgencias de los hospitales. Pero nos informan que el reporte no es
completo y está relacionado con la cantidad de personal con el que
cuenta un hospital por paciente atendido.
Esto se debe a que el registro de esta información lo debe hacer una
persona que ingrese la información a un sistema que consolida el
Ministerio de Salud, pero para ello se necesita no solo el tiempo de la
persona, sino la capacitación en el software y el conocimiento básico de
los diagnósticos que se deben incluir dentro del sistema.
Como resultado, lo que observamos es que el sistema de información,
aunque aparentemente muy atractivo, en su mayoría cuenta con registros
de hospitales donde se cuenta con un número amplio de enfermeras por
paciente. Esto indicaría que aun cuando hay información, ésta no resulta
ser representativa de la población, sino que está asociada a personas que
asisten a este tipo de instituciones con mayor disponibilidad de personal.
A priori, se esperaría que una institución con mayor personal para atender
pacientes, también tenga un mejor servicio o calidad de atención.
Por lo tanto, si utilizáramos esta información para hacer una evaluación de
impacto deberíamos tener en cuenta: primero, que contamos con una
muestra selecta donde los problemas de salud pueden ser menores o se
!7
!
solucionan de una mejor manera, dada la mayor calidad en atención, y
segundo, debemos pensar si la intervención que llevamos a cabo tiene un
efecto diferencial sobre hospitales con mayor o menor disponibilidad de
personal y por lo tanto calidad en la atención.
¿Con qué frecuencia se observan los datos administrativos?

Una vez tenemos una idea de la información que se recopila y de su
calidad, es importante conocer la periodicidad de los reportes que se
pueden obtener de los datos administrativos. Si llevamos a cabo un
ejercicio de cadena de valor completo (teoría de cambio), debemos
preguntarnos en cuánto tiempo esperamos ver resultados intermedios e
impactos finales. Esto indica cuándo es un momento oportuno para
evaluar resultados. Por ejemplo, si esperamos ver el impacto de una
intervención que se lleva a cabo en marzo y debe tener efectos casi
inmediatos, no podemos esperar a una recolección de información que se
lleva a cabo una vez a final del año.
Cuando no se tiene acceso o recolección de datos administrativos que
puedan contestar las preguntas de la evaluación, o cuando ellos no sean
de buena calidad o no recolectan la información necesaria y oportuna para
la evaluación; entonces se debe pensar en la posibilidad de hacer
levantamientos de información. Una manera de hacer levantamientos de
información a un menor costo es vía web.
!8
!
Para la recolección de información en línea, es importante tener en cuenta
quién va a contestar y garantizar la representatividad de la muestra que
nos responderá.
Por ejemplo, pensemos en una compañía de telefonía que lleva a cabo
una capacitación de sus empleados para la atención al cliente. En caso de
querer llegar a hacer una evaluación de esta intervención con datos
administrativos, se debería llevar un registro de información sobre la
satisfacción de la atención reportada por los clientes. De no tener este
tipo de información, se podría pensar en un levantamiento de información
vía web. Lo importante en este caso sería tener en cuenta que debemos
tener una muestra representativa de los clientes. Tener solo respuesta de
aquellos que quedaron inconformes, va a generar una resultado de
impacto errado. De la misma forma, encuestar sólo a aquellos a quienes
se les resolvió su problema también generaría un resultado errado. Por
ello es importante verificar la muestra que se recoge a partir de los
levantamiento de información vía web para tener una recolección de
información representativa y sin sesgo de respuesta.
El tamaño de muestra
El tamaño de muestra corresponde al número de unidades dentro del
estudio (ya sean individuos, clientes, pacientes, estudiantes, firmas) que
necesitamos observar para poder obtener resultados que sean
estadísticamente significativos en el caso de que verdaderamente exista
!9
!
un efecto. Un cálculo correcto del tamaño de muestra es indispensable
para no concluir erróneamente de nuestra evaluación que no existe un
efecto donde sí lo hay, en otras palabras, un falso negativo. Este tipo de
error se conoce como el error tipo II.
Si dentro del programa que queremos evaluar, existe la condición en la
que contamos con un número grande de unidades sobre las cuales se
puede aleatorizar, entonces es una buena oportunidad de hacer una
evaluación.
Por ejemplo, en el caso de la implementación del botón de pago en el
Municipio Sucre en Caracas, el cambio recae sobre todos los
contribuyentes registrados, lo cual es un número grande. Cuando se hace
patrullaje de puntos calientes, la unidad sobre la que recae el cambio son
segmentos de vía identificados como peligrosos. En una ciudad es posible
identificar cientos de segmentos de vía (en Bogotá se identificaron
alrededor de 138.000 y en 2.000 de ellos se concentra aproximadamente
el 50% del crimen).
En este punto resulta importante entender el concepto de población y de
muestra aleatoria:
Una población representa la totalidad de los individuos u observaciones
en un grupo de estudio. En el ejemplo mencionado anteriormente serían
todos los contribuyentes del municipio de Sucre y todos los segmentos de
vía de la ciudad de Bogotá. Algunos otros ejemplos:
!10
!
Pensemos en los niños de la institución educativa. El total de la matrícula
es la población.
Para un país, su población será todo aquel individuo que se encuentra
dentro del censo poblacional.
Luego de tener una idea de la población, debemos saber si la información
que utilizaremos será de tipo administrativo o recolección de información.
Si la información es administrativa se logra trabajar con la población total,
como en muchos de los ejemplos que dimos en las evaluaciones de
gestión; pero si se lleva a cabo una recolección de información,
seguramente vamos a trabajar con muestras aleatorias, que deben ser lo
suficientemente grandes, para poder tener conclusiones creíbles dentro
del experimento.
Ahora, una muestra aleatoria de esta población (por ejemplo de la
institución educativa) consiste en tomar de manera independiente, bajo
una selección aleatoria, algunas observaciones de esta población para
construir un grupo de individuos que representen y se parezcan
estadísticamente en todas sus característica a esta población.
Algunos ejemplos:
Las encuestas de calidad de vida o encuestas de hogares son muestras
representativas de la población. No levantan información de todos los
hogares, sino de una muestra.
Cuando decimos que la muestra representa a la población, entendemos
que es un subgrupo de la población que cumple con una distribución de
!11
!
características idénticas a las de la población. A este concepto lo
conocemos como: una muestra y ésta debe estar idénticamente
distribuida a la población.
Si tomamos una muestra lo suficientemente grande podemos encontrar
que la muestra cumple con la misma distribución que la población en
características tales como: género de los estudiantes, grado y edad.
Por lo tanto si revisamos dentro del colegio el porcentaje de niños
respecto a niñas, porcentaje de estudiantes por grado y su edad;
debemos encontrar que estas estadísticas deben ser muy parecidas o casi
idénticas tanto para la muestra aleatoria como para la población.
¿Por qué son útiles las muestra aleatorias?
Lo primero que debemos tener en cuenta es que la recolección de
información es costosa, tanto en tiempo, como en dinero, por tanto,
aunque tener la población para hacer un estudio sería lo ideal, una
muestra aleatoria y representativa de la población nos va a brindar los
mismos beneficios para llevar a cabo un estudio a un costo menor.
Es importante saber cuál debe ser el tamaño de muestra o el número
mínimo de observaciones de una población, que nos permite tener una
muestra aleatoria representativa de ella y a su vez que nos permite
obtener un cálculo del efecto sobre la variables de impacto.
¿Cuál es el número de observaciones que requiere la evaluación para
poder tener un resultado que sea estadísticamente significativo?
!12
!
Idealmente queremos tener el tamaño mínimo posible que nos permita
detectar el efecto que estamos tratando de encontrar en nuestra
evaluación.
Pero... ¿qué sucede si tenemos una muestra muy grande?
que con una menor cantidad de recursos hubiéramos podido llegar a los
mismo resultados de la evaluación. Por tanto desperdiciamos dinero y
tiempo.
Pero... ¿qué sucede si tenemos una muestra muy pequeña?
que esa muestra quizás no se parezca mucho a la población, y por lo
tanto, los cálculos que hagamos con ella, no puedan ser extrapolados a la
población o no van a identificar el resultado dado en la población después
de llevar a cabo una intervención.
Por ejemplo, pensemos que queremos una muestra aleatoria para estudiar
a las personas de acuerdo a si son zurdas o diestras. Es un hecho que la
población de zurdos en el mundo está entre un 9 y un 12%. Tener una
muestra representativa implica que, con una selección aleatoria de
personas de la población, yo lograré obtener esta misma tasa de personas
zurdas dentro de mi muestra. En términos generales podríamos decir que
1 de cada 10 personas que encontremos va a ser zurda. Pero qué pasa si
por pura casualidad la primera persona que sacamos aleatoriamente de la
población es zurda, las siguientes 4 diestras, y nuestra muestra es de 5
personas. Allí concluiríamos que 20% de la población es zurda. Con una
muestra suficientemente grande, lo que encontraríamos es que las
!13
!
características de la muestra siguen de manera muy cercana el
comportamiento de la población.
El tamaño de la muestra también resulta ser clave para encontrar si las
diferencias entre los resultados del grupo tratamiento y del grupo control
son significativas o no. Es decir, se necesita tener una muestra
suficientemente grande como para estar seguros de que el diferencial que
estamos encontrando no es una simple coincidencia, que lo obtuvimos
por pura suerte.
Siguiendo con nuestro ejemplo anterior, por alguna razón, desconocida, la
tasa de hombres zurdos en el mundo es más alta que la tasa de mujeres
zurdas. Si queremos probar que esta diferencia existe, y es
estadísticamente significativa, necesitamos recolectar información de
género y lateralidad para luego comprar la fracción de mujeres zurdas con
la fracción de hombres zurdos. Una vez conocemos estas fracciones,
buscamos la diferencia y probamos si esta es estadísticamente
significativa.
Específicamente, la tasa de mujeres zurdas es del 8% y la de hombres
zurdos es de 12%. Si tenemos una muestra de 20 personas, primero
esperamos tener 10 hombres y 10 mujeres, pero con esta muestra va a ser
muy difícil ver que existe una diferencia de 4 puntos porcentuales en
lateralidad. Seguramente en cada grupo tendríamos a un zurdo, en este
caso concluiriamos que la tasa de hombres y mujeres zurdas en la
población es idéntica.
!14
!
Por tener una muestra pequeña no podemos asegurarnos de que
estadísticamente son distintos los resultados entre los dos grupos. Cuando
tenemos una muestra 10 veces más grande, seguramente allí sí vamos a
encontrar que dentro de las 100 mujeres, 8 son zurdas y dentro de los 100
hombres, 12 son zurdos. Es importante contar con un número de
individuos que sea "suficientemente" grande, y que capture cierta
diversidad, que nos ayude a discernir si existen diferencias dentro de
nuestros grupos de estudio.
Para determinar el tamaño de muestra tenemos que tomar las siguientes
consideraciones:
o Queremos tener uno o varios grupos de tratamiento.
Ejemplo: Volvamos al ejercicio donde queríamos ver el efecto de
los almuerzos sobre la estatura de los niños. Tener más de un
tratamiento puede estar dado cuando diseñamos una evaluación
con los siguientes tres grupos:
1. (tratamiento compuesto) grupo de niños que recibe
alimentación, chequeos médicos y entrenamientos deportivos
adicionales en la escuela
2. (tratamiento básico) grupo de niños que recibe alimentación
escolar,
3. (control) niños que no reciben ninguno de los dos tratamientos
!15
!
o Considerar la facilidad con que se puede modificar la variable de
impacto en respuesta a una intervención. Por ejemplo, pensemos
en indicadores de salud como la estatura o el peso.
Definitivamente el peso es una variable que es más fácil de
modificar que la estatura de un niño en el corto plazo.
Esto resulta importante, porque si tenemos una variable de
resultado que es fácil de cambiar con una intervención, entonces
la muestra que necesitamos para identificar el efecto es más
pequeña que si estamos analizando una variable que difícilmente
se puede modificar.
Por ejemplo, si el peso de un niño es más sensible a cualquier
intervención. Digamos que este niño que pesa 20 kg al inicio de la
intervención de almuerzos escolares puede incrementar su peso a
22 Kg en un mes (un aumento de un 10%). Mientras que este
mismo niño mide 100 cm al inicio de la intervención y puede
llegar a medir 101cm en un mes después de la intervención de
alimentación escolar (un aumento de un 1%).
Esto indicaría que resulta más fácil que un programa como el de
alimentación escolar logre ver efectos sobre el peso que sobre la
estatura. Por tanto, si vamos a dar almuerzos a la mitad del colegio
y queremos ver el impacto sobre peso, va a requerir de una menor
!16
!
muestra y/o menor tiempo de intervención que la requerida para
ver el efecto sobre la estatura.
En una evaluación podríamos obtener un efecto nulo por dos motivos:

1. Porque realmente el programa no tiene ningún efecto.
2. Porque el tamaño de muestra que utilizamos fue demasiado
pequeño, dado el cambio generado por el tratamiento en la
variable de resultado. Como lo mencionamos anteriormente,
esto se llamaría un error de tipo II.
Es importante tener un buen cálculo del tamaño de muestra para poder
diferenciar con certeza un resultado nulo de un resultado que es muy
pequeño en magnitud y por tanto requiere de una muestra lo
suficientemente grande para poder identificarlo.
• Identificar plazo de los impactos esperados.

• Definir, de acuerdo con el análisis de la cadena de valor, cuál
sería el plazo en el cual se espera ver impactos sobre las
variables de resultado. Pueden existir diferentes resultados y
plazos diferenciados entre ellas.
• De lo contrario si no se le da el tiempo suficiente a la
intervención para que tenga efectos sobre la variable de
!17
!
resultado se puede estar asumiendo que no existen
impactos.
• Tener cuidado de dar suficiente tiempo de exposición para
que puedan existir cambios en los resultados.
• A su vez, si se espera mucho para medir, quizás algunos
impactos se pierdan o se confundan con otras cosas que
pueden haber sucedido en el tiempo.
• Tratar de evitar, en lo posible, que la decisión de duración de
la intervención y tamaño de muestra se tomen en función del
presupuesto para implementar. Estas son condiciones técnicas
en donde tanto la duración como el tamaño de muestra
deben ser determinadas por la cadena de valor y por los
cálculos de poder. Pues a mayor tamaño de muestra, tenemos
claro que esto implica mayores costos de implementación y
recolección de información.
Validez interna y validez externa de una evaluación

Empecemos por definir el concepto de validez interna. La validez
interna determina si la metodología utilizada es creíble y rigurosa para
la población en la cual se implementa el estudio, por tanto los
resultados encontrados serán válidos (internamente) dentro de la
población de estudio. La validez interna de un experimento aleatorio
controlado es perfecta en condiciones normales. Solo se ve vulnerada
!18
!
cuando existen problemas como son: personas que pueden no
aceptar el tratamiento o tomarlo de manera esporádica, problemas de
atrición1 (posiblemente no aleatorias) y problemas de autoselección.
Pero es importante tener en cuenta que los experimentos tienen una
complicación y es que ellos son diseñados para ser aplicados en
grupos muy pequeños o muy específicos. Por ejemplo, para llevar a
cabo un experimento de almuerzos escolares, en general se escogen
unas pocas instituciones para llevar a cabo un piloto.
Para poder generalizar los resultados a una población total, debemos
saber si las instituciones escogidas para el experimento son o no
parecidas a otras dentro de la población total. Este concepto se
conoce como la “validez externa” que pueden tener nuestros
resultados. Es decir que nuestros resultados son “válidos
internamente” para el grupo de estudio (dado que estamos
aleatorizando), pero para poder generalizarlo a la población o tener
“validez externa” debemos estar seguros que las instituciones
seleccionadas son representativas o relativamente parecidas en su
contexto a las instituciones educativas en el país.
1 La atrición, o desgaste de la muestra, identifica la pérdida de observaciones (o unidades) que fueron parte del
diseño inicial. Comúnmente, una observación se pierde porque no se puede contar con la información de
seguimiento de la persona (o familia o empresa u otro grupo). Esto puede ocurrir porque se ha mudado, o cambió
de teléfono, o desapareció la empresa, entre otras razones.
!19
!
• Estos dos conceptos indican que resulta muy importante definir la
cobertura de la evaluación para garantizar mayor validez externa.
Es decir, en la medida de lo posible, debemos asegurarnos que la
población que se considera para el estudio es representativa de
toda la población general de interés en un país o sector.
• Si yo tomo el grupo tratamiento y control de un extremo de la
distribución, por ejemplo tomo los niños más bajitos para mi
intervención de nutrición, voy a tener unos resultados con validez
interna sobre niños muy bajitos, pero pierdo la validez externa para
un grupo de niños representativos dentro de la población.
• Por lo anterior, es importante tener en cuenta si el contexto de la
evaluación es idéntico o muy similar al contexto real en cual se
implementa una política como la evaluada, y en tal caso podemos
asumir que los resultados que vamos a encontrar sobre la
población general serán parecidos.
• Debemos anticipar esto a la hora de escoger el grupo de la
población donde se llevará a cabo una intervención.
Diseño para prevenir contaminación y detractores.

Se debe tener cuidado con los problemas de contaminación o contagio.
Este tipo de problema es poco probable que ocurra en el laboratorio,
donde todas las condiciones pueden ser controladas por el científico.
!20
!
En el caso de la evaluación de impacto, no todo se puede controlar y por
esta razón es tan importante anticipar los posibles problemas de contagio
desde el diseño de la intervención de política para definir el nivel óptimo
al cual se debe aleatorizar.
Por contaminación o contagio específicamente nos referimos al evento de
que alguno de los individuos del grupo de control reciba parte del
tratamiento o se vea involucrado o afectado de alguna manera por él.
El contagio corresponde a cualquier forma de acceso que el control pueda
tener a tratamiento. Un grupo de control contaminado, va a mostrar en
seguimiento resultados parecidos que el tratamiento y por lo tanto la
conclusión (errónea) del estudio será que no existe un efecto diferencial
del tratamiento entre los dos grupos.
En nuestro ejemplo del programa de nutrición, esto se referiría a que los
hermanos gemelos que no participaron en el programa de pronto también
se beneficien de alguna manera del programa de alimentación escolar.
Una situación hipotética que tendría un efecto de contagio es la siguiente:
si por ejemplo los hermanos participantes deciden sacar fruta o postre del
almuerzo para darlo a sus hermanos gemelos no participantes. En este
caso, para evitar o minimizar el problema de contaminación se debe llevar
a cabo una aleatorización a nivel de familia y no de gemelo dentro de una
familia.
Otro posible efecto indirecto de este programa puede ser que la
asignación de cantidad o calidad de comida para el niño no beneficiario
!21
!
resulte diferente después de que inicie el tratamiento. Si en el hogar ahora
tienen que alimentar a un niño menos, los recursos pueden re-dirigirse y
por tanto para el control también van a cambiar las raciones de comida.
Esto es algo que no queremos que suceda: el tratamiento no debe afectar
al grupo de control de ninguna manera, ya sea directa o indirecta.
Por otra parte, podemos tener un grupo de detractores. Esto quiere decir,
que personas que se han asignado al grupo de tratamiento, deciden no
tomarlo.
Por ejemplo, niños que llegan al colegio y no entran a la cafetería a tomar
el almuerzo o lo hacen solo ciertos días. Esto hace que el tratamiento
original no se dé por completo, sino de forma parcial y por lo tanto su
efecto no va a ser tan grande como se esperaba inicialmente. Durante el
diseño debemos anticipar si existirá un porcentaje grande de detractores,
para incrementar la muestra inicial.
5.3.- Aspectos logísticos, institucionales y políticos.
¿Quiénes intervienen en esta política?

Las políticas públicas en muchos casos son competencia de múltiples
sectores o incluso políticas dentro de un mismo sector tienen varios
unidades dentro de una misma entidad como ejecutores. Para que una
evaluación sea factible es prioritario contar con el acompañamiento de
todos los entes o direcciones involucradas en la gestión de la política.
!22
!
Todos los integrantes de la política deben estar dispuestos a colaborar y a
acompañar la intervención para que su evaluación sea exitosa.
Esto no solo conlleva el compromiso de acompañamiento pasivo, sino que
involucra aspectos logísticos a la hora en que la institución debe
comprometerse tanto a nivel central como local en modificar sus procesos
para lograr conocer el impacto de la intervención sobre el resultado final.
Un ejemplo de esto se puede dar cuando tenemos una política definida a
nivel nacional que maneja una institución del orden nacional, pero ella
depende de seccionales para implementar la política localmente. En este
caso tanto el área que brinda las directrices generales de la política como
las seccionales deben estar involucradas y conocer la intervención que se
va a llevar a cabo y los objetivos de la misma para que de manera
cumplida y bajo ciertos protocolos se implemente la intervención y se
logre tener una correcta medición.
Adicionalmente podríamos llegar a tener la necesidad de vincular a un
tercer actor que es la oficina de sistemas de la institución que recopila
información administrativa que resulta útil como fuente de información de
línea de base y de seguimiento para realizar la evaluación. Esta oficina
debe estar comprometida y dispuesta a la entrega y al procesamiento de
información para lograr tener los insumos de estadísticas requerido para
realizar la evaluación. Por tanto, no solo los actores implementadores
deben estar enterados y acompañando la evaluación, sino que también
requerimos de los gestores de información para lograr tener los insumo de
!23
!
la medición, ello conlleva a un compromiso y capacidad que la institución
tiene que estar dispuesto a proveer.
¿La evaluación/intervención es viable en tiempos y recursos?

Adicional a la disposición de gestores de la intervención y de la
información, es clave conocer dentro de la evaluación qué costos tendría
el levantamiento de información, o las actividades directas o indirectas
que se requieran para llevar a cabo la intervención. Un ejemplo de lo
anterior puede ser el caso de la capacitación de empleados en la atención
a clientes. En primera medida debemos destinar algunos recursos o
mantener las evaluaciones de satisfacción del servicio o a implementarlas
desde un principio. Segundo podemos tener costos directos de la
intervención que corresponden al costo de los cursos de capacitación, y
tercero, podemos requerir la contratación de algunas horas extras de
empleados para suplir el trabajo de aquellos que se encuentran en la
capacitación.
Aun cuando hemos tratado de recurrir a métodos de recolección de
información poco costosos, puede que las intervenciones necesarias sí
sean costosas y nos generen grupos de tratamiento muy pequeños para
llevar a cabo una evaluación.
Por ejemplo pensemos en las becas de los docentes, esta intervención se
podría evaluar al contar con información administrativa de los resultados
intermedios y finales, pero la intervención de beca por docente puede
!24
!
tener un costo elevado. Puede que en cada ronda de intervención, el
número de docentes tratados no sea suficientemente grande para lograr
identificar estadísticamente un efecto de la capacitación y por lo tanto
debemos esperar a llevar a cabo varios períodos de intervención para
lograr evaluar.
Debemos tener sumo cuidado con esto, pues no quisiéramos decir que
una intervención no es efectiva, cuando realmente sí lo es, debido a que
tenemos bajo poder estadístico para detectar un efecto.
Consideraciones para minimizar detractores o pérdida de muestra tanto
de tratamiento como del control.
En términos de logística, debemos asegurarnos de que el programa se
implementa de la mejor manera posible para minimizar pérdidas asociadas
a detractores que no fueron atraídos de una manera convincente al
tratamiento.
A continuación planteamos algunas estrategias de seguimiento para
minimizar este problema.
A mayor duración se tiene un mayor riesgo de perder a tratamientos y
controles. En especial los controles se pueden perder con mayor
probabilidad. Por lo tanto se deben tener mejores estrategias de
seguimiento.
!25
!
• En ciertos casos se usan incentivos (monetarios, regalos en
especie, llamadas), para mantener a los individuos de la
muestra “conectados” dado el tiempo de la intervención.
• OJO: ninguno de estos incentivos debe afectar la
participación o la variable de resultado.
Para ilustrar el punto anterior, pensemos en una intervención que se da a

un grupo de agricultores: el grupo tratamiento recibe información de
precios de sus productos por mensajes de texto. Esta intervención busca
mejorar las ventas de los productos agrícolas.
En este caso, ¿qué tan inocuo es, como compensación a la participación
del grupo control, dar como regalo una tarjeta de minutos para llamadas a
celular? En principio si la variable de resultados no se ve afectada por el
uso de una tarjeta de llamadas, entonces el regalo estaría bien y no
interferiría sobre la intervención.
Pero si por ejemplo, la variable de resultado intermedio corresponde al
número de clientes contactados que compraron el producto del agricultor,
entonces el tener un mayor número de minutos para poder negociar el
producto puede ser un regalo que, potencialmente, cambia y mejora la
variable de resultados para los controles. En este caso y de manera no
intencionada, esta intervención estaría dando un tratamiento de mensajes
de texto y un tratamiento de minutos de llamadas, sin tener un grupo de
control puro.
!26
!
Similar al problema de los detractores, podríamos tener también el caso
de incumplimiento de la asignación al tratamiento, esto se refiere a
controles que participan como tratamientos. Para ello es importante tener
protocolos de seguimiento del tratamiento dado el lugar donde se recibe
la intervención (listas de asistencia y verificación de la entrega del bien o
servicio). A la vez es importante definir un protocolo de actividad evaluada
y preguntar uno a uno por el cumplimiento de cada uno de estos pasos a
los diferentes actores o beneficiarios del programa. (niños, padres,
profesores, rectores).
Posibilidad de aleatorizar para llevar a cabo una evaluación

En el Módulo 2 se detalló la importancia de la aleatorización, como
condición fundamental de la evaluación experimental para contar con el
grupo tratamiento y el grupo control. Siempre que hay exceso de
demanda por un programa, la institución oferente siempre está obligada a
tomar la decisión sobre a quién dejar por fuera. Por tanto una manera
justa de excluir a ciertos individuos del tratamiento es hacerlo al azar o de
manera aleatoria. Adicionalmente, la selección aleatoria de pertenecer a
cada uno de estos dos grupos evita tener problemas de sesgo de
selección en la evaluación. De una manera aleatoria estaríamos
escogiendo cuáles son las unidades u observaciones que hacen parte del
tratamiento y cuáles no.
!27
!
En algunos caso se pueden dar restricciones institucionales o de recursos
que limiten un poco la posibilidad de aleatorizar de diversas maneras, es
posible que haya alternativas adecuadas que se presten para diseñar una
evaluación rigurosa como se explicará abajo.
Pilotos para evaluar, aprender y escalar una política

Eventualmente, una vez hemos realizado la evaluación, quisiéramos
implementar el cambio de procesos que haya resultado más efectivo para
el fin que buscábamos. Pero mientras no sepamos esto, es posible que
podamos implementar el cambio solo para un segmento de la población,
a manera de piloto.
Por ejemplo, si funcionara el botón de pago introducido dentro de las
comunicaciones de los contribuyentes de la Administración Tributaria del
Municipio Sucre, eventualmente quisiéramos que esté disponible para
todo el mundo, pero en un principio, quisiéramos probarlo solo en un
grupo de contribuyentes. En estos casos, es difícil que haya alguna
objeción institucional a escoger al grupo de prueba de forma aleatoria,
dado que no supone ningún riesgo, ni perjuicio claro (sobre todo en etapa
de prueba). Si este es el caso, hay posibilidad de una evaluación de
impacto.
!28
!
Tratamiento escalonado
En algunos casos, hay restricciones de recursos y el cambio solo se puede
implementar en un segmento. En estos casos se puede dar un tratamiento
escalonado y también hay una posibilidad de evaluación de impacto
rigurosa.
En los tratamientos escalonados, en realidad ningún grupo queda excluido
permanentemente del programa, sino que solo queda excluido de forma
temporal: primero un grupo participa y luego lo hace el otro. Esto permite
que podamos seleccionar aleatoriamente al grupo que participará primero
y al que participará después. Si los grupos son parecidos, entonces se
pueden comparar en un punto intermedio donde el primero ya fue tratado
y el segundo aún no lo ha sido, y la comparación tendrá una interpretación
causal. Ejemplo: se diseñó un programa para socializar un nuevo protocolo
de investigación para delitos sexuales en el que tienen que participar
todas las seccionales de la Fiscalía de un país. Para poder evaluar, se
seleccionó a la mitad de las seccionales para que recibieran el tratamiento
primero, y el resto para que recibieran el tratamiento 6 meses después,
dejando de esta forma, una ventana de maduración, durante la cual se
pudiera hacer la comparación entre ambos grupos.
Ejemplo: CAF realizó una evaluación de impacto del Programa sobre uso
de la fuerza y empleo de armas de fuego destinado a funcionarios de la
Policía Federal Argentina. Dado que no había capacidad para que todos
!29
!
los funcionarios realizarán el taller, se capacitó primero a todos aquellos
cuyo apellido comenzara de la letra G en adelante, creando dos grupos
prácticamente idénticos que luego fueron comparados.
Riesgo de resultados desfavorables para el programa, política o

intervención.
Dentro de la evaluación siempre existe un riesgo asociado a resultados
poco favorables, y que se perciban como una autoevaluación de la
gestión, pero en este punto volvemos sobre el tema de que la evaluación
no es una auditoría y por tanto sirve es para reformular y mejorar a futuro.
Los beneficios de una evaluación no siempre son obvios para ciertas
instancias de las instituciones, o en ocasiones, existe la percepción de que
los riesgos de evaluar son mayores que sus beneficios. Esta percepción de
riesgo se profundiza en la medida en que aún tiene que consolidarse una
cultura de evaluación y aprendizaje en el sector público, lo que ocasiona
que aunque haya aumentado en los últimos años, aún sea muy bajo el
número de evaluaciones en la región.
Al promover una idea de evaluación en una institución es importante
hacer énfasis no solo en los beneficios directos que tiene medir la calidad
de la gestión y la efectividad con que se logran los objetivos
institucionales, sino tomar en cuenta que el proceso de evaluación es en sí
mismo muy rico para la institución ya que permite revisar las políticas, su
diseño y funcionamiento, sus resultados, y permite hasta cierto punto,
!30
!
generar capacidades internas para medir y gestionar procesos de
evaluación.
Por otro lado, los tiempos de implementación de las actividades y
compromisos de la entidad con la evaluación deben ser independiente de
ciclos políticos o del interés particular de una persona en vez de ser un
interés institucional.
Definitivamente el hacer una evaluación requiere de esfuerzos por parte
de la institución para pasar la información e implementar la actividad. Por
tanto podemos caer en la trampa de que es más fácil no hacer nada… (el
lema del” mejor malo conocido… que bueno por conocer” no aplica en el
caso de un funcionario público interesado en saber si está haciendo su
tarea de la mejor forma).
5.4.- Aspectos Éticos.

Los experimentos pueden estar sujetos a problemas éticos. Existen
programas o actividades cuyo impacto se quiere conocer, pero en los que
no se considera ético dejar gente afuera (no beneficiada), o por el
contrario, dejar que las personas se expongan y no advertir que puede ser
una situación perjudicial para ellos. En resumen, el control no se puede ver
perjudicado por no recibir el tratamiento, y por otra parte, el tratamiento
no puede traer riesgos para los tratados.
!31
!
Una intervención “no puede/debe” ser excluyente con la comunidad. No
puede dar la sensación de discriminación de pares o no debe perjudicar al
tratamiento respecto a su condición inicial
Por ejemplo, podemos plantearnos una evaluación del impacto de
actividades culturales, como la música y el baile, sobre las habilidades
sociales de los niños en una comunidad. Los líderes de las comunidades
pueden no aceptar que para llevar a cabo una evaluación se use un grupo
de control que de alguna manera se “excluirá temporalmente” de una
actividad cultural que consideran que genera integración y arraigo dentro
de la comunidad.
Sin embargo, la mayoría de las veces la institución no tiene recursos
suficientes para atender a toda la población focalizada, por lo que hay que
tomar decisiones sobre quién recibe el programa y quién no. En este
sentido, una evaluación aleatoria en comparación con otros criterios de
selección, es transparente y no discrimina por ninguna característica
especial, ya que el resultado de la selección depende enteramente de la
suerte.
También puede ocurrir que las personas del tratamiento se comporten
diferente si llegan a saber que hacen parte de un estudio y se les hace
seguimiento, y aunque no se portan diferente, pueden responder
diferente (a lo que lo harían en ausencia de la medición) dentro de la
encuesta. Esto es conocido técnicamente como el “efecto Hawthorne”.
Ocurre cuando las personas que participan en el experimento cambian de
!32
!
alguna manera su comportamiento o también contestan de manera
distinta el cuestionario de seguimiento, debido a que saben que están
participando en un experimento. Podemos decir que existe este efecto.
Por ejemplo, en los almuerzos, puede que normalmente y antes del
programa las madres llevaran los niños a chequeos médicos cada año en
promedio. Debido al programa, las madres del tratamiento empiezan a
llevar a sus hijos cada semestre, pues creen que si los niños no crecen
entonces dejarán de recibir la alimentación escolar (el saber que están
siendo evaluadas, las hace comportarse de una manera diferente).
¿Puede existir un grupo control?

En algunos casos no existe exceso de demanda por el programa, todos
deben ser atendidos, por tanto en este caso no será posible evaluar, a
menos que la institución que va a implementar el programa se encuentra
dispuesta a escalonarlo para tener un grupo de control que luego será
tratado. De otra manera no existe la posibilidad de hacer una evaluación
experimental por lo que ya hemos visto en el módulo 2, el grupo de
control es completamente necesario para poder llevar a cabo una buena
evaluación.
El grupo de control es vital para poder hacer la evaluación y en algunos
casos quisieran tener algún beneficio por su participación:
• Como mencionamos anteriormente una opción para poder
generar el mismo beneficio al grupo control, es a través del
!33
!
tratamiento escalonado. Por tratamiento escalonado
entendemos que los controles van a entrar en un programa
luego de que los tratados terminen esta intervención y posterior
a la medición que debe incluir un grupo de tratamiento y control
puros.
• En algunos casos se puede pensar en dar otro incentivo (similar
en su valor), pero no que afecte de ninguna manera las variables
de resultado de la evaluación. O si llegan a afectar las variables
de resultado entonces se espera a que termine levantamiento
de información para entregarlo.
• También se puede considerar incentivarlos a través de la
propuesta de una rifa de un premio mucho más grande. Muchas
veces las personas del grupo de control no participarían por una
recompensa pequeña, pero sí lo harían atraídos por recibir algo
mucho más grande.
• En ausencia de incentivo, el control, puede tener menor interés
en contestar encuesta de seguimiento y podemos ver un
desbalance en la proporción de tratamientos respecto a
controles en levantamientos de seguimiento.
• En otros casos es posible ofrecer al grupo de control algún
tratamiento especial que no afecte las variables de resultados.
Por ejemplo, en una evaluación de impacto de un programa de
educación financiera en Bolivia, al grupo de tratamiento se le
!34
!
ofreció un taller de tres horas en educación financiera, y al grupo
de control, al mismo tiempo, un taller de formación en
responsabilidad social.
• Para la recolección de información primaria se deben tener en
cuenta los consentimientos informados (por ejemplo, en el caso
de estar haciendo una intervención sobre niños se debe tener la
autorización de los padres para participar). En el caso de uso de
datos administrativos de debe cumplir con todos los protocolos
necesarios para no violar la reserva estadística de la información.
• Se deben tener protocolos claros de uso de datos
administrativos y conocer regulación de reserva estadística que
determinen los permisos del uso de la información para fines
estadísticos, sin afectar a los individuos de una manera particular
y sin revelar su identidad.
!35
!
Conclusiones.
● Existen varios requerimientos de tipo técnico, logístico,
institucional o político, y ético que debemos revisar y tener
claros antes de iniciar una evaluación o durante el proceso de
diseño de la misma. Dependiendo del cumplimiento de estos
requerimientos, podemos determinar la viabilidad o factibilidad
de una evaluación de impacto de calidad.
● El conocimiento de la política nos brinda herramientas para
saber qué puede ser factible en términos de una intervención,
también nos puede hacer entender los cuellos de botella que
esta tiene y nos da ideas de cuáles son las actividades y
procesos intermedios que podemos evaluar para encontrar
estrategias para mejorar la gestión.
● Al momento de diseñar la evaluación de impacto de la
intervención, debemos tener claridad sobre los cambios que
esperamos observar gracias a la misma, la construcción de la
teoría de cambio es muy útil en este caso.
● Entre los aspectos técnicos que debemos contemplar al diseñar
una evaluación, encontramos: la disponibilidad de datos
administrativos, el tamaño de la muestra, identificar el plazo de
los impactos esperados, la validez interna y externa de la
evaluación, el no cumplimiento con la selección al tratamiento.
!36
!
● Entre los aspectos logísticos, institucionales y políticos que
debemos contemplar al diseñar una evaluación, encontramos:
quiénes participan en la implementación de la política, los
recursos para implementar y el tipo de implementación que se
requiere para evaluar, la posibilidad de aleatorización, el riesgo
de resultados desfavorables para los implementadores.
● Entre los aspectos éticos encontramos el hecho de que la
evaluación requiere que haya un grupo de control y que esto
implica que algunas personas no participan en un programa
potencialmente beneficioso. De igual forma, está el riesgo de
implementar un programa cuyos beneficios y perjuicios no se
conocen y podrían afectar a los participantes.
!37
!
2018
Conclusiones.
ÍNDICE
VI.- Conclusiones.
6.1. Consideraciones generales. (2)
6.2. Módulo I. (3)
6.3. Módulo II. (5)
6.4. Módulo III. (7)
6.5. Módulo IV. (10)
6.6. Módulo V. (12)
!1
!
6.1. Consideraciones generales.
Los programas sociales (públicos o privados) pueden ser vistos como
organismos vivos que experimentan cambios constantes en búsqueda de
un mejor funcionamiento y de una mejor adaptación a los contextos en los
cuales funcionan. Idealmente, estos cambios deberían estar guiados por
conocimiento de calidad sobre el funcionamiento y efectividad de dichos
programas, por lo que la medición y el monitoreo supone una de las
actividades más importantes que deben realizar las instituciones
implementadoras.
Este curso buscó enfatizar la idea de que el aprendizaje tiene
implicaciones muy positivas para la gestión de los programas sociales, y
que en particular la evaluación de impacto es una de las herramientas más
útiles con las que pueden contar las instituciones que implementan, dado
que responde una de las preguntas más importantes que se pueden hacer
alrededor de un programa social: ¿está el programa logrando los objetivos
para los cuales fue diseñado?
Un programa puede estar muy bien implementado, puede ser muy
apreciado por la ciudadanía o tener un diseño innovador; sin embargo, no
será necesariamente un programa efectivo porque el problema que
originó su implementación lamentablemente no ha sido atendido a través
del mismo. Entonces podemos decir, que este programa no está logrando
los objetivos deseados.
!2
!
Por ello, la evaluación de impacto es una herramienta que todo
implementador, público o privado, debe manejar si quiere garantizar
programas efectivos. Adicionalmente, el proceso de evaluación como tal,
supone un aprendizaje constante para la institución pues permite poner la
lupa en algunos aspectos de la implementación de los programas que, de
otra manera, pasarían desapercibidos.
La evaluación de impacto, por lo tanto, tiene un enorme potencial para
ayudar a mejorar la gestión de programas y políticas tanto en el ámbito
público como en el privado. A continuación, hacemos un resumen de los
principales aprendizaje de cada uno de los 5 módulos del curso.
6.2. Módulo I
Importancia de la evaluación de impacto.

El proceso de mejora de calidad de la gestión pública y privada descansa,
en gran medida, en la capacidad de las instituciones de generar e
internalizar aprendizajes sobre las políticas y su implementación. En este
contexto, la evaluación de impacto es una herramienta de vital
importancia porque permite saber qué programas funcionan y qué
programas no funcionan.
!3
!
La evaluación de impacto genera además muchos otros aprendizajes que
van más allá de la existencia y/o magnitud de un impacto, y que se
concentran en la calidad de la implementación, lo que le permite a la
institución dueña del programa mejorar la gestión de los mismos.
La evaluación de impacto busca cuantificar la diferencia entre los
resultados que obtienen los beneficiarios de un programa con respecto a
lo que esos mismos beneficiarios hubiesen obtenido en ausencia del
programa. Ayuda a responder principalmente a la siguiente pregunta: ¿el
programa tiene los impactos esperados sobre los participantes tanto en
dirección como en magnitud?
Es importante darle prioridad a la generación de registros administrativos
de monitoreo de las distintas actividades que se hacen en la
implementación de los programas objeto de evaluación. Estos registros
pueden ser útiles para construir indicadores para verificar el cumplimiento
de metas preestablecidas en un determinado período de tiempo por parte
de la institución y pueden llegar a ser la fuente de información de base
para llevar a cabo una evaluación de impacto.
La evaluación de impacto es necesaria para poder establecer una relación
causal del impacto que puede tener una acción o actividad sobre los
resultados que los datos administrativos nos permiten observar.
Para poder llevar a cabo una evaluación de impacto debemos contar con:
Una actividad, programa, intervención o política pública que se esté
realizando, una pregunta de interés puntual sobre el impacto o la gestión
!4
!
del programa, y datos administrativos pertinentes para la pregunta de
evaluación.
Cuando obtenemos un resultado de una evaluación de impacto de un
determinado programa nos sirve, principalmente, para verificar el
cumplimiento del objetivo planteado por la política o plan que se evalúa.
También para hacer análisis de costo-beneficio sobre la política evaluada,
reestructurar el diseño e implementación, solicitar recursos adicionales
para profundizar la política o para rendir cuentas sobre el uso de los
recursos.
Las evaluaciones generan información sobre el impacto de la política, pero
también ayudan a mejorar la gestión de los recursos.
6.3. Módulo II.
Conceptos básicos de la evaluación de impacto y del método

experimental
Un experimento es la metodología ideal para realizar una evaluación de
impacto, pues replica lo que se hace en un “laboratorio”. En el
experimento, se toman dos muestras de unidades de observaciones, una
de ellas como grupo tratamiento (quienes se benefician del programa) y la
otra como grupo de control (quienes no se benefician del programa).
Estos dos grupos deben ser idénticos en sus características, para poder
interpretar cualquier diferencia posterior a la implementación del
!5
!
programa como una consecuencia del programa y no de otros factores
externos.
Como no podemos saber qué hubiese pasado en ausencia del programa
de alimentación (debido a que los niños ya han sido beneficiados por el
mismo) necesitamos un contrafactual o grupo de control (o grupo de
comparación). Es decir, otro grupo de unidades que no haya sido
beneficiado del programa y que nos ayude a aproximar ese contrafactual
que no podemos observar.
El grupo de control debe cumplir con las siguientes condiciones: es un
grupo que nos muestra qué hubiera pasado con los tratados en caso de
no haber recibido el tratamiento, los efectos del programa deberían ser
los mismos para ambos grupos (tratamiento o control) y los factores
externos deberían tener el mismo efecto sobre el grupo de comparación
(control) y el tratamiento.
El contrafactual deberá ser lo más parecido posible al tratamiento, por lo
que tanto el grupo de tratamiento como el control deben haber estado
inicialmente interesados en participar en el programa. Si esto no se
cumple, ya serían diferentes en la necesidad o deseo por participar y esta
diferencia puede afectar a la variable de resultado, y, por lo tanto, a lo que
interpretaremos como impacto. En este caso habría sesgo de selección.
Una asignación aleatoria al programa, sobre una población con un interés
similar de participar en el programa, asegura que, en promedio,
construiremos dos grupos similares, uno de los cuales es un buen
!6
!
contrafactual del otro. Una asignación o selección aleatoria está dada
completamente por el azar. Es decir, lo que determina quién recibe el
programa y quién no, es la suerte y no una característica específica de los
individuos.
Para aleatorizar podemos: lanzar una moneda; hacer una lotería; utilizar un
número de identificación personal o la inicial del nombre o apellido;
generar un número aleatorio en Excel o en algún paquete estadístico.
El impacto, en su cálculo más simple y condicional a que estamos
comparando grupos similares (ex-ante), se puede obtener como la
diferencia de medias para la variable de interés entre el grupo que
participó en el programa y el grupo que no participó.
6.4. Módulo III.
Teoría de Cambio
La teoría de cambio es una herramienta metodológica en donde
construimos de manera detallada la ruta que un programa sigue para
lograr un cambio o una solución a la necesidad de la población objetivo.
Para poder tener una teoría de cambio completa es importante realizar un
análisis profundo del problema y la política (o programa) que se va a llevar
a cabo. En otras palabras, debemos entender completamente el contexto,
condiciones o entorno donde se aplica la política.
!7
!
La teoría de cambio nos sirve para: entender cuál es la necesidad
específica que se atenderá con un programa; ordenar las ideas sobre los
componentes de la política; plantearnos resultados intermedios e
indicadores de impacto de mediano y largo plazo; identificar los
mecanismos a través de los cuales ocurren los impactos; e identificar qué
hace exitosa a una política. También ayuda a identificar otras
oportunidades de aprendizaje que pueden ayudar a mejorar la gestión de
la política a evaluar, además de la evaluación misma, referidas a: la
implementación, la cadena causal y los supuestos de la cadena causal.
La teoría de cambio permite responder si el diseño de un programa es el
correcto, si la cantidad de productos provistos logra un determinado
resultado intermedio y por tanto un impacto final. También ayuda a
responder cuáles son los determinantes de un problema, y cómo esos
determinantes se conectan en toda la cadena causal.
En la práctica, el proceso de hacer la teoría de cambio puede depender
de si ya hay una intervención claramente definida o de si más bien
partimos de un problema que hemos identificado y queremos determinar
un programa (o intervención) para atenderlo.
Cuando la intervención está definida, partimos de la definición detallada
del problema. Una vez hecho esto, pensamos en nuestro programa, en sus
insumos y actividades, y en cómo a través de productos y resultados
!8
!
intermedios y finales, el programa genera impactos que resuelven (o no) la
necesidad planteada.
A lo largo del ciclo de la política pública, estamos suponiendo que los
insumos de alguna manera siempre derivan en ciertas actividades, que las
actividades siempre se convierten en productos y los productos en
resultados intermedios y finalmente, en impactos. Ocurre sin embargo,
que en cada una de las transiciones estamos haciendo supuestos sobre
elementos que afectan la cadena causal y que no controlamos por
completo. Es recomendable que esté siempre muy claro qué supuestos se
están haciendo y qué tan plausibles son.
A veces los programas no tienen los impactos que se esperaban, o tienen
impactos que no se había previsto. Un buen ejercicio de teoría de cambio,
puede ayudar a reflexionar sobre qué causa estos resultados.
Cuando hay un problema de política pero aún no se ha seleccionado una
intervención específica, la teoría de cambio es útil para hacer un mapa
estructurado donde podemos visualizar cuáles son las distintas vías a
través de las cuáles podría resolverse la necesidad, de forma que
podamos seleccionar una de ellas. En este caso, el proceso que
seguiremos será el inverso: partiremos de una necesidad, identificamos
sus causas secuencialmente, y seleccionamos una intervención.
Una de las ventajas de la teoría de cambio de una intervención es que en
el proceso de reflexión salen a la luz oportunidades de aprendizaje que
!9
!
van más allá de solo conocer el impacto de la intervención en las variables
finales.
6.5. Módulo IV.
Evaluaciones de Gestión: Evaluando el cómo en lugar del qué.

Una evaluación de gestión es aquella que mide el impacto de un cambio
en algún proceso o actividad de una institución (su gestión) y que busca
aumentar la efectividad de la misma.
Las evaluaciones de gestión se concentran, principalmente, en las
actividades y procesos intermedios que realizan las instituciones, y que no
necesariamente tienen un beneficiario directo. Benefician a la sociedad
porque ayudan a mejorar la gestión de los bienes y servicios, pero lo
hacen indirectamente. El objetivo es determinar la mejor manera de
realizar los procesos intermedios, comparando varias alternativas de
implementación, o añadiendo pequeños cambios en la forma como se
ejecutan las actividades.
Las evaluaciones de impacto de política buscan evaluar el impacto de
ofrecer algún bien o servicio o de realizar una actividad en los
beneficiarios finales (que suele ser la ciudadanía), mientras que las
evaluaciones de gestión, miden el impacto de cambios en los procesos o
de la introducción de actividades innovadoras dentro de la entrega de
bienes o prestación de servicios a la ciudadanía.
!10
!
En general, las evaluaciones de impacto generan aprendizajes sobre el
impacto y sobre temas de implementación alrededor de las actividades
evaluadas, que son valiosos para las instituciones que implementan, y
quizás también para otras instituciones. En este sentido, tienen un grupo
mayor de usuarios potenciales. Las evaluaciones de gestión, por otro lado,
tienen una utilidad primordial para los implementadores, por lo que al ser
muy específicas a la institución generan menos interés y expectación fuera
de la misma.
Implementar un cambio de proceso y evaluar su efecto puede ser menos
costoso que implementar un cambio de programa o de política y evaluar
su efecto. En la mayoría de los casos, sujeto a la factibilidad técnica, una
evaluación de gestión es mucho más factible de implementar que una de
política.
Las evaluaciones de gestión, al ser potencialmente menos riesgosas que
las evaluaciones de política, pueden ser más atractivas para las
instituciones, lo que puede llevar a que se hagan más evaluaciones de
impacto de programas públicos.
En principio, una evaluación de gestión es posible siempre que se quiere
mejorar un proceso o se quiere introducir una actividad complementaria a
lo que ya hace la institución. Otros factores importantes a la hora de
identificar una oportunidad de evaluación son: la posibilidad de modificar
!11
!
procesos, la posibilidad de agregar actividades innovadoras, la posibilidad
de hacer piloto de políticas.
6.6. Módulo V.
Cómo comenzar a pensar en una evaluación: retos técnicos, logísticos,

institucionales y éticos.
Existen varios requerimientos de tipo técnico, logístico, institucional o
político, y ético que debemos revisar y tener claros antes de iniciar una
evaluación o durante el proceso de diseño de la misma. Dependiendo del
cumplimiento de estos requerimientos podemos determinar la viabilidad o
factibilidad de una evaluación de impacto de calidad.
De manera general debemos responder: ¿Cuál es el problema que se ha
identificado y dentro de qué programa, política se enmarca? Y ¿Cuáles
son los cambios esperados después de la intervención?
Entre los aspectos técnicos encontramos: disponibilidad de datos
administrativos; el tamaño de muestra; plazo en el que esperamos
observar los impactos; la validez interna y validez externa de la evaluación;
y la existencia de contaminación y detractores.
Entre los aspectos logísticos, institucionales y políticos encontramos: la
identificación de las personas, áreas e instituciones que intervienen en la
política; la viabilidad financiera y temporal de la implementación; algunas
!12
!
consideraciones logísticas al tratar de eliminar detractores y
contaminación; la viabilidad para aleatorizar la selección; y el riesgo de
resultados desfavorables.
Entre los aspectos éticos: la evaluación requiere que haya un grupo de
control y que esto implica que algunas personas no participan en un
programa potencialmente beneficioso. De igual forma, está el riesgo de
implementar un programa cuyos beneficios y perjuicios no se conocen y
podrían afectar a los participantes.
!13
!
2018
EVALUACIÓN DE IMPACTO
PARA LA GESTIÓN PÚBLICA
Glosario
Análisis de costo-beneficio: consiste en comparar el costo de implementar una

política con los beneficios monetarios generados por la misma. Implica monetizar los
impactos obtenidos para hacerlos comparables a los costos.
Cadena causal: se refiere a los componentes de la teoría de cambio: las

necesidades, intervención, productos, resultados intermedios e impactos.
Contaminación o contagio: nos referimos al evento de que alguno de los

individuos del grupo de control reciba parte del tratamiento o se vea involucrado o
afectado de alguna manera por él. El contagio corresponde a cualquier forma de
acceso que el control pueda tener a tratamiento.
Contrafactual: resultado hipotético que muestra lo que hubiera pasado con las
unidades beneficiadas si no hubiesen participado en el programa, o alternativamente,
lo que hubiera pasado con las unidades no beneficiadas si hubiese participado en el
programa.
Datos administrativos: son aquellos datos que se recolectan de forma periódica a

partir de las actividades y procesos que se implementan en las instituciones.
Detractores: unidades participantes de una evaluación que no cumplen con la

asignación al tratamiento: unidades del control que reciben el tratamiento o unidades
del tratamiento que no lo reciben.
1
Efecto de un programa: impacto de un programa.
Evaluación de gestión: es aquella que mide el impacto del cambio en algún

proceso o actividad de una institución (su gestión) y que busca aumentar la efectividad
de esta.
Evaluación de política: aquella evaluación que busca conocer el impacto de un

programa sobre los beneficiarios finales.
Experimento: evaluación de impacto donde los grupos de beneficiarios y no

beneficiarios se construyen al azar, es decir, aleatoriamente.
Grupo de control: Es un grupo que se utiliza para estimar lo que le hubiera pasado
al grupo de tratamiento de no haber participado en el programa, es decir, para estimar
el contrafactual.
Impacto: es el efecto causal de un programa sobre una variable de resultado.
Indicadores de producto: son aquellos que cuantifican el nivel de ejecución o

implementación de la política (materiales, personal) que se utilizan para llevar a cabo
las actividades del programa.
Indicadores de resultado: son aquellos que identifican las variables que van
cambiando como consecuencia del programa tanto en el corto como en el largo plazo.
Información primaria: se entiende como el diseño de cuestionarios o encuestas
específicos para recoger la información que se necesita para hacer la medición.
Información primaria: información recolectada directamente por el evaluador y en

función de la evaluación.
Información secundaria: información que no es recolectada por el evaluador, pero

se utiliza para la evaluación
Intervención: política, programa o acción que se lleva a cabo sobre la población

objetivo.
2
Muestra aleatoria: consiste en tomar de manera independiente, bajo una selección
aleatoria, algunas observaciones de esta población para construir un grupo de
individuos que representen y se parezcan estadísticamente en todas sus características
a esta población.
Población: corresponde a la totalidad o universo de estudio.
Selección Aleatoria: es una asignación o selección que está dada completamente

por el azar. Es decir, lo que determina quién recibe el programa y quién no es la suerte
y no una característica específica de los individuos.
Sesgo de selección: diferencia pre-existente entre el grupo de beneficiarios y el

grupo de no beneficiarios causadas los criterios utilizados para decidir quién participa y
quién no.
Tamaño de muestra: número de unidades (personas, firmas, escuelas, etc.) que

son parte de la muestra de un estudio.
Teoría de cambio: es un análisis profundo del problema y la política (o programa)

que se va a llevar a cabo que busca entender completamente el contexto, condiciones
o entorno donde se aplica la política, así como los problemas o necesidades que
justifican la existencia del programa.
Tratamiento: aquel que recibe la intervención, que puede ser una persona, familia,
colegio, empresa, punto geográfico, etc.
Tratamiento escalonado: tratamiento que se da por turnos o rondas. Ningún

grupo queda excluido permanentemente del programa, sino que solo queda excluido
de forma temporal: primero un grupo participa y luego lo hace el otro.
Validez externa: se entiende como la posibilidad de generalizar los resultados de

una evaluación a la población total.
Validez interna: determina si la metodología utilizada es creíble y rigurosa para la

población en la cual se implementa el estudio, por tanto, los resultados encontrados
serán válidos (internamente) dentro de la población de estudio.
3
EVALUACIÓN DE IMPACTO
PARA LA GESTIÓN PÚBLICA
Bibliografía
MÓDULO I
Cristia, J., Ibarraran, P., Cueto, S., Santiago, A. y Severin, E. (2012)

“Tecnología y desarrollo en la niñez: Evidencia del programa Una Laptop
por Niño”. Documento de trabajo del BID: # IDB-WP-304.
Doran, G. T. (1981). "There's a S.M.A.R.T. way to write management's

goals and objectives". Management Review. AMA FORUM. 70 (11): 35–36.
Ibarraran, P. (2012), “And the jury is back: One Laptop per Child is not
enough”, Development that works. Effectiveness Blog, Inter-American
Development Bank. Disponible en línea en: https://bit.ly/2yRMvtC
MÓDULO IV
Collazo, D., Fergusson, L., La Rota, M., Mejía, D. y Ortega, D. (2017)

“Impact Evaluation Report: A new homicide investigation policy in Bogotá,
Colombia”. Documento de trabajo, noviembre de 2017.
1
Gallego, J. & Ortega, F. (2018), “Can Facebook Ads and Email Messages
Increase Fiscal State Capacity? Experimental Evidence from
Venezuela”, Documento de trabajo.
Gertler, Paul, and Simon Boyce. "An Experiment in Incentive-Based

Welfare: The Impact of PROGESA on Health in Mexico." Working Paper,
April 2001.
La Rota, M. E., & Bernal Uribe, C. (2014). Esfuerzos irracionales:

investigación penal del homicidio y otros delitos complejos. Bogotá:
Dejusticia.
Sanguinetti, P., Brassiolo, P., Ortega, D., Álvarez, F., Quintero, L., Berniell,
L., De La Mata, D. y Maris, L. (2015). RED 2015: Un Estado más efectivo.
Capacidades para el diseño, la implementación y el aprendizaje de
políticas públicas. Bogotá: CAF.

Guia Contenido Evaluación de Impacto CAF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guia Contenido Evaluación de Impacto CAF

Cargado por

Copyright:

Formatos disponibles

Importancia de la

I. Importancia de la evaluación de impacto.

I.3.- ¿Qué nos ayuda a entender/responder la evaluación de

I.4.- La importancia de la medición. (16)

I.5.- Monitoreo y Evaluación. (19)

I.6.- ¿Qué necesitamos para llevar a cabo una evaluación de

1 Puedes conocer detalles sobre este programa ingresando en: one.laptop.org

I.4.- La importancia de la medición de lo cotidiano

I.5.- Monitoreo y Evaluación.

I.6.- ¿Qué necesitamos para llevar a cabo una evaluación de impacto?

Bienestar de los niños:

El problema con esta evaluación es que el programa o actividad que

¿Cuál es el impacto de la provisión de alimentación escolar

Cuando obtenemos un resultado de una evaluación de impacto de un

Enfoque de la CAF hacia las evaluaciones

II. Conceptos básicos de la evaluación de impacto y del

2.1.- Recordemos que es una evaluación de impacto y los

2.2.- La clave de las evaluaciones de impacto: concepto de

2.3.- Requisitos técnicos de una evaluación de impacto experimental

2.4.- Modelo analítico para calcular la magnitud del impacto. (23)

130 ¿Impacto del

El gráfico A muestra que lo niños, tanto del grupo de tratamiento

2.3.- Requisitos técnicos de una evaluación de impacto experimental -

¿Cuál es el problema de selección?

Definición de una asignación aleatoria

¿Qué garantiza una selección aleatoria?

2.4.- Modelo analítico para calcular la magnitud del impacto.

El impacto, en su cálculo más simple y condicional que estamos

III. Teoría de Cambio.

3.1.- Teoría de cambio y su utilidad. (2)

3.2.- La teoría de cambio en la práctica. (8)

3.3.- Oportunidades de aprendizaje que surgen a lo largo de la

3.4.- Conclusiones. (58)

3.2.- La teoría de cambio en la práctica.

Cuando la intervención está definida.

Partimos de la definición detallada del problema. Una vez hemos

• Baja oferta de docentes calificados o con experiencia en las

El rendimiento de los estudiantes en zonas Diferencia en puntaje de pruebas

Baja preparación para sobrellevar En las zonas rurales 5% de los niños

Bajo acceso a tecnologías de la El acceso a internet en los municipios más

Más adelante, vamos a pensar sobre la construcción de indicadores.

Datos: información precisa sobre:

El éxito de la política depende crucialmente de una buena

Insumos ● Recursos financieros

Adicionalmente, para cada uno de los aspectos mencionados

Necesidad Insumos Actividades Productos Resultados Impactos finales

El -Recursos -Definir Número de -Aumento en el Disminución de la

La teoría de cambio y la inexistencia de impactos (o los impactos

A veces los programas no tienen los impactos que se esperaban, o

Insumos Actividades Productos Resultados Resultados Interpretación

! ! ! X X Falla en la teoría (link

! ! ! ! X Falla en la teoría (link

! ! ! ! ! Política exitosa y teoría

La reflexión anterior nos permite identificar qué parte de la cadena

El caso del ejemplo del bono, supongamos que se implementa el

Seguidamente, debemos pensar en cuáles son los causantes

• Desempeño docente deficiente

Infraestructura inadecuada Número de estudiantes por salón

Acceso precario a tecnologías de la Número de colegios que no tienen acceso

Alimentación deficiente La fracción de niños que come tres veces

Apoyo familiar de baja calidad Nivel educativo de los padres

En algunos casos, no será posible cuantificar todos los elementos por

Desempeño docente deficiente Bajo nivel educativo de los docentes