Medición y Mejora Del Desempeño 2014

Evaluación y Mejora Continua:
Conceptos y Herramientas Para la

Medición y Mejora del Desempeño
Un Enfoque en Resultados e Impacto
Ingrid Guerra-López, Ph.D.
Institute For Needs Assessment & Evaluation

(IFNAE)
© Copyright and all Rights Reserved Ingrid Guerra-López
1
Prefacio
Hoy en día existen excelentes textos publicados sobre evaluación. Algunos de ellos se
enfocan en la historia y la teoría de la evaluación; otros brindan un análisis comprensivo de
los modelos y conceptos de evaluación; y otros ofrecen principalmente un enfoque a la
metodología evaluativa. Mientras que este libro contiene estos conceptos, no intenta
replicar ni refutar ningún otro trabajo. Por el contrario, este libro ha sido organizado en
forma tal de poder ilustrar a la evaluación en un contexto de mejora del desempeño, en vez
de enfocarse puramente en una perspectiva evaluativa.
Este trabajo está dirigido a:
• Practicantes de la Mejora del Desempeño tanto que busquen realizar una buena
evaluación, como que deseen familiarizarse con ella para poder trabajar bien con los
evaluadores; o aquellos que deseen integrar una perspectiva evaluativa en todas las
fases de la mejora del desempeño, desde la detección necesidades, su implementación,
hasta la evaluación misma.
• Evaluadores que deseen realizar evaluaciones sistemáticas y enfocadas al desempeño,
con la finalidad última de mejorar no sólo programas o soluciones, sino las
organizaciones y los clientes cuyas necesidades busquen satisfacer.
• Estudiantes que deseen obtener una base conceptual acerca de la evaluación, y una
guía para aplicar esos conceptos tanto en cursos como en su propio trabajo.
• Instructores que estén buscando un texto que incluya los fundamentos más
importantes de la evaluación, y presente modelos conceptuales en el contexto del
mejoramiento del desempeño.
• Clientes que deseen sentirse consumidores mejores informados, y socios participantes
en los esfuerzos evaluativos.
Este libro está dividido en tres secciones, comenzando por la introducción a los
fundamentos de la evaluación, y una descripción general de los modelos que han sido
específicamente elegidos por su notoriedad y aplicabilidad en el área de mejora del
desempeño. La primera sección también incluye un enfoque al Proceso Para Evaluar
Impacto (Guerra-López 2007), un concepto de evaluación basado en la mejora del
desempeño.
La segunda sección compete a herramientas y técnicas críticas para conducir una

evaluación, incluyendo la identificación de indicadores clave de desempeño, métodos de
recolección de datos, técnicas de análisis, etc.
Finalmente, la tercera sección concluye con una revisión de la mejora continua, y el futuro
de la evaluación respecto a la mejora del desempeño.
2
Índice
SECCIÓN 1: FUNDAMENTOS DE LA EVALUACIÓN ............................................................................ 8

CAPÍTULO 1 .................................................................................................................................................... 9
INTRODUCCIÓN A LA EVALUACIÓN ..................................................................................................... 9
DECISIONES, DECISIONES… ........................................................................................................................... 9
UN BREVE RESUMEN DE LA HISTORIA DE LA EVALUACIÓN ........................................................................... 9
EVALUACIÓN: PROPÓSITO Y DEFINICIÓN ..................................................................................................... 11
MEJORA DEL DESEMPEÑO: MARCO CONCEPTUAL DE TRABAJO ................................................................... 13
LOGRAR UNA EVALUACIÓN EXITOSA: ASEGURAR LA PARTICIPACIÓN DE LOS STAKEHOLDERS ................... 14
EL EVALUADOR: ¿UN TRABAJO O UN ROL? ................................................................................................. 15
LA RELACIÓN CON OTROS PROCESOS DE INVESTIGACIÓN: EVALUACIÓN, DETECCIÓN DE NECESIDADES E
INVESTIGACIÓN CIENTÍFICA ......................................................................................................................... 16
¿CUÁNDO OCURRE UNA EVALUACIÓN? ....................................................................................................... 21
ORIENTACIONES GENERALES PARA LA EVALUACIÓN ................................................................................... 22
DESAFÍOS CON LOS QUE SE ENCUENTRAN LOS EVALUADORES .................................................................. 24
ASEGURAR EL COMPROMISO ........................................................................................................................ 26
BENEFICIOS DE LA EVALUACIÓN .................................................................................................................. 28
DEFINICIONES BÁSICAS ................................................................................................................................ 28
CAPÍTULO 2 .................................................................................................................................................. 30
PRINCIPIOS DEL DESEMPEÑO BASADO EN LA EVALUACIÓN .................................................... 30
¿QUÉ ESTAMOS BUSCANDO? ........................................................................................................................ 30
PRINCIPIO 1: LA EVALUACIÓN –UNA BUENA EVALUACIÓN–, ESTÁ BASADA EN CUESTIONARSE LAS PREGUNTAS
CORRECTAS ................................................................................................................................................... 31
Series de Preguntas para la Evaluación ................................................................................................. 31
Desarrollar las Preguntas que Guiarán la Evaluación Valida y Útil .................................................... 33
PRINCIPIO 2: LA EVALUACIÓN DEL PROCESO (MÉTODOS) ES UNA FUNCIÓN DE LOS RESULTADOS OBTENIDOS
(FINALIDAD) .................................................................................................................................................. 34
Identificar y Enlazar los Fines y los Medios........................................................................................... 35
PRINCIPIO 3: LAS METAS Y OBJETIVOS DE LAS ORGANIZACIONES DEBEN ESTAR BASADOS EN NECESIDADES
VALEDERAS.................................................................................................................................................... 35
PRINCIPIO 4: DERIVE NECESIDADES VALEDERAS UTILIZANDO UNA PERSPECTIVA DE ARRIBA HACIA ABAJO:
DESCENDIENDO DESDE EL IMPACTO EXTERNO Y EL VALOR AGREGADO, HACIA LOS RESULTADOS Y MÉTODOS
UTILIZADOS DENTRO DE LA ORGANIZACIÓN. .................................................................................................... 36
PRINCIPIO 5: TODAS LAS ORGANIZACIONES DEBEN ASPIRAR A LO MEJOR QUE UNA SOCIEDAD PUEDE ALCANZAR.
LOS ESTÁNDARES DE EVALUACIÓN DEBEN ESTAR ENLAZADOS A UNA VISIÓN ESTRATÉGICA QUE SEA ÚTIL Y REAL. 36
PRINCIPIO 6: LA SERIE DE PREGUNTAS EVALUATIVAS DERIVA EL ESTUDIO DE LA EVALUACIÓN .......................... 37
CAPÍTULO 3 .................................................................................................................................................. 38
RESUMEN DE LOS MODELOS DE EVALUACIÓN EXISTENTES..................................................... 38
MODELOS DE EVALUACIÓN SELECCIONADOS .............................................................................................. 40
LOS CUATRO NIVELES DE EVALUACIÓN DE KIRKPATRICK ...................................................... 41
CRÍTICAS ...................................................................................................................................................... 42
FORTALEZAS Y LIMITACIONES ...................................................................................................................... 43
MODELO DE RETORNO DE LA INVERSIÓN DE PHILLIPS (ROI) .................................................. 44
Fortalezas y Limitaciones ....................................................................................................................... 46
3
MÉTODO DEL CASO DE ÉXITO DE BRINKERHOFF ......................................................................... 47
MODELO DE EVALUACIÓN CIPP ........................................................................................................... 49
Contexto .................................................................................................................................................. 50
Insumos ................................................................................................................................................... 50
Procesos.................................................................................................................................................. 51
Productos ................................................................................................................................................ 51
¿QUÉ MODELO DEBO SELECCIONAR? ............................................................................................................ 52
CONCEPTUAR LA EVALUACIÓN .................................................................................................................... 52
CAPÍTULO 4 .................................................................................................................................................. 54
EL PROCESO PARA EVALUAR IMPACTO ........................................................................................... 54
INTRODUCCIÓN ............................................................................................................................................ 54
NOTA SOBRE LA NATURALEZA DE LA INVESTIGACIÓN DEL IMPACTO DEL PROCESO EVALUATIVO ............... 55
DESCRIPCIÓN................................................................................................................................................ 56
1. Identificación de los Stakeholders y Expectativas ............................................................................. 56
2. Determinar las Decisiones y Objetivos Clave .................................................................................... 59
¿DE DÓNDE SURGEN LAS PREGUNTAS ÚTILES? ............................................................................................. 60
3. Derivar Indicadores de Medición ....................................................................................................... 64
4. Identificación de las Fuentes de Información ..................................................................................... 64
5. Seleccionar los Instrumentos para la Recolección de Datos .............................................................. 65
6. Selección de las Herramientas para el Análisis de Datos .................................................................. 66
7. Comunicación de Resultados y Recomendaciones ............................................................................. 68
CONCLUSIÓN ................................................................................................................................................ 69
APLICACIÓN ................................................................................................................................................. 70
Antecedentes ........................................................................................................................................... 70
Metodología ............................................................................................................................................ 70
Hallazgos ................................................................................................................................................ 74
CAPÍTULO 5 .................................................................................................................................................. 78
EVALUAR EVALUACIONES ..................................................................................................................... 78
INTRODUCCIÓN ............................................................................................................................................ 78
DEFINICIÓN .................................................................................................................................................. 79
ESTÁNDARES DE EVALUACIÓN ..................................................................................................................... 80
SECCIÓN 2..................................................................................................................................................... 83
HERRAMIENTAS Y TÉCNICAS DE EVALUACIÓN ............................................................................. 83
CAPÍTULO 6 .................................................................................................................................................. 84
DATOS ............................................................................................................................................................ 84
DEFINICIÓN DE DATOS ................................................................................................................................. 84
CARACTERÍSTICAS DE LOS DATOS ................................................................................................................ 85
Datos Concretos (Hard Data) ................................................................................................................ 85
Datos Abstractos (Soft Data) ................................................................................................................. 86
Cualitativo y Cuantitativo ...................................................................................................................... 86
ESCALAS DE MEDICIÓN ................................................................................................................................ 87
DEFINICIÓN DE DATOS REQUERIDOS A PARTIR DE OBJETIVOS DE DESEMPEÑO ............................................ 89
DERIVAR INDICADORES DE MEDICIÓN ......................................................................................................... 91
FUENTES DE DATOS.................................................................................................................................... 101
Seguimiento de Preguntas y Datos ...................................................................................................... 104
4
CAPÍTULO 7 ................................................................................................................................................ 106
RECOLECCIÓN DE DATOS..................................................................................................................... 106
INTRODUCCIÓN .......................................................................................................................................... 106
METODOLOGÍA DE OBSERVACIÓN Y EL PROPÓSITO DE LA MEDICIÓN ........................................................ 107
Métodos de Observación Directa Basados en las Personas ................................................................ 108
Técnicas de Observación Indirecta, Centrada en las Personas.......................................................... 112
Métodos Centrados en Instrumentos ................................................................................................... 118
Examen de Conocimiento General...................................................................................................... 125
Confiabilidad y Validez de los Exámenes ............................................................................................. 128
Métodos Centrados en el Tratamiento ................................................................................................ 131
Investigación Experimental y Evaluación: Su Relación .................................................................... 131
Diseño del Experimento ....................................................................................................................... 132
PROBLEMAS CON ESTUDIOS EXPERIMENTALES CLÁSICOS Y ESCENARIOS APLICADOS .............................. 134
Estudios de Series Periódicas .............................................................................................................. 135
Métodos Centrados en la Documentación .......................................................................................... 137
CAPÍTULO 8 ................................................................................................................................................ 139
ANÁLISIS DE LOS DATOS DE EVALUACIÓN: HERRAMIENTAS Y TÉCNICAS........................ 139
MÉTODOS DEL ANÁLISIS CUALITATIVO ..................................................................................................... 139
ANÁLISIS DE MODELOS Y PATRONES ......................................................................................................... 139
ANÁLISIS UTILIZANDO UNA DISCUSIÓN ESTRUCTURADA .......................................................................... 140
ESTRUCTURA IMPUESTA PARA TEMAS EMERGENTES ................................................................................. 141
RELEVANCIA .............................................................................................................................................. 141
CONTROLES SOBRE UNA DISCUSIÓN ESTRUCTURADA ................................................................................ 142
MÉTODOS DEL ANÁLISIS CUANTITATIVO ................................................................................................... 142
ESTADÍSTICAS ............................................................................................................................................ 143
Dos tipos de estadísticas ....................................................................................................................... 143
Medición de Tendencia Central .......................................................................................................... 144
Medición de Dispersión (Variabilidad) ............................................................................................... 147
REPRESENTACIÓN GRÁFICA DE DATOS ...................................................................................................... 153
MEDICIÓN DE RELACIONES ........................................................................................................................ 155
ESTADÍSTICA INFERENCIAL: PARAMÉTRICA Y NO PARAMÉTRICA .............................................................. 156
CAPÍTULO 9 ................................................................................................................................................ 162
COMUNICACIÓN DE LOS HALLAZGOS ......................................................................................................... 162
RECOMENDACIONES ................................................................................................................................... 162
DESARROLLO DEL INFORME ....................................................................................................................... 164
Una Perspectiva Iterativa ..................................................................................................................... 164
El Rol del Evaluador Luego de la Presentación del Informe ............................................................... 172
CAPÍTULO 10 .............................................................................................................................................. 173
CONTRATACIÓN DE SERVICIOS DE EVALUACIÓN ....................................................................... 173
LA NATURALEZA DE LOS CONTRATOS ....................................................................................................... 173
Precio Fijo ............................................................................................................................................ 174
Costo Más Honorario Fijo ................................................................................................................... 174
Tiempo y Materiales ............................................................................................................................. 175
Anticipo de Consultas ........................................................................................................................... 175
CONTROLES DE CONTRATACIÓN ................................................................................................................ 176
Alcance del Trabajo .............................................................................................................................. 176
Declaración de Trabajo (SOW, Statement of Work) ............................................................................. 176
Otras Cláusulas Contractuales ............................................................................................................. 177
Plan de Gestión..................................................................................................................................... 177
Revisión del Programa ......................................................................................................................... 177
Cronogramas y Desglose de la Estructura de Trabajo ........................................................................ 177
5
Entrega y Aceptación ............................................................................................................................ 178
Ética y Profesionalismo ........................................................................................................................ 178
MUESTRA DE DECLARACIÓN DE TRABAJO ................................................................................................. 178
Información General............................................................................................................................. 178
Reunión de Contratación ...................................................................................................................... 180
Tareas Mandatorias Específicas y Entregas Asociadas ..................................................................... 181
Descripción de Tareas y Entregas Asociadas: ..................................................................................... 181
Cronograma de Entregas...................................................................................................................... 182
Cambios en la Declaración de Trabajo ................................................................................................ 182
Requerimientos de Informes ................................................................................................................. 182
Viaje y Visitas a Instalaciones .............................................................................................................. 183
Responsabilidades de la Corporación Vendomucho ............................................................................ 183
Requerimientos de Experiencia del Contratista ................................................................................... 183
Confidencialidad y No Divulgación...................................................................................................... 183
SECCIÓN 3................................................................................................................................................... 185
MEJORA CONTINUA ................................................................................................................................ 185
CAPÍTULO 11 .............................................................................................................................................. 186
ERRORES COMUNES EN LA EVALUACIÓN ...................................................................................... 186
ERRORES DE MAPEO DEL SISTEMA ............................................................................................................. 187
Error de camino causal ........................................................................................................................ 187
Error de una mala atribución ............................................................................................................... 187
Error de “el jugador faltante” ............................................................................................................. 187
Error de valor local .............................................................................................................................. 188
ERRORES DE LÓGICA .................................................................................................................................. 188
Error de conclusión falsa ..................................................................................................................... 188
Error del experto .................................................................................................................................. 188
Error de pensamiento de deseo............................................................................................................. 188
Error de asociación .............................................................................................................................. 189
Error de rápido arreglo ........................................................................................................................ 189
Error de explicación de arrastre .......................................................................................................... 189
ERRORES DE PROCEDIMIENTO .................................................................................................................... 189
Error de instrumento ............................................................................................................................ 189
Error de medición ................................................................................................................................. 190
Error del modelo................................................................................................................................... 190
Error del artefacto ................................................................................................................................ 190
Error del punto ciego............................................................................................................................ 190
Error de cambios de desplazamiento .................................................................................................... 191
Error del camino ahorquillado ............................................................................................................. 191
Error de población enmascarada ......................................................................................................... 191
Error de la persona promedio .............................................................................................................. 191
CAPÍTULO 12 .............................................................................................................................................. 193
MEJORA CONTINUA ................................................................................................................................ 193
¿QUÉ ES LA MEJORA CONTINUA? ............................................................................................................... 193
Monitoreo de Desempeño .................................................................................................................... 194
Ajuste de Desempeño ........................................................................................................................... 196
El Rol del Liderazgo............................................................................................................................. 197
CAPÍTULO 13 .............................................................................................................................................. 199
RECOPILACIÓN DE INTELIGENCIA PARA LA TOMA DE DECISIONES: SISTEMAS DE
MONITOREO DE DESEMPEÑO ............................................................................................................. 199
MEDICIÓN, INTELIGENCIA Y DECISIONES ................................................................................................... 199
6
SISTEMAS DE MEDICIÓN DE DESEMPEÑO ................................................................................................... 200
PUNTOS DE CONSIDERACIÓN EN LOS SISTEMAS DE MEDICIÓN DE DESEMPEÑO.......................................... 203
CONCLUSIÓN .............................................................................................................................................. 204
CAPÍTULO 14 .............................................................................................................................................. 206
EL FUTURO DE LA EVALUACIÓN EN LA MEJORA DEL DESEMPEÑO ..................................... 206
¿QUÉ NOS DEPARA EL FUTURO? ................................................................................................................ 207
CONCLUSIÓN .............................................................................................................................................. 208
REFERENCIAS Y LECTURA RELACIONADA .................................................................................... 209
7
Conceptos y Herramientas Para la Medición y Mejora del Desempeño
Sección 1: Fundamentos de la Evaluación
8
Capítulo 1
Introducción a la Evaluación
Decisiones, Decisiones…
En nuestra vida cotidiana, nos encontramos casi continuamente en situaciones en las que
debemos tomar una decisión: ¿Debería hacer esto o debería hacer lo otro? ¿Debería tomar a
la derecha o a la izquierda? ¿Debería tomar la autopista o alguna calle alternativa? ¿Debería
llevar el paraguas o no? En este punto, la vida no es diferente a un marco organizacional, en
el que nos enfrentamos continuamente con la toma de decisiones acerca de qué programas
implementar, qué cambiar y qué abandonar, sólo para mencionar algunos de los dilemas
organizacionales. ¿Cómo toman las decisiones los miembros de una organización? Mediante
la utilización de información relevante, confiable y válida, obtenida durante un proceso
evaluativo que esté alineado con los resultados deseados a largo plazo.
Desafortunadamente, esta información no está siempre disponible, y si en realidad existe,

muchas veces quien toma las decisiones lo desconoce, o no tiene acceso a ella, o no sabe
cómo interpretarla y utilizarla para tomar las decisiones que lo lleven a la mejora, tanto de un
programa como del desempeño organizacional. De hecho, Lee Cronbach y otros (1980) han
repropuesto que las decisiones muy a menudo emergen espontáneamente, en vez de surgir a
partir de un proceso lógico y metodológico. Los líderes efectivos son capaces de tomar
decisiones basados en información sólida, y los evaluadores pueden hacer mucho para
influenciar el proceso de liderazgo mediante la toma de decisiones. La evaluación puede
brindar un marco sistemático que alinee personas interesadas, propósitos de la evaluación,
resultados deseados, y todas las actividades evaluativas, para que la evaluación como
producto final resulte en una receta sensible y clara para la mejora del desempeño. Esto, en
esencia, permite que el proceso de la toma de decisiones sea más claro y directo. La
evaluación es el mecanismo que brinda retroalimentación a quienes toman decisiones, ya sea
mediante informes y reuniones informales, o mediante el interrogatorio o informe final.
Un Breve Resumen de la Historia de la Evaluación

Michael Scriven (1991) hace referencia a la evaluación como una práctica que data de la
evaluación de la espada del samurai. Otro tipo de evaluación también se evidencia desde el
año 2000 AC., cuando oficiales Chinos mantenían servicios civiles de examinación para
medir la habilidad de los individuos que aspiraban a ocupar posiciones en el gobierno,
mientras que Sócrates integró evaluaciones verbales como parte de su práctica instruccional
(Fitzpatrick, Sanders, & Worthen, 2004).
9
Como respuesta a la insatisfacción respecto a los programas educacionales y sociales, una

forma de evaluación educacional puede ser rastreada en Gran Bretaña, durante los años 1800,
cuando el gobierno envió comisiones reales para escuchar testimoniales de varias
instituciones. En los años 1930, Ralph Tyler promulgó un llamado a medir el logro de
objetivos con un criterio estandarizado (Fitzpatrick et al., 2004). Durante los años 1960,
Scriven y Cronbach introdujeron una evaluación formativa y acumulativa (en inglés:
formative and summative evaluations), y Daniel Stufflebeam enfatizó resultados sobre
procesos (Liston, 1999).
En 1963, Cronbach publicó un importante trabajo, Course improvement through evaluation

(Rumbo al mejoramiento mediante la evaluación), desafiando a los educadores para que
midan el aprendizaje real, en vez de la maestría pasiva de los hechos. Más aún, él propuso
utilizar instrumentos cualitativos (por ejemplo: entrevistas y observaciones) para obtener los
resultados del estudio. Hacia fines de los años 1960, renombradas figuras dentro del área
evaluativa, como Edgard Suchman, Michael Scriven, Carol Weiss, BlaineWorthen y James
Sanders, redactaron los primeros textos acerca de la evaluación de programas. En 1971,
Stufflebeam propuso el CIPP (acrónimo de contex, input, process & product –contexto,
entrada, proceso & producto), como un modelo de evaluación más devolutivo para la toma
de decisiones. Durante el mismo año, Malcolm Provus introdujo el Modelo Para Evaluar
Discrepancias. En 1972, Scriven propuso una evaluación que intencionalmente ignorara los
objetivos predeterminados del programa (goal-free evaluation), en un esfuerzo de alentar a
los evaluadores a encontrar consecuencias involuntarias. En 1975, Stake brindó una
evaluación receptiva (responsive evaluation). En 1981, Egon Guba e Yvonna Lincoln
propusieron una evaluación naturalista basada en el trabajo de Robert Stake, alimentando el
debate entre los métodos cualitativos vs. cuantitativos (Fitzpatrick, et al., 2004).
Todo esto ocurría en un contexto de mejora para justificar los billones de dólares que el
gobierno de los Estados Unidos de Norteamérica estaba invirtiendo en programas sociales,
de salud y educacionales (Fitzpatrick, et al., 2004; Patton, 1997). Con la finalidad de
justificar tales inversiones, las personas responsables de dichos programas comenzaron
pronto a consultar a los evaluadores, acerca de cómo sus programas podían ser mejorados.
Por lo que el propósito inicial de la evaluación de programas consistió en juzgar si los
programas valían la pena, como para continuar financiándolos.
Las entidades educacionales en particular, generaron comisiones evaluadoras, en parte para

documentar sus logros, cuando Sputnik se convirtió en el catalizador de la posición pasiva de
los Estados Unidos de Norteamérica respecto a la educación, al compararla con otros países.
El requerimiento de evaluadores pronto se acrecentó, y el gobierno respondió solventando
programas universitarios dedicados a la investigación educacional y a la evaluación. En los
años 1970s y 1980s, la evaluación se hizo su propio lugar, al trascender sus aplicaciones del
campo gubernamental y educacional, hacia la administración de empresas y otras áreas. En la
actualidad, las evaluaciones son realizadas en varias áreas, y utilizando varias perspectivas y
métodos.
10
Evaluación: Propósito y Definición

Mientras que alguien dijo acertadamente que el propósito fundamental de la evaluación es la
determinación del valor o mérito del programa o solución (Scriven, 1967), el propósito –y
valor último–, de determinar este valor, consiste en la toma de decisiones generadas a partir
de la información recabada, que conlleva a una mejora del desempeño tanto en programas
como en organizaciones (Guerra-López, 2007).
El concepto de que “el propósito más importante de la evaluación no es probar, sino

mejorar”, es una idea que expuso originalmente Egon Guba, mientras se encontraba al
servicio del Comité Nacional de Estudio de la Evaluación Phi Delta Kappa circa 1971
(Stufflebeam, 2003). Esta debe ser la base de todos los esfuerzos venideros en el campo de la
evaluación. Todos y cada uno de los componentes de la evaluación deben estar alineados con
aquellos objetivos y expectativas que las organizaciones valoran, y con las decisiones que
deberán tomarse como resultado de la información obtenida de esa evaluación. Estas
decisiones están esencialmente abocadas a cómo mejorar y medir el desempeño, en todos los
niveles organizacionales: productos internos, beneficios organizacionales e impacto público.
En su esencia, la evaluación es simple:
• Compara resultados respecto a expectativas;

• Encuentra los conductores apropiados y las barreras respecto al desempeño esperado;
y
• Produce planes de acción para mejorar programas y soluciones que están siendo
evaluadas para poder lograr y/o mantener el desempeño esperado, para que los
objetivos y contribuciones organizacionales puedan ser cumplidos.
Mientras que existen ciertas perspectivas de la evaluación que no se enfocan en resultados u

objetivos predeterminados, el enfoque optado en este libro está basado en la premisa de la
mejora del desempeño. Lo cual implica que las organizaciones esperan resultados y
contribuciones específicas –articulados completamente o no- de sus programas y otras
soluciones. Como se expone en secciones y capítulos siguientes, esto no impide al evaluador
o al profesional a cargo de la mejora del desempeño, la utilización de herramientas que los
ayude a identificar resultados y consecuencias no anticipadas. El valor o mérito de los
programas y soluciones, está entonces determinado por el hecho de proveer o no los
resultados deseados; que esos resultados sean valiosos en primer lugar; y que los beneficios
de esos resultados sobrepasen su costo y consecuencias involuntarias.
Una evaluación –una que pregunte y responda el interrogatorio correcto–, no sólo puede ser
utilizada para determinar resultados, sino que también puede utilizarse para conocer porqué
se encontraron esos resultados, y cómo modificar lo que está siendo evaluado, para que
pueda cumplir con los objetivos que la generaron dentro de un criterio requerido. Esto
11
resulta especialmente útil, no sólo para identificar qué funcionó mal o qué puede mejorarse,
sino también para identificar qué debe mantenerse tal cual está. Mediante una indagación
apreciativa (appreciative inquiry - Cooperrider & Srivastva, 1987), la evaluación nos puede
ayudar a identificar todo aquello que funciona correctamente. Una indagación apreciativa es
un proceso que busca lo mejor de las organizaciones, para encontrar oportunidades de mejora
de desempeño y creación. En este caso también, nos brinda un medio finalmente dedicado a
la mejora del desempeño.
Mientras que las intenciones de la mayoría de los evaluadores son sólo eso, el lenguaje y el
enfoque o perspectiva utilizada, es recargado con suposiciones de que las cosas andan mal.
Por ejemplo, el término resolución de problemas implica que desde el comienzo algo anda
mal, y aún cuando esta suposición no sea explícita en los cuestionarios generales de
evaluación, se hace su lugar en nuestros esfuerzos para recabar información. Naturalmente,
los parámetros de lo que estamos preguntando influenciarán la información que obtenemos –
y en último lugar–, nuestros hallazgos y conclusiones. Si nosotros preguntamos qué anda
mal, quienes respondan contestarán específicamente a esa pregunta. Si en cambio
preguntamos qué anda bien, ellos nos dirán. El punto clave es que la evaluación debe ser
imparcial (o al menos lo más imparcial posible). Debemos preguntar y responder un
interrogatorio correcto, para que la información que obtengamos sea de hecho representativa
de la realidad.
En términos específicos, antes de que el evaluador inicie un plan –y ciertamente antes de

recabar la información–, el evaluador debe determinar por qué se encuentra realizando la
evaluación. ¿Se trata de una iniciativa propia o sólo le indicaron realizar esa evaluación?
¿Cuál es el motivo por el cual se lleva a cabo este estudio? ¿Qué es lo que busca lograr y
brindar como contribución a partir del resultado de esta evaluación? A continuación,
encontrará un listado de algunas razones generales para llevar adelante una evaluación:
• Evaluación para ver si la solución a un problema está funcionando, si los métodos

utilizados brindan una devolución valiosa.
• Evaluación para brindar retroalimentación como parte de un proceso de monitoreo,
revisión y mejora continua.
• Evaluación para brindar retroalimentación respecto a financiar futuras iniciativas.
• Evaluación para confirmar el cumplimiento de un mandato.
• Evaluación para satisfacer requerimientos legales.
• Evaluación para determinar si se produjo un valor agregado para todos los stakeholders
(aquellos interesados; involucrados; o afectados, ver definiciones básicas al final de este
capítulo).
• Evaluación para obtener poder sobre los recursos.
• Evaluación para justificar decisiones que ya han sido tomadas.
Mientras que los dos últimos tipos de evaluación están particularmente destinados a agendas
políticas, en realidad todas las evaluaciones pueden caer bajo esa categoría, y el reconocer la
factibilidad de conducir una evaluación honesta, requiere una evaluación introspectiva. Un
12
evaluador experimentado reconocerá –la mayoría de las veces–, si las personas interesadas
en la evaluación cuentan con un sincero interés en utilizar los resultados de dicha evaluación
para mejorar el desempeño, o para avanzar en sus intereses políticos. Prestando cuidadosa
atención a una planificación detallada, cada una de estas razones puede ajustarse al enfoque
de la evaluación, motivado por la información y orientado a los resultados. Pero si es tomada
en forma demasiado limitada –en forma aislada y sin el contexto propicio–, cada una de las
evaluaciones mencionadas contiene en sí misma una cantidad de problemas, puntos ciegos,
generación de información especial y problemas de colección. El modo en que se percibe el
propósito de la evaluación puede modelar y limitar la información que está siendo observada
(o no observada), recabada (o no recabada), e interpretada o ignorada. Por lo cual, tanto los
evaluadores como los stakeholders, deben comenzar planificando el proceso con una
articulación clara de qué decisiones deberán tomarse a partir de los resultados encontrados,
decisiones que están ligadas al propósito general de conducir la evaluación.
Mejora del Desempeño: Marco Conceptual de Trabajo

El área de la mejora del desempeño se encuentra en continua transición y desarrollo. Ha
evolucionado a partir de la experiencia, la reflexión y la conceptualización de practicantes
profesionales buscando mejorar el desempeño humano en el lugar de trabajo. Sus raíces
inmediatas son resultado del diseño instruccional y de la instrucción programada, pero más
aún –y más fundamentalmente–, son resultado del trabajo de B.F. Skinner y sus colegas,
quienes centraron su trabajo en el comportamiento de los individuos dentro de su medio
ambiente (Pershing, 2006).
El resultado de la mejora del desempeño, o de la tecnología del desempeño humano, como

también se la refiere, a partir de una instrucción programada y de sistemas de diseño
instruccionales, ha sido ilustrado como parte el Modelo de Ingeniería de Conducta
(Behavioral Engineering Model) de Thomas Gilbert, donde se presentaron varias categorías
de factores que impactan el desempeño humano (por ejemplo: expectativas de desempeño
claras, retroalimentación, incentivos, instrumentos, conocimiento, capacidades y motivos
internos). Este modelo referencial, fue publicado en el libro de Gilbert, Human Competente:
Engineering Worthy performance (Competencia Humana: Ingeniería para un Desempeño
Meritorio), en 1978, y fue basado principalmente en el trabajo que este autor llevo a cabo
junto con Geary Rummler y Dale Brethwoer. Pershing (2006) declara que el libro de Joe
Harless, An Ounce of Analysis is Worth a Pound of Objectives (Una Onza de Análisis Vale
más que Una Libra de Objetivos), también tuvo un impacto significativo en el área, y que fue
complementado por el trabajo de Gilbert. Estos dos trabajos juntos sirvieron como base para
muchas figuras que han contribuido, y continúan ayudando a desarrollar el área de la mejora
del desempeño.
En la actualidad, la Sociedad Internacional para la Mejora del Desempeño (International

Society for Performance Improvement, ISPI) –la asociación profesional líder en el área–,
define a la mejora del desempeño como un enfoque sistemático para mejorar la
13
productividad y competencia, que utiliza una serie de métodos y procedimientos –y una

estrategia para la resolución de problemas–, para la realización de oportunidades
relacionadas con el desempeño de la gente. Más específicamente, es un proceso de selección,
análisis, diseño, desarrollo, implementación y evaluación de programas para influenciar el
comportamiento y logro humanos, del modo más eficiente posible. Esta serie de procesos es
comúnmente conocida por el modelo ADDIE, y forma la marco teorico de la mayoria de los
modelos de la mejora del desempeño. Según Pershing (2006), es una combinación
sistemática de tres procesos fundamentales, la detección de necesidades o análisis de
desempeño 1, el análisis causal y la selección de intervención; pudiendo aplicarse tanto a
individuos, como a pequeños grupos y grandes organizaciones. La suposición de que la
evaluación de tales intervenciones también debe formar parte de este proceso fundamental,
será presentada en el capítulo de conclusión de este libro, y es un tema
subyacente/fundamental de este libro.
Es en este contexto que la evaluación ha sido vista y descripta en este libro. La evaluación no
es un proceso aislado, sino parte de una serie de procesos y procedimientos que,
encontrándose apropiadamente alineados, pueden asegurar que los programas y
organizaciones logren resultados valiosos, efectiva y eficientemente.
Lograr una Evaluación Exitosa: Asegurar la Participación

de los Stakeholders
Uno de los elementos más importantes de cualquier evaluación, son los stakeholders. Antes
de definir a los stakeholders, vale la pena destacar que esta palabra proviene de “stake”, que
es esencialmente un interés en la realización, o participación en alguna empresa o iniciativa,
y en cómo la misma puede ser afectada por cualquier cosa que esté siendo utilizada,
realizada, producida o entregada. Mientras que un término semejante es a menudo utilizado
en el ámbito financiero (stockholders), el interés que denota stakeholder puede bien ser
financiero como legal o moral (Carroll, 2000). Además, un stakeholder puede ser cualquier
individuo o grupo que tenga interés o esté involucrado en una empresa o iniciativa, y que
pueda afectar o ser afectado por las decisiones y acciones de la organización.
Los stakeholders de una evaluación pueden ser categorizados en forma general, como
internos (propietarios, empleados y gerentes), y externos (clientes, los clientes de su cliente,
la comunidad, los proveedores, competidores, el gobierno y los medios sólo para nombrar
algunos), y ambas categorías pueden ser subdivididas en varios grupos.
1
Sin embargo existe algún debate acerca de esta terminología. Kaufman (2000) por ejemplo, llama a este
primer paso detección de necesidades (descripto más adelante en este capítulo), en el cual se identifican brechas
esenciales en los resultados en varios niveles de la organización. De hecho, el modelo A2DDIE propuesto por
Guerra-López (2003ª) fue propuesto con el propósito de destacar la diferencia entre el proceso de detección de
necesidades y el proceso de análisis de desempeño/ análisis causal.
14
No todos los individuos dentro de un grupo stakeholders tienen que participar directamente
en una evaluación, lo que resulta importante es que aquellos que participen sean
representativos de los miembros de su grupo. Cuanto más se involucren e influencien la
evaluación los stakeholders, menos posibilidades habrá de que se encuentre con resistencia,
tanto durante el proceso de evaluación como durante la exposición de sus hallazgos y
recomendaciones.
Mientras que idealmente quisiéramos seleccionar a los stakeholders que nos ayudarán a
definir las expectativas, preguntas y criterios útiles de evaluación, la realidad es que nos
encontraremos con individuos que tienen sus propios intereses o que representan a un grupo
poderoso con intereses propios. Mientras que el que los seres humanos tengan sus propios
intereses especiales no es particularmente inusual, lo que nosotros querremos neutralizar lo
más posible es que la evaluación se convierta en una herramienta de manipulación para los
intereses particulares de uno –o algunos–, a costa de otros.
Un desafío vital respecto a los stakeholders que contribuirán al éxito de la evaluación, es

mantenerlos enfocados en los resultados y consecuencias, en vez de en las intenciones
políticas. Los temas que son sólo políticos, tanto dentro como fuera de las organizaciones,
tienen un impacto tremendo al momento de la definición de objetivos y selección de los
mejores medios y métodos. Resulta esencial que usted aprenda lo suficiente acerca del clima
político, como para entender cómo afectará su evaluación y la implementación de sus
recomendaciones.
Si las recomendaciones surgidas de la evaluación no son implementadas, o son

implementadas en forma incorrecta, el desempeño no mejorará. Si el desempeño no mejora,
la evaluación ha sido llevada a cabo en vano.
El Evaluador: ¿Un Trabajo o Un Rol?

El término evaluador no solo describe una profesión u ocupación, sino que también un rol
desempeñado en un momento en particular. Esto es, que los individuos que conducen una
evaluación muy a menudo utilizan muchos trajes a la vez. Pueden muy bien ser consultores
externos, miembros facultativos, empleados internos, o miembros de un equipo de gestión,
que con una educación, entrenamiento y/o experiencia adicional han obtenido interés y
experiencia en medición y evaluación. En algunos casos, los individuos llegan a este punto
de rebote, mediante un inesperado requerimiento para conducir una evaluación. Ellos pueden
por ejemplo ser capacitadores, a quienes se les solicita que demuestren el valor de sus
programas y departamentos de capacitación. O aún pueden ser individuos que debido a su
estatus de expertos en el tema y/o en alguna solución o programa, también se enfrenten con
la necesidad de demostrar el valor de sus esfuerzos.
La función común a todos ellos es –o debería ser–, su objetivo interno de documentar los
resultados e impacto logrados por una solución dada, ya sea un programa, un proyecto, una
15
herramienta o la utilización de un recurso. El objetivo final es utilizar esta información para

tomar buenas decisiones y acciones apropiadas para la mejora del desempeño, en todos los
niveles de la organización.
Existen por supuesto, algunas áreas básicas en las cuales los evaluadores efectivos deben ser
competentes. Sanders (1979) propuso como que como mínimo, los evaluadores deben ser
capaces de:
• Describir el objeto a evaluar y su contexto en forma precisa.

• Conceptuar el propósito y marco de trabajo de una evaluación.
• Derivar preguntas, requerimientos de información y fuentes de información apropiadas
para una evaluación útil.
• Seleccionar los métodos de recolección y análisis de información.
• Gestionar el proyecto de evaluación.
• Mantener estándares éticos.
• Adaptarse a factores externos que influencian la evaluación.
• Evaluar la evaluación.
La Relación con Otros Procesos de Investigación:

Evaluación, Detección de Necesidades e Investigación
Científica
El impulsor primordial para derivar preguntas útiles durante un estudio organizacional, es la
revisión de los resultados y consecuencias que queremos lograr. Otro impulsor será el tipo de
decisiones que deberán ser tomadas. El siguiente será –en gran parte–, determinar qué
información debe ser recolectada para qué propósito. Por ejemplo, si las decisiones deben ser
tomadas respecto a qué programas, intervenciones o soluciones deben continuar, o deben ser
revisadas o descontinuadas, entonces nuestro enfoque para la recolección de datos debe
tomar una perspectiva más que evaluativa. Esto significa, que la información que recabemos
será utilizada para ser comparada con objetivos predeterminados. Si, por otro lado, las
decisiones a tomar son respecto a qué resultados debemos apuntar, y consecuentemente, qué
tipos de programas, intervenciones y soluciones nos ayudarán a lograr esos resultados,
entonces nuestra recolección de datos debe tener como enfoque, una perspectiva surgida de
la detección de necesidades. Note que en ambos casos, los resultados, y las brechas entre los
resultados, son el impulsor primordial.
A continuación encontrará la Tabla 1.1, que ilustra algunos ejemplos de preguntas a

realizarse a partir de ambas perspectivas, que pueden aplicarse a cualquier sector de
cualquier organización.
16
Tabla 1.1 Perspectivas Únicas para la Detección de Necesidades y Evaluación
Preguntas para la Detección de Necesidades Preguntas Evaluativas

• ¿A qué resultados que agreguen valor • ¿Cuánto nos acercamos al
debemos estar enfocándonos? cumplimiento de nuestra visión y
• ¿Qué resultados que agregan valor misión?
estamos obteniendo actualmente? • ¿Agregamos o quitamos valor de
• ¿Quién o qué es el cliente principal de nuestros clientes externos y nuestra
los resultados y sus consecuencias? participación en la sociedad?
¿Debemos partir de los resultados y • ¿Qué objetivos logramos respecto a
consecuencias actuales hacia los nuestra misión?
deseados? • ¿Cómo nos va en comparación con el
• ¿Qué resultados deben ser logrados en cuatrimestre pasado? ¿Y con el años
el camino y cuándo? pasado?
• ¿Cuáles son nuestras opciones? • ¿Cuáles de los resultados internos
• ¿Cuáles son las formas más efectivas y enfocados fue logrado? ¿Y no logrado?
eficientes para alcanzar los resultados • ¿Qué programas, proyectos o soluciones
deseados/requeridos? implementadas resultaron efectivos?
• ¿Qué nos costará alcanzar esos • ¿Qué tan efectivos resultaron ser estos
resultados? proyectos y/o soluciones
• ¿Qué nos costará ignorar esos implementadas?
resultados? • ¿En cuál de ellos debemos continuar
• ¿Qué tan lejos debemos ir para invirtiendo?
alcanzar esos resultados? • ¿Qué resultados tenemos para justificar
• ¿Qué resultados son prioritarios sobre la continuidad de nuestros programas?
otros? • ¿Qué debemos descontinuar?
• ¿Dónde tenemos más —y menos— • ¿Qué proyectos, programas y/o
influencia? soluciones pueden resultar exitosas
implementando algunas
modificaciones? ¿Vale la pena?
Adaptado de: Guerra, I . (2003b). Asking and Answering the Right Questions: Collecting
Relevant and Useful Data. Performance Improvement 42(10). 24-28.
17
Ambos enfoques para la recolección de datos deben ser sistemáticos, y diseñados para
responder a preguntas específicas que puedan ser utilizadas para mejorar el desempeño.
Mientras que los detectores de necesidad y los evaluadores pueden compartir técnicas de
recolección de datos, los tipos de preguntas que buscan responder son diferentes. En este
sentido, sus roles difieren en el propósito o función, en vez de diferir en importancia y
métodos.
De esta manera, aquellos que llevan a cabo la detección de necesidades ayudan a crear el
futuro, brindando información cuantitativa y cualitativa, para la identificación de una visión
basada en el desempeño a largo plazo, alineada con las misiones y que construyan objetivos
determinados, así como también para la identificación de las brechas existentes entre los
resultados actuales y los deseados. En forma adicional, ellos ayudan a identificar las mejores
soluciones para eliminar estas brechas, y por lo tanto lograr finalmente alcanzar la visión
organizacional. Por otro lado, los evaluadores ayudan a determinar si nos estamos dirigiendo
hacia el futuro que establecimos durante el proceso de detección de necesidades. Una de las
formas principales en que hacen esto, es determinando la efectividad y eficiencia de los
programas y soluciones implementados, así como también los factores asociados causantes
de la brecha existente entre los resultados esperados y los logrados. La medición de la mejora
organizacional y la mejora del desempeño individual, depende en gran parte de estos dos
roles y procesos.
Mientras que tanto detectores de necesidades como evaluadores recaban datos referentes a
los resultados actuales de un proceso o actividad, los evaluadores colectan información para
determinar si los resultados actuales coinciden con los resultados esperados de determinada
solución (por ejemplo: de nuevos programas, nuevas tecnologías, nuevos procesos o
cualquier otra herramienta que seleccionemos para ayudarnos a lograr nuestros objetivos),
que ya ha sido implementada. El detector de necesidades –en contraposición–, busca
anticipar el retorno a la inversión esperado, para potenciales intervenciones antes de que ellas
sean implementadas, mediante la recolección de información tanto acerca de resultados
actuales (lo que es), como de resultados potenciales (lo que debería ser). Con esta
información, quienes tomen las decisiones serán capaces de elegir la mejor alternativa.
¿Y cómo ingresa al escenario la investigación científica? Antes de responder esta pregunta,

exploremos primero el significado de ciencia. La ciencia está basada en una serie de
suposiciones acerca del mundo, suposiciones que pueden ser verdaderas hoy, y falsas
mañana. En la ciencia, estamos siempre probando estas suposiciones, listos para cambiarlas
cuando nuestros hallazgos nos indiquen esto. Para esto, la ciencia recaba datos acerca de la
realidad, y consulta con otras fuentes para asegurar su confiabilidad. Los resultados son
considerados como datos básicos, que más tarde serán sujetos a observaciones reproducibles
para poder confirmar, tanto los hallazgos como los informes científicos. De esta manera,
nosotros queremos tomar decisiones y tomar acción basados en lo que es actualmente
conocido como indagación científica.
18
Para responder entonces nuestra pregunta, la investigación es esencialmente otro proceso

sistemático de indagación, con el propósito de encontrar, interpretar y actualizar hechos,
eventos, comportamiento y teorías. A este respecto, la capacidad de investigación es un
requerimiento básico del mundo actual, y puede aplicarse a cualquier contexto, ya sea a la
detección de necesidades, a la evaluación o a la indagación científica. De hecho, el corazón
del plan de recolección de datos se trata de esto. El siguiente es un listado de elementos
comunes y generales, que encontramos en estos tres procesos. Están expresados en forma
genérica, pero pueden ser más específicos dentro de cualquiera de los contextos
investigativos:
1. Se identifican las decisiones importantes que deben ser tomadas por los interesados,
lo cual nos llevará a
2. Una guía de preguntas, propósitos o hipótesis que el proceso indagatorio debe
responder/probar, las cuales están relacionadas con
3. Variables o resultados claves que constituyan el enfoque central de nuestras
preguntas o hipótesis.
4. Cuando los resultados no sean directamente observables, se deben identificar
indicadores observables y mensurables.
5. Estos indicadores se convierten en los datos que buscamos recabar, y punto de
referencia de las fuentes de información que debemos utilizar.
6. El tipo de información que buscamos también nos revela las herramientas
apropiadas que utilizaremos para la recolección de datos.
7. Finalmente, el proceso concluye con un informe que debe incluir hallazgos,
interpretaciones y recomendaciones de acciones futuras, basadas en la
información recolectada.
La clave en la metodología, es básicamente la alineación de todos los elementos –desde el
valor agregado que significa para todos los interesados internos y externos, hasta su relación
con las fuentes de información y métodos utilizados–, para lograr resultados valiosos.
Ciertamente, en una investigación mucho más básica, la generalización de los hallazgos

resulta crítica, de este modo existirá una inclinación hacia ambientes controlados y
aislamiento de efectos. Sin embargo, la complejidad de la evaluación en el mundo real, no se
deja utilizar fácilmente para el control de variables. Tal vez la evaluación coincide más
cercanamente con la investigación aplicada, donde el objetivo de estudio es resolver los
problemas organizacionales reales en vez de lograr un puro avance de la teoría del
conocimiento. Sin embargo, tanto la evaluación como la investigación aplicada se benefician
del conocimiento obtenido mediante la investigación básica.
La Tabla 1.2 que se muestra a continuación, brinda una comparación lado a lado entre la
investigación básica, la investigación aplicada y la evaluación.
19
Tabla 1.2 Dimensiones de los Procesos Investigativos
Dimensiones Investigación Básica Investigación Evaluación

Aplicada
Objetivo • Avance del • Aplicación del • Identificación de
conocimiento y del conocimiento información
entendimiento científico a una relevante para
teórico de variables solución de un mejorar objetivos y
relevantes problema organizaciones
específico y específicas
definido
Enfoque • De exploración y • Es generalmente • Generalmente es
muy a menudo descriptivo en vez guiado por la
generado por la de de exploración, necesidad de tomar
curiosidad e intereses y es conducido importantes
del investigador por instituciones decisiones
educacionales u organizacionales, se
otras instituciones en enfoca en datos
que facilite esta
toma de decisiones
Uso • Conducidas sin un • Realizada para • Realizada para
fin práctico en mente resolver resolver
interrogantes interrogantes
específicos y específicos y
prácticos prácticos que
resulten el la
mejora del
desempeño
Bases • Tal cual sugiere su • Es normalmente • Debe realizarse en
nombre, puede sentar realizada sobre base a la detección
las bases de futuras una base de de necesidades,
investigaciones, que investigación mientras que
a menudo son básica o en base a también se debe
aplicadas una investigación considerar los
previa que arrojó hallazgos de
resultados válidos investigaciones
previas, tanto
básicas como
aplicadas
Como las dimensiones de cada uno de estos procesos están descriptas en forma generalizada,
es posible que exista alguna modificación que nuble estas distinciones. Por ejemplo, un
informe de evaluación puede ser utilizado como insumo para la literatura utilizada en un
estudio de investigación básica, y por lo tanto puede influenciar qué preguntas de
investigación son estudiadas, y cómo.
20
¿Cuándo Ocurre Una Evaluación?

El tener objetivos de desempeño sujetos a una medición, y que estén expresados en un
formato correcto, no garantiza que los objetivos conlleven al logro deseado. Hace algunas
décadas, la gente se dio cuenta de que enfocarse únicamente en los objetivos, podía causar
que el evaluador perdiera datos importantes del proceso y del contexto. En los años 1960,
surgió el hecho de que la evaluación podría jugar un rol en el desarrollo de programas
educacionales, para adaptar los contenidos y el proceso durante el camino hacia los
resultados finales, cuando Michael Scriven (1967) introdujo los términos “formativo y
acumulativo” (“formative and summative”), así como también evaluación “libre de metas”
(“goal-free”). Desde entonces, los evaluadores tuvieron un término para el tipo de actividad
evaluativa utilizada para guiar la actividad de desarrollo en los programas (formativa), y otro
término para utilizar cuando la evaluación es utilizada para obtener resultados de un valor
general final (acumulativa - summative).
Mientras que el determinar el valor agregado general –o potencialmente sustraíble– de

programas y organizaciones debe ser una de sus funciones clave, la evaluación formativa
también es de suma importancia para las contribuciones generales de programas y otras
soluciones. Más aún, la evaluación formativa puede ser diseñada de forma tal que monitoree
continuamente la alineación del programa con sus subsistemas y suprasistema para facilitar
el logro de su valor final.
La evaluación formativa debe comenzar con una identificación, diseño, desarrollo e

implementación del programa/solución de interés. Algunas preguntas generales serán:
• ¿Nos estamos enfocando en los objetivos correctos?

o ¿Están basados en la detección de necesidades (brechas entre resultados)?
• ¿Están los criterios siendo medidos y establecidos correctamente?
• ¿Estamos utilizando los criterios apropiados para juzgar la efectividad y eficiencia de
nuestra solución?
• ¿Hemos identificado el programa/solución adecuado?
o ¿Basamos nuestra selección en un análisis de alternativas?
o ¿Colocamos en la balanza los pro y contras?
o ¿Colocamos en la balanza los costos y consecuencias?
• ¿Es nuestro diseño relevante y útil?
o ¿Está el diseño alineado con los análisis que conocemos (causas de existencia
de brechas entre resultados)?
o ¿Es nuestro diseño apropiado para la finalidad que deseamos lograr?
• ¿Está el desarrollo del programa/solución alineado con la intención del diseño?
o ¿Tenemos diseñado un piloto para capturar los datos apropiados requeridos
para lograr las mejoras?
o ¿Cumple nuestro prototipo con los requerimientos de nuestros usuarios?
21
• El programa/solución, ¿está siendo implementado apropiadamente? 2

o ¿Están aquellos impactados por el programa/solución incluidos en la
identificación del problema, la selección de soluciones y en todas las otras
etapas?
o ¿Se han confrontado, clarificado y/o desaprobado los temores e ideas
infundadas acerca de la implicancia del programa/solución, apropiadamente?
o ¿Se está implementando el programa/solución de acuerdo a los planes
iniciales?
o ¿Es la implementación del programa/solución sensible y flexible a la situación
actual (por ejemplo: desafíos no previstos previamente)?
El evaluar cada etapa, y utilizar los datos de la evaluación para mejorar cada una de ellas, le
permitirá tanto a evaluadores como a los interesados mantenerse en el camino correcto para
poder alcanzar los objetivos establecidos para el programa/solución a corto y a largo plazo.
Orientaciones Generales para la Evaluación

Como lo mencionáramos anteriormente, las dos distinciones comunes en la evaluación son:
formativa y acumulativa (“formative and summative”). La evaluación formativa ocurre
típicamente durante una etapa de desarrollo de un programa, y puede ser utilizada para
mejorar el programa antes de lanzarlo formalmente. Por supuesto, la perspectiva formativa
puede ser utilizada para mejorar todas las etapas de la mejora del desempeño, desde la
necesidad de la implementación, hasta la evaluación en sí misma.
La evaluación acumulativa (summative evaluation) ocurre luego de la implementación de un

programa o solución, y usualmente requiere la cantidad de tiempo de asentamiento
apropiada, para que el objeto de evaluación tenga la oportunidad de tener por completo el
impacto requerido en el desempeño, en varios niveles de la organización. Es importante notar
que la evaluación acumulativa también puede ser utilizada para mejorar programas y
soluciones. Stufflebeam y Webster (1980), sostienen que el tipo más común de evaluación,
es aquel con un punto de vista basado en objetivos. Una vez que los resultados logrados han
sido determinados, el evaluador cuenta con el material suficiente para identificar también los
causales que contribuyeron al logro de tales resultados. Estos datos brindan un mayor
enfoque a la identificación de los impulsos y barreras del éxito del programa, y por lo tanto,
brindan la base de recomendaciones para la mejora del desempeño.
2
Incidentemente, la implementación de preguntas también puede resultar apropiada en el enfoque de una
evaluación acumulativa (summative evaluation), en donde no sólo miramos los resultados y consecuencias sino
también los factores que pueden haber impactado esos resultados y consecuencias (por ejemplo: asuntos de
implementación). Obviamente, si nuestro interés es asegurar la efectividad de la solución, querremos saber si la
misma está siendo implementada efectivamente antes y durante el proceso de implementación, y no a
posteriori.
22
Otra distinción utilizada muy a menudo respecto a las orientaciones de la evaluación, es la de

evaluación de procesos vs. evaluación de resultados. Estos términos son utilizados para
describir los mismos procesos que la perspectiva formativa y acumulativa (formative and
summative) toman respectivamente. Dependiendo de cómo son interpretados e
implementados, también pueden diferir con sus contrapartes descriptas anteriormente. Por
ejemplo, la Sociedad de Evaluación Canadiense utiliza el término evaluación de proceso (al
que también se refiere como evaluación de eficiencia) para describir el monitoreo de la
implementación de programas. Obviamente debe existir un modelo lógico planeado con
resultados y procesos especificados, sin embargo, se realizan modificaciones si se encuentra
alguna discrepancia entre el diseño del programa y la implementación real. Por ejemplo, uno
quisiera determinar si el programa está siendo entregado de acuerdo a la intención inicial; si
está siendo entregado a los clientes/participantes apropiados; o si está siendo entregado con
el esfuerzo o cantidad estimados en primer lugar.
La evaluación de procesos es crítica para ayudarnos a notar las variaciones en la entrega del
programa, y cuando mayor variación exista, mayor será el requerimiento de información útil
obtenida mediante la evaluación del proceso. Por ejemplo, pueden existir diferencias en el
personal, clientes, medioambiente o tiempo, sólo para nombrar algunas variables.
Stufflebeam y Webster (1980) han discutido sobre la evaluación de programas basada en

objetivos, considerando que es el tipo de evaluación que prevalece en el área de la evaluación
educacional. Mientras que Scriven (1972) propuso una evaluación libre de objetivos para
alentar a los evaluadores a examinar también el proceso y el contexto del programa, para
poder encontrar resultados no intencionales.
La evaluación de resultados, también es referida como evaluación de efectividad, y es

utilizada para determinar si los resultados inmediatos de un programa cumplen con los
objetivos predeterminados especificados por los planificadores del programa, mientras que la
evaluación de impacto tiende a referirse no sólo a la evaluación que mira los resultados
inmediatos, sino los resultados del programa a largo plazo, y su interdependencia. El primer
tipo de enfoque evaluativo es importante porque nos permite asegurarnos y documentar que
estamos en el camino correcto, al recabar información que muestra la calidad de los logros.
También nos ayuda a mantenernos en el marco financiero indicado, y que nuestros
programas se mantengan siendo efectivos de acuerdo al costo-efectividad, al hacer tangibles
los beneficios y costos del programa.
Otras perspectivas de la evaluación –asociadas con la evaluación de efectividad–, son las

evaluaciones costo-beneficio, que consisten en la traducción de costos y beneficios a
términos monetarios, los cuales son utilizados para comparar los beneficios de hacer una
determinada cosa, en vez de la otra. Sin embargo, los términos monetarios no son siempre
aplicables, y a veces tampoco suficientes para apreciar los costos y beneficios reales.
La evaluación costo-beneficio considera formas alternativas de lo que el programa brinda, de

acuerdo a su costo y sus efectos, y respecto a producir algún resultado o conjunto de
resultados. Por supuesto, una medición estable del resultado debe ser definida. Sin embargo,
el programa de menor costo no es necesariamente el mejor.
23
Finalmente, en el contexto de tecnología de soluciones, una orientación adicional de la

evaluación es la prueba de usabilidad, la cual se enfoca en la gente que está utilizando el
producto, y qué tan bien lo están utilizando para lograr los objetivos requeridos.
Desafíos Con Los Que Se Encuentran Los Evaluadores

Una excusa comúnmente utilizada para evitar una evaluación, es que no existen recursos
suficientes para conducirla. Si uno se detiene a pensar en ello, verá que muy a menudo se
utilizan más recursos para mantener programas ciegamente sin evidencia del valor que
agrega, de los que se utilizarían para conducir una evaluación rigorosa y enfocada. Al decidir
si se debe o no conducir una evaluación en primer lugar, uno debe pensar no sólo en el costo
asociado a la evaluación, sino también en los beneficios que ésta puede lograr. Ambas
categorías de costos y beneficios acarrean asuntos monetarios y no monetarios. Uno debe
estudiar esto en forma honesta y cuidadosa, antes de tomar la decisión de conducir o no una
evaluación.
Uno de los desafíos más serios con los que se encuentran los evaluadores –y probablemente
los investigadores en general–, es que la gente utilice tanto los hallazgos logrados como las
recomendaciones. Un estudio (Henderson, Davies & Willis, 2006) cita la falta de
participación tanto de interesados como de consumidores clave, como un factor que impacta
la aceptación de la evidencia para realizar cambios en la práctica. Otros factores identificados
también fue la falta de apoyo de la dirigencia. Si combina esto, obtendrá un apoyo que
equivale a cero, tanto para la creación como para la implementación del cambio. La postura
por defecto es la de mantener el status quo, aún cuando el “cambio” sea la propuesta lógica.
La falta de experiencia también se convierte en una barrera. Cuando en una organización,

sólo una persona –o unos pocos–, comprenden los beneficios de la evaluación o del proceso
en sí mismo, resulta dificultoso lograr una buena evaluación. Aún cuando se haya realizado
un gran esfuerzo en la evaluación, los mismos serán socavados por una dirección de
evaluación, diseño, hallazgos y recomendaciones pobres. La consecuencia de conducir una
evaluación pobre puede ser peor aún que no realizarla en primer lugar. Una vez que se ha
creado una expectativa para mejorar, el fracaso de no ver tales mejoras puede tener un severo
impacto en la moral y en la confianza de los miembros de la organización.
El temor y el cinismo son alimentados, no sólo por las evaluaciones pobres, sino por los
esfuerzos pasados para utilizar a la evaluación como una herramienta de control e
intimidación. Los hallazgos, o aún la sola “amenaza” de conducir una evaluación, han sido
utilizados al apuntar a desempeños inadecuados de programas, organizaciones y
competencias humanas. De hecho, aún cuando la evaluación haya brindado datos útiles para
la mejora de los programas, resulta muy común que la gente no crea en esta evidencia.
Otro desafío es el poco conocimiento de la utilidad y beneficios que brinda la evaluación. La

gente muy a menudo tiene muchas ideas de “qué” hacer, y el desafío comienza al ayudarlos a
24
articular cómo sabrán si las cosas que han hecho o implementado han arrojado resultados
valiosos. Muchas culturas están basadas en la acción, y muchas veces existe la sensación de
logro falsa generada por sólo hacer algo. La verificación y documentación de los resultados
deseados son muy a menudo apreciados negligentemente, y no son vistos como una parte
integral de lo que hacemos, al menos que exista una fuente que fundamente o indique esto.
Tal vez nuestro mayor desafío, y el más importante, es ayudar a las personas que nos rodean
a entender que cada organización, programa, departamento, función, empleado y recurso
debe estar alineado con resultados y consecuencias positivos para la sociedad (Kaufman,
1992; 2002; 2006). Si lo que está siendo utilizado, realizado, producido o generado no agrega
ningún beneficio a la sociedad, probablemente esté haciendo todo lo contrario. La
evaluación, entre otras necesidades de medición, es una herramienta que ocupa un lugar
único en la ayuda que puede brindar a los interesados a tomar decisiones contundentes acerca
de qué dirección tomar, cuál es el mejor camino para llegar, qué tan lejos de los objetivos y
resultados finales nos encontramos hasta ahora, y qué mejoras pueden realizarse para
asegurar el logro de la finalidad organizacional y social.
De hecho, aún la comunidad de negocios está adoptando esta realidad mediante movimientos
como la responsabilidad social corporativa. El viejo paradigma de Milton Freedman acerca
de “el negocio del negocios es el negocio”, está siendo disputado aún por destacados
dirigentes de firmas consultoras de administración de empresas como McKinsey, que discute
sosteniendo que “los temas sociales no son tan tangibles como los temas de negocios, sin
embargo son fundamentales para ellos” (Davis, 2005).
Existen una enorme cantidad de necesidades sociales que deben ser suplidas por la
educación, la salud física y mental, el desarrollo económico, el crimen y la discriminación,
sólo para mencionar algunas de ellas. La figura 1.1 muestra la Visión Ideal de Kaufman, que
ilustra los indicadores básicos de la sociedad, y las necesidades que surgen de ellos 3, y que
han sido utilizados como base de la planificación estratégica, la detección de necesidades y la
evaluación.
3
Kaufman define a las necesidades como las brechas entre lo que debe ser logrado y lo que está siendo logrado
actualmente. El proceso utilizado para la identificación de las necesidades es una detección de necesidades,
como ha sido previamente descripto en este capítulo.
25
Figura 1.1 Visión Ideal de Kaufman
Visión Ideal Básica:

El mundo que queremos ayudar a crear para
los niños del mañana
No habrá pérdida de vidas, ni eliminación o reducción de los niveles de
supervivencia, de autosuficiencia, o calidad de vida a partir de ninguna fuente,
incluyendo (pero no limitándose a) las siguientes:
 Guerra, disturbio, terrorismo o desasosiegos civiles fuera de la ley
 Cambios en el medio ambiente causados involuntariamente por el hombre,
incluyendo destrucción permanente del medio ambiente y/o daños irreversibles.
 Asesinato, violación o crímenes de violencia, robos o destrucción a la propiedad
 Drogadicción
 Incapacidades permanents o continuas
 Enfermedades
 Hambre y/o desnutrición
 conductas destructivas (incluyendo hijos, pareja, esposo/a, propias, hacia ancianos y
otras)
 Accidentes, incluyendo de transporte, en el hogar y de trabajo
 Discriminación basada en variables irrelevantes, incluyendo color, raza, edad,
credo, sexo, religión, status económico, nacionalidad de origen o lugar de residencia
Consecuencias: La pobreza no existirá, y cada mujer y cada hombre ganará al menos lo
suficiente para cubrir su costo de vida, salvo que estén avanzando hacia el camino de
confiar en sí mismos y el ser autosuficientes. Ningún adulto estará al cuidado, custodia o
control de otra persona, agencia o sustancia: todos los ciudadanos adultos confiarán en
sí mismos y serán autosuficientes como mínimo dado por la condición de consumir lo
mismo o menos que lo que producen.
La finalidad social no está definida por una sola organización, ni se espera que ninguna
organización logre esas finalidades por sí misma. Estos objetivos a nivel estratégico
constituyen las ambiciones compartidas de las organizaciones, individuos y otras personas
que representan las comunidades y sociedad que compartimos.
Asegurar el Compromiso
Como aludiéramos en la sección previa, resulta vital que aquellos que definan, entreguen y
reciban objetivos organizacionales, productos y servicios, se “hagan cargo” de la evaluación
y desempeño. Usted y sus interesados deben definir las contribuciones requeridas de cada
uno, para poder crear una sociedad sólida y exitosa. La confianza, el entendimiento y el
26
acuerdo en un destino común –resultados a lograr–, son la clave para un emprendimiento

exitoso. Si nosotros no tenemos el compromiso y la participación de todos los interesados,
nuestro éxito será menor de lo que podría ser.
Los datos resultantes de una evaluación, a veces pueden causar temor a los interesados.
Imagine la sensación de pérdida de control cuando se enfrentan con la evaluación: por un
lado ellos quieren saber qué temas deben resolver y cómo, y por otro lado, ellos recurren a
cualquier táctica pasiva o agresiva para evitar que usted encuentre cualquier cosa, por temor
a que el evaluador confirme sus peores temores. Considere esto: Un productor implementó
un programa piloto, y extendió un sistema de gestión de inventario y reposición automática a
algunos negocios. El programa fue diseñado para minimizar el inventario (liberando
efectivo), al mismo tiempo de maximizar la disponibilidad a clientes (incrementando las
ventas). El problema fue que rápida e inequívocamente el programa detectó un muy mal
estado de gestión en la mayoría de los negocios que lo adquirieron, así como en sus viejos y
costosos inventarios, evitando que los gerentes a cargo de esos inventarios quieran adquirir el
programa o participar en él. Aún cuando tenían un arduo trabajo, ellos estaban interesados en
mantener su status quo porque no querían que otras personas –sus jefes–, supieran lo
detectado por el programa. Un evaluador comprensivo querría obtener la participación de
esos gerentes para el propósito común de mejorar las cosas…en un sentido, para que ellos se
conviertan en parte de la solución, y no parte del “problema”.
Al minimizar esos temores –que en parte están basados en experiencias de evaluaciones

pasadas–, el evaluador podría querer considerar mantenerse alejado del término
“evaluación”, y enfocarse más en la descripción del proceso, de encontrar lo que está
funcionando bien, qué debe ser modificado y porqué, e identificar las acciones pro-activas
que llevarán a sostener una mejora continua.
Si hubieran buenas noticias, confiarán en ellas. Si hubieran malas noticias, será mejor darlas
en un ambiente de confianza y propósito común de continuar mejorando. Usted nunca debe
retener decepciones, aunque debe asegurarse que tanto los éxitos como los contratiempos o
fallas que exponga, estén basados en una evidencia sólida. La confianza, el propósito común
y el compartir el destino son las claves para obtener y mantener el compromiso.
La creación de una sociedad para evaluar y mejorar el desempeño depende tanto de

involucrar seriamente a todos los interesados, como de escucharlos. Mientras que puede ser
tentador continuar con los planes y evaluación, sin que los interesados estén involucrados y
comprometidos, el hacer esto generará el riesgo de que ellos vean sus esfuerzos como
engañosos o aún peor, más adelante. Meter Drucker (1993) dio un buen consejo cuando
sugirió que nosotros transfiriéramos el “hacernos cargo” a nuestros interesados, para que
ellos “se hagan cargo”; así la gente ve a la evaluación como suya y no como una evaluación
de alguien más. Y la mejor manera de transferir la “propiedad” de la evaluación, es
involucrar a los socios en el establecimiento de objetivos, compartiendo con ellos los
resultados de nuestros éxitos y fracasos. Si usted busca el modo de construir confianza, su
estudio de evaluación resultará más fácil de realizar, y además, sus recomendaciones y
hallazgos tendrán más impacto y tendrán mejores posibilidades de convertirse en cambios
significativos.
27
La evaluación nos brinda la oportunidad de tener una relación abierta y honesta con nuestros
interesados, basada en los datos de desempeño, y no sólo en opiniones y percepciones. El
involucrar a nuestros interesados, es la mejor manera de asegurar que lo que hacemos
satisfacerá sus expectativas y brindará un valor demostrable.
Beneficios de la Evaluación
Mientras que el conducir una evaluación requiere recursos, los beneficios de realizar dicha
evaluación superan su costo, en la mayoría de las situaciones. Debajo encontrará un listado
no exhaustivo de los beneficios que se pueden incluir en una propuesta de evaluación o caso
de negocios:
• La evaluación puede brindar datos relevantes, confiables y válidos para ayudarnos a

tomar decisiones justificadas acerca de:
o Cómo mejorar programas y otras soluciones,
o Qué programas y soluciones deben continuar o ser descontinuadas,
o Cómo acercarse a los objetivos organizacionales,
o Si los objetivos actuales valen la pena.
• Los planes y marco de trabajo de la evaluación nos brindan la base para la gestión del
diseño, desarrollo e implementación del proyecto.
• La evaluación nos puede informar cualquier ajuste que deba realizarse durante el
desarrollo e implementación, o a posteriori, para lograr maximizar los recursos.
• La evaluación nos brinda el modo de documentar nuestro éxito, permitiendo que:
o El mérito de nuestras decisiones, departamento, personal y soluciones sea
reconocido por todos,
o Nuestros requerimientos de presupuestos y trabajos queden justificados,
o La calidad de nuestro trabajo sea respetado por los socios de la organización,
o El valor de nuestras opiniones y datos sean tomados en cuenta en toda la
organización,
o Ganemos credibilidad y competencias,
o Se nos otorgue autonomía y poder conjuntamente con el aval financiero,
o Seamos vistos como socios estratégicos en la organización.
• Los informes de la evaluación pueden ser utilizados para diseminar y promocionar
nuestro éxito a socios internos y externos, como nuestros clientes y potenciales clientes.
Definiciones Básicas
Debajo encontrará algunas definiciones básicas que ayudarán a transmitir los conceptos
contenidos en este libro:
28
• Desempeño: Los logros surgidos del comportamiento, más que el comportamiento en sí

mismo.
• Mejora del Desempeño: Un proceso sistemático para lograr la detección y análisis de las
brechas de desempeño, la planificación de la mejora del desempeño, el diseño y
desarrollo efectivo, intervenciones efectivas y éticamente justificadas para anular las
brechas de desempeño, la implementación de intervenciones y la evaluación de todos los
niveles de resultados.
• Stakeholders: Aquellos patrocinadores, beneficiarios, interesados y/o involucrados en la
realización o participación en una evaluación, y que pueden afectar o ser afectados por
las decisiones y acciones de la organización. Incluyendo pero no limitándose a: clientes,
propietarios, asociados, ejecutivos, gerentes, administradores, empleados, comunidad y
sociedad a la que la organización pertenece.
• Finalidad: Resultados que buscamos en varios niveles de la organización.
• Métodos: Los comportamientos, actividades, procesos, procedimientos, proyectos y
programas que utilizamos para lograr los resultados (por ejemplo: un desempeño).
• Niveles de Resultados: Resultados Sociales, Organizacionales, de Programas, de
Departamento/Equipo, Individuales (adaptados de Kaufman, 2002).
• Necesidades: Brechas en resultados (no en procesos o recursos) a cualquier nivel.
• Detección de Necesidades: El proceso mediante el cual se encuentran brechas en
resultados y luego organizadas en orden de prioridad para resolución.
• Interesados: Todos aquellos que tienen un interés (que pueden impactar o ser
impactados por) en el proceso de evaluación y sus recomendaciones.
• 4
Metas: Un resultado establecido que identifica una finalidad deseada, generalmente
medidos con escalas nominales u ordinales.
• Objetivos: Una meta establecida en forma precisa, identificando quién es el responsable
de su logro; qué logro será obtenido; bajo qué condiciones; y bajo qué criterio de
medición será considerado como logrado. Los objetivos son generalmente medidos con
escalas de intervalo o proporción.
• Valor agregado: El resultado final y contribución realizado por una organización a la
sociedad. Esencialmente, el impacto social.
4
Si bien en algunos países de habla hispana, la denominación de metas y objetivos es precisamente inversa a la
descripta, por favor tenga en cuenta el criterio adoptado en este libro, para lograr un mejor entendimiento del
texto.
29
Capítulo 2
Principios del Desempeño Basado en la Evaluación
¿Qué estamos buscando?

La evaluación busca responder a la pregunta general: ¿Qué funcionó, y qué no funcionó? Al
mismo tiempo también debe preguntarse: ¿Qué valor tiene esto, y a qué contribuye? El que
una evaluación resulte exitosa, depende de cómo usted enmarque las preguntas respecto al
contexto de los programas orientados a resultados, que sirven para el propósito
organizacional y social. La evaluación busca además determinar si los resultados obtenidos
son valiosos, tanto para la organización cliente como para la sociedad en la que se encuentra
inmersa.
Los resultados y consecuencias de la evaluación no son arbitrarios. No sólo es importante

que usted obtenga los resultados esperados, sino también que se asegure de que lo que usted
espera obtener se encuentre reflejado en los métodos seleccionados, así como también que el
programa, proyecto, solución, o sistema organizacional, brinde un valor agregado a nuestra
sociedad. No se trata de lograr una u otra cosa, sino que ambas resultan igualmente
importantes.
La perspectiva de evaluación aquí tomada está orientada a la acción, mejorando

específicamente el desempeño observable. Y en esto se basa el modelo de evaluación
propuesto en el Capitulo 4, El Proceso Para Evaluar Impacto.
Las necesidades de la organización y de la sociedad se satisfacen mediante los esfuerzos

organizacionales, enfocados en la obtención de resultados que provean un valor agregado. El
enfoque primario de la evaluación de desempeño es determinar que las metas y objetivos de
los programas sean válidos –así como efectivos y eficientes– para producir los resultados
deseados, tanto internos como externos al programa y organización.
Al planificar programas legítimos, uno debe comenzar por identificar en primer lugar el
impacto organizacional deseado, tanto en clientes como en mercado y en la sociedad –es
decir, las necesidades de los mismos, no solo deseos–, moviéndose hacia dentro de la
organización para derivar las estrategias, tácticas y objetivos operacionales. A su vez, los
evaluadores deben asegurar que los programas, objetivos organizacionales e impacto externo
deseado, se encuentren alineados. Todo ello debe estar claramente alineado y enlazado. Estas
ideas constituyen las hebras esenciales que deben ser entrelazadas en la tela de todas y cada
una de las evaluaciones.
Las palabras y conceptos son rigurosamente definidas aquí, ya que la evaluación debe ser
utilizada para mejorar –mejora que debe estar sujeta a una medición–, lo que utilizamos, lo
30
que hacemos, producimos o entregamos. Las ideas mal definidas y una selección apresurada
de los métodos a utilizar no le servirán a nadie. Debido a esto, uno debe pensar y reflexionar
mucho al momento de crear la escena pragmática de la evaluación. El viaje hará que tanto el
tiempo como la atención invertidas valgan la pena.
El siguiente conjunto de principios, basados en Kaufman, Guerra, y Platt (2006) resultan

útiles a la hora de definir y determinar apropiadamente lo que ha funcionado y lo que no ha
funcionado, tanto en los programas como en las organizaciones.
Principio 1: La evaluación –una buena evaluación–, está

basada en cuestionarse las preguntas correctas
Como anteriormente mencionado, la evaluación se basa en el la realización de un
cuestionario que responda las preguntas “correctas”. El cuestionario correcto para preguntar
y responder en una evaluación, dependerá del punto de vista y alcance de su investigación.
Una de las afirmaciones fundamentales de este libro, es que el alcance de todas las
evaluaciones debe ser lo suficientemente amplio, como para preguntarse tanto acerca de la
legitimación de los programas propuestos, como de su efectividad y eficiencia. Parte del
criterio de evaluación que usted utilizará como “referente” del sistema, debe ser resultado de
una examinación de qué tan apropiadamente los stakeholders y el sistema organizacional,
hayan direccionado el impacto externo deseado, respecto a sus clientes y a la sociedad. A
continuación encontrará distintas series de preguntas típicas que se relacionan a este punto de
vista, basados en Kaufman, Guerra, & Platt (2006):
Series de Preguntas para la Evaluación

• Serie de preguntas respecto a la Sociedad
¿Cuál es el rol de la organización en nuestra sociedad? ¿Cuáles son los resultados últimos
que buscamos obtener? ¿Son estos resultados beneficiosos para la sociedad? ¿Qué es lo que
debe ser logrado por la organización como un todo? ¿Cómo puede lograrse eso? ¿Cuáles son
las condiciones bajo las cuales eso puede lograrse? ¿Qué recursos habrá que invertir en la
organización en el camino para alcanzar nuestros logros?
• Serie de preguntas del Proceso

¿Cómo se implementará el programa? ¿Cuál es el cronograma de entregas? ¿Qué recursos se
utilizarán? ¿Cuáles son los límites de nuestra influencia? ¿Qué otros departamentos o
programas impactarán nuestras entregas? ¿Cómo se medirán los resultados? ¿Cómo se
gestionará el desempeño del programa? ¿Cómo nos aseguraremos de contar con la gente
correcta para el trabajo?
31
• Serie de Preguntas para tomar Decisiones

¿Qué programa nos proporcionará la mejor devolución? ¿Cuál es el método menos costoso
que coincide con nuestros objetivos y criterios? ¿Cómo podemos reducir gastos
innecesarios? ¿Cuánto tiempo pasará antes de esperar que el programa nos entregue los
resultados deseados? ¿Debemos considerar distintas alternativas? ¿Qué programas nuevos
deben ser implementados?
• Serie de Preguntas para el Sistema

¿Cuál es el propósito último de nuestro sistema organizacional? ¿Cuáles son las limitaciones
de nuestro sistema? ¿Están todos los subsistemas trabajando para el sistema mayor? ¿Cuál es
flujo de ingresos, retroalimentación y resultados? ¿Cómo es el flujo de comunicación? ¿Cuál
es la fuente de flujo? ¿Existen puntos de falla en el sistema? ¿Cuál es el camino crítico para
alcanzar cada objetivo? ¿Acrecientan todos los objetivos las metas y objetivos de un sistema
coherente?
Los distintos puntos de vista producen distintas series de preguntas. Cada uno de los
subgrupos que constituyen los clientes, propietarios, asociados, ejecutivos, gerentes,
administradores, empleados, y cualquier otro stakeholder, tiene su propio punto de vista.
Como evaluador, usted también cuenta con un punto de vista y una serie de preguntas para
realizar, que están relacionadas a cómo usted condujo su estudio evaluativo. Usted debe
también tener en cuenta las preguntas concientes o inconcientes cuestionadas por los
stakeholders. Tanto lo que ellos pregunten, como lo que no pregunten, estará expresado en el
desempeño que usted evaluará. Una de las tareas de un evaluador es asegurar que todos los
stakeholders estén buscando responder a la misma serie de preguntas, respecto a lo que ha
funcionado y lo que no ha funcionado. Si el programa y la organización mejorarán, ellos
deben encontrar qué es lo que les está brindando actualmente un valor agregado, y qué es lo
que debe ser mejorado.
Ya que estamos hablando de algunos conceptos fundamentales y básicos acerca de la

evaluación educacional: resulta vital que la evaluación sólo sea utilizada para arreglar y
mejorar, y nunca para culpar.
En los cuatro ejemplos de series de preguntas presentados anteriormente, existen algunas

diferencias sutiles, de acuerdo a su comparación con las perspectivas más convencionales:
• La primera serie de preguntas implica un deber para con la sociedad, un requerimiento de

agregar valor, tanto de nuestros clientes como de la sociedad que compartimos. Está
interesada en la legitimación.
• La segunda serie de preguntas está enfocada a seguir adelante con el trabajo sin
considerar alternativas. Sólo está interesada en la eficiencia.
• La tercera serie de preguntas implica la consideración de alternativas, tomando en cuenta
el costo como un factor posible para tomar decisiones. Está primariamente interesada en
lograr la mejor relación costo-eficiencia y costo-efectividad.
32
• La última serie de preguntas se cuestiona cómo las cosas encajan para hacer que el
sistema resulte funcional. Está interesada en la efectividad y posiblemente en la
eficiencia.
Para cada una de las situaciones con las que usted se encuentre cuando realice una
evaluación educacional, encontrará una serie de preguntas relacionada con el tema de fondo.
El desentrañar las fibras que conforman la estructura del cuestionario, que represente tanto la
situación actual como las expectativas y requerimientos de los stakeholders, es su trabajo. Si
luego de haber completado su investigación, usted puede identificar las brechas existentes
entre los resultados actuales y los esperados, estas brechas son las que conformarán la base
de las recomendaciones que usted presente.
Desarrollar las Preguntas que Guiarán la Evaluación Valida y Útil

Como evaluador, usted tendrá una serie de preguntas fundamentales que deberán:
1. Identificar la legitimación de la empresa. ¿Qué tan bien se están cubriendo las

necesidades?, o bien, ¿Se ha invertido la cantidad de tiempo necesaria para
determinar necesidades valederas?
2. Medir qué tan efectivas y eficientes son las soluciones (métodos, herramientas,
actividades, programas, proyectos). ¿Estamos obteniendo los resultados esperados de
acuerdo a la intención que tuvimos al adoptar estas soluciones? ¿Obtenemos lo que
tuvimos intención de obtener?
3. Determinar cómo el estudio evaluativo debe ser implementado. ¿Cuáles son los
objetivos, métodos, recursos y cronograma o programa apropiados?
4. Establecer: ¿Cómo interpretaré e informaré los hallazgos y recomendaciones que
resulten creíbles y útiles?
A partir de estas preguntas fundamentales, podrá moverse hacia una serie de preguntas más
específicas respecto al enfoque de la evaluación. Por ejemplo:
• ¿Evidencian los ejecutivos o equipo de toma de decisiones, una planificación efectiva

para cubrir las necesidades de sus clientes y de la sociedad?
• A nivel organizacional, ¿es efectivo el sistema?
• ¿Obtiene el sistema resultados útiles y en forma eficiente?
• ¿Qué objetivos de nuestra misión hemos logrado?
• ¿Qué objetivos de nuestra misión no hemos logrado, o hemos ignorado?
• ¿Cómo es el desempeño de los empleados? ¿Están sus logros alineados con los
requerimientos del mercado?
• ¿Logró nuestro sistema y sus esfuerzos agregar valor a la comunidad y a la sociedad que
compartimos?
• ¿Qué resultados de valor agregado arrojaron los logros de los empleados, a partir del
programa implementado?
• Lo logrado ¿valió la pena lo invertido?
33
• ¿Son efectivos los métodos, técnicas y herramientas utilizadas? ¿Son eficientes? ¿Son las
apropiadas?
• ¿Qué es lo que debemos mantener, cambiar o anular?
• ¿Qué resultados tenemos para justificar la continuidad de nuestros programas, proyectos
y actividades?
• ¿Cuáles son las recomendaciones para este sistema organizacional? ¿Qué debemos hacer
al respecto?
El punto donde centrar la toma de decisiones y donde conducir la fuerza de las

organizaciones, se encuentra a nivel organizacional. Es importante que los evaluadores
entiendan el rol y el comportamiento funcional de las organizaciones. La alineación dentro
de la organización –entre la organización, el mercado externo y las demandas sociales–,
resulta esencial para el éxito educacional, por lo que constituye en sí misma el área
primordial de enfoque para la evaluación
Principio 2: La evaluación del proceso (métodos) es una

función de los resultados obtenidos (finalidad)
Existen dos conceptos normalmente empañados en las organizaciones, que en la vida
constituyen los qué y cómo, y en ellas son los fines y los medios.
Fines: resultados, logros, consecuencias.
Medios: la forma, métodos y recursos que pueden ser utilizados para lograr una finalidad.
La evaluación compara resultados (y consecuencias) respecto a intenciones. Las

evaluaciones útiles se enfocan en los fines, y no sólo en los medios. Los resultados de la
evaluación brindan datos e información para la toma de decisiones útiles, relativas al mérito
y al valor de lo que el sistema organizacional ha utilizado, hecho, producido o entregado:
valoración.
Existen abundantes guías para programar una evaluación, muy a menudo con criterios
propios como el número de participantes, las personas que llevarán a cabo el programa, los
costos y el cómo se realizará. Aunque estos elementos tienen un lugar, no son lo
suficientemente sólidos por sí mismos, al menos que pueda ser demostrado que estos
criterios llevarán a obtener el programa y los resultados organizacionales deseados. El
enlazar lo que nosotros utilizamos, lo que hacemos, producimos y entregamos a nuestros
clientes externos resulta esencial, sin embargo, este marco de trabajo holístico no se
encuentra presente en la mayoría de las evaluaciones y planificaciones convencionales.
34
Identificar y Enlazar los Fines y los Medios

El modo más sensible para seleccionar cualquier Medio es en base a los Fines que debemos
obtener. Aunque esto suena bastante básico, la mayoría de las personas mezclan a los
Métodos dentro de sus objetivos, empañando su distinción. Los objetivos (desempeño,
aprendizaje, o cualquier otro tipo de objetivo) no deben nunca contener en sí mismos los
métodos y/o recursos, dado que al hacer esto, uno estaría seleccionando las soluciones antes
de tener claramente identificado el problema. Esto puede ser peligroso para mencionar la
consecuencia más leve. Todo el mundo, desde ejecutivos a administradores –incluyendo a
gerentes, supervisores y todos los miembros de la organización–, deben aprender a
diferenciar los Fines y los Medios, y a enlazarlos.
Principio 3: Las metas y objetivos de las organizaciones

deben estar basados en necesidades valederas
¿De dónde surgen los objetivos útiles y valederos? De una detección de necesidades
apropiada (que no debe confundirse con la lista de “quiero” o “deseo”…el preguntar a la
gente acerca de sus necesidades NO debe ser lo primero, sino lo último) (Kaufman, 2000).
Para brindarle la mejor información y herramientas posibles, aquí encontrará algunos puntos
básicos:
• Las necesidades son las brechas entre resultados (entre lo que “debe ser” y lo que “es”),
no las brechas entre recursos o métodos.
• Las necesidades son recabadas a tres niveles de resultados y consecuencias (social,
organizacional y departamental/individual).
• Las necesidades son priorizadas determinando el costo que insumirá el cubrirlas –las
brechas entre resultados, en comparación con los costos de no eliminar esas brechas.
Al utilizar una “necesidad” como brecha entre resultados –y al recabar datos reales y
objetivos–, nosotros podemos demostrar el costo para cubrir las necesidades (usualmente,
cuando informamos el costo en forma independiente, obtenemos recortes), en comparación
con el costo de ignorar esas necesidades (la base para entregar la responsabilidad a quienes
toman decisiones, en caso de que decidan no cubrir las necesidades).
Las necesidades reales serán cubiertas al enlazar los métodos y recursos útiles, así como los
programas y soluciones, que nos lleven hacia los resultados deseados. Cuando decimos
“nosotros necesitamos…” normalmente eliminamos toda consideración de otras formas
posibles de obtener los resultados deseados, y asumimos que los métodos, soluciones, o
programas en los cuales nos embarcamos, cubrirán las necesidades y eliminarán las brechas
existentes en los resultados. Primero, enfóquese en identificar los resultados requeridos, y
luego establezca la brecha existente entre esos resultados y los resultados que actualmente
está obteniendo; esto legitimará la “necesidad”. Finalmente, considere todas las alternativas
para cubrir mejor las necesidades detectadas.
35
Principio 4: Derive necesidades valederas utilizando una

perspectiva de arriba hacia abajo: descendiendo desde el
impacto externo y el valor agregado, hacia los resultados y
métodos utilizados dentro de la organización.
Nosotros vivimos en una sociedad compleja, que es multicultural, diversa en muchas formas,
y llena de intereses competitivos. ¿Cómo sorteamos esto, y cuál es el impacto en los
sistemas? La respuesta consiste en identificar el bien común –en términos de resultados–, y
tratar cuidadosamente con cada uno de los temas de competencia, utilizando algunos
procesos disciplinados para arribar a metas y objetivos justificables, que se relacionan con
una contribución positiva tanto para los clientes, como para la sociedad que compartimos.
Una visión organizacional es el resultado último que busca obtener una organización, y está
ligada al nivel estratégico de la organización. Se trata del impacto externo –a largo plazo–,
tanto sobre los clientes como sobre la sociedad. Ese es el punto de partida para la
planificación de una organización. La misión organizacional es un resultado más inmediato y
operacional que la organización se compromete a entregar, tal vez en el próximo año o dos.
Este es el nivel táctico de la organización, y es la base para la planificación y los procesos
operacionales que suceden dentro de la organización, en varias funciones o departamentos.
Uno no puede desarrollar planes operacionales, sin contar con un plan estratégico que defina
claramente los objetivos estratégicos de la organización. Bajo la misma óptica, un
departamento, programa o equipo, no puede crear su propio plan estratégico, sino que deben
desarrollar planes operacionales que estén claramente enlazados con los objetivos
estratégicos de la organización.
Si hemos de conducir una evaluación seria –comparando nuestros resultados con nuestras
intenciones–, entonces resulta vital que nos aseguremos de estar evaluando y midiendo las
cosas correctas sobre las cuales trabajaremos. Podemos hacer esto si pensamos y actuamos
para entregar un valor agregado a la sociedad. El logro de algo no tiene sentido, si ello no
resultará útil, o resultará equivocado, en primer lugar.
Principio 5: Todas las organizaciones deben aspirar a lo

mejor que una sociedad puede alcanzar. Los estándares de
evaluación deben estar enlazados a una visión estratégica
que sea útil y real.
36
El logro de una evaluación real y útil reside en enlazar lo que nosotros usamos, hacemos,
producimos y entregamos, para aportar un valor agregado a la sociedad. El comenzar con una
visión útil que esté ligada a un impacto externo positivo a largo plazo, asegura que todos
podamos alinear nuestras contribuciones únicas. ¿Por qué usted debería preocuparse acerca
de la estrategia, la alineación, la medición y los objetivos? Porque la supervivencia de su
organización depende de ello. Si esto suena demasiado duro como para creerlo, revise la lista
de compañías de la revista Fortune 500, y vea cuántas compañías pensaron estar en la cima
del mundo durante un año, o unos pocos años, y luego se salieron de la lista, no logrando
nunca ingresar en ella nuevamente. El porcentaje de eliminación del listado es de alrededor
del 80%. La receta para llegar a la cima no es la misma que la utilizada para “mantenerse” en
la cima. Los clientes eventualmente se darán cuenta cuáles son las organizaciones que tienen
su bienestar en mente, y cuáles sólo se preocupan por los balances económicos
convencionales. Piense por sólo un momento acerca del tipo de organizaciones que ganan su
lealtad y sus negocios. La mayoría de los clientes tienen los mismos criterios, eligen
organizaciones que les entregan productos y servicios de calidad, que realmente cubren sus
necesidades, desde la más básica hasta la más especializada.
Posteriormente se le brindará algunos ejemplos de visiones útiles, y de los tipos de misiones

que esas visiones pueden ayudar a crear y a producir.
Principio 6: La serie de preguntas evaluativas deriva el

estudio de la evaluación
Al igual que el sistema organizacional debe buscar la alineación con las necesidades de sus
clientes, los esfuerzos para lograr una evaluación deben estar alineados con las preguntas que
los stakeholders deben responder. La organización tendrá objetivos a nivel estratégico,
táctico y operacional. El equipo evaluador –el cual incluirá representación tanto de las
personas que tomarán decisiones como de otros stakeholders–, desarrollará las preguntas
evaluativas relacionadas con cada objetivo y la actividad relevante al programa o solución a
ser evaluada.
El equipo evaluador debe formular una serie de estudios objetivos, basados en las preguntas
evaluativas. Esta serie de preguntas determinará las actividades que serán emprendidas y los
métodos que serán utilizados para observar, recabar y registrar los datos.
El equipo evaluador monitoreará el proceso teniendo presentes las metas y actividades. Los
criterios adoptados para la evaluación estarán basados en los resultados organizacionales
deseados y en todo el conocimiento relevante a los programas y soluciones efectivas,
relevantes a esa sub-evaluación.
La serie de preguntas evaluativas que usted desarrolla como resultado de esta amplia visión,
será comprensible, y le permitirá asegurarse que sus hallazgos y recomendaciones estén
basados en una serie de datos completa.
37
Capítulo 3
Resumen de los Modelos de Evaluación Existentes
Existe abundante literatura profesional sobre evaluación y sus muchos contribuyentes y

conceptos. Y existen ya varias fuentes y modelos de evaluación excelentes (por ejemplo:
Fitzpatrick, Sanders & Worthern, 2004; Stufflebeam & Shinkfield, 2007), por lo que el
trabajo aquí presentado no tiene intenciones de replicar ni refutar tales trabajos. El propósito
de esta sección es brindar un resumen de algunos de los modelos de evaluación más
creativos, conjuntamente con sus enfoques o perspectivas dentro del área de mejora del
desempeño. Mientras que existen muchos modelos que valen la pena que no están aquí
incluidos, los modelos seleccionados pueden ciertamente ser aplicados (y de hecho ya
pueden haber sido aplicados), en cualquier número de contextos diferentes, incluyendo la
mejora del desempeño. Antes de adentrarnos en una discusión más detallada de los modelos
de evaluación seleccionados para desarrollar en este capítulo, mencionaremos a continuación
algunas perspectivas de evaluación que ciertamente valen la pena:
• Evaluación Basada en Objetivos (Objective-Based Evaluation -Tyler, 1949). Durante

el curso de más de 60 años de carrera de Ralph Tyler, él ha influenciado la educación en
todos los niveles, incluyendo currículum, pruebas, evaluación y políticas educacionales.
Directa e indirectamente él ha influenciado muchos desarrollos notorios y meritorios,
tales como las pruebas referidas a objetivos, el programa de evaluación basada en
objetivos, la maestría del aprendizaje, el logro de la construcción de pruebas, detalles de
operaciones bancarias, clasificación taxonómica de resultados educacionales, y desarrollo
de pruebas cooperativas (Madaus & Stuffleman, 1989). La evaluación basada en
objetivos describe si los estudiantes han logrado sus objetivos o no, logrando que los
resultados informen cómo manejar una nueva estrategia instruccional (por ejemplo:
revisión, adopción, rechazo). Una debilidad notada en este tipo de evaluación, es que el
evaluador puede pasar por alto resultados o beneficios inesperados de la instrucción, más
allá de las metas originales.
• Evaluación Orientada al Consumidor (Consumer-Oriented Evaluation Approach -

Scriven, 1967). Esta evaluación está enfocada en cubrir las necesidades de los
consumidores/clientes y los ideales de la sociedad, más que en lograr los objetivos de
quien implementa un determinado programa. La mayor contribución de Scriven (1967),
respecto a esta perspectiva, fue su distinción entre evaluación formativa y acumulativa
(formative and summative). Scriven propuso que el propósito de una evaluación
acumulativa es permitir a los administradores decidir si el currículum completo final –
refinado por el uso de la evaluación formativa–, representa un avance lo suficientemente
significativo en la disponibilidad de alternativas, como para justificar el gasto de
38
adopción por parte del sistema escolar (Fitzpatrick, et al. 2004). Él propuso además en
sus trabajos (Scriven, 1991; 2002), una serie de criterios fundamentales para la
evaluación de cualquier producto educacional, denominándolo Key Evaluation Checklist
–KEC–, (Lista Clave de Comprobación, y de aquí en adelante referenciado como KEC).
Scriven refina este KEC continuamente, mientras que es utilizado como parte del proceso
de reducción de datos, donde enormes cantidades de datos son obtenidos y detectados, y
luego sintetizados en un juicio de valor general (Stufflebean & Shinkfield, 2007). El
KEC de Scriven también se aplica a la meta-evaluación.
• Evaluación de Discrepancias (Discrepancy Model of Evaluation -Provus, 1971). Para

Provus, los objetivos predeterminados son la base de la evaluación, sin embargo él
también enfatizaba la importancia de recolectar datos acerca de la consistencia o
discrepancia entre lo que fue planeado y lo que fue ejecutado. Este modelo se puede
resumir en cuarto fases básicas: Primero, la identificación de objetivos predeterminados;
Segundo, la recopilación de evidencia de cumplimiento con los estándares; tercero la
identificación de discrepancias entre los objetivos predeterminados y lo que fue logrado;
y finalmente la determinación y ejecución de acciones para corregir las discrepancias.
Una característica de este modelo es que se presta fácilmente para un marco de auto-
evaluación y un enfoque sistemático para la mejora. Este modelo forma un fundamento
teórico para el Proceso Para Evaluar Impacto de Ingrid Guerra-López (2007).
• Evaluación Libre de Metas (Goal-Free Evaluation -Scriven, 1974). Esta evaluación

suplementa la debilidad inherente a la perspectiva de evaluación orientada a las metas, al
brindar un enfoque imparcial de los eventos que van tomando lugar. Mediante esta
perspectiva, el evaluador se mantiene desinformado a propósito, respecto a las metas
predeterminadas del programa, y se enfoca en todos los efectos del programa sin importar
los objetivos intencionales que lo generaron en primer lugar. Si un programa está
logrando el propósito intencional primario, entonces la evaluación deberá confirmar esto.
Además, el evaluador tendrá mayores oportunidades de encontrar efectos anticipados que
los evaluadores enfocados en las metas podrían ignorar debido a su búsqueda específica
del logro de las metas preestablecidas. Stufflebeam & Shinkfield (2007), indican que la
evaluación libre de metas brinda información suplementaria importante, expande las
fuentes de información evaluativa, es efectiva para encontrar información inesperada,
tiene una buena relación costo-eficiencia, y es bien aceptada por los clientes.
• Evaluación Centrada en la Sensibilidad/Clientes (Responsive/Client Centered

Evaluation Approach -Stake, 1975). Esta perspectiva está basada en la concepción de
Ralph Tyler, de que los evaluadores deben compartir los resultados observados, con los
resultados esperados, también expandió el enfoque de la evaluación para incluir historial,
procesos, estándares, juicios y resultados. Mientras que su filosofía de la evaluación
apareció en la literatura en 1967, su propuesta formal de esta perspectiva fue publicada
en su trabajo de 1975, bajo la denominación de evaluación comprensiva (responsive
evaluation). En este trabajo, el eliminó la perspectiva de Tyler de discutir si las
intenciones habían sido realizadas, y en vez de ello asumió que las intenciones
cambiarían y requerirían una comunicación continua entre el evaluador y los
39
stakeholders, con el propósito de descubrir, investigar, y solucionar temas importantes

(Stufflebeam & Shinkfield, 2007).
• Evaluación Enfocada a la Utilización (Utilization-Focused Evaluation Approach -

Patton, 1997). Esta perspectiva está cercanamente ligada a la teoría orientada a las
decisiones, ya que se preocupa por que el diseño de las evaluaciones brinden información
para la toma de decisiones. Mientras que muchos autores han contribuido con este
enfoque, Stufflebeam y Shinkfield (2007) acreditan a Patton como la figura más
prominente asociada con esta perspectiva por sus trabajos de 1980, 1984, 1997, 2003.
En su libro publicado en 1997, Utilization-Focused Evaluation (Evaluación enfocada en
la Utilización), Patton articuló por completo su perspectiva de la evaluación. Aquí Patton
definió un programa de evaluación enfocado en la utilización, como un programa hecho
para y con usuarios primarios intencionalmente específicos, para usos específicos e
intencionales (pág. 23).
Modelos de Evaluación Seleccionados

Nuestra discusión comienza con Los Cuatro Niveles de Evaluación de Donald Kirpatrick
(Four Levels of Evaluation -1959), uno de los modelos más ampliamente conocidos en las
áreas de capacitación y mejora del desempeño. Los cuatro niveles son: reacción; aprendizaje;
comportamiento y resultados. Una de sus características más atractivas para los capacitadotes
y clientes ha sido su simpleza, aunque esta simpleza acarreó también algunas críticas. El
modelo siguiente que discutiremos es el la Metodología de Retorno de la Inversión de Jack
Phillip (Return on Investmen Methodology, y de aquí en adelante referenciado como ROI -
1997), basado en el marco de trabajo de Kirkpatrick, el cual comienza con los cuatro niveles
previamente mencionados; pero además presenta una metodología elaborada para el cálculo
del retorno de la inversión, para las soluciones de capacitación. Uno de los pasos clave es
aislar los efectos del entrenamiento, para poder atribuir costos y beneficios directos al
programa de entrenamiento que está siendo evaluado. Su trabajo también ha recibido
revisiones ambiguas respecto a sus fortalezas y limitaciones inherentes.
La discusión luego se continuará con el Case Succes Method (Método del Caso Exitoso), de
Robert Brinkerhoff (1981), el cual soluciona algunas de las limitaciones encontradas en los
modelos previamente mencionados. Su perspectiva está basada en el hallazgo de casos de
éxito extremos, y la falla en utilizar nuevas habilidades y herramientas obtenidas a partir del
entrenamiento y otros programas de desempeño, para alcanzar logros organizacionales
valiosos.
Otro modelo del cual nos ocuparemos es el Modelo CIPP de Daniel Stufflebeam (1967), el
cual contiene cuatro evaluaciones como enfoque central: contexto, ingreso, proceso y
producto. Este modelo va más allá de los modelos de evaluación tradicionales, e incorpora
40
elementos para la detección, planificación, implementación, y otras fases relevantes para el

éxito del objeto evaluado.
El siguiente capítulo brinda una visión detallada del Proceso Para Evaluar Impacto (Impact
Evaluation Process -Guerra-López, 2007), como el modelo más formal y recientemente
publicado, de los modelos incluidos en esta sección. Está basado en un flujo de proceso
reiterativo, que permite a los evaluadores y a los stakeholders enfocarse en la alineación:
entre el objeto evaluado y el impacto último de los resultados externos, tanto para los clientes
como para la sociedad; por sobre todos los pasos para la mejora del desempeño y por sobre
todos los pasos del impacto del proceso evaluativo.
Los Cuatro Niveles de Evaluación de Kirkpatrick

Desarrollado en 1959 por Donald Kirkpatrick, como parte de su investigación para
disertación, Los Cuatro Niveles de Evaluación (Four Levels of Evaluation -1959),
constituyen un marco de trabajo ampliamente aceptado para la evaluación, tanto en el área
industrial como de psicología organizacional (Cascio, 1987). Ha sido primeramente utilizado
para evaluar programas tradicionales de guía para instructores de capacitación, y consiste en
evaluar cuatro áreas generales distintivas, y en orden secuencial: 1. Reacciones; 2.
Aprendizaje; 3. Comportamiento; y 4. Resultados:
1. Reacción: Enfocada en las opiniones de los participantes acerca del entrenamiento,

los procesos y los resultados, preguntando principalmente: ¿qué tanto les gustó el
programa de capacitación a los participantes?
2. Aprendizaje: Enfocado en el grado al cual llegó el aprendizaje, preguntándose: ¿qué
conocimiento obtuvieron los participantes de este programa de capacitación?
3. Comportamiento: Enfocado en el enlace entre el aprendizaje y el desempeño en el
lugar de trabajo, y se pregunta: ¿qué cambios hubieron en el desempeño de trabajo de
los participantes, que puedan ser atribuidos al programa de capacitación?
4. Resultados: Enfocados a los resultados finales, pregunta: ¿cuál fue el impacto del
programa de capacitación en el desempeño de la organización?
De acuerdo al modelo de Kirkpatrick, la evaluación debe siempre comenzar en el nivel uno,
y luego –en tanto sea permitido por el tiempo y el presupuesto–, debe moverse
secuencialmente hacia los niveles dos, tres y cuatro. La información obtenida en cada nivel
anterior, servirá para informar a los niveles siguientes. Consecuentemente, cada nivel
superado con éxito representa una medición de éxito más precisa del programa de
capacitación, requiriendo un enfoque más riguroso. Sin embargo, no existen datos o ninguna
otra forma de evidencia que sugiera claramente que los cuatro niveles estén correlacionados,
bien sea de forma positiva o negativa, o que uno de ellos cause al otro (Alliger & Janak,
1989). Es concebible que mientras a la gente no le haya agradado la capacitación recibida, en
realidad hayan aprendido el material. Además, algunos psicólogos han discutido acerca de
41
que la gente no es buena para informar sus propias experiencias de aprendizaje (Hofstadter &
Dennett, 1981).
La investigación muestra que la mayoría de las evaluaciones de capacitación ocurren a un

nivel de reacción (Bassi, Benson & Cheney, 1996; Saary, Johnson, McLaughlin & Zimmerle,
1988) a un nivel de aprendizaje levemente menor, y a un nivel aún menor de cambios en el
comportamiento. Esto tal vez sea atribuido al hecho de que la información de reacción puede
ser fácilmente obtenida mediante la entrega de un cuestionario a los participantes, y a que la
mayoría de los capacitadotes se sienten cómodos con el desarrollo e implementación de tales
cuestionarios. Las pruebas de conocimiento son de algún modo, herramientas familiares para
los entrenadores, y pueden ser fácilmente realizadas, particularmente mientras los
participantes aún se encuentran en el ambiente de entrenamiento. Una vez que los
participantes han regresado a sus trabajos, resulta más dificultoso hacer un seguimiento de
cómo el programa de capacitación ha impactado su desempeño, ya que los participantes se
encuentran en un ambiente que está fuera de la influencia del entrenador, y su desempeño
está sujeto a tantas otras variables (por ejemplo: ambiente, retroalimentación, herramientas,
incentivos, etc.), de acuerdo a lo que nos dice la literatura de mejora del desempeño (Gilbert,
1978; Rummler 1995, 2004). Aunque casi siempre se pierde, existe ese último nivel –los
resultados–, que miden el retorno a la inversión de los programas de capacitación. Aquí
nuevamente, nos encontramos con el desafío de múltiples factores que impactan los
resultados, y la tarea de aislar los efectos de la capacitación puede ser intimidante.
Figura 5.1. Modelo de Los Cuatro Niveles de Evaluación de Kirkpatrick, para las
Intervenciones de Aprendizaje
4. RESULTADOS
3. COMPORTAMIENTO
2. APRENDIZAJE
1. REACCIONES
Críticas
Holton (1996), critica la simpleza del modelo de los cuatro niveles como una taxonomía sin
relación causal entre los distintos niveles. Alliger y Janak (1989), reconocen la simpleza de
Los Cuatro Niveles de Evaluación de Kirkpatrick, pero critican su atribución de causalidad,
enfocándose en el rechazo de tres suposiciones críticas: (a) la capacitación causa un cambio
directamente; (b) cada nivel está causalmente ligado con el nivel superior próximo; y (c) las
42
correlaciones entre los niveles son positivas. Ellos coinciden con que los niveles tres
(comportamiento) y cuatro (resultados) usualmente sugieren una relación de causalidad, sin
embargo consideran que existen otras variables que influencian la mejora del desempeño
tanto como el entrenamiento. En particular, ellos citan la influencia de la motivación,
actitudes y contexto ambiental (factores de apoyo), como causas alternativas del cambio de
comportamiento.
Bates (2004), critica la falta de componentes formativos y acumulativos para la mejora

instruccional, mientras que Dick y King (1994), proponen combinar los niveles tres y cuatro
con una evaluación formativa tradicional como solución.
En respuesta a las soluciones que no fueran de capacitación, que también resultan válidas y
que requieren evaluación, Kaufman y Keller (1994) proponen una variación de Los Cuatro
Niveles de Evaluación de Kirkpatrick. Su modelo agrega un quinto nivel: el impacto social; y
redefine el resto de los niveles incluyendo datos de desempeño, para la disponibilidad,
eficiencia y calidad de los recursos organizacionales. Su modelo expandido permite la
consideración del valor y mérito de los recursos de entrenamiento, así como de las
consecuencias sociales más amplias. Más aún, ellos enfatizan la planificación estratégica de
la evaluación, para anticiparse tanto a las consecuencias inesperadas de la organización como
de la sociedad, por igual.
Los niveles son redefinidos como:
1. Capacitación/Reacción,
2. Adquisición,
3. Aplicación,
4. Resultados organizacionales, y
5. Resultados sociales.
Otra variación bien conocida de Los Cuatro Niveles de Evaluación de Kirkpatrick, es el

modelo ROI de Phillips, el cual será discutido a continuación.
Fortalezas y limitaciones
• Fortalezas:
• Es simple de conceptualizar.
• Brinda un marco de trabajo que ayuda fácilmente a la gente a pensar acerca de la
medición del entrenamiento.
• Brinda 4 categorías básicas de indicadores de éxito del entrenamiento: reacción;
aprendizaje; comportamientos relevantes en el trabajo; resultados organizacionales.
• Su popularidad podría ayudar a promocionar la evaluación dentro de la organización.
43
• Creado específicamente para intervenciones de entrenamiento, este modelo puede ser

percibido por los departamentos de capacitación, como una perspectiva de evaluación
confiable.
• Limitaciones:
• Su simpleza puede llevar a un mal entendimiento y a amplias generalizaciones.
• Creado específicamente para intervenciones de entrenamiento y por lo tanto no resuelve
todas las categorías de indicadores importantes de intervenciones para la mejora del
desempeño en general.
• Sus niveles no son en realidad jerárquicos, ni existe evidencia que sugiera que están
correlacionados; sus niveles ilustran meramente un enfoque diferente, o tal vez aún pasos
en un esquema de evaluación más amplio.
• Los instrumentos de medición de los niveles 1 y 2 (por ejemplo: cuestionarios y pruebas)
son a menudo mal diseñados, lo que conlleva a interpretaciones y conclusiones
desacertadas.
• En la mayoría de los casos, el modelo no es aplicado en forma completa y las
evaluaciones se detienen en los niveles 1 y 2, dejando a las personas encargadas de tomar
decisiones, con una serie de datos incompletos.
• El valor agregado más a aya de la organización en si es ignorado.
Modelo de Retorno de la Inversión de Phillips (ROI)

Jack Phillips popularizó el proceso de evaluación basado en el retorno de la inversión (1997),
dentro del área de entrenamiento y mejora del desempeño, comúnmente conocidas como
Nivel 5, agregando una nueva dimensión a Los Cuatro Niveles de Evaluación de Donald
Kirkpatrick. La metodología ROI de Phillips mide el retorno de la inversión de programas y
soluciones, particularmente aquellas relacionadas con el entrenamiento y desempeño
humanos, utilizando los cuatro niveles de Kirkpatrick, como niveles precedentes requeridos
que ayudan a establecer un efecto en cadena.
La motivación principal de la metodología ROI de Phillips, es medir los beneficios

monetarios del entrenamiento y desarrollo de programas contra sus costos. Un atributo clave
es que brinda solución y provee un lineamiento para el aislamiento de los efectos del
entrenamiento, mediante una fórmula matemática diseñada para calcular un porcentaje de
retorno respecto al costo total del programa:
ROI (%) = Beneficios Netos del Programa x 100

Costos del Programa
La medición realizada utilizando el método ROI se ha convertido en un área importante
dentro del sector de entrenadores y practicantes de la mejora del desempeño, quienes buscan
demostrar el valor de sus esfuerzos. Phillips ha dicho que esta metodología está motivada por
44
las fuerzas económicas, tales como demostrar el valor del entrenamiento y educación, y que
puede ayudar a prevenir recortes realizados al azar, dentro de los presupuestos asignados
para entrenamiento. Esta metodología puede brindar credibilidad a los departamentos de
capacitación, al permitirles documentar el impacto monetario y por lo tanto alterar la
percepción gerencial tradicional de la capacitación.
Phillips (1997b), advierte que para que el proceso ROI resulte útil, debe balancear
factibilidad, simpleza, credibilidad y solidez. Él también identifica algunas barreras
comúnmente encontradas para la implementación del método ROI, como: (a) costo y tiempo;
(b) falta de habilidad; (c) detección de necesidades defectuosa; (d) temor; (e) falta de
disciplina y planificación y (f) suposiciones falsas.
Bates (2004)46, sin embargo, discute que la utilización del retorno de la inversión (ROI)
como una medida de impacto, confunde a los factores de corto y largo plazo que puedan
llevar a cambios en el desempeño. Bates argumenta que las medidas financieras sólo sirven
para ese fin y que dispersan la atención respecto a la meta de mejorar el aprendizaje. Agrega
además que la evaluación realizada con el método ROI daña la capacidad de las
organizaciones para desarrollar sistemas de entrenamiento que sean capaces de promover la
mejora continua. Bates sostiene además que quienes toman las decisiones utilizando un
enfoque de cuatro niveles, podrían potencialmente dañar a los programas, si las
consideraciones obtenidas mediante el ROI pesan más que las necesidades de los
stakeholders. En tales casos, quienes toman decisiones violan el principio de beneficencia,
meta mediante la cual las evaluaciones deben beneficiar a los stakeholders, promoviendo un
programa de mejora continua.
Para las organizaciones que eligen adoptar la metodología ROI, Cresswell & Lavigne (2003),
recomiendan no extender el nivel de detalle del análisis, más allá de lo que sea requerido
para tomar las decisiones propuestas. Esta recomendación yace primariamente en el hecho de
que muy a menudo se requieren recursos significativos para llevar adelante un análisis ROI.
Una recomendación, sugerida por Corcoran (1997), se basa en un proceso seguido por
American Express, el cual requiere que los proyectos sean categorizados en estratégicos,
requeridos, y ROI. El autor de proyectos Estratégicos es aquel que ayuda a la organización a
acercarse donde ella quiere estar posicionada a largo plazo. La estimación mediante el
método ROI, de este tipo de proyectos puede ser algo desalentador, ya que el retorno de la
inversión puede hacerse esperar por largo tiempo, y por lo tanto, el enfoque debe realizarse
sobre los beneficios intangibles. Los proyectos requeridos pueden ser aquellos que le
permitirán a la organización mantenerse viva, como los relacionados con la seguridad, las
regulaciones gubernamentales, la liquidación de sueldos y otros proyectos que cuentan con
beneficios que ya resultan obvios; por lo que el énfasis recae sobre seguir adelante con el
proyecto con la mejor relación costo-efectividad. Finalmente, los proyectos ROI constituyen
una categoría donde se incluyen aquellos proyectos que deben ser sometidos a una
evaluación, y que requieren un resultado del 30% antes de ser aprobados.
45
Sintetizando, no todos los proyectos pueden ser apropiados para utilizar una evaluación ROI
tradicional. Y la consideración inicial debe comenzar durante la planificación del proyecto, y
no luego de su implementación.
Mientras que tanto el modelo ROI como el de Kirkpatrick han recibido una amplia
notoriedad, es interesante notar que la literatura del modelo ROI consiste primariamente en
aplicaciones y piezas conceptuales de Phillips en persona. Mientras que la literatura
disponible acerca del modelo de Kirkpatrick está balanceada entre investigación y piezas de
aplicación surgidas de varios autores, ya que su modelo ha sido utilizado como marco de
trabajo conceptual para numerosos estudios.
También vale la pena señalar, que mientras que Phillips popularizó su metodología en las
áreas de capacitación/entrenamiento y mejora del desempeño, el concepto de ROI y las
variaciones de su fórmula han sido parte de las áreas contables y financieras. De hecho, han
sido propuestos otros modelos para realizar la estimación de ROI específica al
entrenamiento. Otra cosas que vale la pena mencionar es que Phillips se basa en una
importante subjetividad, que consiste en que los informes son realizados por la persona
evaluadora, y esto tal vez, constituya una de las limitaciones de este método. Brinkerhoff
(2005), critica este intento de aislar los efectos del entrenamiento como una clara violación a
los sistemas lógicos de desempeño, dado que el desempeño se ve impactado por muchos
factores, y nunca sólo por el entrenamiento recibido.
Fortalezas y Limitaciones
• Fortalezas:
• Brinda una metodología de elaboración para la estimación real de las contribuciones y
retornos financieros de los programas.
• Brinda una dimensión adicional a las cuatro categorías básicas de Kirkpatrick
respecto a los indicadores de éxito del entrenamiento: reacción; aprendizaje;
aplicación en el trabajo; resultados organizacionales y retorno a la inversión.
• Brinda una perspectiva de evaluación que resulta familiar a muchos ejecutivos de
distintos departamentos.
• Creado primeramente para intervenciones de entrenamiento y desarrollo, este modelo
puede ser percibido por los departamentos de capacitación, como una perspectiva de
evaluación confiable.
• Limitaciones:
• Su metodología de elaboración puede resultar intimidante para los entrenadores que no
estén acostumbrados a manejarse con tales fórmulas.
• Puede ser percibido como un modelo que consuma demasiado tiempo y que resulta
costoso.
46
• Aunque fue creado específicamente para intervenciones de entrenamiento y desarrollo,

no resuelve por completo todos los indicadores de categorías importantes para las
intervenciones de mejora del desempeño en general.
• Al igual que Los Cuatro Niveles de Evaluación de Kirkpatrick, sus niveles no son en
realidad jerárquicos, ni existe evidencia que sugiera que dichos niveles están
correlacionados; ellos meramente ilustran un enfoque diferente, o tal vez los pasos para
un esquema de evaluación más amplio.
• Cuenta demasiado con estimaciones subjetivas que pueden conllevar a conclusiones
erróneas respecto al éxito del programa.
Método del Caso de Éxito de Brinkerhoff

La visión de Brinkerhoff respecto a la evaluación (1981), se asemeja al Modelo de
Evaluación Comprensiva de Stake, y en menor extensión a la Evaluación Enfocada en la
Utilización de Patton (1997). Para Brienkerhoff, las evaluaciones deben reflejar el propósito
de los requerimientos de los stakeholders, para lograr incrementar las posibilidades de que la
información recabada sea utilizada (Brinkerhoff, 1981).
El Método del Caso de Éxito (Success Case Model, y de aquí en adelante referenciado como
SCM) fue desarrollado para resolver las frustraciones de otras perspectivas de evaluación
más tradicionales. Específicamente, Brinkerhoff sintió que el Modelo de Evaluación de
Cuatro Niveles de Kirkpatrick (1976) no resultaba apropiado porque no incluye
investigaciones más allá de los factores de capacitación, ignorando por completo el ambiente
de desempeño. También sintió que las perspectivas de evaluación basadas en el diseño de un
marco de trabajo experimental eran insuficientes, dado lo incómodas que pueden ser en su
requerimiento de tiempo, recursos y experiencia, más allá del alcance del marco típicamente
profesional (Brinkerhoff 2005).
Brinkerhoff propone el SCM como un enfoque simple que puede ser implementado por
completo en un lapso de tiempo mínimo. Tiene la intención de producir evidencia concreta
del efecto de la capacitación, de un modo que los líderes de la organización y otros
encuentren altamente relevante y creíble, relacionando incidentes verificables de los
participantes del entrenamiento que hayan aplicado el contenido aprendido a su
comportamiento, demostrando el impacto de valor en los resultados organizacionales
obtenidos. Una suposición crítica subyacente es que el impacto del entrenamiento es
inevitablemente una función de la interacción del entrenamiento con otros factores del
sistema de desempeño. No intenta aislar el efecto del entrenamiento, dado que Brinkerhoff
sostiene (2005) que el hacer esto “escapa a todo lo que conocemos acerca del pensamiento de
los sistemas de desempeño, y de la inseparabilidad entre el aprendizaje y el desempeño”
(p88).
Brinkerhoff (2005) resalta el concepto de que si el entrenamiento ha funcionado, es gracias a

las contribuciones de varios participantes del equipo gerencial dedicado a la mejora del
47
desempeño. El SCM identifica estos factores, para poder brindar crédito y retroalimentación
en forma apropiada. Asimismo, si el entrenamiento no ha funcionado, los datos de su modelo
CSM ilustran las limitaciones y debilidades en el sistema de desempeño y brinda
retroalimentación para aquellos que pueden resolver los problemas encontrados. La intención
del CSM puede ser presentada como la demostración a los stakeholders de lo que ha
funcionado y lo que no ha funcionado en el aprendizaje, cuáles son los resultados logrados
que valieron la pena, y qué puede hacerse para mejorar el desempeño en el futuro.
En forma adicional, Brinkerhoff (2005) sugiere que un marco de trabajo evaluativo debe
enfocarse en tres preguntas principales para responder a los factores de éxito de la
capacitación en toda la organización:
1. ¿Qué tan bien utilizó el aprendizaje nuestra organización como para facilitar el
desempeño requerido?
2. ¿Qué está haciendo la organización para facilitar la mejora del desempeño requerida a
partir del aprendizaje? ¿Qué debe continuar haciendo y fortalecer?
3. ¿Qué está haciendo la organización –o qué no está haciendo–, que impide alcanzar el
desempeño requerido a partir del aprendizaje? ¿Qué debe cambiar?
Estas preguntas fundamentales deben ser parte de un plan de evaluación que tenga el
propósito general de construir la capacidad organizacional, para incrementar el valor tanto
del desempeño como del negocio de acuerdo a su inversión en el área de capacitación. Para
implementar este tipo de evaluación, se requiere que el enfoque de la evaluación esté
centrado en factores del proceso general de aprendizaje-desempeño, para comprometer y
brindar retroalimentación a varias audiencias.
El SCM difiere de los métodos típicos más cuantitativos respecto a que no busca aprender
del típico participante del programa. Su propósito es buscar el mejor desempeño que un
programa esté produciendo, para ayudar a determinar si el valor de un programa vale la pena
la inversión, y si ese programa sirve para obtener los mismos resultados en un mayor número
de participantes. Tiene la intención de tomar una historia exitosa como una fuente verificable
que demuestre cómo una persona puede utilizar sus nuevas habilidades, capacidades o
herramientas y cuál es el valor o mérito de que esto ocurra.
• Fortalezas:
• Toma en cuenta experiencias específicas de los participantes del programa.
• Su simpleza incrementa la probabilidad de conducir la evaluación
• Toma en cuenta factores causales para el éxito y el fracaso.
48
• Limitaciones:
• Depende exclusivamente de métodos cualitativos y reportes propios.
• No toma en cuenta la mayoría de las experiencias, sólo los extremos.
• Los stakeholders consideran a este método insuficientemente riguroso.
Modelo de Evaluación CIPP

El Modelo de Evaluación CIPP (CIPP Evaluation Model, y de aquí en adelante referenciado
como CIPP) fue propuesto por Daniel Stufflebeam (1967), y es un encuadre de trabajo que
tiene intenciones de guiar las evaluaciones tanto formativas como acumulativas (formative
and summative) de proyectos, programas, personal, productos, instituciones y sistemas. Sus
siglas, denotan los conceptos de la base del modelo, el cual se enfoca en la evaluación de los
contextos, Insumos, procesos y productos de una entidad.
Al igual que otros modelos de evaluación modernos, fue creado en respuesta a las
limitaciones encontradas en el diseño experimental tradicional –de evaluación basada en
objetivos y pruebas de logro estandarizadas–, al evaluar programas de evaluación que
inevitablemente existen en un marco social dinámico (Stufflebeam & Shinkfield, 2007). La
documentación formal más antigua que se encuentra de este modelo, la ofrece el trabajo
Educational Evaluation and Decision Making (Evaluación Educacional y Toma de
Dicisiones - Stufflebeam, Foley, Gephart, Guba, Hammond, Merriman, & Provus, 1971),
producto de un comité de estudio de evaluación designado por Phi Delta Kappa en 1969
(Stufflebeam & Shinkfield, 2007).
El propósito subyacente del modelo es el de brindar a los clientes de la evaluación, con

información válida y actualizada que les permita identificar las áreas necesitadas de
desarrollo y mejora. En el contexto de una evaluación formativa, el modelo CIPP pregunta:
¿qué debe hacerse y cómo?, ¿se está haciendo actualmente?, y finalmente ¿se está haciendo
con éxito? Bajo una perspectiva acumulativa (summative), se pregunta retrospectivamente:
¿se cubrieron las necesidades importantes?, ¿estuvo el esfuerzo bien guiado?, ¿estuvo el
servicio diseñado y ejecutado de acuerdo a lo requerido?, ¿tuvo éxito ese esfuerzo?
(Stufflebeam, 2003).
De acuerdo al modelo CIPP, la evaluación es una investigación sistemática del valor o

mérito del objeto evaluado; donde mérito se refiere a la calidad intrínseca o excelencia, sin
tener en cuenta su utilidad, mientras que el valor se refiere a la calidad intrínseca de algo y a
su valor extrínseco, especialmente su utilidad para satisfacer las necesidades detectadas.
Stufflebeam ve a la evaluación como una actividad funcional orientada –a largo plazo–, a
estimular, ayudar y mejorar los esfuerzos para fortalecer y mejorar a las organizaciones,
reconociendo que algunos programas o soluciones pueden no valer la pena su intento de
mejora y deben ser anulados. Al asistir en la disolución de esfuerzos innecesarios, corruptos
o demasiado imperfectos, las evaluaciones sirven para mejorar la función mediante la
49
asistencia brindada a las organizaciones para liberar recursos y tiempo, desviándolos hacia
programas y soluciones que sí valen la pena.
Stufflebeam sugiere (2003) que el modelo fue creado con la intención de que se utilice en
evaluaciones internas, conducidas por evaluadores de la organización; en evaluaciones
propias conducidas por equipos o prestadores de servicios individuales del proyecto en
particular; y en evaluaciones externas ya sean contratadas u obligatorias.
El modelo CIPP permite al evaluador enfocarse en cuatro actividades distintas pero

relacionadas, conformadas por la evaluación específica de cada una de las cuatro áreas:
contexto, Insumos, procesos y productos. La evaluación de cada una de estas áreas debe ser
conducida en forma individual, secuencial o paralelamente, dependiendo de la situación. La
idea básica es que estas evaluaciones complementen los requerimientos de información de
los stakeholders, y no que remplacen datos o informes previamente recabados.
Contexto
La evaluación del contexto se enfoca en guiar la futura dirección de la empresa. Durante esta
evaluación se detectan necesidades, se identifican oportunidades y se establecen prioridades
para el futuro. El propósito de esta evaluación es enfocarse en una serie de objetivos y
determinar cuáles son las prioridades.
Insumos
La evaluación de los insumos se centra en la identificación y selección de los mejores
programas o soluciones para alcanzar el logro de las metas de acuerdo a cómo éstas fueron
priorizadas, considerando planes competitivos de acción, planificación de personal y
presupuesto, para identificar su factibilidad y potencial relación costo-efectividad, con la
finalidad de cubrir las necesidades detectadas y alcanzar las metas establecidas. La idea
básica aquí es asegurar el enlace entre los métodos seleccionados y las finalidades deseadas.
El propósito de esta evaluación se enfoca en crear y/o mejorar la planificación.
Quienes tomarán las decisiones utilizarán las evaluaciones de insumos para seleccionar los
planes más competitivos, para escribir propuestas de fondos, para destinar recursos, asignar
personal, programar el trabajo y finalmente ayudar a otras personas a juzgar el esfuerzo de
los planes y presupuestos.
Stufflebeam (2003) sostiene que la evaluación de los insumos es la más ignorada, aunque sea
el tipo de evaluación más importante. De hecho, mientras usted lee los primero dos enfoques
iniciales de este modelo evaluativo, reconocerá algunas similitudes con otras perspectivas
investigativas presentadas en el Capítulo 1 de este libro, la detección de necesidades. Las
Evaluaciones de Contexto son análogas a la detección de necesidades, ya que tienen la
finalidad de identificar necesidades y oportunidades para ayudar a quienes toman decisiones
a definir y priorizar sus metas. Las Evaluaciones de Insumos del modelo CIPP también
coinciden en parte con las funciones de la detección de necesidades –particularmente con la
definición de detección realizada por Kaufman (1992; 2000)–, ya que tienen la finalidad de
50
identificar enfoques alternativos y su factibilidad, incluyendo relación costo-efectividad, para

lograr alcanzar las metas deseadas. Aún más interesante resulta que ambos Stufflebeam y
Kaufman sugieren que estas funciones se encuentran entre las más críticas para la creación y
mejora del desempeño, aún mientras el primero considera a este tipo de evaluaciones y el
segundo considera un proceso totalmente diferente –pero relacionado–: la detección de
necesidades.
Procesos
La Evaluación de Procesos brinda un lineamiento respecto a la implementación de los
métodos seleccionados. La implementación es rastreada para poder mejorarla, asegurando
que ocurre de acuerdo a lo planeado, mientras que todo el proceso de implementación y los
costos asociados son documentados. El propósito de esta evaluación es monitorear el
desempeño.
Productos
La Evaluación de Productos brinda retroalimentación respecto a la necesidad de mantener,
mejorar o abandonar lo que está siendo evaluado. Aquí, las necesidades iniciales deben
utilizarse como estándar para determinar si los resultados son satisfactorios. El propósito del
enfoque de esta evaluación es juzgar los logros y tomar decisiones.
En las evaluaciones a largo-plazo, el componente de la evaluación de productos puede ser

subdividido en evaluaciones de: impacto, efectividad, sostenimiento y transportamiento
(Stufflebeam, 2003). Estas sub-partes de la evaluación de productos cuestionan:
• ¿Se alcanzaron a los beneficiarios correctos?

• ¿Se cubrieron sus necesidades?
• ¿Fueron sostenidas las ganancias de los beneficiarios?
• Los procesos que produjeron tales ganancias, ¿probaron ser transportables y adaptables
para su uso efectivo en otro lugar?
• Fortalezas
• No fue diseñado con un programa o solución específico en mente, por lo que puede ser
fácilmente aplicable a múltiples situaciones evaluativas.
• Brinda una perspectiva comprensiva de la evaluación, la cual puede ser aplicada desde la
planificación de un programa, hasta los resultados del programa y logro de su valor
intrínseco.
• Es un modelo bien establecido, con una larga historia de aplicabilidad.
51
• Limitaciones:
• Puede decirse que empaña la línea existente entre la evaluación y otros procesos
investigativos, como la detección de necesidades.
• No es tan conocido ni aplicado en el área de Mejora del Desempeño.
¿Qué modelo debo seleccionar?

De acuerdo del punto de vista de este autor, ningún modelo es el mejor, la utilidad de los
modelos de evaluación –al igual que cualquier otro tipo de modelo o herramienta–, depende
enteramente de la situación con la que con confrontamos. Lo que funciona en una
organización, no necesariamente funciona en otra; y lo que funcionó para nosotros en el
pasado, no necesariamente funcionará en el futuro. Stufflebeam y Webster (1980) analizaron
13 enfoques de evaluación alternativos en términos de su adhesión a la definición de una
evaluación educacional, una que sea diseñada y conducida para asistir a alguna audiencia a
mejorar el valor y mérito de un emprendimiento educacional. Su análisis resultó en tres
categorías de estudio de evaluación: orientados a la política o pseudo evaluaciones,
brindando fortalezas y limitaciones de cada una como para proveer a los evaluadores con una
serie de marcos de trabajo y perspectivas evaluativas.
Lo más importante al selección un modelo comprensivo es que usted identifique claramente

los requerimiento de su situación y que utilice eso como criterio para seleccionar el modelo
de evaluación más adecuado. De hecho, tal vez le pueda resultar útil tomar prestado partes o
características relevantes de varios modelos para formar su propio plan de valuación. Esta
perspectiva puede ser tomada cada vez que usted se encuentre frente a un proceso evaluativo.
Popham (1975) ha dicho que usualmente, el comparar los distintos enfoques evaluativos para
seleccionar el mejor modelo es una pérdida de tiempo, sosteniendo que en vez de enfocarse
en las similitudes y diferencias de los modelos, los evaluadores deben ser lo suficientemente
capaces como para evaluar los modelos y decidir cuál es el más adecuado. Más aún, Popham
(1975) considera que lo mejor es realizar un acercamiento ecléctico en el cual uno seleccione
y tome partes de los conceptos más útiles de los distintos modelos disponibles.
Conbach (1982) también apoya este punto de vista y declara que el diseño de la evaluación
debe comenzar a partir de un borrón y cuenta nueva de cada uno de los emprendimientos, y
avanzar en la resolución de las incontables decisiones que deben realizarse en cada situación.
Conceptuar la Evaluación
Nevo (1981) realizó la revisión de un listado de preguntas inicialmente propuestas por
Stufflebeam (1974), en un esfuerzo para conceptuar la evaluación y sus dimensiones clave:
1. ¿Cómo es definida la evaluación?

52
2. ¿Cuáles son las funciones de la evaluación?

3. ¿Cuáles son los objetos sujetos a la evaluación?
4. ¿Qué tipos de información debe ser recabada respecto a cada objeto?
5. ¿Qué criterio debe utilizarse para juzgar el mérito o valor de un objeto evaluado?
6. ¿A quién debe servir la evaluación?
7. ¿Cuál es el proceso para realizar una evaluación?
8. ¿Qué métodos de indagación deben ser utilizados en la evaluación?
9. ¿Quién debe realizar la evaluación?
10. ¿Bajo qué estándares debe ser juzgada la evaluación?
Debajo encontrará algunas preguntas reflexivas que lo ayudarán a formular su propio modelo
evaluativo. Note que esta no es un listado exhaustivo, sino más bien un punto de partida:
1. ¿Cuáles son las características de mi tarea evaluativa?

2. ¿Cuál es el objeto de evaluación?
3. ¿A qué nivel de concepción se encuentra el objeto a evaluar (por ejemplo:
planificación, diseño, desarrollo, implementación, mantenimiento, evaluación, etc.)?
4. ¿Cuáles son las limitaciones y contratiempos del esfuerzo evaluativo?
5. ¿Qué modelos de evaluación se asemejan para la resolución de estas características?
6. ¿Cuáles son los pro y los contras de cada modelo respecto a mi tarea de evaluación?
7. El amoldar estas enfoques evaluativos para crear un modelo único para esta situación,
¿resultaría más factible y sensible para mi tarea evaluativa?
En el capítulo siguiente se describe en detalle el Impacto del Proceso Evaluativo, el cual

representa un acercamiento holístico a la evaluación y la mejora continua, resolviendo
muchas de las limitaciones inherentes a los modelos anteriormente presentados.
53
Capítulo 4
El Proceso Para Evaluar Impacto
(Impact Evaluation Process)
Introducción
El Proceso Para Evaluar Impacto (Impact Evaluation Process – Guerra-López, 2007), es el
modelo de evaluación formalmente publicado más reciente, de todos los modelos
presentados en este libro. Fue la culminación de la investigación, el trabajo aplicado y la
enseñanza del autor. Una de las ideas subyacentes es que cada cosa que nosotros hacemos
está alineada con un propósito mayor –ya sea que seamos concientes de ello o no, y ya sea
que lo que hagamos esté bien alineado o no–, y la evaluación no es diferente a esto. Como
tutor y colega, la influencia más prominente de este modelo proviene del trabajo de Roger
Kaufman (1992; 2000; 2006) respecto a la detección de necesidades y planificación
estratégica. Guerra-López trabajó en varios proyectos relacionados con la detección de
necesidades y planificación estratégica, con Kaufman y sus contribuidores, brindándole la
experiencia que eventualmente la guió a desarrollar un enfoque dedicado a la medición y
evaluación.
El Modelo de Elementos Organizacionales de Kaufman (Kaufman’s Organizational

Element’s Model, 1992; 2000; 2006), brindó la diferenciación entre los tres niveles básicos
de resultados, al igual que la siempre importante distinción entre los medios y los fines. Este
fue el principal marco de trabajo conceptual del Impacto del Proceso Evaluativo, dado que el
objeto a evaluar es siempre considerado como una herramienta para alcanzar una finalidad,
manifestándose dicha finalidad en tres niveles de resultados: estratégicos (resultados
organizacionales a largo plazo, que benefician últimamente a clientes y a la sociedad, y a
menudo son declarados en términos de visión organizacional); tácticos (misiones a corto
plazo que son operativas de la visión organizacional para alcanzar logros organizacionales
inmediatos), y operacionales (los bloques que juntos nos permiten alcanzar la misión
organizacional. Noten que en la milicia, el nivel operacional no se trata sólo de la obtención
de resultados que constituyan bloques para construir algo mayor, sino que también se trata de
los procesos utilizados para llegar allí). El establecer una cadena de impacto, refiere a la idea
de que cualquier objeto a evaluar debe finalmente agregar valor a un nivel estratégico a largo
plazo, pero requiere que a corto plazo comencemos a alinear y medir los resultados
operacionales y tácticos, para poder asegurar el logro de la finalidad última. En este sentido,
el establecer el impacto se refiere a determinar en qué grado, o hasta qué punto, el objeto
evaluado nos ayudó para acercar a la organización a sus metas estratégicas establecidas a
largo plazo.
54
Bajo el enfoque de una evaluación orientada al consumidor de Scriven (Consumer-Oriented

Evaluation Approach – Scriven, 1991), él sostiene que en vez de aceptar las metas del
formador como dadas, la evaluación debe juzgar si el logro de tales metas contribuirá al
beneficio de los clientes y consumidores. Sin tener en cuenta los productos y entregas,
Scriven sostiene que los evaluadores deben también identificar los resultados, y determinar
su valor en relación con las necesidades de los consumidores.
Si se hubiera realizado una detección de necesidades, y si la misma hubiera sido bien

conducida, entonces debería existir una alta probabilidad de que el objeto evaluado agregará
de hecho un valor adicional y concreto a la organización y a sus consumidores, a través de
los varios niveles de resultados. En otras palabras, el objeto sujeto de la evaluación debería
haber sido seleccionado en vista de las necesidades (brechas entre resultados); debería haber
sido priorizado –en base al costo y consecuencias asociadas con cubrir las necesidades vs.
ignorarlas–, tanto a niveles operacionales, tácticos y/o estratégicos; y deberían haberse
establecido los pros y los contras asociados con cada una de las alternativas consideradas
para eliminar tales brechas –incidentalmente, las alternativas de solución provienen
directamente de un análisis causal de necesidad, el proceso que revela las causas de raíz de
las necesidades identificadas–, (Kaufman, 2000; 2006). Consistentemente, Scriven también
sostiene la identificación y posicionamiento de los programas o soluciones alternativas que
estén disponibles, en base a los costos y efectos relativos, y a la consideración de las
necesidades identificadas mediante el proceso de detección de necesidades, basado en el
valor agregado para con la sociedad (1991).
Si el objeto a evaluar fue la mejor alternativa para eliminar la brecha, entonces una hipótesis
de evaluación es que el objeto a evaluar debería haber contribuido con la eliminación o
reducción de tales brechas en los resultados/desempeño. La pregunta de evaluación básica
debería ser entonces: “¿contribuyó la solución x a la reducción o eliminación de la brecha de
desempeño x?” Esta perspectiva, por su puesto, es la filosofía prima del modelo para evaluar
discrepancias de Provus (1971).
En forma adicional, El Proceso Para Evaluar Impacto también está influenciado por la teoría
orientada a la decisión, y por la evaluación enfocada a la utilización desarrollada por Patton
(1997), enfoques evaluativos dedicados al diseño de evaluaciones útiles y valiosas para
informar a quienes toman decisiones.
Nota sobre la naturaleza de la investigación del Impacto

del Proceso Evaluativo
Vale la pena notar que al igual que los sistemas instruccionales y los sistemas de desempeño
están basados en conceptos teóricos de sistemas, el Proceso Para Evaluar Impacto también
está basado en un enfoque sistémico y sistemático de la evaluación y mejora del desempeño.
La ciencia tradicional y la investigación han estado fuertemente basadas en variables de
estudio independientes, y en este sentido, el enfoque de la evaluación debería estudiar el
55
impacto de una variable sobre el sistema, para entender qué es lo que está sucediendo con el
sistema. Sin embargo, mientras miramos dentro de las organizaciones y los programas de
distintos sectores, resulta obvio que no existe tal cosa como variables puramente
independientes. De hecho, todas las variables son interdependientes, y “a medida que los
sistemas se convierten en más sofisticados, la realidad de la interdependencia se convierte en
más y más pronunciada” (Gharajedaghi, 1999).
El entendimiento de la interdependencia de los factores que impactan el desempeño humano,

de los programas y de la organización, requiere un cambio desde un análisis puro –tomando
por separado lo que buscamos entender para explicar el comportamiento de partes separadas
y extrapolar la explicación al todo hacia una síntesis –mirar los componentes del sistema y
sus interdependencias para entender su impacto en el todo–. En otras palabras, tanto los
profesionales como los evaluadores avocados a la mejora del desempeño deben mirar hacia
el desempeño total del sistema y entender que cualquier impacto observado es raramente
atribuible a una sola solución o causa. Sólo es responsable, ético y pragmático, el mirar y
comunicar toda la historia.
Descripción
La evaluación, en su fibra íntima puede ser muy directa, pero las situaciones a las cuales
aplicamos la evaluación pueden ser complejas, y a veces pueden hacer que el proceso
evaluativo sea realmente intimidante. El Proceso Para Evaluar Impacto está primariamente
dirigido a individuos que quieran un mapa claro que los guíe a través del proceso, y que los
ayude a mantener un enfoque pragmático. La idea es que con un plan bien articulado, el
proceso evaluativo real resultará mucho más simple y directo.
El Proceso Para Evaluar Impacto consiste en siete elementos, que mientras que transmiten
una secuencia, pueden ser considerados reiterativamente. Los pasos básicos y la perspectiva
están ilustrados en la figura 4.1, y cada una de las siete fases se describe debajo en detalle.
1. Identificación de los Stakeholders y Expectativas

El proceso comienza con la identificación del evaluador de los stakeholders clave
involucrados en la evaluación. El grupo de stakeholders incluyen a aquellos que tomarán
decisiones ya sea durante el proceso evaluativo, o directamente como resultado de los
hallazgos de la evaluación. Aquellos que cuentan con la autoridad para tomar decisiones
críticas son a menudo los involucrados en la financiación del proyecto evaluativo, pero si
fuera alguien o algún grupo diferente, ellos también deberán ser incluidos. También es
importante incluir a aquellos que se verán afectados por la evaluación –ya sea en el proceso,
o potencialmente como resultado de los hallazgos. El incluir a este grupo hará que la
implementación del plan de evaluación resulte mucho más fácil, particularmente durante la
etapa de recolección de datos. Usted puede analizar qué otros stakeholders son importantes
56
para su situación en particular. La pregunta que deriva la identificación de los stakeholders

es: ¿Quién es/puede ser impactado por la evaluación, o quién podrá potencialmente
impactar la evaluación de un modo significativo?
Figura 4.1 El Impacto del Proceso Evaluativo
El Proceso Para Evaluar Impacto

Valor agregado para
Clientes & Sociedad
IMPACTO
Recomendaciones para Mejora
Análisis de Datos
Método de Recolección de Datos

Mejora
Fuentes de Información Continua
Indicadores de Medición
Decisiones & Objetivos
Stakeholders & Expectativas
FUNDAMENTO
Valor Agregado para
Clientes & Sociedad
© Ingrid Guerra -López 2007
Debe notarse que cada grupo de stakeholders tendrá su propio conjunto de expectativas.
Mientras que algunas de estas expectativas pueden superponerse a otras, algunas serán
particulares para la ventaja y respectivos intereses de un grupo dado. Las áreas de
expectativas relevantes incluyen preguntas específicas de la evaluación que deben ser
respondidas, así como límites de tiempos, contenido del informe final, y temas relacionados a
57
su formato, como también acceso a los datos/observación, entre otras. Un elemento común
que debe unir a estas expectativas individuales es la visión organizacional, que debe estar
basada en el impacto externo sobre la sociedad. De otro modo, cada grupo de stakeholders
podría terminar haciendo fuerza hacia distintas direcciones, impidiendo que la organización
mejore –o haciendo que empeore–, respecto a su estado anterior.
El proceso presupone que si el evaluador no identifica las expectativas y requerimientos de

los stakeholders claramente, es casi imposible cumplir con esas expectativas y
requerimientos. Aún mientras se realice una buena evaluación –técnicamente hablando–, ésta
no agregará valor si no existiera la alineación adecuada respecto a las expectativas de los
stakeholders. Los datos y resultados de la evaluación no serán relevantes, y por lo tanto no
serán utilizados, por lo que nos encontraríamos frente a un desperdicio de tiempo y recursos
de absolutamente todos.
Debido a esto, resulta crítico que uno pueda entender cómo los stakeholders juzgarán a una
evaluación –o evaluador–, exitoso. Debajo encontrará algunas preguntas generales que deben
ser respondidas antes de proseguir:
• ¿Qué decisiones desean tomar como resultado de sus hallazgos finales?

• ¿Qué expectativas tienen respecto al evaluador?
• ¿Qué se espera del proyecto evaluativo?
• ¿Cómo se juzgará su desempeño como evaluador?
• ¿Cómo será el proceso de comunicación? ¿Con quién? ¿Con qué periodicidad? ¿A través
de qué medio?
• ¿Qué es lo que se espera de los stakeholders (por ejemplo, qué tipo de apoyo le
brindarán…retroalimentación, asistencia en la recolección de datos, administrativa,
otra…)?
• ¿Cuál será el impacto de aplicar los resultados de la evaluación, o de no aplicarlos?
También resulta crítico que usted lleve a cabo la alineación de las expectativas de los
stakeholders con las demandas externas de la sociedad. Mientras que no todos los
stakeholders ven este enlace fácilmente, el clarificar esos enlaces es su responsabilidad. No
se trata de si esos enlaces existen o no para esta organización en particular, sino de qué tan
bien ustedes pueden juntos clarificar y comunicar esos enlaces y consecuencias. Este es el
único modo en que pueda ver claramente hacia dónde va, y cómo los programas o soluciones
que usted está evaluando, impactarán en esa trayectoria.
Estas expectativas pueden convertirse en la base para el contrato –ya sea verbal o escrito–y
deben articular explícitamente qué es lo que se espera tanto del evaluador como de los
stakeholders. Si cualquiera se sintiera que no se está estableciendo algo razonable, este es el
momento adecuado para discutir el asunto y arribar a un consenso, y ciertamente no luego de
que el evaluador ha completado lo que en su mente considera una evaluación exitosa.
58
2. Determinar las Decisiones y Objetivos Clave

Conjuntamente con la identificación de los stakeholders, otro paso temprano e importante
debe ser el identificar las decisiones que tendrán que ser tomadas a partir de los hallazgos de
la evaluación. El preguntar a los stakeholders que piensen cuidadosamente acerca de esas
decisiones en una instancia temprana del proceso, ayudará al evaluador a enfocarse en los
temas importantes y los llevará a detectar los datos útiles (Watkins & Guerra, 2003). Por
ejemplo, una decisión puede ser implementar un programa de incentivo en otras sucursales
de un banco, luego de su implementación en una de las sucursales. Esta decisión estará
basada en un número de criterios, uno de ellos podría ser si las metas de desempeño fueron
alcanzadas. Otro criterio podría ser si las metas fueron logradas dentro del tiempo requerido.
Y otro podría ser si los beneficios del nuevo programa de incentivos sobrepasaron los costos
del mismo. ¿Existió algún efecto involuntario en otras partes del sistema de desempeño?
Como puede ver, estos temas son pertinentes a la determinación del valor (neto) de la
intervención.
La discusión acerca de las decisiones que debe ser realizada es –debe ser–, también acerca de
los objetivos que deben ser alcanzados. Todas las organizaciones tienen objetivos –tanto
externos como internos–, y todo dentro de la organización debe contribuir hacia el logro de
esos objetivos (Guerra, 2005). El valor relativo de cualquier programa o solución es
primariamente contingente de si está ayudando o empañando el logro de los objetivos de
desempeño organizacionales y contribuciones externas.
Mientras que algunos stakeholders pueden no brindar al evaluador los resultados específicos
que esperan, ellos le brindarán ‘ideas’ acerca de los efectos relevantes que esperan, aún
cuando se traten más de métodos que de resultados. Aquí la tarea del evaluador –al igual que
durante todo el proceso–, es ser tanto educador como facilitador, y generar la conversación
desde un punto de vista:…y si pudiéramos lograr eso, ¿cuál sería el resultado? Esta línea de
indagación debe continuar hasta que se hayan identificado los resultados clave.
Adicionalmente, otra fuente clave para la identificación de objetivos específicos de
desempeño para una solución, es mirar los informes pasados de detección de necesidades, si
los hubiere. Tales documentos deben incluir el problema inicial, por qué la solución fue
recomendada, y qué objetivos específicos se supone que lograría.
Una vez clarificadas estas decisiones y objetivos, las preguntas fundamentales que motivarán
el proceso evaluativo –y el propósito de la evaluación–, también deberán ser claras,
articuladas y establecidas de mutuo acuerdo.
La Figura 8.1 refleja las relaciones anidadas dentro de los siete elementos del Impacto del
Proceso Evaluativo, con los stakeholders y el impacto externo sobre la sociedad como base
para todo lo realizado en la evaluación.
El evaluador no contará siempre con un propósito claro para comenzar. A veces, las
decisiones que deben ser tomadas son más prominentes (por ejemplo: continuar con la
subvención de un programa o no), y a veces comienzan con preguntas específicas (por
ejemplo: ¿qué impacto está teniendo este programa en la retención de los empleados? ¿Cuál
59
es el retorno de la inversión que corresponde a este programa?). Cualquiera de las formas que
tenga su información inicial, la evaluación será más efectiva si antes de proceder clarifica
tres detalles importantes.
Las decisiones importantes deben estar primariamente avaladas por datos relevantes
(relacionados a los resultados de interés), confiables (consistentes), y válidos (una medida
verdadera de lo que se propone medir), y estos datos deben provenir de indicadores de los
resultados que queremos lograr (que podamos medir), que a su vez están relacionados con las
preguntas que querremos responder. Cada elemento depende del anterior, de tal manera que
queden completamente alineados.
¿De dónde surgen las preguntas útiles?

La guía para la formulación de preguntas evaluativas surge de varios enfoques y grupos de
stakeholders. Como anteriormente presentado, cada grupo de stakeholders representa a un
punto de vista único, basado en dónde –o desde dónde– ellos ven los temas en la
organización. Es importante que el evaluador identifique una lista de preguntas comprensivas
y representativas. Sin embargo, existe la posibilidad de que no todas las preguntas estén
dentro del alcance de este esfuerzo de evaluación en particular. La clave es obtener un
consenso entre los stakeholders –o entre los individuos que los representen–, respecto a
cuáles son las preguntas más críticas, y por lo tanto, a qué se compromete a entregar la
evaluación. Si usted no puede obtener un consenso acerca de cuáles son estas preguntas, es
improbable que obtenga un consenso acerca de la utilidad de su informe de evaluación.
Cualquiera que sea el caso, la recolección de datos debe ser sistemática, y diseñada para
responder a preguntas específicas que puedan ser utilizadas para mejorar el desempeño. Los
datos útiles le permitirán probar el valor del programa o solución, sin simplemente recostarse
en las opiniones acerca de qué parece estar funcionando, y qué no.
Las distintas perspectivas lo guiarán hacia distintas preguntas, y diferentes preguntas lo

guiarán hacia diferentes hallazgos. Asegúrese de que su lista de preguntas es en realidad
comprensiva. Esto no implica que usted tenga una larga lista de preguntas, sino que sus
preguntas provengan de un enfoque sistemático. Usted debe considerar al sistema de
desempeño completo, incluyendo su propósito último, sus subsistemas y sus interacciones.
Finalmente, todas las preguntas que realizamos están relacionadas con los resultados que
deseamos lograr, ya sea que estén expresadas en estos términos o no. Parte del trabajo del
evaluador es ayudar a crear un enlace entre sus preguntas iniciales y los resultados a los que
son inherentemente –y que algunas veces ocultamente–, relacionados. Todas las
organizaciones tienen un resultado –o resultados– último que quieren alcanzar, y para
hacerlo posible, existen numerosos resultados básicos que deben ser logrados en el camino.
Todo lo demás que hacemos o utilizamos dentro de la organización debe contribuir a esos
resultados, si fuera de otro modo, estaríamos malgastando recursos valiosos y limitados sin
obtener ningún beneficio a cambio.
60
Primero, la meta final que queremos que alcance nuestra organización se trata de su impacto
ideal sobre la comunidad y sociedad, y está establecida a través de la visión de la
organización. Kaufman (2006) remarca que todas las organizaciones, tanto públicas como
privadas, comparten la visión de agregar valor a la sociedad, y sugiere que cada organización
define una visión ideal compartida y sujeta a medición, basada en la creación del tipo de
mundo que todos los stakeholders quieren crear para los niños del mañana. Watkins (2006)
observa:
La finalidad social no está definida por una sola organización, ni se espera que ninguna
organización logre esas finalidades por sí misma. Estos objetivos a nivel estratégico
constituyen las ambiciones compartidas de las organizaciones, individuos y otras personas
que representan las comunidades y sociedad que compartimos (por ejemplo: la no pérdida
de vida ni eliminación o reducción de niveles de supervivencia, autosuficiencia o calidad de
vida a partir del abuso de sustancias, enfermedades, discriminación, etc.). Para definir su
misión, las organizaciones se identifican con estas intenciones estratégicas (las cuales
inherentemente alinean los Resultados organizacionales con los Resultados Sociales).
Pág. 29
Basados en que todas las organizaciones tengan la misma visión de valor agregado sobre la
sociedad, cada organización decide a qué parte de la visión ideal se comprometen a entregar
y a alcanzar o acercarse, pudiendo cada una de ellas derivar su misión comprensiva de
acuerdo a ello.
Por ejemplo, la misión relacionada con la Visión Ideal de una institución financiera, podría
ser:
Asegurar el éxito continuo de nuestra organización mientras mejoramos la calidad de vida

de la comunidad al proveerle la demostración y logro de iguales oportunidades y acceso
imparcial tanto a soluciones financieras como a un ambiente de trabajo, sin distinción de
variables irrelevantes tales como raza, color, religión, etnia, género ni orientación sexual.
Mientras que muchas organizaciones ya han derivado su misión y visión, el acercamiento

aquí sugerido se construye en lo que ya ha sido realizado y alienta a un cambio desde
declaraciones de propósitos aislados hacia una alineación con la comunidad que comparte.
Para que pueda llevarse a cabo una evaluación útil, las expectativas de los participantes en la
evaluación deben ser alineadas con la Visión Ideal y la misión relacionada: el propósito
último de la organización se relaciona con el éxito a largo plazo, basado en el logro de cubrir
las necesidades (no sólo los deseos) de los stakeholders externos, agregando valor a la
sociedad.
En una detección de necesidades formal y/o en el proceso evaluativo, esto se utilizaría como
la base para derivar los indicadores de medición relevantes para la calidad de vida y otros
elementos de la Visión Ideal (como veremos más adelante en este libro). Resulta
particularmente importante que todos aquellos involucrados en la planificación, ejecución y
61
evaluación, –a todos los niveles de la organización–, entiendan esto, sin embargo, el lenguaje
utilizado para articular esta Visión Ideal puede no incluir siempre los detalles.
Recuerde, la Visión Ideal se trata del destino último para la sociedad que la organización
comparte, no se trata de lo que nos comprometamos a entregar para fines del próximo año.
Como tal, su propósito primario es guiar a la organización y a todos sus miembros hacia un
destino común, estratégico y a largo plazo. Por esto, la pregunta general que primero debe
realizarse a partir de un enfoque evaluativo es: ¿Qué tan cerca de nuestra Visión Ideal y de
nuestra misión nos acercamos como resultado de la solución (o soluciones) que
implementamos? A partir de esta pregunta general surgirán otras preguntas evaluativas
respecto a la visión o estrategia. Por ejemplo: ¿Qué tan bien estamos cumpliendo con
cubrir las necesidades (no sólo los deseos) de nuestros clientes?
A medida que vamos alineando nuestros resultados con la Visión Ideal, los resultados del
próximo nivel organizacional son expresados a través de las misiones organizacionales. Esto
es esencialmente, los resultados a nivel organizacional mediante los cuales la organización
busca como finalidad última alcanzar la Visión Ideal. Por lo tanto, la misión debe ser
derivada a partir de la visión misma. Para continuar con nuestros ejemplos anteriores, debajo
hay algunas misiones que sirven de ejemplo. Al respecto, y dado que esto es lo que la
organización utilizará como estándar de éxito, Roger Kaufman sugiere buscar la perfección
utilizando cifras ideales para los objetivos buscados, en vez de limitar a la organización
enfocándose en lo que puede lograr debajo de su potencial. ¿Por qué habremos de alentar a
los miembros de la organización a alentar la mediocridad en vez de la perfección…?
Misión de una Institución Financiera:

Nos aseguraremos lograr el 100% de la satisfacción tanto de clientes como de empleados, sin
ninguna demanda legal por discriminación, ni malestares o quejas (incluyendo no cumplir
con las responsabilidades fiduciarias), mientras nos acercamos a dominar todo el mercado en
nuestra industria.
Note cómo esta misión está directamente enlazada con la Visión Ideal, al mismo tiempo que
establece resultados más específicos. Así, la pregunta general evaluativa que estableceremos
a este nivel será: ¿Qué resultados de nuestra misión nos ayudó a lograr nuestra solución
(o soluciones)? Otras preguntas evaluativas específicas derivarán como resultado a este
nivel; por ejemplo: ¿Ha tenido la solución que implementamos un impacto sobre nuestras
ganancias?
Finalmente, existen un número de resultados internos que, cuando se encuentran

apropiadamente enlazados, logran alcanzar la misión. Estos resultados internos son a veces
entregados por unidades individuales, equipos especiales pertenecientes a varias secciones, o
tal vez por individuos. Debajo encontrará algunos resultados que servirán como bloques de
construcción a construir la misión, en el caso de una institución financiera.
• Incremento de la presencia en el mercado, de acuerdo a lo indicado por:
62
o Incremento de la retención del cliente de al menos ‘x’, para finales del

próximo año fiscal.
o Incremento de las recomendaciones de clientes de al menos ‘y’, para finales
del próximo año fiscal.
o Incremento de ganancias en cada áreas de servicio de al menos ’z’, para
finales del próximo año fiscal.
• Incremento de la satisfacción del cliente, de acuerdo a lo indicado por:
o Incremento de al menos ‘x’, en los puntajes anuales de nuestra encuesta de
satisfacción al cliente.
o Disminución de quejas/malestares de al menos ’y’.
o Disminución de demandas legales en el área de clientes/potenciales clientes
contra la institución, de al menos ‘z’.
o Nota: la retención del cliente y sus referencias también pueden servir como
indicadores de la satisfacción de los clientes.
o Ningún cliente del banco caerá en bancarrota debido a su compromiso con un
préstamo o ayuda financiera brindada, que fuera inapropiado para su
supervivencia.
o Aumento de ventas a clientes actuales
o Aumento en la cantidad de clientes que han sido recomendados por otros
clientes
• Incremento de la satisfacción de los empleados, de acuerdo a lo indicado por:
o Disminución de la tasa de rotación de al menos ’x’.
o Disminución de la tasa de ausentismo de al menos el 10%.
o Incremento del puntaje en las encuestas de satisfacción de empleados, en al
menos ‘y’.
o Disminución/eliminación de demandas de empleados hacia la institución, en
el área de la discriminación a 0.
Como puede observar, estos resultados constituyen en sí mismos bloques para la

construcción de la misión organizacional, y cada uno de ellos puede a su vez ser sub-
divididos en otros bloques de resultados. Las cifras ideales para los objetivos buscados deben
ser derivadas del proceso de detección de necesidades, y de los métodos utilizados para
lograrlos, dependerán en gran parte de los factores causales que contribuyen a que estos
indicadores se encuentren a niveles por debajo de lo deseado. La pregunta general para
hacerse en este nivel será: ¿Qué resultados internos clave logramos obtener con la ayuda
de nuestra solución (o soluciones)? Y otra pregunta relacionada podría ser: ¿Estamos
logrando establecer los criterios para alcanzar esos resultados? ¿Qué otros impactos tuvo la
solución en nuestros subsistemas de resultados?
Es esencial que aunemos las preguntas de los stakeholders a los resultados importantes en
varios niveles. Indudablemente habrán preguntas respecto a los medios (el mejor, el más
rápido, el más grande), y esto no debe ser pasado por alto, sino enlazado a esos resultados
mediante la formulación de preguntas útiles. Esto puede verse como una oportunidad para el
evaluador, de educar a los stakeholders respecto a cómo crear las cadenas de valor. La
63
pregunta guía en este caso será: Si es más rápido, ¿qué beneficios medibles ha agregado a la
organización, a los stakeholders externos (incluyendo la sociedad), y a nuestros stakeholders
internos? Este tipo de discusión ayudará a los stakeholders a sacar sus propias conclusiones
acerca de lo que realmente es importante. Resulta imperativo que los ayudemos a enfocarse
en los resultados y consecuencias de la solución, dado que eso es lo que habla de su
efectividad. Los métodos asociados nos hablan de la eficiencia, y eso no es suficiente.
3. Derivar Indicadores de Medición

Las decisiones de peso son realizadas en base a la utilización de información relevante,
confiable y válida, relacionada con los resultados deseados, y con las preguntas relacionadas
que deseamos responder (Guerra, 2003). Por lo tanto el corazón de una evaluación estará en
recabar los datos requeridos para responder las preguntas que guíen la indagación. La gente a
menudo termina realizando juicios basados en datos incorrectos o incompletos,
particularmente cuando tratan de forzar las conexiones entre los datos inapropiados y las
decisiones que deben tomar. Esto es un error común cuando dependemos solo en datos
existentes para obtener respuestas, simplemente porque la información ya existe (Kaufman,
Guerra, & Platt, 2006).
Los indicadores son fenómenos observables que están enlazados a algo que no puede ser
directamente observado, y que pueden brindar información que responderá a la pregunta
evaluativa. Los resultados no siempre son observados prolija y directamente. Al medir los
resultados, existen un número de indicadores, o –tomando prestado el término de Gilbert
(1978)–, requerimientos de desempeño que pueden ser relevantes. Por ejemplo, la ganancia
es un resultado de varias mediciones, que colectivamente indican su nivel (por ejemplo:
dinero recolectado; pagos realizados; activos y otras posibilidades). Los indicadores del
servicio al cliente incluyen recomendaciones, retención de clientes leales, cantidad de
cuentas y resultados de encuestas de satisfacción.
La elaboración de cómo se identifican los indicadores clave de desempeño, se encuentra en

el Capítulo 6.
4. Identificación de las Fuentes de Información

Con una lista de indicadores específicos para los cuales recabar datos, el evaluador debe
primero determinar si esos datos pueden ser encontrados. Uno puede encontrar los datos que
está buscando dentro de su propia organización. La existencia de informes de desempeño
pasados y actuales pueden estar disponibles, pero pueden haber sido realizados por diferentes
individuos en su organización y por diferentes razones (Guerra, 2003). El mejor lugar para
comenzar es allí, ya que la revisión de ese material existente puede hacer que el proceso
resulte mucho más eficiente.
64
El acceso actual a información no tiene precedentes. Las telecomunicaciones y otras

tecnologías pueden ser utilizadas para enlazar informes, documentos, bases de datos,
expertos y otras fuentes, como nunca antes había sido posible (Internet es un gran vehículo
para el enlace de estos elementos). Existe un gran número de compañías, agencias
gubernamentales e instituciones de investigación, tanto a nivel nacional como internacional,
que publican una serie de estudios oficiales e informes que pueden resultar valiosas fuentes
para la recolección de datos.
Existen un número de otras potenciales fuentes de datos que usted puede utilizar, pero la
fuente que el evaluador seleccione, dependerá del tipo de datos que esté buscando. Otras
fuentes pueden incluir: expertos, empleados y gerencia. Al igual que otros elementos de la
planificación evaluativa, estas fuentes serán presentadas en detalle en capítulos siguientes.
En el Capítulo 6, encontrará lineamientos adicionales para encontrar las fuentes de datos

apropiadas.
5. Seleccionar los Instrumentos para la Recolección de Datos

Los métodos y herramientas correctos para la recolección de datos se seleccionan en función
a los datos requeridos. Del mismo modo, los datos que uno recaba dependen, y pueden
variar, según los métodos seleccionados. Cuando los evaluadores limitan la información que
recaban por emplear una serie limitada de métodos de observación, basándose en la forma en
que siempre ha sido realizada o en la preferencia personal, aparecen los problemas
(Kaufman, Guerra, & Platt, 2006).
La consideración fundamental en la selección de las herramientas de recolección de datos

apropiadas, debe ser los datos mismos. Si usted está buscando datos cuantitativos tales como
cifras de ventas, no utilice una encuesta donde obtiene la opinión de la gente respecto a
cuáles son esas cifras. Más vale, revise informes de ventas relevantes. En forma inversa, si
requiere conocer las actitudes de la gente, existen varias formas de preguntarles (entrevistas,
grupos de enfoque, y encuestas, incluyen posibilidades apropiadas). Existe extensa literatura
acerca de este y otros métodos de recolección de datos. El evaluador debe realizar la
selección basado en los pro y los contra, específicamente respecto a los criterios importantes
como si el instrumento resulta apropiado en referencia a los datos requeridos, al tiempo, a las
características, a la comprensión, a experiencias pasadas con las herramientas que están
siendo consideradas, y con la factibilidad, entre otros (Guerra, 2003; Witkin & Altschuld,
1995). El “ingrediente secreto” para recabar datos válidos y confiables exitosamente, es la
alineación entre el tipo de dato, la fuente de datos, la herramienta para recabar esos datos y
los procedimientos finales utilizados para el análisis de esos datos.
En el Capítulo 7 encontrará detalles acerca de cómo seleccionar y crear instrumentos para la

recolección de datos.
65
6. Selección de las Herramientas para el Análisis de Datos

Existe un número de técnicas disponibles para el análisis cuantitativo, pero el seleccionar la
técnica adecuada depende no sólo de la escala utilizada para la medición de los datos, sino
también del propósito específico de su análisis. Si su intención es mostrar la posición relativa
de un individuo en un grupo (índices de tendencia central), se preguntará por ejemplo: ¿Qué
vendedor se destaca del resto del equipo? O si en cambio, su intención es describir la
conformación de una serie de datos (índice de variabilidad), se preguntará por ejemplo: ¿Son
las cifras de ventas los suficientemente consistentes para esta sucursal?, o bien, ¿varían
significativamente las cifras de ventas de un empleado a otro? O puede que su intención sea
mostrar un posicionamiento relativo (medición de una tendencia central), preguntándose
entonces: ¿Cómo es el puntaje de desempeño de Jane Doe en comparación con los puntajes
de otras personas de su grupo?
Sin embargo la evaluación se trata de mucho más que la recolección de datos. Una
planificación considerable debe llevarse a cabo antes de en realidad comenzar a recabar
información, al igual que el análisis, síntesis e interpretación de los datos recabados. El
análisis de datos en un esfuerzo evaluativo consiste en la organización de los datos para
descubrir patrones que puedan ser utilizados en el apoyo de hipótesis, conclusiones o
argumentos evaluativos, como resultado de un estudio evaluativo (Kaufman, Guerra, & Platt,
2006); para brindar información útil que resulte en la toma de buenas decisiones.
Un propósito básico de utilizar estadísticas en las evaluaciones es que permite resumir

grandes cantidades de datos de un modo sensible y claro. Bajo esta categoría existen dos
medidas básicas. Una es la medida de la tendencia central, la cual incluye promedio, media y
modo. Estas medidas presentan, en una cifra simple, un resumen de las características de un
grupo completo, como puede ser una cifra promedio de ventas de un vendedor, o una cifra
promedio de reclamos telefónicos solucionados por una persona de servicio al cliente.
La otra categoría bajo resumen estadístico es la dispersión o variación: cuánta variabilidad

existe. Una de las medidas de dispersión más utilizadas es la desviación estándar. Esta
desviación revela cómo un puntaje o cifra grupal se dispersa. Por ejemplo, una desviación
estándar alta encontrada en el número de ausentismos en un grupo de empleados trabajando
en el sector de servicio al cliente, significa que existe una gran variación en el nivel de
ausentismo de una persona a la otra, dentro del grupo. Una clave brindada por Demin y
Jurán, respecto a la calidad de esta medición, es que la variabilidad se puede ver en todo lo
que hacemos. La mejora del desempeño depende de la reducción de la variabilidad, logrando
que cada una de las personas logre el criterio de desempeño requerido/deseado.
Otro propósito de la estadística es que permite la determinación de la relación entre dos o

más eventos (por ejemplo: ganancias y vacaciones/feriados), o puntajes o ítems que
representen estos eventos. Anteriormente se subrayó la importancia de la síntesis para poder
entender las interdependencias entre variables. Al analizar los datos, la relación entre uno o
más ítems resulta igualmente importante. El término utilizado para esta relación en las
66
técnicas cuantitativas es “correlación”, lo cual representa el grado en el cual los ítems están
relacionados, y está expresado en términos de coeficiente (variando de -/+ 0 a 1). Una
correlación positiva entre dos ítems significa que al incrementarse uno de los ítems o
puntajes, el otro también se ve incrementado. Por ejemplo, un buen desempeño escolar puede
estar positivamente correlacionado con técnicas efectivas para tomar notas. Una correlación
negativa entre dos puntajes (representados por un coeficiente negativo) significará por otro
lado, que si un ítem se incrementa, el otro decrece. Algo importante para mencionar aquí es
que la correlación no significa causalidad. Esto es, que una relación entre dos variables no
indica automáticamente que el cambio en una de ellas cambiará la otra. Una posibilidad
alternativa es que una tercera variable haya causado un cambio en las dos variables
consideradas. Nuevamente, se intima al evaluador a mirar la información recabada dentro del
contexto del sistema de desempeño completo, notando un listado de factores completo (o lo
más completo posible) que puedan haber impactado el desempeño de los indicadores de
interés.
Las estadísticas también muestran cómo comparar las diferencias en el desempeño de dos
grupos. Cuando el desempeño mejora luego de una intervención para la mejora del
desempeño humano (HPI intervention), la pregunta que surge es: ¿Existe una diferencia
entre el desempeño de un grupo que ha recibido la intervención/solución y el grupo que no la
ha recibido?
Los datos cualitativos también son sujetos de rutinas analíticas. Las observaciones
cualitativas pueden ser ordenadas por fuente o por impacto. El revisar la frecuencia de las
observaciones cualitativas comenzará a fusionar la información cualitativa en cuantitativa. El
reflejar y buscar continuamente por patrones existentes dentro de la información –aún
cuando el proceso de recolección de datos esté llevándose a cabo–, puede ayudar a los
evaluadores a ajustar y establecer nuevos enfoques, en forma pro-activa, respecto a la
recolección de datos que brindarán información útil.
El Capítulo 8 de este libro brinda una exposición detallada de recomendaciones tanto

cualitativas como cuantitativas, brindando referencias relevantes adicionales.
Tanto la serie de datos cualitativos como cuantitativos deben ser obtenidos de fuentes de
datos válidas. Una vez que esto se ha realizado, usted debe revisar la información obtenida
para asegurarse que es relevante a cada uno de los temas o preguntas evaluativas de estudio.
Cualquiera que sean las herramientas estadísticas que haya elegido, el evaluador debe
asegurarse de que sean los vehículos correctos para responder a las preguntas evaluativas.
Diferentes preguntas demandan diferentes análisis, así como diferentes niveles de medición.
Utilice la herramienta correcta para la tarea específica en la que se encuentra trabajando. Si
uno o varios de sus stakeholders nota que existe una falla en sus métodos de análisis, o en
cualquier otro elemento de la evaluación, esto pondrá en duda su credibilidad, y la validez de
sus conclusiones y recomendaciones finales.
67
• Interpretación
Mientras que el análisis de datos se enfoca en la organización y resumen de la información,
usted comienza a seleccionar los elementos más importantes de sus hallazgos,
comprometiéndose en el proceso de transformar los datos (una medida de 18), en
información (el número de ítems promedio vendidos por día, por vendedor, en esta tienda es
de alrededor de 18). Sus hallazgos comienzan a ser personalizados, dándole significado a los
números obtenidos mediante el análisis, pero aún no está interpretando lo que significan.
La interpretación incorpora el significado de la información organizada para la generación de

conclusiones plausibles y de soporte. Scriven (1991) enfatiza que los evaluadores deben
llegar a la realización de juicios defensivos, en vez de simplemente medir los objetivos. A
este respecto, el análisis de datos trata con hechos, mientras que la interpretación está
relacionada a juicios de valor. Debido a que este es un proceso innatamente subjetivo, debe
colocarse en él especial cuidado, atención y esfuerzo para asegurar que resulte lo más justo,
abierto, objetivo y realista, bajo los datos y las circunstancias dadas.
Aún los evaluadores más justos y comprometidos con un trabajo bien significativo, se
encontrarán parcializando en alguna instancia. Nuestras percepciones son impactadas por
nuestras experiencias pasadas, nuestras preferencias, valores, hábitos (por ejemplo: el notar
algunos detalles mientras que no vemos otros). Por lo que el articular claramente nuestro
razonamiento, nos ayudará para que las interpretaciones que realicemos sean enlazadas con
los hallazgos, que están por supuesto basados en los datos que analizamos. Como lo
dijéramos antes, esta alineación resulta crítica a través de todo el proceso evaluativo…los
datos que recabamos son indicadores relevantes y válidos de los resultados que queremos
lograr, y que hemos previamente relacionado con preguntas evaluativas importantes, las
cuales queremos responder para que los stakeholders puedan tomar importantes decisiones
acerca de cómo mejorar el desempeño.
7. Comunicación de Resultados y Recomendaciones

La importancia de una comunicación efectiva no puede ser subestimada. Una evaluación
rigurosa no puede hablar por sí misma. El evaluador puede haber implementado una teoría de
evaluación perfecta, pero no servirá de nada si no es capaz de comunicar la importancia y
propósito de: (1) el proceso evaluativo y las actividades asociadas, y (2) los hallazgos
confirmados por los datos encontrados y las acciones que deben tomarse como resultado. Si
el evaluador no puede hacer que la gente se ponga en acción, como resultado de la
evaluación realizada, el objetivo principal no será logrado: crear un cambio positivo (aunque
no necesariamente cómodo).
La comunicación con los stakeholders clave a lo largo del proceso evaluativo los mantiene al
tanto de lo que el evaluador está haciendo, y por qué lo está haciendo, lo que luego
incrementará la cantidad de confianza que depositen en el evaluador y en sus esfuerzos.
Además, le permite a los stakeholders la oportunidad de participar y brindar
68
retroalimentación valiosa. Al momento de la entrega del reporte e interrogatorio final, estos

productos no serán vistos como algo impuesto, sino como algo que ellos ayudaron a crear.
Con este tipo de aceptación, será menor la resistencia a los hallazgos presentados y las
acciones que se tendrán que tomar para mejorar el desempeño.
Más adelante en el libro se presentarán cosas a considerar para una comunicación positiva,
incluyendo medios, formatos, lenguaje, tiempos y otras variables.
Conclusión
Debido a lo nuevo del Proceso para Evaluar Impacto, se ha realizado poca investigación
referente a datos en la utilización de este marco de trabajo, sin embargo se han publicado
varias piezas conceptuales (Guerra-López, 2007a; Guerra-López, 2007b; Guerra-López,
2007c; Guerra-López, 2007d). Este marco de trabajo ha sido aplicado a proyectos de
evaluación con asociados en educación, negocios y salud. Al momento de la preparación de
este manuscrito, se encuentran en preparación dos publicaciones ilustrativas de dichas
aplicaciones.
• Fortalezas:
• Fuerte enfoque en la alineación de desempeño: entre los niveles de resultados
organizacionales; hasta el impacto y valor agregado final; y dentro de cada uno de sus
pasos.
• Brinda lineamientos detallados para asegurar que las recomendaciones sean
implementadas.
• No restringe el enfoque hacia indicadores de desempeño predeterminados (por ejemplo:
reacción, aprendizaje, comportamiento, etc.), más vale se enfoca en encontrar indicadores
de desempeño específicamente apropiados para el objeto a evaluar.
• Resulta apropiado para la evaluación de cualquier tipo de programas e intervenciones de
mejora del desempeño.
• Busca la alineación con otros procesos importantes de la mejora del desempeño (por
ejemplo: la detección de necesidades), mientras las reconoce en forma separada.
• Limitaciones:
• Los pasos del proceso pueden ser percibidos como lineales.
• El enlace con las contribuciones y el ambiente externo puede ser vistos como irrelevantes
para algunos miembros de la organización.
69
Aplicación
Antecedentes
The Visionary Corporation (TVC) es un proveedor líder global de soluciones de información
integradas, para negocios y clientes profesionales. TVC brinda información mandataria, con
la utilización de tecnología y aplicaciones que permite a sus clientes tomar mejores
decisiones, más rápido. La herramienta de ventas EZ Maximizer de TVC (Sales EZ
Maximizer –SEZM) fue creada para mejorar la productividad de los representantes de ventas
a través de un mejor acceso a los datos, así como para mejorar la velocidad de los negocios
realizados. TVC quería saber si sus esfuerzos estaban acarreando los beneficios esperados.
Se le encomendó al evaluador ayudar a los stakeholders a determinar si debían o no
continuar con la utilización de la herramienta, o bien si debían probar algo diferente. El
evaluador pertenecía a la organización (era un empleado de tiempo completo de TVC), y
recibió este requerimiento de su jefe, el director de Capacitación y Desempeño de TVC. Sin
embargo, este no era el cliente directo. El cliente directo era el nuevo Vice-Presidente de
Operaciones de Ventas que estaba presionado (y solventado) la evaluación.
Metodología
Al hablar con su cliente, el evaluador identificó a varios stakeholders de la organización y del
proyecto de evaluación. Estos stakeholders incluían: representantes de ventas que utilizaban
la herramienta para generar cotizaciones; el departamento de Tecnología que había
desarrollado el software; el departamento de Finanzas que gestionaba los fondos para el
proyecto; el departamento de Ingreso de Órdenes, que utilizaba las cotizaciones para ingresar
las órdenes correspondientes; el departamento de Capacitación y Desempeño que había
implementado el programa; gerentes que tomaban decisiones respecto a desarrollos y
cambios; y finalmente, los clientes de TVC. Los intereses de todos estos stakeholders estaban
representados en el comité de evaluación.
El comité de evaluación buscó determinar si la inversión de dinero, tiempo y esfuerzo valían

la pena. Esto requirió la creación de un cuadro claro de alineación entre la herramienta
SEZM y los objetivos operacionales, tácticos y estratégicos de la organización. Basado en
estos objetivos, y en la visión y misión de TVC, el evaluador desarrolló indicadores
relevantes y de medición.
Al discutir el nivel estratégico, los stakeholders expresaron que ellos querían que la
herramienta SEZM les permitiera cumplir con los requerimientos de sus clientes externos.
Los miembros del comité de evaluación estuvieron de acuerdo en que si los clientes recibían
cotizaciones rápidas y precisas, lo que contribuiría a continuar obteniendo la satisfacción de
clientes (que podía ser medido a través de las actitudes de los clientes; el lapso de tiempo que
tenían sus cuentas activas; la actividad de la cuenta–compras, devoluciones, etc.), así como
continuar incrementando las ganancias y un mejor lugar en el mercado. A nivel táctico la
70
herramienta SEZM brindó la oportunidad de incrementar las ventas. Ellos querían rastrear el
total del volumen de ventas, la cifra total de ventas; los ítems vendidos por cliente, y la cifra
de ventas por cliente. A nivel operacional, el evaluador encontró que la estandarización de la
herramienta de cotización SEZM tenía la intención de disminuir el tiempo que les tomaba a
los representantes de ventas el crear una cotización. Esto a su vez permitiría a los
representantes incrementar el contacto con los clientes; lo cual incrementaría la cantidad de
cotizaciones requeridas y enviadas a los clientes. Debido a que los clientes también tenían la
disponibilidad de utilizar la herramienta a través de la interfase en-línea de TVC, el número
de órdenes realizadas y su precisión, también eran importantes. Para apoyar el nivel de
Proceso, la herramienta SEZM reduciría el número de errores en las cotizaciones, así como la
cantidad de tiempo desperdiciada en la identificación y resolución de esos errores.
71
Tabla 4. Listado de Indicadores Relevantes de Desempeño
Nivel Resultados Indicadores Relacionados

• Estratégico • Tener la mayor • Indicador #1: Satisfacción
porción del Continua del Cliente
Mercado en • Indicador #2: Incremento
forma continua. continuo en la participación del
mercado
• Indicador #3: Incremento
continuo en las ganancias
• Táctico • Incrementar las • Indicador #1: Incremento del
ventas volumen general de ventas por la
utilización de SEZM
• Indicador #2: Incremento en la
cifra general de ventas por la
utilización de SEZM
• Indicador #3: Volumen de ventas
por cliente
• Indicador #4: Monto de ventas
por cliente
• Operacional • Incrementar la • Indicador #1: Incremento en el

productividad número de llamados de ventas
de los realizados por los representantes
representantes de ventas
de ventas • Indicador #2: Incremento en el
número de cotizaciones realizadas
por los representantes de ventas.
• Recepción de • Indicador #1: Incremento en el
más número de compras enviados
pedidos/órdenes directamente por potenciales
de compra de clientes.
los clientes
• Proceso • • Indicador #1: Incremento en la
exactitud de las cotizaciones por
la utilización de SEZM
• Indicador #2: Disminución de
tiempo invertido en arreglar
errores de órdenes de compra
72
Estos indicadores clave de desempeño luego se convirtieron en el enfoque central de la

evaluación. Para hacer que este proceso sea más preciso, y para tener en cuenta otros factores
que pudieran estar afectando el desempeño, el evaluador quiso comparar cada indicador con
un criterio de medición preestablecido. Sin embargo, dado que no se realizó una detección de
necesidades formal antes de la implementación del SEZM, el evaluador trabajó con el comité
de evaluación para determinar cuánta mejora se requería para considerar que la herramienta
SEZM valía la pena la inversión. El equipo ejecutivo utilizó datos históricos, informes de
predicción y su propia experiencia y expectativas para arribar a objetivos factibles.
Se utilizaron informes de ventas y ganancias para estudiar las cifras, antes y después de la
implementación de la herramienta de cotización SEZM. Informes especiales de ventas le
permitieron al evaluador medir la satisfacción del cliente, mirando los incrementos en la
actividad de las cuentas de esos clientes. Informes de producción y desempeño también
resultaron útiles en la identificación del incremento en la exactitud de cotizaciones y órdenes,
así como una disminución del tiempo invertido en la resolución de errores cometidos en las
órdenes de compra. También se consultaron informes de la industria para establecer la
porción del mercado, las ganancias y pérdidas para establecer ganancias netas, así como
informes de ventas a clientes para analizar las cifras de ventas y la actividad de las cuentas de
los clientes.
También se realizó una encuesta a clientes para recabar datos acerca de los beneficios
percibidos por los clientes en la utilización del SEZM, en particular, cómo TVG ayudó a
responder a los requerimientos de los clientes. El cuestionario fue breve y aprobado por el
comité de evaluación. Todas las preguntas se enfocaron hacia comportamientos observables
y sujetos a medición, lo que permitió a quienes respondieron el cuestionario, brindar
respuestas pensadas acerca de experiencias reales. Por ejemplo, una de las preguntas fue:
“Cuando utilicé SEZM para obtener una cotización, obtuve toda la información requerida
dentro de los cinco segundos posteriores a presentar el formulario de requerimiento.”. El
cuestionario fue administrado a una muestra estratificada y aleatoria de clientes, a través de
la interfase que SEZM había tenía, durante un período de dos semanas. Luego de hacer una
orden, algunos clientes fueron redireccionados a la pantalla de la encuesta, la cual incluía una
explicación de su propósito, el tiempo requerido para completarla, una declaración de
anonimato, y una oferta del 5% de descuento en su próxima compra, si completaban el
cuestionario.
Para obtener la información requerida para la evaluación, los miembros de los departamentos
que utilizaban SEZM (ventas; gerencia de ventas; departamento de recepción de órdenes de
compra) fueron elegidos para participar en grupos nominales. El facilitador les pidió a los
participantes que compartan en qué medida –si en realidad había sucedido– el SEZM redujo
el tiempo requerido para rastrear y arreglar errores en las órdenes; y segundo, cómo el SEZM
había contribuido a su productividad. El facilitador escribió las respuestas en un papel que
incluía cualquier cosa desde un incremento significativo en la disponibilidad de tiempo hasta
el enfoque en las ventas, o no haber encontrado el suficiente impacto en sus tareas, o haber
encontrado un impacto negativo en la productividad debido a caídas del sistema, o no haber
73
tenido la funcionalidad necesaria para cumplir con los requerimientos de los clientes. Luego
de apuntar las repuestas durante las sesiones, el facilitador –con la participación y el
consentimiento de los participantes–, hizo un ranking de todas las respuestas.
Hallazgos
Al analizar los datos existentes tomados de informes de ganancias e informes del mercado, el
comité de evaluación encontró que no había incrementos significativos en la porción de
mercado ni en las ganancias de la organización, luego de la implementación del SEZM. Esto
era de alguna manera esperable, debido al poco tiempo de funcionamiento de la herramienta
(alrededor de un año).
La encuesta de satisfacción del cliente fue una actividad relativamente útil, con el 52% de
participación entre aquellos encuestados. Dado que las respuestas estaban basadas en una
escala Likert (escala original), la respuesta media fue estimada como una medición de la
tendencia central. Además, también se estimó el porcentaje de selección de cada una de las
opciones de un ítem, brindadas por los clientes que respondieron la encuesta.
Las cifras de los informes de ingresos por ventas fueron analizadas cuidadosamente, mirando
el número total de las ventas generales, así como el número total de ventas por cuenta
individual. Además, y debido a que estaban tratando con números reales (por ejemplo: dinero
y números de venta), la media o promedio para cada cuenta fue estimada como la medición
para la tendencia central. Los totales reales y promedios fueron comparados con los
promedios obtenidos previamente a la implementación del SEZM. El período “anterior” de
tiempo consistió en los mismos meses del año anterior, confirmando que no hubiera habido
iniciativas de gran relevancia que pudieran impactar esos resultados encontrados en ese
período de tiempo.
El comité de evaluación encontró un incremento neto del 13% en la cifra general de ventas
con respecto al mismo período del año anterior (antes de la implementación del SEZM), lo
cual era casi el doble que la tendencia de incremento en ventas encontrada durante los
últimos 6 años (el crecimiento promedio anual de ventas había sido del 8%). El número
promedio de transacciones por cuentas también había incrementado durante el año último, en
alrededor del 7.5%. Esto también reflejaba un incremento mayor al encontrado en los últimos
6 años, si bien algo más modesto (el incremento promedio de la actividad de las cuentas de
un año a otro había sido de aproximadamente el 5%).
Los informes de desempeño revelaron un incremento consistente en la productividad de los

representantes de ventas. El número total de llamados de ventas fue también comparado entre
antes y después de la implementación de SEZM, y se encontró un incremento, al igual que en
el número de cotizaciones que fueron solicitadas por la fuerza de ventas.
No existían datos disponibles para determinar si la precisión de las órdenes de compra había
incrementado, y por lo tanto, los grupos nominales fueron instrumentos para recabar las
74
percepciones de los empleados respecto al rol del SEZM en el impacto sobre la precisión de
las órdenes de compra y sobre el tiempo antes gastado en arreglar esos errores. Hubo un
consenso respecto a la contribución positiva del SEZM hacia el logro del incremento de
precisión en las órdenes de compra y la disminución del tiempo invertido para revertir
errores cometidos, aunque inicialmente, casi todos los participantes indicaron que la
transición hacia la herramienta no fue fluida o fácil. Durante los primeros dos o tres meses a
partir de la implementación, los empleados tenían que mantener su carga de trabajo habitual,
mientras aprendían a utilizar la nueva herramienta. Esto impactó negativamente sobre sus
números al comienzo, e hizo dificultosa la aceptación de la nueva herramienta, de hecho,
algunos ni siquiera la utilizaron durante las primeras semanas (durante la transición, ellos
podían utilizar la nueva herramienta o los viejos métodos para presentar las órdenes de
compra). Adicionalmente, ningún empleado fue capacitado para utilizar la herramienta antes
de tener que utilizarla. A algunos se les pidió que comenzaran a utilizar la herramienta aún
antes de programar la capacitación, y en algunos casos fue de 6 a 8 semanas. La mayoría vio
al período de transición con falta de coordinación e innecesariamente dificultoso, y algunos
empleados mencionaron que casi se daban por vencidos en su utilización. Una minoría de
empleados mencionó otros temas como que el sistema se caía, lo cual les impedía brindar
una respuesta rápida a los clientes. El sistema sí ayudó, pero sólo cuando funcionaba, y no
había ningún plan de contingencia para la caída del sistema. Un par de otros participantes
indicaron que la herramienta por sí misma resultaba “demasiado inflexible y sin permitir la
adaptación de campos para incorporar información adicional que el cliente estuviera
buscando”. Uno de los factores que les ayudó a afrontar estas limitaciones fue que aquellos
que dominaban y utilizaban el sistema por completo, daban fe de su gran utilidad y
amigabilidad. Otros citaron que la flexibilidad de sus gerentes durante el proceso era
inestimable.
Durante una de las últimas reuniones indagatorias del comité de evaluación, una de las cosas
que resultaron obvias es que mientras que resultaba esencial que la herramienta SEZM
contribuyera a los resultados estratégicos, era demasiado pronto para ver el impacto de la
herramienta sobre los resultados estratégicos a largo plazo. Los datos recabados respecto a la
porción ocupada en el mercado, ganancias y satisfacción al cliente fueron considerados como
primeras medidas de un momento dado, que sería parte de una serie de mediciones
periódicas utilizadas para monitorear estos indicadores. Una de las recomendaciones clave
fue que cualquier cambio de estos indicadores debía ser considerado en el contexto de toda la
gama de factores que pudieran haberlos impactado. Un indicador que apoyó la utilidad de la
herramienta fue la actitud de los clientes, según lo medido por el breve cuestionario. La
mayoría de los clientes encuestados –el 82%– dijo que la herramienta SEZM cubrió sus
requerimientos consistentemente y en tiempo y forma. Adicionalmente, la mayoría de ellos –
cerca del 76%– indicaron que preferían este método de cotización más que el anterior. Dado
que todos los ítems del cuestionario obtuvieron respuestas favorables de al menos el 55% de
los clientes encuestados, los stakeholders se sentían confiados de que la herramienta estaba
en realidad cubriendo las expectativas de sus clientes. Los stakeholders acordaron monitorear
la satisfacción del cliente en forma anual, y adaptar el cuestionario instrumento para que
refleje los nuevos cambios del proceso de cotización. Un incremento en las cifras de ventas
también apoyó la hipótesis de que la herramienta SEZM estaba teniendo un impacto positivo
75
en la organización. Después de todo, el último año había generado el doble de incremento en

las ventas, de lo que era usual en cada de los últimos seis años. Sin embargo, uno de los
stakeholders, el Vice-Presidente de Ventas y Marketing, señaló que el incremento no podía
ser interpretado fuera de contexto, específicamente, las cifras de la industria y las tendencias.
Él presentó su propio conjunto de datos al resto del grupo, lo cual indicaba que la industria
en general había notado un importante incremento en las ventas respecto al año pasado, un
incremento ¡casi tan alto como el que había experimentados TVG! Por lo que el incremento
en las cifras de ventas de TVG no podía ser únicamente atribuido a la implementación del
SEZM. El grupo estuvo de acuerdo en que mientras otros indicadores parecían apoyar el
impacto positivo del SEZM, ellos serían conservadores y acordaron que el impacto en las
ventas no resultaba conclusivo. Una de las recomendaciones resultantes de este punto, fue
que las cifras de ventas y la actividad de las cuentas continuarían siendo monitoreadas, no
sólo por el departamento de ventas, sino por todos los departamentos. Cualquier
departamento que implementara algún cambio o herramienta nueva, procesos o formas de
hacer las cosas, le informaría a los otros departamentos y en forma conjunta rastrearían el
impacto que esto hubiera tenido en las ventas tanto a corto como a largo plazo. Como uno de
los grupos lo refirió, “Simplemente existen demasiados factores en juego para que una
persona o departamento lo rastree. Nosotros tenemos que rastrear las cosas correctas en el
momento correcto. Si nosotros no tenemos los datos para probar que nuestras inversiones se
están pagando, tal vez no se estén pagando…” La tendencia de la industria en general
también brindó el contexto para los datos de desempeño de los representantes de ventas.
Mientras que se había observado un incremento en la cantidad de cotizaciones entregadas por
la fuerza de venta, Karen y el equipo vieron esto bajo consideración del contexto de
crecimiento de la industria. Al menos, pareció que la herramienta le permitió a la fuerza de
venta mantenerse cubriendo una demanda de servicios en crecimiento, y consecuentemente,
mayores cotizaciones. Para una visión más completa, los datos de desempeño fueron
revisados conjuntamente con los datos de técnica del grupo nominal. La información pareció
sugerir que el SEZM fue una herramienta útil para ventas, así como para la gente de ingreso
de datos. La mayoría de los stakeholders se sintieron algo molestos por el malfuncionamiento
encontrado en la implementación del proceso, y lo atribuyeron a una pobre planificación por
parte de la gerencia y aquellos a cargo de la implementación de la herramienta. La discusión
posterior reveló que no hubo un responsable “gerente del proyecto” para supervisar todos los
aspectos de la implementación. Ellos arribaron a la conclusión de que esto podría haber
potencialmente “hundido” toda la iniciativa del SEZM, y mientras que afortunadamente esto
no había ocurrido, no debería ocurrir nuevamente en la implementación de iniciativas
futuras. Una de las sugerencias específicas realizadas fue la distinción entre un rol de
“patrocinador” y rol de “gerente del proyecto”, siendo el último el responsable último del
éxito del proyecto (estableciendo objetivos y metas, balanceando los recursos, etc.), y el
primero siendo responsable de entregar todos los recursos requeridos al gerente del proyecto,
incluyendo recursos materiales y humanos, así como la autoridad requerida para la
realización del trabajo. También fue sugerido un protocolo de proyecto, para una
estandarización de elementos clave para la implementación exitosa de un proyecto sea
diseñada, distribuida y aplicada en toda la organización. El grupo de stakeholders también
sugirió que se tomara a la caída de los sistemas como algo prioritario, ya que cada minuto
que el sistema no anduviera, representaría una pérdida en las ventas.
76
Los datos de los empleados también sugirieron que la herramienta había sido de gran ayuda,
y en general, un mejor modo para crear y presentar las cotizaciones. También indicaron que
de acuerdo a su estimación, la herramienta había contribuido positivamente al incremento de
su productividad, ya que dedicaban un tiempo muy significativamente menor al rastreo y
arreglo de errores en las órdenes. En general, la información pareció sugerir que la
herramienta SEZM valía la pena la continua inversión, al menos hasta que el nuevo conjunto
de datos demostrara lo contrario. La información también reveló algunas formas de mejorar
la herramienta en sí y la implementación de iniciativas futuras.
Uno de los resultados claves de este proceso fue que los stakeholders sugirieron o apoyaron
el monitoreo continuo de varios indicadores, antes de arribar a conclusiones definitivas
acerca del bajo impacto percibido de esta solución. Es decir, desde ese punto en adelante, las
decisiones criticas serían tomadas en base a datos relevantes, confiables, y validos.
77
Capítulo 5
Evaluar Evaluaciones
Introducción
Allí donde los seres humanos se encuentren involucrados, seguramente encontrará
imparcialidad. La imparcialidad puede ser encontrada aún en la investigación científica más
básica. Por ejemplo, las preguntas que son cuestionadas y estudiadas pueden ser una función
de los intereses personales de los investigadores mismos, y por lo tanto, lo que se conoce
acerca de un tema en particular, es conocido porque alguien, o algún grupo eligió seguir ese
camino de investigación, no necesariamente porque eso es todo lo que hay para saber, o
porque es de hecho el único camino de investigación en el área del estudio en cuestión.
Así que los evaluadores también pueden estar influenciados por experiencias pasadas y
persuasiones de aquellos que toman decisiones, acerca de cómo y dónde conducir una
evaluación. Desde la elección de las preguntas evaluativas, pasando por los resultados,
indicadores y actividades que serían apropiadas para responder tales preguntas, hasta aún las
mismas herramientas de análisis, todo influencia las conclusiones de una evaluación. A
veces, el mero propósito de convocar una evaluación puede –especialmente a nivel
encubierto– ser un simple ejercicio político, en vez de una invitación honesta y abierta para
mejorar un programa o solución de desempeño, lo cual potencialmente conlleva al sabotaje
de las actividades como el bloqueo de acceso a datos relevantes, confiables y válidos, o
como descartar los hallazgos y recomendaciones que no confirmen los reclamos de un grupo
de interés especial, entre otras cosas.
El evaluar las evaluaciones, o conducir una meta evaluación, es tal vez una de las cosas más
importantes que uno puede hacer para confirmar la fidelidad de cualquier emprendimiento
evaluativo. El establecimiento de un mecanismo mediante el cual uno pueda establecer la
validez de su trabajo, es una práctica común en varios campos, desde contadores hasta
médicos, desde maestros hasta proveedores de servicios. Es una obligación profesional de los
evaluadores y profesionales dedicados a la mejora del desempeño. Para los clientes de la
evaluación, una meta evaluación los puede ayudar a decidir si deben aceptar e implementar
las conclusiones y recomendaciones de la evaluación.
Ciertamente, este tipo de evaluación tampoco tiene que realizarse luego de completada la
evaluación inicial, sino que puede ser un proceso paralelo que ayude a los evaluadores a
utilizar una retroalimentación relevante y a tiempo para mejorar el proceso evaluativo en
general. De hecho, Scriven (1968) presenta que la meta evaluación puede ser formativa, para
asistir al evaluador en el diseño y conducción de una evaluación sólida; o acumulativa, para
78
brindar al cliente un conocimiento independiente de la competencia técnica del evaluador y

del informe evaluativo.
Definición
Stufflebeam y Shinkfield (2007) definen a la meta evaluación como:
Una evaluación para ayudar a detectar y ocuparse de problemas, a asegurar la

calidad, y a revelar las fortalezas y limitaciones de una evaluación. Es el proceso de
delinear, obtener y aplicar información descriptiva e información de juicio –acerca
de la utilidad, factibilidad, propiedad y exactitud de una evaluación y su naturaleza
sistemática, ejecución competente, integridad y honestidad, respeto y
responsabilidad social – para guiar la evaluación e informar sus fortalezas y
debilidades. La meta evaluación es una evaluación profesional de los evaluadores.
Pág. 705
Los autores describen al rol de un meta evaluador, como un rol que “puede ser extendido
para lograr el valor, mérito y probidad de todo lo que es y hace la profesión, servicios de
evaluación, uso de la evaluación, entrenamiento evolutivo, investigación evaluativa y
desarrollo organizacional.” (Pág. 705)
Stufflebeam y Shinkfield (2007) proponen una serie de calificaciones para los meta
evaluadores, principalmente:
• Conocimiento de las series alternativas de estándares profesionales para evaluar,

conjuntamente con una habilidad para elegir y aplicar estándares que se adecuen a la
evaluación particular asignada.
• Experiencia metodológica que se aplique conjuntamente con una compresión del objeto a
evaluar.
• Experiencia y competencias para cubrir por completo la necesidad de los clientes
respecto a una meta evaluación.
• Honestidad, integridad y respeto por los individuos y la sociedad.
• Habilidades en la negociación de contratos formales de meta evaluación, y
• Habilidad para comunicar efectivamente y colaborar con otros stakeholders de la meta
evaluación.
79
Estándares de Evaluación
Mientras que la meta evaluación ha existido tal vez tanto como la evaluación, fue en los años
1960 cuando los evaluadores comenzaron a disertar formalmente acerca de ella (Fitzpatrick
et al., 2004). Algunos de los primeros trabajos notorios al respecto fueron de Scriven (1967;
1974), Stake (1970) y Stufflebeam (1968). La mayoría de los evaluadores estaban a favor de
una evaluación de calidad de una evaluación realizada, dirigiéndose hacia la meta evaluación
como guía o estándar para asociarse a los clientes de la evaluación realizada, para que
puedan evitar aquellas evaluaciones que resultarían en pérdidas o pequeños valores
agregados. Al incrementarse los criterios y listados para juzgar la calidad de una evaluación,
también se acrecentó la confusión entre los evaluadores y clientes de la evaluación, lo cual
fue de hecho la guía más útil.
En 1975, Daniel Stufflebeam del Western Michigan University’s Evaluation Center (Centro
de Evaluación de la Universidad Western Michigan) tomó la iniciativa para desarrollar una
serie de estándares comprensibles y universales, dirigidos específicamente a las evaluaciones
del área educacional. Esta iniciativa fue supervisada por un Joint Committee on Standards
for Education Evaluation –The Joint Commitee– (Comité Conjunto de Estándares para la
Evaluación en la Educación), y como resultado se establecieron por ese comité los
Estándares para la Evaluación de Programas, Proyectos y Materiales Educacionales
(Standards for Evaluation of Educational Programs, Projects, and Materials –Joint
Committee, 1981; Fitzpatrick, et al., 2004). Los Estándares han sido actualizados (1994) y
son actualmente utilizados en varios escenarios, brindando un lenguaje común y una serie de
reglas para afrontar una variedad de temas relacionados con la evaluación.
Los Estándares brindan un marco de trabajo comprensivo para la meta evaluación. Los
estándares pueden ser utilizados durante las etapas de planificación de una evaluación,
durante la etapa de implementación para monitorear el progreso, y en la conducción de una
auditoría final de una evaluación implementada. Existen 30 estándares que se adecuan a
cuatro categorías: utilidad, propiedad, factibilidad y exactitud. En la Tabla 5.1, presentada
debajo como referencia, se brinda un listado de estos estándares, los cuales no serán
discutidos extensamente. Se recomienda al lector consultar dichos estándares (Standards by
Joint Comité, 1981).
80
Tabla 5.1 Listado de Estándares para la evaluación de programas, 1994
Estándares de Utilidad. Establecidos U1. Identificación de Stakeholder

para asegurar que la evaluación U2. Credibilidad del Evaluador
servirá a las necesidades de U3. Alcance y Selección de la Información
información, de los clientes de la U4. Identificación de Valores
evaluación referida. U5. Informar Claramente
U6. Informar Puntualidad y Diseminación
U7. Impacto Evaluativo
Estándares de Factibilidad. F1. Procedimientos Prácticos
Establecidos para asegurar que la F2. Viabilidad Política
evaluación será realista, prudente, F3. Relación Costo-Efectividad
diplomática y frugal.
Estándares de Propiedad. Establecidos P1. Orientación de Servicio
para asegurar que la evaluación será P2. Acuerdos Formales
conducida legalmente, éticamente y P3. Derechos de Sujetos Humanos
con la debida consideración del P4. Interacciones Humanas
bienestar de aquellos involucrados P5. Logro Completo y Justo
y/o afectados por la evaluación. P6. Declaración de Hallazgos
P7. Conflictos de Interés
P8. Responsabilidad Física
Estándares de Exactitud. Establecidos A1. Documentación del Programa
para asegurar que la evaluación A2. Análisis del Contexto
revelará y transmitirá la A3. Descripción de Propósito y Procedimientos
información técnica adecuada A4. Fuentes de Información Defendibles
respecto a las características que A5. Información Valedera
determinan el valor o mérito del A6. Información Confiable
objeto evaluado. A7. Información Sistemática
A8. Análisis de la Información Cuantitativa
A9. Análisis de la Información Cualitativa
A10. Conclusiones Justificadas
A11. Informe Imparcial
81
A12. Met evaluation
Vale la pena notar que los Estándares surgieron primariamente intencionados para objetos
educacionales y de entrenamiento a ser evaluados, y no se aplican fuera de las áreas de
educación y entrenamiento. En la evaluación de otras intervenciones para la mejora del
desempeño, y la meta evaluación relacionada, se aconseja a los evaluadores y meta
evaluadores el uso de estos estándares como una fuente potencial de criterios, pero que
además deben considerar criterios externos apropiados para sus situaciones y contextos
evaluativos.
Stufflebeam y Shinkfield (2007) también precaven acerca de que los estándares fueron
desarrollados expresamente para los Estados Unidos de Norteamérica y Canadá, y que el
Joint Committee recomendó que otros países consideraran para ellos los estándares que les
resultaran más apropiados y útiles. Al momento de escribir estas palabras, el mundo es
testigo de guerras, en las cuales los temas relacionados con los derechos humanos, la
libertad, el derecho a la privacidad, la libertad de información, y otros asuntos en juego. Por
lo que los desafíos de transferir estos estándares a otros países no son difíciles de imaginar.
82
Sección 2
Herramientas y Técnicas de Evaluación
83
Capítulo 6
Datos
Una de las premisas centrales de la evaluación y la mejora del desempeño, es que utilicemos
datos completos y relevantes para hacer nuestras interpretaciones y generar recomendaciones
acerca de cómo mejorar el desempeño. Desafortunadamente, un error que es cometido muy a
menudo, es forzar las conexiones entre los datos que ya están disponibles y las preguntas
evaluativas. En realidad no hay nada malo (más vale lo contrario) en la utilización de datos
que ya se encuentran disponibles, si es que en realidad son relevantes y se adecuan a las
respuestas de las preguntas que hemos formulado, el hecho es que en muchos casos, no
resultan relevantes ni apropiados. La lógica que se suele usar resulta inversa. Esto es, que la
gente mira a la información disponible y luego se hace las preguntas cuyas respuestas están
disponibles. Lo que se pierde de vista son las preguntas importantes que no se derivan
naturalmente de esos datos…esas preguntas que deben ser formuladas y respondidas, pero
sobre las cuales no tenemos datos aún.
Definición de Datos
Para los propósitos de la evaluación, los datos pueden ser cualquier informe documentado
acerca de algo –un evento, un desempeño, un resultado–, que haya tenido lugar durante el
período estudiado, o que haya acontecido en otro momento pero sea relevante a la
evaluación. Los datos son lo que usted quiere conocer para responder las preguntas
evaluativas que hayan acordado responder. Los datos pueden incluir índices de retención de
cuentas, índices de producción, informes de incidentes, dominio y aplicación del contenido
de un programa de capacitación u otros esfuerzos e iniciativas de Desarrollo de Recursos
Humanos, resultados de cuestionarios realizados, notas de observación, votaciones que
expresen opiniones, fallecimientos, lesiones, quiebras, litigios legales resueltos con éxito,
premios, etc. Todos estos recursos corresponden a la definición de datos (por ejemplo: todo
ello puede acontecer en el flujo de eventos bajo estudio, o constituyen elementos observables
y relevantes para el estudio mediante una cadena racional o de lógica). Sin embargo, puede
ser que todos los datos no sean del mismo peso para el alcance de una conclusión imparcial,
y algunos datos pueden tener una influencia negativa y predisponer las conclusiones en una u
otra forma 5. Aquí hay algunas otras cosas para considerar acerca de los datos, para poder
mejorar el éxito de todas las funciones de su organización, y para encontrar qué es lo que le
está agregando valor, y qué no. Mientras vea cada uno de los siguientes elementos, mírelos
dentro del contexto de lo que usted y su organización están haciendo ahora, podrían hacer en
el futuro, y cómo usted puede utilizar los datos de desempeño para asegurar su éxito.
5
Información es el dato que puede llevar a la toma de una decisión exitosa.
84
Características de los Datos

Las decisiones importantes están directamente relacionadas a lo apropiados que resulten los
datos utilizados para tomarlas. Por lo que los datos deben contar con tres características
críticas:
• Ser Relevantes: Directamente relacionados a las preguntas (principales y específicas)

que queremos y debemos responder.
• Ser Confiables: Rigurosamente medidos, de confianza y consistentes en el tiempo.
• Ser Válidos: Verdaderos indicadores de los resultados que queremos medir; mediciones
de lo que en realidad debemos medir.
El reconocer y asegurar estas características resulta esencial, pero no necesariamente fácil.
En las evaluaciones –o investigaciones de cualquier tipo–, existen piezas de información que
fluyen en muchas direcciones. Entonces, ¿cómo separamos los indicadores relevantes,
confiables y válidos de aquellos que son irrelevantes, que brindan percepciones erróneas, que
constituyen malas interpretaciones o resultan inapropiados, aunque la gente haya confiado en
ellos en el pasado? Mucha de la gente involucrada en la recolección de datos (ya sea como
fuentes de información, o brindando ayuda para el proceso de recolección) no conocen, muy
a menudo, qué es lo relevante y qué no. Debido a esto, es imperativo que el evaluador
sutilmente eduque, y cree un ambiente y marco de trabajo dentro del cual existan mayores
posibilidades de capturar datos relevantes, confiables y válidos.
Datos Concretos (Hard Data)

Los datos concretos tratan con más que sólo números y medidas, se trata de datos que sean
independientemente verificables mediante fuentes externas (Kaufman, Guerra & Platt, 2006).
Los números por sí mismos no constituyen datos concretos, sino que deben conformar
hechos verdaderos que sean verificables. Por ejemplo, mientras que las respuestas a
cuestionarios pueden ser expresadas en números –como se hace en las escalas Likert–, esto
no hace que tales resultados constituyan datos concretos…ya que aún no se puede decir que
los datos estén basados en información independiente y verificable (más en el próximo
párrafo). Muy a menudo la información concreta no consiste en la medición de datos que
cuantifiquen un desempeño relevante, sin embargo, si usted realizará operaciones
estadísticas con datos numéricos, debe considerar la escala de medición utilizada. Si usted
recaba información nominal y utiliza una rutina estadística que asume escalas de intervalos o
proporción (Interval or Ratio scales) –discutidas más adelante en este libro–, esto lo llevará a
errores de interpretación. Si fuera posible, realice las mediciones de la evaluación utilizando
términos de escala de Intervalos o Proporciones –si un tratamiento estadístico es en realidad
posible–, ya que esto le permitirá interpretar apropiadamente los resultados de mediciones
que sean verificables.
85
Datos Abstractos (Soft Data)

Los datos abstractos son actitudes y percepciones que no pueden ser independientemente
verificables. Están típicamente expresados como opiniones, aunque usted pueda ciertamente
expresarlos en números, como en el caso de la escala de Likert para ítems de un cuestionario.
Mientras que también son importantes, el hecho de que se trate de opiniones individuales y
privadas (aún cuando estén en consenso con las opiniones de otros), significa que no existe
un modo independiente de verificarlas. ¿Cómo le decimos a alguien que lo que ellos sienten
–o dicen sentir–, no es cierto? Una de las formas de mejorar la utilización de datos abstractos
es triangularla con otros datos, mediante diversas fuentes. Esto es particularmente deseable
para identificar los datos concretos apropiados, y lograr apoyar la evidencia preliminar.
Por ejemplo, supongamos que se ha conducido una encuesta de servicio al cliente, y que la
misma logró una puntuación casi perfecta. Mientras que algunos podrían decir que la
satisfacción del cliente puede ser inferida como excelente en este caso, yo prevendría sobre
el hecho de que lo que la evidencia sugiere es que únicamente la opinión de aquellos
encuestados denota satisfacción; o que simplemente eligieron decir que estaban satisfechos
en el momento en que se les preguntó. Si incluyéramos luego nuestro conjunto de evidencia:
estadísticas de retención de clientes, cantidad de tiempo de cuentas activas, cuentas cerradas
dentro del período definido, y total de ventas por cuenta, lo que muy posiblemente podríamos
observar es que estos indicadores no cumplen con los objetivos y expectativas deseados,
independientemente de cuáles hayan sido las opiniones de satisfacción de los clientes. El
punto es que las opiniones acerca de la satisfacción son diferentes a los comportamientos
observables, indicativos de esa satisfacción… estos indicadores de servicio al cliente no
parecen ser positivamente correlacionados con los otros indicadores financieros, que
históricamente se consideran correlacionados…Uno podría decir que los clientes están
satisfechos, pero un indicador más válido sería aquel que demuestre que los clientes son en
realidad clientes leales y activos de la organización.
Mientras ciertas cosas como la representatividad de las muestras y la calidad del cuestionario
pueden haber alterado los resultados de la encuesta, aún la encuesta mejor diseñada e
implementada (y sus instrumentos), recabará opiniones…que como todos sabemos, pueden
resultar en contraste directo respecto a nuestro comportamiento.
Cualitativo y Cuantitativo
Los términos cualitativo y cuantitativo son términos relacionados y esenciales que se refieren
tanto a los datos como a las técnicas utilizadas para la recolección de esos datos. La técnica
86
cualitativa requiere una observación y descripción cuidadosa y detallada, expresada mediante

una narración descriptiva, en vez de cifras (McMillan, 1992). Algunas formas apropiadas
para recabar este tipo de datos incluyen: observaciones, entrevistas, encuestas, revisión de
documentos existentes, y casos de estudio. Las técnicas cuantitativas son utilizadas para
establecer los hechos en forma numérica, basados en el desempeño y consecuencias en
realidad observadas, para predecir y para mostrar relaciones causales. Este tipo de datos
puede ser recabado mediante exámenes, mediciones e instrumentos de medición, sólo para
nombrar algunas alternativas. Una vez más, la distinción debe resultar clara, ya que suele
muy a menudo, verse empañada.
Por ejemplo, las encuestas de escala Likert, donde se les pide a encuestados que seleccionen
una respuesta que varíe de un fuerte desacuerdo a un fuerte acuerdo; o una variación que
cubra desde nunca hasta siempre, tienen a menudo números asociados con cada una de las
opciones de respuesta. Estos números son luego utilizados para la realización de cómputos
matemáticos, tales como la estimación de la respuesta promedio. Sin embargo, estos números
son meramente símbolos de una categoría cualitativa; no representan cifras reales. Aún
cuando estos datos abstractos sean cuantificados con la estadística descriptiva correcta, para
resumirlos –como puede ser un puntaje medio–, nunca debemos olvidar que estamos en
realidad tratando con opiniones.
La distinción entre cualitativo y cuantitativo no tiene que ser para el evaluador un sí o no,
esto o lo otro. El comenzar una evaluación con una observación cualitativa puede ayudar a
ordenar temas no previstos que surgen en cualquier estudio. Adicionalmente, los datos
cualitativos pueden ser suplementados con información cuantitativa y con un poco de
trabajo, los datos cualitativos pueden ser aún convertidos en –o expresados como– datos
cuantitativos (por ejemplo, el 70% de los participantes indicaron un fuerte acuerdo con la
pregunta #5), brindando una base directa para las interpretaciones. Por ejemplo, las opiniones
cualitativas pueden ser recabadas y contadas. Sólo piense en la importancia de la votación en
años de elección, donde las estadísticas cuantitativas son a menudo la base para la toma de
decisiones en la campaña electoral.
Escalas de Medición
Una de las cosas clave para considerar en la recolección de datos es la utilización del nivel de
medición apropiado. Existen cuatro niveles de medición que poseen sus características
propias y únicas:
• Nominal, esencialmente utilizada para nombrar,

• Ordinal, para transmitir un orden de posicionamiento o jerarquía,
87
• Intervalo, además de transmitir un orden de posicionamiento, transmiten intervalos

iguales, y
• Proporción, además de todas las características previas, involucra un punto cero.
La Tabla 6.1 ilustra las características únicas de cada escala, y ejemplos de datos para cada
una de ellas.
Tabla 6.1 Escalas de Medición
Escala Características Ejemplos

Nominal • Utilizada para etiquetar o • Género
describir. • Etnia
• Las categorías son • Nivel Educacional
mutuamente exclusivas. • Ocupación
• No se coloca ningún valor
ni orden en las categorías.
Ordinal • Más precisas que las • Escalas Likert que varían de un
nominales. fuerte desacuerdo a un fuerte
• Utilizadas para establecer acuerdo.
un orden de posicionamiento. • Ordenamiento de respuestas de
• No hay suposiciones de más preferidas a menos preferidas.
medición e igualdad de • Ordenamiento de respuestas de
distancias entre las categorías más importantes a menos
(por ejemplo: los datos importantes (por ejemplo: 1; 2; 3;
ordinales pueden medir el 4; 5. o A; B; C; D; E; F).
orden, pero no el grado de • Ordenamiento de respuestas de
separación entre las categorías) alto a bajo.
Intervalo • También puede ser • Puntaje de Exámenes.
utilizado para establecer un • Temperatura en Celsius or
orden de posicionamiento. Fahrenheit.
• Denota la separación entre
las categorías (por ejemplo: el
grado de separación o distancia
entre dos puntos consecutivos
es igual, sin importar el lugar
que ocupan en la escala –la
distancia entre 2 y 3 es igual a
la existente entre 17 y 18).
• No existe un punto 0
absoluto (por ejemplo: un
valor de 0 no implica la
ausencia absoluta de algo).
Proporción • Incluye características del • Dinero
88
nivel previo. • Costo de producción

• Adicionalmente, tiene un • Distancia
punto 0 absoluto. • Peso
• Temperatura en Kelvin
Los datos nominales y ordinales son usualmente asociados con los datos cualitativos,
mientras que los datos tipo intervalo o proporción con los datos cuantitativos.
Definición de Datos Requeridos a partir de Objetivos de

Desempeño
Una de las fuentes fundamentales para la derivación de preguntas evaluativas útiles, es
nuestro listado de objetivos de desempeño. Estos objetivos de desempeño deben ser el
producto de un proceso de detección de necesidades, en el cual cada una de las necesidades
identificadas y seleccionadas para cubrir, hayan estado claramente expresadas como
objetivos de desempeño. Los objetivos de desempeño deben incluir quién o qué entidad es
responsable por el logro; el logro real a ser observado; qué criterios de medición se utilizarán
para determinar si el resultado ha sido logrado satisfactoriamente; las condiciones bajo las
cuales el resultado será aceptable (Mager, 1997). Los objetivos tipo Mager, establecen
simplemente hacia dónde se dirige usted y como saber si ha llegado.
Algunos evaluadores, como Mohr (1992), limitan el enfoque de sus estudios al análisis de
impacto de sólo un resultado por programa. De acuerdo a sus palabras, Mohr no considera el
hecho de que el programa “valga o no la pena”, para concentrarse en la relación lógica entre
el programa y el resultado seleccionado. Lo que para uno es el logro en la precisión para
describir relaciones, para otros es una forma de evitar el tema central. El énfasis de este libro,
por ejemplo, argumenta que el criterio primordial para la evaluación es que el programa
valga o no la pena, considerando si el programa suple necesidades válidas 6. En el caso de
Mohr, el deseo de precisión (y el evitar consideraciones políticas) ha limitado la metodología
y el enfoque del estudio de evaluación. Otros evaluadores como Stake (2004) arrojan una red
mucho más amplia, adoptando metodologías que incluyen la inclusión de controversia,
política y sentido de justicia, para múltiples stakeholders y efectos secundarios.
Lo que hay que considerar respecto a los programas y sus objetivos, es que existen en ambas
jerarquías y redes. Esto es, en la organización –y de hecho en la sociedad–, todo está
relacionado con todo lo demás. Por eso, cuando evaluamos para determinar si una solución
dada –o un grupo de soluciones– cumple con los objetivos que la intencionaron, no debemos
sólo mirar a los objetivos directamente, sino también al objetivo final (y cualquier y todos los
6
Nuevamente, es importante que la evaluación esté basada en necesidades –brechas entre resultados–, y no en
los deseos o formas de eliminar esas brechas.
89
objetivos en medio de estos puntos), al cual debe contribuir. Como ha sido ilustrado en el
capítulo anterior, un marco de trabajo útil está dado por los niveles de resultados de Kaufman
(2000, 2006): impacto social (mejor expresado mediante una Visión Ideal); logros
organizacionales (según lo expresado mediante la misión de las organizaciones); y las
entregas internas (usualmente expresadas como metas u objetivos operacionales). Es en este
último nivel, donde la mayoría de las soluciones o intervenciones tienen influencia más obvia
e inmediata, y debe notarse que este último nivel puede ser subdividido en resultados
soporte. Por ejemplo, un objetivo operacional puede estar relacionado a un departamento, el
cual a su vez tiene objetivos para el desempeño de grupos de equipo y/o individuos, sobre los
cuales se apoya para alcanzar el objetivo operacional. Estas relaciones no solo existen de
forma jerárquicas, sino también en forma de red, puesto que otros resultados suporte de otros
departamento pueden también influir en el logro del objetivo operacional.
Sin embargo, la prueba final del valor de estas soluciones es si han o no contribuido al logro
de los resultados más altos: la misión y Visión Ideal de la organización. Debido a esto, y
para poder lograr una interpretación completa y exacta de la efectividad de la solución,
deben recolectarse datos relevantes que indiquen en impacto completo de las soluciones o
iniciativas sobre los resultados en todos los tres niveles: estratégico, táctico, y operacional.
La Tabla 6.2 ilustra cómo estos tres niveles de resultados pueden ser utilizados para crear un
plan de recolección de datos. La relación entre todas las columnas será elaborada más
detalladamente a través de este libro.
Tabla 6.2 Plan de Flujo para la Recolección de Datos
Evaluación
Nivel Resultados Preguntas Indicador (es)/ Fuente de Herramientas

Requeridos Evaluativas Datos datos para la
requeridos recolección de
datos
Procedimientos
Relevantes
Impacto
Externo/Social
Logros
Organizacionales
Entregas internas
90
y productos
Por ejemplo, si el objetivo de resultado o desempeño hubiese sido:
Para finales del año X, el nuevo Programa de Reclutamiento y Selección de Empleados

reducirá la tasa indeseada de rotación en al menos el 15%, e incrementará el desempeño de
los empleados en sus funciones respectivas, en al menos el 12%, de acuerdo a lo indicado por
el último Informe Anual sobre el Desempeño Organizacional y de Empleados.
La pregunta evaluativa debe estar motivada primordialmente por el objetivo, de la siguiente

manera:
¿Logró el nuevo programa de Reclutamiento y Selección incrementar el desempeño de las

funciones de trabajo afectadas en al menos el 12%, y decreció la tasa indeseada de rotación
en al menos el 15%, a final del año fiscal YYYY, según lo indicado por el Informe Anual
sobre el Desempeño Organizacional y de Empleados?
Es importante que haya pasado la cantidad de tiempo apropiada, para permitir que el
programa tenga un impacto notorio. Para determinar ese período de tiempo, e impacto
notorio, uno debe consultar el informe inicial de detección de necesidades, y referirse a los
objetivos que fueron establecidos en ese momento. Recuerde que un objetivo –expresado en
el formato más útil–, nos debe decir exactamente qué resultado debe lograrse, cuándo debe
producirse ese logro, bajo qué condiciones será logrado, y qué criterios serán utilizados para
determinar si se logró satisfactoriamente. Esos objetivos en sí mismos se convierten luego en
la base para la médula de las preguntas evaluativas.
Derivar Indicadores de Medición

Los indicadores son ocurrencias observables y sujetos a medición, que le dicen algo acerca
de los programas que están siendo evaluados, y debido a eso, conforman una parte crítica en
su recolección de datos. Resulta imperativo que los indicadores mantengan una relación
constante con lo que está siendo indicado. Por ejemplo, una firma consultora contaba con
amplios datos que sugerían que por cada $x gastado en publicidad, las visitas al sitio de la
compañía se veían incrementadas en “y”. Los datos sin embargo, deben ser confiables y
válidos, al igual que lo tienen que ser las pruebas. Idealmente, se igualarán los indicadores de
evaluación con los que fueron desarrollados por una disciplinada detección de necesidades, y
utilizando un marco de trabajo sistémico. Sin embargo, aún si este tipo de detección de
necesidades no ha sido realizado, los indicadores apropiados pueden ser identificados
sistemáticamente durante la evaluación.
Muchos marcos de trabajo establecidos por el desempeño de indicadores han sido propuestos
durante las últimas décadas. Por ejemplo, el Balanced Scorecard de Kaplan y Norton (1992)
91
(talvez es mas conocido); Performance Pyramid (Pirámide de Desempeño) de Lynch y

Cross (1991); el marco de trabajo y determinantes propuestos por Fitxgeral, Johnston,
Brignall y Sivestro (1991); y el Performance Prism (Prisma de Desempeño) de Nelly,
Adams y Kennerly (2002). Todos estos marcos de trabajo pueden guiarlo en la identificación
y rastreo de indicadores de desempeño claves a largo plazo, sin embargo –como la mayoría
de las herramientas–, deben ser adecuados para ajustarse a los requerimientos de una
situación dada. Resulta muy improbable que alguno de los marcos de trabajo mencionados
supla todos sus requerimientos.
Si no existiera un marco de trabajo particular que mejor pueda identificar los indicadores de
desempeño claves, el evaluador puede seleccionar un conjunto específico de indicadores
relevantes al objeto que evaluará. Maskell (1992) propone los siguientes, entre otras
consideraciones importantes, para la selección de indicadores de desempeño: deben estar
específicamente relacionados con los objetivos estratégicos; el entendimiento de que estas
mediciones variarán de organización en organización; y que éstas variarán con el tiempo.
Debajo hay algunos indicadores financieros comúnmente utilizados, sugeridos por Niven
(2002, p.119). Note que estos indicadores financieros convencionales no incluyen el valor
agregado o sustraído en nuestra sociedad compartida, y deben ser entendidos en ese
contexto.
• Activos Totales
• Activos por empleado
• Ganancias como % de activos
• Retorno sobre los activos netos
• Retorno sobre los activos totales
• Margen Bruto
• Ingresos Netos
• Beneficios como % de ventas
• Beneficios por empleado
• Ingresos
• Ingresos de nuevos productos
• Ingresos por empleado
• Retorno sobre el capital (en inglés, ROE)
• Retorno sobre el capital empleado (en inglés, ROCE)
• Retorno sobre la inversión (en inglés, ROI)
• Valor económico agregado (en inglés, EVA)
• Valor de Mercado agregado (en inglés, MVA)
• Valor agregado por empleado
• Tasa de crecimiento compuesta
• Dividendos
• Valor de mercado
• Precio de acciones
• Distibución de accionistas
92
• Lealtad de accionistas
• Flujo de efectivo
• Costos totales
• Calificación crediticia
• Deuda
• Relación Deuda-Capital
• Tiempos de cobertura de intereses
• Tiempos de ventas a cobrar
• Volumen de cuentas a cobrar
• Índice de antigüedad de deudas
• Índice de antigüedad de inventario
• Índice de rotación del inventario
Mientras que estos son todos indicadores financieros, algunos indicadores específicos serán
relevantes para algunas metas financieras, mientras que otros no lo serán (por ejemplo:
crecimiento, beneficios, valor y riesgo gerencial).
La Tabla 6.3 ofrece otros indicadores, agrupados en categorías generales comúnmente

utilizadas.
Tabla 6.3 Indicadores Comúnmente Utilizados por Categorías Generales
Categoría Indicador
Tiempo • Recepción de entregas a tiempo.
• Tiempo cíclico de la orden.
• Variabilidad del tiempo cíclico de la orden.
• Tiempo de respuesta.
• Pronóstico/planificación del tiempo cíclico.
• Variabilidad de la planificación del tiempo cíclico.
Costo • Rotación de inventario de productos terminados.
• Períodos de cobranza
• Costo de servicios
• Tiempo de ciclo entre pago de clientes y pago a proveedores
• Costo total de entrega
o Costo de los productos
o Costo de transporte
o Costos de inventario
93
Categoría Indicador
o Costo de manipulación de materiales
o Administrativos
o Otros
• Costo de exceso de capacidad
• Costo de no cubrir la capacidad
• Devoluciones reingresadas
• Costos de lograr la satisfacción del cliente
• Costo de demandas legales
• Costos de solución de quejas recibidas
Calidad • Satisfacción general del cliente
• Exactitud del proceso
• Proceso perfecto de las órdenes de compra
o Entrega a tiempo
o Orden completa
o Selección exacta de productos
o Libre de daños
o Facturación exacta
• Exactitud del pronóstico
• Exactitud en la planificación
• Cumplimiento del Cronograma Horario
• Beneficios, y beneficios en el tiempo
• Alcanzar requerimientos de responsabilidad organizacional social.
• Seguridad.
Adaptado de: Niven, P. R. (2002). Balanced scorecard step by step: Maximizing

performance and maintaining results.
La Tabla 6.4 ilustra una gama de ejemplos más amplia, y la relación entre los resultados
esperados y los indicadores de medición requeridos para evaluar los resultados.
94
Tabla 6.4 Ejemplo de Enlace entre resultados y datos requeridos
Niveles de Resultados Requeridos Indicador(es)/

Resultados
Datos Requeridos
Impacto Mejora en la calidad de vida • Contribución económica a la

Externo/Social de los clientes y la sociedad. comunidad
• Ingreso social generado por empleo
directo e indirecto
• Accidentes de discapacidad
causados por nuestro producto.
• Fallecimientos atribuidos a nuestro
producto
• Litigaciones relacionas con la
discriminación
Contribuir a la salud de la • Informes de contaminación
comunidad a la que sirve la ambiental tóxica (cumplimiento o
organización violación de certificación)
• Consumo de energía
• Incremento de enfermedades
relacionadas con nuestros
productos, servicios o practicas.
Logros
Organizacionales
Dominio sobre Mercado • Participación en el Mercado
• Imagen pública
Incremento de Ganancias* • Dinero recabado

• Dinero pagado
• Total de Activos
Incremento de la Satisfacción • Puntaje obtenido en la Satisfacción

del Cliente* al Cliente
• Lealtad de los clientes
• Quejas de los clientes
• Promedio de duración de las
cuentas activas
• Número de productos vendidos por
cuenta
• Cuentas retenidas
• Cuentas cerradas
• Referencias
• Taza de devolución
• Número de clientes
95
Niveles de Resultados Requeridos Indicador(es)/

Resultados
Datos Requeridos
Satisfacción de los • Puntaje obtenido en la Satisfacción

Empleados* de los Empleados
• Quejas atendidas
• Quejas documentadas
• Niveles de desempeño
• Tasa de rotación
• Ausentismo
• Promociones
• Sugerencia de los empleados
• Promedio de años de servicio
• Accidentes con pérdida de tiempo
• Tasa de versatilidad
• Productividad de los empleados
Entregas Internas Incremento de Ventas** • Ítems vendidos (servicio o
producto)
• Nuevas cuentas generadas
• Rotación de inventario
• Volúmen de ventas
• Ventas por canal
• Frecuencia (número de
transacciones de venta)
Incremento de la Calidad de • Índices de producción
la Producción • Índices de errores
• Eficiencia
• Retrabajo
• Rechazos
• Tiempo de parada de equipos
• Tiempo de reparación
• Acumulación de trabajo
* La satisfacción y los elementos similares, pueden ser considerados a un mega-nivel o nivel

de impacto externo, cuando se rastrea como continuo; por ejemplo: Ganancias continuas o
clientes continuos. La razón es que si los buenos niveles de estos ítems son sostenidos, y
continuamente mejorados, entonces esto es una indicación que la organización se está
enfocando continuamente en las necesidades y requerimientos externos.
**Las ventas son otro tipo de resultados interesantes, que permiten ver tanto los macro-
resultados o los resultados a nivel organizacional –como los resultados internos–,
dependiendo de cómo la organización clasifica la jerarquía de los resultados. Sin tener en
cuenta el nivel, la idea clave es la de jerarquía…qué resultados apoyan las ventas, y a qué
resultados contribuyen las ventas. Lo que es más importante es representar claramente la
96
relación entre los varios niveles de resultados. Por ejemplo, la producción y alta calidad
contribuye al aumento de ventas, la cual contribuye a las ganancias, y cuando son continuas,
nos podría indicar que la organización está teniendo un impacto externo positivo.
Mientras nos movemos hacia la columna de la derecha, usted puede ver cómo la precisión
con la cual la organización define los resultados para lograr los incrementos, y por lo tanto, la
precisión de los esfuerzos –incluyendo una ubicación motivada estratégicamente para cada
uno de nuestros recursos limitados–, para lograrlos; y más aún, la precisión con la cual
pueden ser medidos para determinar si se han logrado. La alineación estratégica está dada por
este tipo de rigor, articulación y enlaces.
Dado que estos indicadores se convertirán en la base para la planificación de la recolección

de datos, el hacer tales enlaces constituye parte medular de la evaluación. La visión de la
realidad (por ejemplo, lo que en realidad está pasando con nuestros programas –interna y
externamente), será enmarcada por estos indicadores –los cuales a su vez estuvieron
enmarcados por las preguntas evaluativas inicialmente cuestionadas–, y por lo tanto resulta
crítico, asegurar que sean de hecho indicadores justos y completos de los resultados que
queremos lograr.
Considere el siguiente caso de estudio presentado en la Figura 6.1; un ejemplo del sector
público que prepara a la gente para sobrevivir en la sociedad que compartimos:
97
Figura 6.1 Departamento Gubernamental de Servicios para Ciegos
Contexto: La División de Servicios para Ciegos (DSC) es una agencia estatal, dedicada a
brindar una gama de servicios para las personas ciegas y visualmente impedidas del estado, a
través de tres programas principales: el Programa de Rehabilitación Vocacional, y el
Programa Para Vivir Independientemente, el Programa para Chicos y Familias. Mientras que
el enlazar los resultados y los esfuerzos de los tres programas podría haber potenciado la
fortaleza de los tres programas, generando un mejor servicio a la comunidad, el alcance del
proyecto sin embargo fue limitado por los stakeholders al Programa de Rehabilitación
Vocacional.
Uno de los desafíos de trabajar con este programa fue moverse a partir de un enfoque en los
servicios brindados como su razón de ser, hacia un enfoque final en los resultados que sus
clientes requerían y esperaban. En este caso, los resultados a un nivel de Impacto
Externo/Social, eran los de autosuficiencia social, independencia y calidad positiva de vida de
los clientes actuales y potenciales. Conjuntamente con el desafío, existía también una gran
fortuna. Las dos personas clave de tomar decisiones en el Programa de Rehabilitación
Vocacional, y los contactos para este proyecto, contaban con la visión e integridad para
reconocer que los viejos modos de ver y hacer simplemente producirían más de lo mismo, sin
valor agregado demostrable, y con un consenso establecido para la revisión de la misión
actual.
Resultados: El cambio de enfoque fue manifestado abandonando la misión antigua que se

enfocaba en actividades y recursos como a continuación:
Nosotros nos dedicaremos a construir, implementar, integrar servicios, y desplegar los

recursos necesarios para el logro de nuestra visión. Nuestra misión será lograda a través de
la reacción, calidad en todas las áreas y atención a nuestros clientes en la necesidad de una
vida independiente y resultados laborales. Nosotros nunca comprometeremos la calidad en
nada que hagamos.Para un enfoque en resultados a tres niveles de resultados:
a. Sociales: Todos los clientes de DSC serán autosuficientes, independientes y disfrutarán de

una buena calidad de vida.
b. Organizacionales: Todos los clientes de DSC estarán en continuamente empleados.
c. Internos: Todos los clientes de DSC lograrán los objetivos de su plan de integración al
trabajo.
Indicadores: Con los resultados organizacionales clave definidos, la próxima tarea fue
identificar los indicadores mensurables que pudieran ser utilizados para medir estos
resultados. Para obtener una representación exacta de cada resultado, una revisión de
contenido de varios informes de calidad nacionales y estatales, informes internos y
documentos de DBS y el Programa de Rehabilitación Vocacional, manual de procedimientos,
políticas y regulaciones fue llevado a cabo, además de discusiones enfocadas con los
stakeholders. El resultado fue el siguiente marco de trabajo de medición, el cual consiste en
una lista de indicadores mensurables, categorizados por sus resultados asociados.
98
Continuación del Caso de Estudio

Nivel de Resultados Algunos Indicadores
Resultad
os
Autosuficiencia/ • Transferencia de Pagos del Gobierno
Confianza en sí • Pagos privados por discapacidad: pensiones y seguros
mismo/ • Institucionalización donde los participantes son Consumo ≤
Calidad de Vida Ingreso (por ejemplo: talleres protegidos, hospitales mentales,
Sociales
centros de rehabilitación de drogadicción, etc.)

Continuación de • Ingreso (dividido en beneficios + expensas) en el tiempo
Empleo a Nivel • Empleo que provea ingresos para cubrir el costo de vida o
Consumo < superiores
Ingreso • Taza de ganancias anuales > población general
Competitividad de • Empleado como mínimo por 90 días en trabajo de tiempo
Empleo Exitosa completo o medio día (basado en los objetivos del Plan Integrado
de Empleos) Establecimiento de trabajo integrado
• Beneficios por Deterioro Visual = igual a aquellos sin deterioro
(beneficios: de salud, odontológico, oftalmológico, de vida, de
discapacidad, otros)
Organizacionales
• Requerimiento de capacidades para el trabajo, conocimientos,

actitudes y habilidades, y coincidencia con los establecidos por el
cliente
• Satisfacción del empleado con empleo
• Satisfacción del empleador con el empleado
Autoempleo • Certificación de acuerdo al cumplimiento de los requerimientos
Exitoso, o del Plan
Integración en el • Individual para Objetivos de Empleo, por un consejero de
Rol de Ama de rehabilitación.
Casa o Agencia de • Satisfacción del cliente con una situación de 5 o más alto en 7
Emprendimientos puntos de la encuesta de escala Likert
de Negocios
Realización de un • Logro de capacidades para el trabajo
Plan Individual • Compleción de capacitación en actividades de la Vida Cotidiana1
para Objetivos de • Compleción de capacitación vocacional
Empleo • Compleción de capacitación postsecundario
Internos
• Compleción de capacitación integrada en el lugar de trabajo

• Compleción de preparación social para el marco de integración
• Compleción de socialización
• Compleción de capacitación de socialización
• Compleción de Capacitación Recreacional
• Gestión de tratamientos médicos
• Obtención de colocación laboral
99
Un Vistazo a los Hallazgos de la Evaluación: En síntesis
Los siguientes hallazgos fueron encontrados a partir de 2546 casos de clientes

rastreados:
a. Social: Clientes autosuficientes, inferido por aquellos que ganaron el promedio

Estatal de ese año, o más:
Se encontró que 106 individuos –de 2546– ganaban lo mismo o más que el promedio
estatal, existe una brecha de 2400 individuos en el mega-nivel
b. Organizacional: Empleo, inferido por los salarios informados a cualquier nivel:
1031 individuos –de 2546 incluidos en el estudio– informó la recepción de salarios, a
cualquier nivel.
c. Internos: Logro de los objetivos del Plan Individual para integración al empleo,
inferido mediante el cierre de casos exitosos:
1565 casos se cerraron exitosamente.
Note que cuanto más limitada es nuestra definición de éxito, mejores parecen
nuestros resultados. Por el contrario, con una visión más amplia, podemos ver más
realísticamente el valor de nuestras soluciones, programas, actividades, etc.
Fuente: Guerra, I. (2005). Outcome-based vocational rehabilitation: Measuring

valuable results. (Rehabilitación vocacional basada en resultados: Medición de
resultados valiosos.) Performance Improvement Quarterly, 18(3), 65-75.
100
Una cosa que vale la pena notar aquí, es que mientras que nosotros queremos una lista de
indicadores lo más completa posible, pueden no encontrarse datos disponibles para todos y
cada uno de ellos. ¡Esta es información importante en sí misma! Resulta muy difícil
determinar si algo está siendo logrado, realizado o utilizado o no, si no contamos con los
datos en los cuales basar tales determinaciones. Al mismo tiempo, si nosotros no tenemos los
datos para hacer esas determinaciones, ¿cómo tomamos decisiones importantes acerca de qué
mantener, qué modificar o qué abandonar? Entonces, esta lista ideal de indicadores también
puede servir como entrada para la toma de decisiones acerca de qué datos adicionales deben
ser rastreados de ese punto en adelante, y cómo. Únicamente el mero rastreo de datos clave
puede ser una herramienta poderosa para lograr una mejora. Si es tomado seriamente, puede
incrementar la conciencia, promover los deseos de logro, incrementar la motivación y
facilitar la retroalimentación a tiempo.
Nuestros objetivos de desempeño más específicos, y por lo tanto, preguntas evaluativas

específicas de las cuales ellos derivarán, surgirán directamente de los indicadores. Por
ejemplo, ¿incrementamos el número de participantes en el programa, cuyo ingreso es igual o
mayor que la población general? ¿Incrementamos el número de participantes en el programa
que requieren transferencia de pagos del gobierno? Este tipo de preguntas fluyen
directamente a partir de los objetivos y de sus rigurosos criterios de desempeño.
Por supuesto, aún hay trabajo para hacer entre la identificación de los indicadores/datos
correctos, y su recolección real. Uno debe identificar las fuentes de datos. No es suficiente
identificar qué datos debemos recabar, si no hemos también encontrado dónde recolectarlos –
si es que están siendo recolectados, ¡lo cual por sí mismo constituye un hallazgo
importante!–. Los miembros del equipo evaluativo –el cual incluye a un grupo representativo
de stakeholders–, debe ser capaz de brindar conjuntamente excelentes ideas de dónde estos
datos pueden ser encontrados. La siguiente sección abocada a las fuentes de datos, le brindará
mayor información.
Fuentes de Datos
Otro tema importante para considerar antes de recolectar los datos, es determinar dónde los
encontrará. Los datos pueden ser encontrados en una serie de fuentes financieras, sociales,
políticas o tecnológicas. Hoy en día, nuestro acceso a este tipo de datos, es tan amplio como
nunca antes. Internet y los avances en las telecomunicaciones y otras tecnologías nos
permiten enlazar informes, documentos, bases de datos, expertos y otras fuentes de un modo
sin precedentes.
Por ejemplo, los indicadores sociales tales como los relacionados con la calidad de vida
(niveles promedio de ingresos, tazas de divorcio, niveles de criminalidad y similares), pueden
ser a menudo encontrados en los archivos de las Cámaras de comercio, informes de censos
realizados, informes policiales e informes de calidad de vida de la comunidad, muchos de los
cuales están disponibles electrónicamente. Otros como los relacionados al medioambiente –
101
contaminación y desperdicios tóxicos, para nombrar algunos–, también pueden ser obtenidos
de la Agencia de Protección del Medioambiente, así como estudios publicados en diarios y
revistas especializadas. Una cantidad de otras agencias gubernamentales e instituciones de
investigación –tanto nacionales como internacionales– también publican una serie de
estudios e informes oficiales que pueden probar ser valiosas fuentes de los datos que
necesitamos (por ejemplo el Programa de Naciones Unidas Para el Desarrollo (PNUD), La
Heritage Foundation, UNESCO, entre otras).
En muchos casos, usted puede encontrar los datos que busca dentro de la organización
misma. Los informes existentes acerca de desempeños pasados y actuales pueden estar
disponibles, pero recabados por distintas partes de su organización, o por razones diferentes.
Asegúrese de buscar estas fuentes potenciales de datos, ya que le servirán para ahorrar un
valioso tiempo, dinero y otros recursos. Debajo hay algunos ejemplos específicos y
descripciones de fuentes útiles, listados por Niven (2002):
• Plan Estratégico: Esta es la fuente guía de información para muchas de las iniciativas de
recolección de datos. Si se hace correctamente, debe contener declaraciones coherentes
de visión, misión, valores y otras funciones y objetivos clave que fueron derivados de un
proceso válido de detección de necesidades. A menudo brindará la razón por la cual las
soluciones fueron previamente seleccionadas.
• Informes Anuales: Estos informes brindan información de valor que no sólo contendrá
una detallada información financiera, sino que a menudo incluirá indicadores no
financieros. También podrían presentar posición en el mercado, productos clave y
oportunidades futuras.
• Planes Para Proyectos: Como pre-requisito, los proyectos exitosos están alineados con el
plan estratégico. Si usted encuentra que no lo están, esta puede ser la primera pista
importante acerca de si un proyecto en particular vale la pena –y tal vez el requerimiento
de revisión de la visión/misión.
• Estudios de Consultores: Existe una amplia gama de consultores expertos. A veces los
departamentos individuales contratan servicios de consultoría, sin necesariamente
compartir el hecho o los resultados del estudio con otros departamentos. Estos estudios
pueden contener información preciosa respecto a lineamientos base, o temas de fondo,
estado de la industria y otras piezas de información importantes.
• Informes de Desempeño: Particularmente si existe algún tipo de sistema de gestión de
desempeño, existen informes periódicos del desempeño individual, de equipos,
departamental y organizacional. Este también pude ser un buen lugar para encontrar
indicadores iniciales.
• Informes de Análisis Financiero: Si la organización cuenta con transacción pública, estos
informes le brindarán un buen sentido de cómo el mercado valora a la organización.
• Diarios, Boletines y Revistas: Si usted está particularmente interesado en la evaluación
del impacto en la opinión pública de una intervención, el encontrar lo que la prensa está
diciendo sobre la organización es un buen lugar para comenzar.
• Datos de Competidores: Mientras que el estar mirando lo que hace el vecino no es una
buena forma de encontrar ideas originales, ciertamente le puede brindar buenas lecciones
102
de qué cosas no hacer. También le puede brindar un ingreso preliminar para la generación
de nuevas ideas sujetas a pruebas.
La Tabla 6.2 ilustra un listado excelente de fuentes específicas de datos de acuerdo a una
categoría general de datos, ofrecida por Niven (2002).
Tabla 6.2 Fuentes de Datos
Categoría de Datos Fuentes Específicas

Financieros Informe Anual
Informe de Desempeño
Informe de Análisis
Diarios y Boletines de Transacción Pública
Informes de Benchmark
Informes de la Economía Global
Clientes Informes de Marketing y Departamentales en general
Estudios de Consultores
Planificación de Proyectos
Plan Estratégico
Informes de Desempeño
Informes de Calidad de Vida
Planificación Plan Estratégico
Visión
Misión
Historia Organizacional
Informes del Mercado y Ambiente Global
Procesos e Insumos Informes Operacionales
Informes de Producción
Informes de Fabricación
Datos de Competidores
103
Categoría de Datos Fuentes Específicas

Desarrollo de Empleados Informes de Desempeño
Datos de Recursos Humanos
Datos de Evaluación de Capacitación
Adaptado de: Niven, P. R. (2002). Balanced scorecard step by step: Maximizing

performance and maintaining results.
Las fuentes centradas en la gente también aplica y puede incluir a: clientes, ejecutivos,
empleados, gerentes, participantes, estudiantes, administradores, instructores, vendedores y
expertos en el tema particular.
Una consideración clave aquí es la obtención de acceso a información confidencial. Si se le

niega el acceso a tal información, tal vez pueda encontrarle la vuelta. Generalmente no es
importante recabar datos con identificación individual. La mayor cantidad del tiempo, los
datos agregados (por ejemplo, promedios y totales), deben ser suficientes y presentan menos
amenaza para otros, y por lo tanto son más fáciles de conseguir.
Seguimiento de Preguntas y Datos
Finalmente, pueden aparecer preguntas evaluativas adicionales como resultado de hallazgos

preliminares productos de la evaluación. Por ejemplo, si los hallazgos preliminares revelan
que un resultado particular no está siendo logrado, es obvio que la pregunta relacionada será:
¿por qué no? Entonces, deben cuestionarse y responderse preguntas específicas de
seguimiento para obtener las causas por las cuales nuestros objetivos no están siendo
logrados, antes de que los datos encontrados sean interpretados en su totalidad.
Ciertamente, este y otro tipo de preguntas relevantes pueden haber sido formuladas desde el
principio, y de hecho, podrían haber estado agrupadas en conjuntos de preguntas relacionadas
a un resultado en particular. El beneficio de hacer esto, es que estas preguntas relevantes
podrían haber estado incluidas en el alcance inicial y en la planificación del proyecto,
habiendo ya construido sus tareas y lineamientos de tiempo. Debajo encontrará un ejemplo
de estos tipos de agrupación:
• Pregunta Central
Grupo de preguntas: ¿Logró el nuevo programa de Reclutamiento y Selección incrementar el
desempeño de las funciones de trabajo afectadas en al menos el 12%, y decreció la tasa
104
indeseada de rotación en al menos el 15%, al final del año fiscal YYYY, según lo indicado
por el Informe Anual sobre el Desempeño Organizacional y de Empleados?
Seguimiento Inicial:
1. Si el desempeño se vio incrementado, ¿contribuyó positivamente a los lineamientos de

fondo de la organización –financieros y sociales?
2. Si el desempeño se vio incrementado, ¿contribuyó positivamente en el logro de la

misión y visión de la organización?
3. ¿Cómo impactó este programa sobre las funciones de trabajo?
4. ¿Fueron los beneficios del nuevo programa mayores a su costo? ¿Esto continuará en el
futuro o cambiará?
5. Si la tasa de rotación decreció, ¿podemos atribuir esto con confianza a un nuevo

programa de Reclutamiento y Selección?
6. ¿Qué otras soluciones, eventos o factores implementados han tenido efecto sobre el
resultado esperado?
Preguntas de seguimiento identificadas luego de los hallazgos iniciales:
1. ¿Por qué esta solución no concluyó en el logro de los resultados esperados?
2. ¿Cuáles fueron/son los obstáculos para su éxito?
3. ¿Cuáles fueron/son los factores que han apoyado a esta solución?
4. ¿Qué ocurriría si algo pudiera modificarse para que esta solución resulte exitosa de aquí
en adelante?
5. ¿Hubieron otros beneficios producidos por la solución?
6. ¿Qué es específicamente lo que salió mal? ¿El diseño? ¿El desarrollo? ¿La
implementación?
7. ¿La gente la utilizó? Si no, ¿por qué?
8. ¿La gente la utilizó correctamente? Si no, ¿por qué?
Las preguntas pueden seguir y seguir, pero estas deben ser suficientes para ilustrar la
variedad de temas asociados a un cuestionario evaluativo general. Existen preguntas de
105
seguimiento que serán lógicamente identificadas desde el comienzo, mientras que otras no
serán consideradas hasta que sean reveladas a partir de los hallazgos iniciales.
El proceso para responder estas preguntas, es virtualmente el mismo que el utilizado para las
preguntas iniciales. Usted debe identificar los indicadores que resulten relevantes, confiables
y válidos, que lo ayudarán a encontrar las respuestas. En el próximo capítulo, discutiremos
cómo realizar la recolección de estos datos.
Capítulo 7
Recolección de Datos
Introducción
Al igual que las interpretaciones y recomendaciones que el evaluador hace dependen del
alcance de los datos recolectados, también la recolección de datos depende de las
herramientas utilizadas para llevar adelante dicho proceso. Sin embargo, el problema a
menudo se encuentra cuando los evaluadores limitan los datos recabados debido a la
utilización de una serie limitada de métodos de observación con los cuales se sienten
cómodos trabajando, y a veces, sin considerar otras alternativas viables. Los métodos
utilizados para la recolección de datos son seleccionados luego de haber identificado cuáles
son los datos requeridos pare responder a las preguntas evaluativas que haya formulado y que
fuentes consultar, y luego de haber considerado y confirmado qué métodos resultan más
apropiados para recolectar esos datos, de dichas fuentes. El gastar sus recursos recabando
datos irrelevantes o carentes de significado, simplemente porque usted conoce cómo utilizar
el método para conseguirlos, no agrega ningún valor a su trabajo. De hecho, como Ackoff lo
expone sucintamente: “la sobreabundancia de información irrelevante constituye un mayor
problema que la falta de información relevante, debido a que requiere más tiempo para filtrar
la información masiva que está disponible, con el fin de encontrar qué es lo realmente
relevante.” (Technos: Quarterly for Education and Technology, 2000). Todos los métodos
que usted seleccione deben estar enfocados a responder la pregunta “correcta” referente a si
usted ha logrado o no eso que haya establecido lograr; qué salió bien y qué salió mal.
Prácticamente, usted no puede recabar toda la información posible generada en la

organización, ni se le requiere hacer eso para conducir una evaluación rigurosa. Recuerde, los
únicos datos en los que usted se debe enfocar, son aquellos que le brindarán las respuestas
del cuestionario evaluativo. Si usted sigue el proceso descripto en este libro, reducirá las
posibilidades de perderse datos relevantes, o de recabar datos que no lo ayudarán en la toma
de decisiones ni en la mejora del desempeño. Lo más importante es que las herramientas y
106
métodos utilizados en la recolección de datos, produzcan en realidad los datos relevantes para
responder las series de preguntas evaluativas. Mientras que esto puede sonar repetitivo,
resulta esencial que usted lo entienda, ya que un error en la primera selección de las
herramientas a utilizar, limitará luego los datos que esa herramienta generará. Sí, yo (se
utiliza “nosotros” en la próxima página) escucho muy a menudo a evaluadores, gerentes y
empleados amateur –¿no sugiere gratuitos? Tal vez la palabra sea novicios, sin
experiencia…), encargados de recolectar información, así como también otras personas, decir
que planean conducir una encuesta, o grupos de enfoque o lo que tengan a mano, sin haber
pensado antes en las preguntas que quieren responder, ni en los datos que necesitan para
responder esas preguntas. Dicho simplemente, este es un acercamiento similar a la caza de
gansos salvajes.
Esta sección le brindará una visión general de las opciones disponibles para recolectar datos,
y le demostrará las ventajas y desventajas de cada una de las herramientas. Esta información
también le servirá para considerar cada una de las opciones dentro del contexto de su propio
proyecto de evaluación. Sin embargo, en forma inherente a estas ventajas y desventajas,
también debe considerar factores tales como las características de su muestra, el tiempo,
costo y presupuesto, experiencias pasadas en la utilización de un instrumento y la amplitud y
factibilidad, entre otros.
Aquí también, el éxito de la etapa de recolección de datos depende en gran parte del apoyo
y/o patrocinio de los stakeholders clave. Manténgalos involucrados y seguramente evitará
encontrarse con obstáculos innecesarios.
Metodología de Observación y el Propósito de la Medición

Antes de cubrir los métodos, quisiera una vez más mencionar que todos los métodos pueden
incluir algún tipo de medición, y que la medición debe ser incluida en su actividad de
recolección de datos lo más a menudo posible. La medición no es una característica
automática de la observación. Aclaremos una confusión común, mediante algunas reglas.
• Cada observación puede ser reducida a una medición.

• Las mediciones rigurosas hacen que las comparaciones sean más precisas y significativas.
• No todas las mediciones tienen sentido, lo que usted esté midiendo –y por qué– es
primordial.
• Preste atención a las escalas de medición.
El primer enfoque de una evaluación es que los datos se relacionen con los resultados. Los
datos obtenidos en cuanto al proceso –cómo están yendo las cosas–, es el segundo enfoque de
la evaluación, pero se consigue antes de tener disponibles los datos resultantes. El proceso de
datos apoyará el análisis y la toma de decisiones, en el evento que los resultados no sean los
intencionados para poder lograr suplir las necesidades –brechas entre resultados–,
107
identificadas durante la planificación. Una tercera categoría de datos pueden ser obtenidos a
partir de factores y temas que intervienen en el apoyo o impedimento de la actividad. Los
efectos laterales tales como el mal tiempo, un repentino aumento presupuestario, la ruptura
de equipamiento y otras perturbaciones caen dentro de esta categoría. Los datos del
medioambiente también serán utilizados en el análisis de los resultados y la toma de
decisiones para modificar, mantener, o descartar, el programa que está siendo evaluado; qué
mantenemos como está, y qué debemos cambiar.
Métodos de Observación Directa Basados en las Personas
Tom Peters popularizó una técnica llamada managing by walking around (gestionar
caminando alrededor), donde el gerente se mantiene en la cima de la operación observando
directamente a los trabajadores para saber qué es lo que está pasando, hacer preguntas,
escuchar, y tal vez probar su trabajo. Se sugiere que la “evaluación de caminar alrededor” sea
incluida en su inventario de métodos, y sea utilizada cuando el tipo de eventos o tareas de
interés sean de hecho directamente observables.
La observación como un método para recabar datos puede ser ampliamente definida como en
Adler y Adler (1994, p.378), donde se describe a la observación como: “recabar impresiones
del mundo, mediante todas las facultades humanas relevantes”. La extensión práctica de esta
definición es que reconoce que en muchos casos, el evaluador puede ser un vehículo efectivo
de recolección de datos, que puede tomar el medioambiente completo y responder a cualquier
contingencia del evento, sin contar con anticipación con un encuadre mental o un
instrumento de recolección de datos que pueda limitar el potencial de la observación. El
encuadre mental es creado por las expectativas predeterminadas, y puede resultar
problemático si nos evita detectar otros aspectos del desempeño que puedan contribuir o
constituir impedimentos del desempeño. Como se había observado anteriormente en este
libro, Scriven (1973) inventó el término de evaluación libre de objetivos (goal free
evaluation) para prevenir el enfoque único de la evaluación en objetivos a veces limitados.
Por supuesto, es importante que los evaluadores tengan en cuenta los objetivos y los
resultados, pero al mismo tiempo, no queremos evitar recabar el tipo de datos que puedan
aparecer inesperadamente, especialmente cuando sean relevantes para determinar las razones
de por qué los objetivos fueron obtenidos o no. El punto aquí es que la observación directa
brinda al evaluador un conocimiento básico de lo que está pasando, y puede ser flexible y
receptiva respecto a la situación. Se pueden notar eventos inesperados. Las oportunidades de
observación subsecuentes pueden enfocarse en base al desarrollo de las tendencias y temas
encontrados. Aunque estas ventajas cuentan por supuesto con sus limitaciones, como
contraparte.
La observación directa tiene sus variaciones. Una variación es la de participar en actividades

y conocer qué es lo que está pasando desde el punto de vista del participante. Los científicos
sociales llaman a esta perspectiva: “observación participante”. Cuenta con algunos buenos
108
puntos, y algunos contratiempos. Los participantes tienden a identificarse con el personal lo

cual puede brindar información verdaderamente interna, pero al mismo tiempo el observador
de los participantes puede “simpatizar” con el grupo, lo cual puede influenciar o inclinar las
observaciones. La observación de personas no-participantes también puede tener algo de
peligroso, debido a que la mera presencia de un extraño –especialmente un evaluador–,
puede cambiar las condiciones del marco observado. Un extraño que camina por uno y otro
lado sin ser anunciado, y sólo se para en un rincón de la sala sin dudas hará que los
empleados se sientan incómodos y sospechados. Recuerde, la mayoría de la gente verá a la
evaluación con temor, y si usted le agrega elementos a ese temor –en vez de disolverlo–, el
conducir la evaluación le puede resultar una tarea dificultosa.
Las opciones de observación directa son valiosas y pueden realizarse sin temores, si
contamos con un poco de cortesía para tratar a las personas que están siendo observadas.
Comience por hacer algunas visitas antes de tiempo, y que esas visitas sean a menudo, esto
facilitará la tensión y usted ganará la confianza de las personas involucradas.
• Obtrusiva vs. No obtrusiva

Las observaciones pueden ser tanto “obtrusivas” –cuando los individuos observados tienen
conocimiento de estar siendo observados,–o “no obtrusivas”– cuando los individuos
observados no saben que están siendo observados. La clave es tener un propósito bien
definido para la observación. Luego de algún tiempo, algunas personas se acostumbran a la
posibilidad de ser observados, y los efectos son de menor peso a los eventos diarios. Si los
observadores se toman el tiempo para informar a todas las partes afectadas, y observan
consistentemente, la naturaleza desconocida de las visitas de observación será reducida con
el tiempo.
• Estructurada vs. No estructurada

Luego de varias visitas de observación, usted tal vez quiera limitar el enfoque para observar
un comportamiento específico. Usted puede utilizar las rúbricas de observación –tales como
un listado de revisión de comportamientos–, que pueden ayudar al observador a registrar y
medir comportamientos específicos predeterminados. Esto puede ser diseñado para registrar
si los comportamientos en realidad ocurrieron (por ejemplo: “sí o no”), o con que frecuencia
ocurrieron, mediante una escala o conteo de frecuencia, dependiendo de lo que sea apropiado
para el comportamiento que está siendo observado. Mientras que las observaciones pueden
ser conducidas sin lineamientos de observación altamente estructurados –que especifiquen de
antemano qué indicadores deben observarse–, el aumento de la precisión y exactitud que
resulta de un acercamiento estructurado, tiende a superar las limitaciones. Esto por supuesto,
presupone que la información buscada es justificada por su relevancia respecto a las
preguntas evaluativas. Este acercamiento resulta particularmente útil en presencia de
observadores múltiples. Los índices internos de confiabilidad pueden verse incrementados si
todos están utilizando los mismos criterios de observación.
109
• Controles de observación
Hay dos problemas serios que aparecen a partir de la observación directa: (1) las
observaciones pueden verse teñidas por la influencia o inclinación del observador, y (2) el
observador puede clasificar las instancias de comportamiento expresadas en el listado de
revisión estructurado, en forma incorrecta.
El problema de la influencia o inclinación del observador es controlado asegurando que los

observadores que participen en el equipo de evaluación mantengan discusiones regulares
acerca de sus observaciones, con el propósito de “estandarizar” las interpretaciones de los
comportamientos y eventos observados. Esto a su vez conllevará a la reducción de las
inclinaciones del observador. Este tipo de influencias o inclinaciones no tienen lugar en un
estudio de evaluación. Sin embargo, todos nosotros tenemos inclinaciones –tal vez
inconscientes–, que pueden colorear nuestras observaciones. Eso puede ser controlado
mediante la utilización de más de un observador, y mediante el cruce de los hallazgos
encontrados. Las discusiones periódicas de los hallazgos de observación pueden clarificar
temas emergentes y descartar datos irrelevantes, al mismo tiempo que encontrar un enfoque
claro de los temas en cuestión. El llevar adelante tales discusiones demanda capacidad y
paciencia. No todos los líderes de una evaluación pueden llevar adelante esta función. Se le
previene acerca de la necesidad de mantener un escepticismo saludable, si ha de aceptar la
observación de datos dentro de su estudio.
El segundo problema es controlado examinando cuidadosamente el listado de revisión y

limitando las categorías de comportamiento a los actos de comportamiento observable, en
vez de estructuras de comportamiento que sean más poderosas pero menos reconocibles. Por
ejemplo, al observar un grupo de trabajo que intenta aplicar herramientas creativas e
ingeniosas, los observadores pueden diferir con respecto a lo que consideran un
comportamiento creativo y con respecto a quién creen que no está enfocándose bien. Estas
etiquetas o clasificaciones están cargadas con lo que los filósofos llaman “significado
excedente” (surplus meaning). Las instancias registradas utilizando estas construcciones
pueden probar ser no confiables entre los observadores. Por otro lado, es relativamente fácil
para los observadores utilizar: un conteo frecuente de comportamientos, donde noten un
comportamiento específico –como la frecuencia en la propuesta de ideas; la frecuencia en la
utilización de distintas herramientas o propuestas para arribar a la solución de un problema; y
la frecuencia en las ideas resultantes de la implementación de soluciones. Aunque debe notar
que las definiciones operacionales utilizadas en esta manera deben ser probadas en el tiempo,
y deben sumar al constructo en cuestión.
• Observación de Participantes
La observación de participantes es un método de recolección de datos utilizado en el campo
de la sociología, principalmente para la observación, descubrimiento y descripción. Está
siendo incrementalmente utilizado por los evaluadores, para obtener un acercamiento a los
grupos y organizaciones en sus encuadres naturales. Cuando los evaluadores de un programa
perciben que hay algo que está ocurriendo dentro de ese programa –que no es
110
inmediatamente aparente para alguien de afuera–, pueden probar este método para encontrar
qué es lo que está ocurriendo.
Esta perspectiva consiste en un observador que pueda funcionar como miembro de un grupo,
y que trabaje al lado de los otros miembros para la realización del trabajo, comprometiéndose
a mantener una comunicación normal con los miembros del grupo en cuestión. El observador
entonces informa las revelaciones internas, los problemas y descripciones de eventos al
equipo de evaluación. Como una fortaleza de este acercamiento, podemos señalar que el
observador puede encontrar información importante detrás de escena, así como prácticas
encubiertas que se escondan a personas ajenas al grupo. Adicionalmente, el observador puede
obtener la confianza de los otros miembros y aprender acerca de su punto de vista. Por otro
lado, el observador puede ser rechazado por el grupo o identificarse con él, perdiendo en
ambos casos el sentido de balance y objetividad en sus informes. Otro contratiempo potencial
es que el método demanda una inversión considerable de tiempo y recursos.
Como consideración para la medición, el observador puede encontrar eventos y

comportamientos que pueden ser contados, permitiendo la construcción de tablas y matrices
de comparación de productividad, la utilización de recursos y demás interacciones entre los
miembros y personas ajenas al grupo.
Cuándo utilizar la Observación de Participantes

Tanto los ejecutivos, como gerentes y empleados son participantes en los procesos
organizacionales. Al estar involucrados con las funciones y tareas que apoyan el logro de
metas y objetivos específicos, todos ellos pueden ser entrevistados para obtener información
acerca del desempeño, reacciones, métodos, procedimientos y ambiente laboral en general.
También resultará valiosa la información que se brinde voluntariamente por las personas que
estén siendo entrevistadas. Ellos están simplemente respondiendo a las preguntas, y es el
evaluador el que brinda el propósito y la estructura del cuestionario que se les presente. Si el
evaluador ha permitido algún punto sin cubrir, algo puede perderse. Un observador
participante que está al tanto de su rol, puede obtener datos sobre eventos a medida que éstos
ocurren. Esto a menudo incluirá sorpresas y circunstancias imprevistas que no estarán
incluidas en el conjunto de preguntas preparadas por el evaluador. La observación de
participantes efectiva, requiere una habilidad considerable. Si bien el observador se mantiene
abierto a los eventos, algún sentido de qué es lo importante y qué es lo trivial debe gobernar
el proceso de observación. No todos pueden mantener este sentido de apertura y al mismo
tiempo adaptarse convincentemente al grupo. La utilización de un observador participante
debe reservarse para aquellas ocasiones donde el equipo de evaluación tiene un miembro que
pueda llevar adelante este rol exitosamente, cumpliendo con los criterios de miembro del
grupo y manteniendo la mente de un observador disciplinado.
Aceptación dentro del grupo

El observador participante no será capaz de funcionar efectivamente si él o ella no es
aceptado entre los compañeros de trabajo con los que cuenta en el grupo. El observador
111
participante debe ser capaz de encajar en el grupo. Tanto su rango de edad, experiencia
general, habilidades y conocimientos, deben ser compatibles con los otros miembros del
grupo.
Los efectos de la participación

¿Cambiará el observador participante el comportamiento del grupo? Suponga que el esfuerzo
de un grupo estaba fallando en la compleción de una tarea, y que el observador participante
se une al grupo brindándole liderazgo, perspectiva, habilidades y conocimiento que el grupo
no tenía antes de su llegada. ¿Puede decirse que las observaciones resultarán en un caso
como éste? Esto dependerá enormemente de las metas y propósito del grupo. Las
organizaciones y los grupos –especialmente en marcos educacionales–, son creados con el
propósito específico de obtener resultados deseados. Cuando las soluciones organizacionales
no están funcionando, los evaluadores quieren saber por qué y qué cambios pueden arreglar
el problema existente. Si la introducción de liderazgo, nuevo conocimiento y habilidades
brinda un cambio de estado, el evaluador querrá saber las cuestiones particulares, así como si
tal cambio puede ser mantenido en el tiempo. El tema en este ejemplo es: ¿pueden los efectos
de liderazgo ser separados del conocimiento y habilidades que produjeron el cambio? El líder
del equipo de evaluación debe desentrañar los misterios de causa y efecto. Esto puede a
menudo requerir aumentar el número de observadores y un período de observación continuo.
Una matriz situacional podría resultar útil.
Técnicas de Observación Indirecta, Centrada en las

Personas
No toda la información es directamente observable, y cuando este es el caso, nos apoyamos

en la opinión de las personas para obtener la información necesitada. Debajo encontrará
algunas herramientas de recolección de datos que obtienen primariamente las opiniones,
actitudes y percepciones de la gente. Estas herramientas pueden resultar útiles en
organizaciones pertenecientes a negocios orientados a servicios, con problemas de la calidad
y como esta se ve afectada por inhibidores de desempeño intrínsecos. Tomemos por ejemplo
una compañía de marketing cuyo departamento de aseguramiento de la calidad les brinda a
los clientes anuncios que tienen, consistentemente, errores gramaticales. La observación
directa de los empleados de este departamento leyendo copias del anuncio no iluminará el
problema subyacente.
• Grupos de Enfoque
La facilitación de un grupo de enfoque es otra forma poderosa –y popular– de recolectar
información. El proceso consiste básicamente en la interacción del evaluador (es), frente a
112
frente, con un grupo que puede estar conformado de 6 a 12 personas, para recolectar datos
más profundos de un tema en particular, y puede tomar lugar en un período de 2 a 4 horas.
Como los cuestionarios, los grupos de enfoque tienden a ser utilizados para recabar datos
cualitativos, y sus preguntas clave deben estar basadas en los indicadores previamente
identificados. El propósito aquí no es necesariamente que todos estén de acuerdo con una
respuesta “correcta”, sino el aprendizaje que puede obtenerse a partir de una variedad de
perspectivas diferentes sobre un tema en particular. Los grupos de enfoque son
particularmente útiles si se requieren descripciones y explicaciones detalladas.
Una de las ventajas que este proceso tiene sobre los cuestionarios, es la capacidad del
evaluador/facilitador para “leer” las expresiones faciales y lenguaje corporal de los
participantes, lo cual puede constituir información útil en sí misma, y a su vez, puede ayudar
a descubrir temas clave subyacentes, que hayan permanecido encubiertos hasta el momento.
Esto también puede llevar a la derivación de preguntas de seguimiento espontáneas e
importantes, las que no pueden ser incluidas en un cuestionario. Adicionalmente, existe la
interacción entre los participantes, la cual puede estimular reflexiones y aclaraciones que
apoyan sus perspectivas.
Otra ventaja de utilizar grupos de enfoque es el meta-mensaje potencial que esto envía a los
participantes, con respecto a la importancia del esfuerzo de recolección de datos, y su
contribución. La participación en un grupo de enfoque parece provenir de un proceso más
selectivo que el sólo preguntar a alguien para que participe en un cuestionario enviado por
mail o para completar en línea, y por lo tanto, la contribución de uno puede ser percibida
como más valiosa. La limitación de este escenario es sin embargo, que no se puede garantizar
el anonimato al mismo nivel que en los cuestionarios. Aún así, las mediciones pueden ser
tomadas asegurando a los participantes que su contribución no será enlazada a ningún
individuo, al momento de informar los hallazgos. Este en un punto muy importante ya que
para obtener contribuciones abiertas y honestas, los participantes en cualquier proceso de
recolección de datos deben sentirse seguros y confiar que el evaluador no los comprometerá
identificándolos individualmente en un informe a los stakeholders— ¡bajo ninguna
circunstancia!
Otra desventaja relativa en relación al cuestionario, es que no es tan eficiente en su alcance

de gran cantidad de participantes, tanto en términos de tiempo, como de esfuerzo y costo.
Esto es particularmente cierto cuando quienes responderán las preguntas se encuentren
dispersos en una amplia área geográfica. Por lo que esta debe ser una consideración
importante cuando se estime su utilidad en una situación de recolección de datos dada. Sin
embargo, si quienes responderán el cuestionario son relativamente pocos o fáciles de
gestionar, y se encuentran centralizados geográficamente, los grupo de enfoque pueden ser
eficientes y de bajo costo.
Proceso
Cuando se planifiquen los grupos de enfoque, debe prestarse un especial cuidado a la
generación de grupos homogéneos, respecto a las características relevantes al tipo de datos
que se está buscando. Por ejemplo, si los datos requeridos son percibidos como el valor
113
agregado de un programa en particular, y existen varios stakeholders que pueden brindar los
datos que deben ser recabados (por ejemplo, empleados, gerentes, clientes y vendedores),
cualquier grupo de enfoque dado debe únicamente consistir en un solo tipo de stakeholder.
Esto significa que el grupo debe ser homogéneo y al mismo tiempo representativo de un tipo
de stakeholder en particular. En este caso, su rol con respecto al programa en cuestión
seguramente tendrá un impacto en su percepción.
La muestra debe representar a la población

Esto es crucial aún para propósitos de generalización. Por ejemplo, la muestra de clientes
seleccionados para participar en el grupo de enfoque debe ser representativa de la población
de clientes, del mismo modo que la muestra de empleados debe ser representativa de la
población de empleados. Teniendo en cuenta esto, la participación en un grupo de enfoque no
debe limitarse a empleados con gran experiencia, si existen empleados nuevos que también
son stakeholders.
Aún cuando las sesiones de grupo de enfoque pueden tener una estructura simple, debe
desarrollarse de antemano un protocolo que le brindará al facilitador un marco de trabajo
organizado, tanto para conducir el proceso como para ordenar los datos recabados. Los
elementos básicos de un protocolo deben incluir: una introducción que agradezca a los
participantes el haberse tomado el tiempo para estar allí, un contexto breve, y un propósito
por el cual se conducen los grupos de enfoque. El protocolo también debe incluir una visión
general de la agenda y proceso (por ejemplo, presentación de los participantes, dinámicas de
la discusión y recesos). Con este contexto básico, el protocolo debe además incluir las
preguntas/ítems clave que deben ser cubiertos por el grupo de enfoque. Finalmente, debe
contener marcas o puntos de conclusión general, incluyendo un agradecimiento a los
participantes por su cooperación, con lo cual el facilitador puede cerrar la cesión. Este
protocolo debe ser utilizado como lineamiento general por el facilitador, y no utilizarse como
una agenda estricta que se lea en voz alta a los participantes.
Al conducir el grupo de enfoque, el facilitador debe mantenerse objetivo a cualquier punto de

vista particular, al mismo tiempo que cree un ambiente de apoyo en el cual los participantes
se sientan cómodos como para compartir sus ideas. El facilitador debe escuchar
cuidadosamente y hablar mayormente cuando se requiera orden para mantener la discusión
que esté tomando lugar, o cuando resulte importante clarificar o sintetizar una idea. El
mantener la discusión puede ser mucho más que formular preguntas adicionales cuando la
devolución de los participantes resulta mínima, también significa enfocar a los participantes
hacia el tema que está siendo tratado, cuando la conversación se dispersa hacia temas
irrelevantes.
El tono de voz de los participantes, las expresiones faciales y posturas corporales pueden ser
muy reveladoras, por esta razón el facilitador debe mantenerse en estado de alerta, y detectar
intuitivamente emociones clave que existieran detrás de los comentarios realizados. Estos
elementos pueden relevar temas subyacentes que, aunque no hayan estado inicialmente
planeados para debatir, pueden convertirse en datos importantes.
114
También es importante que el facilitador reconozca esos temas subyacentes. Mientras que las
técnicas de análisis de datos cualitativos pueden ser utilizadas para detectar patrones una vez
que los datos hayan sido recabados, también resulta útil el estar informado de este tipo de
temas durante el grupo de enfoque, ya que le permite al facilitador formular importantes
preguntas de seguimiento.
Luego de concluir con el proceso de grupo de enfoque, resulta crítico que el evaluador revise
y registre los datos recabados. Los datos deben estar ordenados de acuerdo a los ítems o
secuencia incluida en el protocolo. Si hubieran aparecido temas importantes inprevistos, los
mismos deben ser ordenados en relación a los ítems que dispararon su aparición. Es posible
que la persona oficialmente encargada de registrar la información, sea otra que el facilitador.
En este caso, es importante que ambos comparen notas y concilien cualquier inconsistencia.
Al igual que sería muy difícil generalizar los hallazgos de un cuestionario a una población
entera, también resulta difícil utilizar justificadamente los hallazgos de un solo grupo de
enfoque respecto a una población entera. Si los hallazgos de grupos de enfoque adicionales –
y comparables–, son consistentes, entonces las generalizaciones serán más creíbles.
• Técnica de Grupo Nominal

Otro proceso grupal para la recolección de datos es la técnica de grupo nominal (nominal
group technique), aunque de proceso sólo es grupal en nombre, ya que las contribuciones son
solicitadas individualmente. A diferencia de los grupos de enfoque, la técnica de grupo
nominal es utilizada para construir un consenso, y como tal, una de las ventajas es que cada
individuo tiene la oportunidad de contribuir. Es más estructurada que el grupo de enfoque,
debido a que su propósito principal es identificar y establecer un orden de posicionamiento
de temas, con el fin de establecer la importancia según los participantes.
El tamaño recomendado para el grupo es aproximadamente el mismo que en los grupos de

enfoque, al igual que los temas de ejemplo y elementos de su protocolo; sin embargo, el
proceso real difiere. Aquí, las personas que responden a la pregunta central se toman unos
minutos dedicados a la técnica de brainstorm, o piensan cuidadosamente cada una de las
preguntas que se les formula, y escriben sus respuestas de forma individual y privada. Luego
de haberles dado el tiempo suficiente –tal vez diez minutos–, el facilitador le pide a cada
participante que comparta su primera respuesta. Cada respuesta es entonces registrada en una
pizarra. Una vez que todo el grupo haya compartido su respuesta, el proceso se repite por una
segunda o tercera vez, hasta que todas las respuestas de los participantes hayan sido
registradas.
Una vez más, es facilitador juega un rol importante, ya que el o ella deben asegurarse de
aplicar el procedimiento apropiadamente, para poder general datos confiables. El facilitador
también puede preguntar por clarificaciones de cualquier respuesta compartida, antes de
continuar posicionando las respuestas de los participantes. Durante este período deben
omitirse las duplicaciones, y si aun la lisa de repuestas es muy larga, estas se pueden
catalogar mediante patrones unificadores que resuman la lista. A continuación, a cada idea le
es asignado un número o letra que la identificará en forma única. El facilitador luego instruye
115
a los participantes para elegir diez o doce respuestas que consideren como más importantes, y
luego que les otorguen un orden de posicionamiento de acuerdo a su importancia relativa. El
orden de posicionamiento de cada uno de los participantes es recabado y luego agregado. La
Tabla 7.1 brinda una ilustración de este tipo de posicionamiento y registro.
Tabla 7.1 Ejemplo de Posicionamiento y Registro Utilizando la Técnica de

Grupo Nominal
Grado de
Idea (I) Participante 1 Participante 2 Participante etc.
Importancia
ro do do
1 Posicionado 1 Posicionado 2 Posicionado 2 5 = Posicionado 1ro
ro ro ro
2 Posicionado 3 Posicionado 1 Posicionado 3 7 = Posicionado 3ro
3 Posicionado 2do Posicionado 3ro Posicionado 1ro 6 = Posicionado 2do
etc. Posicionado 4to Posicionado 4to Posicionado 4to 12 = Posicionado 4to
• Técnica Delphi
Al igual que las otras técnicas grupales, el propósito de la técnica Delphi es indagar
información y juicios de los participantes, para facilitar la resolución de problemas, la
planificación y la toma de decisiones. A diferencia de otros procesos grupales para la
recolección de datos, esta técnica obtiene información sin mantener un contacto cara-a-cara
con los participantes. En vez de ello, la devolución de los participantes es intercambiada
mediante otros medios como el correo convencional, fax o correo electrónico.
Los participantes usualmente consisten en 40-60 –o tal vez más– expertos o individuos,
considerados de tener un conocimiento significativo del tema. El facilitador debe luego
obtener el compromiso del grupo para participar en unos pocos cuestionarios, que son
entregados a lo largo de un período de tiempo.
El facilitador utiliza la devolución generada a partir de cada uno de los cuestionarios, para
desarrollar el próximo. Las personas que responderán estos cuestionarios examinan el grado
en el cual sus respuestas son similares o difieren de las del grupo, simulando así el tipo de
presión para estar de acuerdo, que se experimenta en los grupos cara-a-cara. La naturaleza
repetitiva de este proceso es una de las cosas principales que lo diferencian de las otras
técnicas.
La técnica Delphi requiere que el facilitador organice los requerimientos de información, la

información recibida, y que sea responsable por la comunicación con los participantes del
grupo. También requiere un canal de comunicación confiable para enlazar al facilitador con
cada uno de los participantes. Es común utilizar el correo convencional para este propósito,
sin embargo, los faxes y correos electrónicos pueden disminuir la cantidad de tiempo
requerido por el proceso. Aún con la cantidad de tiempo que la utilización de estos dos
116
últimos medios pueden ahorrarle al proceso general, existe una cantidad de trabajo
significativa que se le requiere al facilitador.
• Métodos de Entrevistas
Los métodos de entrevista son más apropiados para recolectar datos abstractos, y permite al
analista recabar información directamente de todas las categorías de clientes y stakeholders.
Las entrevistas requieren un alto grado de competencia y compromiso por parte del analista.
Las entrevistas tienen algunas ventajas, que los grupos de enfoque también tienen respecto a
los cuestionarios. Cuentan con una mejor proporción de participación, y le permiten al
analista leer las expresiones faciales y el lenguaje corporal, clarificar respuestas, formular
preguntas de seguimiento, y percibir aquellas áreas que merecen una indagación más
profunda. Una de las desventajas, sin embargo, es que no son muy eficientes para alcanzar a
un gran número de participantes, como lo son los cuestionarios. Los dos métodos pueden ser
utilizados en forma combinada, exitosamente, cuando resulte apropiado. Las entrevistas
pueden ser utilizadas como un seguimiento de los cuestionarios, cuando sea necesario
obtener una mayor prueba de lo que ha sido revelado.
El protocolo aquí también contiene elementos similares a los de los grupos de enfoque:
apreciación por la buena predisposición y cooperación de los participantes, una breve reseña
del proyecto de evaluación y propósito de las entrevistas, y las preguntas/ítems clave a ser
cubiertos –basados en indicadores previamente identificados–, así como marcas o puntos de
conclusión general, conjuntamente con un nuevo agradecimiento por su participación.
• Técnica de Incidente Crítico

La técnica de incidente crítico (Critical Incident Technique), derivada por Flanagan (1954)
de acuerdo a muchos informes, es una herramienta utilizada para recolectar informes de
personas, recolecciones o ejemplos de comportamientos específicos que resultan críticos
tanto para realizar la tarea como para alcanzar un logro.
Borg & Gall (1989, p.387) lo define como una perspectiva cualitativa que emplea el método
de entrevista para obtener “una descripción analítica profunda de una escena cultural
intacta”. Por esto, esta herramienta puede resultar particularmente útil en situaciones donde el
entendimiento de la cultura en la cual ocurre el desempeño y comportamiento resulta crítica
para la interpretación de los datos recabados. Tomemos por ejemplo una compañía con
propietarios y gerentes extranjeros –como una sucursal de Hyundai en Superior Township,
Michigan, E.E. U.U.–, que cuenta con instalaciones en un nuevo país. Las diferencias
culturales serán exhibidas a través de diferentes comportamientos relacionados con la
práctica de gestión, los procesos de comunicación y las relaciones profesionales, sólo para
nombrar algunas dimensiones. Esto a su vez seguramente tendrá un impacto en el desempeño
a varios niveles.
Vale la pena notar que un incidente crítico no consiste en las actitudes u opiniones de las
personas. Más vale, está basado en los informes de comportamientos y/o eventos específicos,
117
observados por la persona que brinda tal informe –sea que se trate de ellos mismos o de
otros.
La estructura de este acercamiento involucra:
1. Derivación de planes para la recolección de incidentes de hecho (por ejemplo,

determinar quién brindará la información a recolectar; procedimientos específicos
para esa recolección; protocolos a utilizar),
2. Recolección de incidentes críticos de individuos calificados,
3. Identificación de temas o tendencias a partir de los datos (incidentes críticos)
recabados,
4. Establecer los incidentes bajo categorías significativas, e
5. Interpretar y registrar, tomando como base el contexto donde esta perspectiva es
aplicada.
Al igual que con otras perspectivas para la recolección de datos, que involucran a personas (e
instrumentos para tal asunto), existe lugar para varias interpretaciones y parcialidades.
Cuando esta herramienta es bien implementada, puede resultar bastante útil.
Métodos Centrados en Instrumentos
La utilización de exámenes y otros instrumentos de recolección de datos, como cuestionarios

y encuestas, es talvez la perspectiva más comúnmente utilizada para recabar información.
Cuando se utiliza un instrumento para recolectar datos, usted está magnificando su habilidad
de alcance para obtener más fuentes de información, pero al mismo tiempo, está limitando de
algún modo las posibilidades de respuesta. Las preguntas abiertas de los cuestionarios
pueden exponer alguna información que no haya sido tenida en cuenta en el diseño del
instrumento para la recolección de datos, pero no en el mismo grado en que un observador lo
puede hacer en persona. Sin embargo, la eficiencia de la utilización de instrumentos como los
exámenes, constituyen opciones atractivas. Esto es especialmente cierto cuando los exámenes
son bien realizados. La estructura del examen puede asegurar que todos los puntos de
importancia sean cubiertos, mientras que los observadores están sujetos al olvido o
inconsistencia. Los exámenes deben por supuesto ser confiables y válidos. Los cuestionarios
también deben estar bien estructurados y contar con una selección cuidadosa de palabras,
para eliminar la ambigüedad de significado para aquellos que deban responder, así como para
la posterior interpretación de las respuestas brindadas.
• Elegir el Instrumento Correcto

Seguramente los evaluadores identificarán una amplia gama de indicadores que pueden
obtenerse a partir de distintos tipos de herramientas para recolectar datos. Lo primero que
debe considerarse es el tipo de datos que representa cada uno de los indicadores, y qué tipo
de método de recolección de datos será el más apropiado para ese tipo de información. La
118
respuesta a una pregunta evaluativa dada puede proporcionar la recolección de datos para
distintos indicadores, y cada uno de estos indicadores pueden representar distintos tipos de
datos. Por ejemplo, si debe recabarse información financiera, la revisión de datos existentes
ciertamente será más apropiada que un cuestionario actitudinal. Otro indicador puede
responder a las actitudes de los participantes del programa, acerca de su experiencia, y en tal
caso, una o más herramientas de recolección de datos cualitativos pueden resultar apropiadas
(por ejemplo, cuestionarios y grupos de enfoque).
En forma adicional, la fuente de datos o la población seleccionada puede también impactar

en el tipo de herramienta a utilizar. Si tomamos como ejemplo un sector educacional, los
evaluadores podrían querer recolectar datos actitudinales de los miembros de la comunidad,
del cuerpo docente y personal, y de los líderes de la institución. Debido a que los miembros
de la comunidad son muy numerosos, y están dispersos en un área geográfica relativamente
amplia, puede utilizarse un cuestionario para obtener la devolución de cada uno de ellos. El
cuerpo docente y el personal, serán relativamente fáciles de juntar en un lugar, debido a que
la mayor parte del tiempo, ellos ya trabajan en forma próxima entre sí, además de ser un
número de personas sustancialmente menor. Más aún, los líderes de la organización son
mucho menores en cantidad, pero el acomodar sus horarios para que puedan atender todos a
un mismo lugar puede ser un desafío, por lo que las entrevistas individuales podrían ser la
forma más apropiada para recolectar sus devoluciones.
Las características de la población seleccionada, tales como cultura, idioma, educación,

experiencia pasada y género, entre otras, también son esenciales para considerar. Ya sea que
se utilicen cuestionarios, técnicas grupales, entrevistas y/o exámenes, uno debe entender el
impacto de estas características al momento de derivar las preguntas y métodos para la
recolección de datos. Una pregunta puede significar diferentes cosas para diferentes
personas, de acuerdo a una multitud de factores. En algunas instancias, aquellos encargados
de desarrollar los instrumentos para la recolección de datos, presuponen inconscientemente
que sus propias experiencias son las de los otros, en términos de “lo que es”. Este es el caso
de las preguntas que incluyen expresiones que, aunque puedan ser bien conocidas por un
grupo de personas, pueden resultar completamente extrañas para otros. El resultado de estas
preguntas generalmente lleva a interpretaciones equivocadas, que pueden ser tantas como la
cantidad de personas que respondan a la pregunta formulada. En forma similar, una
perspectiva puede resultar apropiada en una cultura dada, y tal vez no en otras. Por ejemplo,
en algunas culturas se considera rudo hacer público un desacuerdo propio respecto a la
posición de otros. En tales casos, podría ser dificultoso utilizar una técnica grupal estándar
para obtener respuestas honestas de un grupo.
Otros factores importantes a considerar al momento de selección de los instrumentos para la

recolección de datos, son los costos relativos, el tiempo y la experiencia requerida para
desarrollar y/u obtenerlos. Una vez que una serie de alternativas apropiadas hayan sido
identificadas –en base al tipo de datos requeridos y a su fuente–, la selección final debe estar
basada en la factibilidad relativa de cada una de las alternativas. Mientras que una entrevista
cara-a-cara puede ser la mejor opción en términos de datos que el evaluador desea obtener de
119
un proyecto en particular, el número total de entrevistados puede requerir de mayor tiempo y

dinero que lo que permite el alcance del proyecto.
• Cuestionarios (la herramienta) y Encuestas (el proceso de

administración de la herramienta)
Una de las herramientas para recolección de datos más ampliamente utilizada –y tal vez mal
utilizada–, es el cuestionario. Los cuestionarios son comúnmente utilizados para recolectar
datos abstractos 7 (por ejemplo, percepciones y actitudes), pero si son diseñados en forma
acorde, también pueden ser utilizados para recolectar datos concretos –independientemente
verificables. Usualmente los cuestionarios son utilizados para recabar datos acerca de
reacciones, percepciones o “realidad personal” de las personas encuestadas, como en el caso
de las encuestas actitudinales. Entonces, los resultados deben ser interpretados y presentados
en el contexto adecuado. Los cuestionarios no son herramientas adecuadas para la medición
del aprendizaje real o avances en el desempeño individual, ni para la medición de avances
en el desempeño organizacional. Estos simplemente nos permiten conocer el punto de vista
de las personas que responden al cuestionario.
Cuando son utilizados en el contexto de medición de reacciones de los participantes, respecto

a un programa o desempeño de una solución en particular, estos instrumentos también son
referenciados como “reaccionarios” (Newby, 1992). Estos son los elementos que fueron
discutidos durante las evaluaciones de nivel 1 de Kirkpatrick, y que como usted podría
recordar, también son llamadas hojas de sonrisa u hojas de felicidad ya que se suelen usan
después de sesiones de capacitación para obtener las reacciones superficiales de los
participantes hacia su agrado con la capacitación (y/o el instructor). Cuando son bien
diseñados e implementados, los reaccionarios pueden brindar información útil, utilizada para
la mejora de los programas y apoyo de la calidad, utilidad, y aceptación, percibida de esos
programas.
Como lineamiento general para incrementar la utilización de cuestionarios, las preguntas

colocadas en él se adecuan hacia las opiniones informadas, tales como las basadas en la
experiencia personal del grupo seleccionado, en el conocimiento, historial y punto de ventaja
para la observación. Los diseñadores de cuestionarios son bien aconsejados respecto a
mantenerse lejos de preguntas planteadas en un modo que lleve a los encuestados a especular
respecto a la información que está siendo solicitada, ni deben utilizar un cuestionario para
confirmar o modelar imparcialidades preexistentes. Asegúrese de no influenciar las
respuestas mediante el modo en que las preguntas o ítems son expresados. Usted quiere que
las preguntas le brinden respuestas directas e imparciales.
7
Nuevamente, los datos abstractos refieren a cosas que son personales y no pueden ser validadas contra otras
cosas. Los datos concretos son independientemente verificables. Ambos son importantes para la realización de
una evaluación bien balanceada.
120
Tal vez no exista el cuestionario que pueda ser referido como perfecto o ideal en la solicitud
de la información requerida, y de hecho, la mayoría tienen ventajas inherentes al igual que
imperfecciones (Rea & Parker, 1997). Sin embargo, existen factores – incluyendo la
experiencia y el juicio profesional–, que pueden ayudar a asegurar las ventajas potenciales y
reducir los efectos de las imperfecciones inherentes a los cuestionarios.
Por casi cada una de las ventajas de los cuestionarios, uno puede encontrar una desventaja.
En el contexto de un método de encuesta –como ventaja inherente–, los cuestionarios pueden
ser utilizados para solicitar información a un gran número de personas que se encuentren en
una amplia área geográfica, y en forma relativamente económica. Sin embargo, no existe
oportunidad alguna de obtener clarificación instantánea o preguntas de seguimiento, como
por ejemplo en los grupos de enfoque o entrevistas.
Otra ventaja de la utilización de cuestionarios en este contexto es que las personas

encuestadas pueden completarlos de acuerdo a su conveniencia, y en sus propios momentos
de tranquilidad. Aunque se les debe dar un plazo de entrega del cuestionario, ellos tendrán el
tiempo suficiente como para reflexionar, elaborar y si correspondiera verificar sus respuestas
cuidadosamente. Por supuesto, el contratiempo aquí es que los cuestionarios enviados por
correo convencional o correo electrónico requieren una cantidad significativamente mayor de
tiempo para ser administrados, en comparación con otros métodos. Cuanto antes pueda
recibir las respuestas, mejores las probabilidades que las reciba.
Tal vez una de las ventajas más importantes es que brindan la posibilidad de anonimato 8. Los
cuestionarios pueden ser administrados de modo tal que las personas encuestadas no puedan
ser rastreadas como individuos. La comunicación explícita de este hecho a los potenciales
encuestados tiende a incrementar las posibilidades para su cooperación, en al menos dos
niveles: (1) compleción de encuesta; y (2) en la mejor predisposición y honestidad de sus
respuestas. Sin embargo, aún cuando el anonimato garantizado pueda incrementar los índices
de respuestas, el índice de respuesta general para los cuestionarios es usualmente menor al de
otros métodos.
Cuando las respuestas sean insuficientes, los seguimientos, la obtención de mayor cantidad
de muestras, los reemplazos de las personas encuestadas y los estudios hechos por el
evaluador, pueden contribuir hacia una muestra más representativa y aleatoria, la cual resulta
crítica para la generalización de los hallazgos. Aún así, usualmente existirá algún tipo de
influencia en la muestra, dada por la selección propia; algunas personas por sus propias
razones podrían no responder un cuestionario. Pero resulta imprescindible contar con una
muestra representativa, al menos, lo más representativa posible.
Existe una cantidad de características entre las personas que responden y no responden, que
pueden diferir, y por lo tanto impactar los hallazgos. Puede haber una característica relevante
a la evaluación que separe aquellos que responden de aquellos que no responden. Usted
8
Nuevamente, existen diferentes opiniones respecto al anonimato. Algunos piensan que es vital, otros sugieren
que las personas no deben esconder sus observaciones, pensamientos y sugerencias. Usted elija la opción
basado en el medioambiente en el cual estará utilizando el cuestionario.
121
querrá saber si las personas están de acuerdo o no lo están. Este es otro tema importante para
conocer, al momento de interpretar y presentar los datos recabados mediante cuestionarios.
Así que, ¿exactamente qué datos recabará el cuestionario? ¿Cómo determina uno las
preguntas a formular? La fuente fundamental de información para la derivación de ítems que
incluirá en su instrumento de cuestionario, es la serie de resultados, indicadores, y preguntas
relacionadas, que usted quiera responder como resultado de la evaluación –o un proceso de
detección de necesidades, si ese es el contexto de la recolección de datos. Fijemos ahora
nuestra atención en el desarrollo del cuestionario.
• Tipos Básicos de Ítems de un Cuestionario

Mientras que algunos artesanos dedicados a la formulación de preguntas hablan de simpleza,
inteligencia y claridad de las preguntas de un cuestionario, los investigadores experimentados
hablan de la dificultad de tarea y carga de las personas que responderán. De cualquier modo,
de lo que estamos hablando es de que muchos cuestionarios son difíciles de entender y
responder (Converse & Presser, 1986). Mantenga en mente quiénes son usualmente los
autores de cuestionarios: personas educadas con un entendimiento profundo del tema que se
está tratando; y por lo tanto, las preguntas o ítems son a menudo dirigidos a individuos con
características similares. La importancia de la simpleza, tanto del lenguaje como de las tareas
de un cuestionario, no puede ser pasada por alto. Pero no simplifique demasiado al punto que
las variables y matices importantes sean eliminadas.
Preguntas Abiertas vs. Cerradas

Las preguntas con final abierto son aquellas que requieren que el encuestado brinde una
respuesta basada en sus propias palabras, en aproximadamente unas pocas oraciones. Por
ejemplo:
1. ¿Cómo ha mejorado su desempeño en el trabajo, como resultado de la compleción

del programa de capacitación sobre Liderazgo?
Las preguntas con final cerrado son aquellas que brindan al encuestado, una lista de
respuestas para elegir. Las respuestas tipo multiple-choice (elección múltiple), y escalas de
categorías son ejemplos de preguntas con final cerrado. Por ejemplo:
1. ¿Cómo ha mejorado su desempeño como líder, como resultado de la compleción

del programa de capacitación sobre Liderazgo?
a. Mi equipo alcanza o excede los objetivos establecidos consistentemente.
122
b. Incremento de la participación activa en las actividades de planificación

estratégica.
c. Incremento en el número de nuevas cuentas.
d. Disminución de la tasa de rotación en mi equipo.
e. Ninguna de estas opciones.
Las escalas de categoría pueden enfocarse en la frecuencia (por ejemplo, de siempre a

nunca), cantidad –de más a menos–, y acuerdo –completamente de acuerdo a completamente
en desacuerdo. Para forzar una decisión hacia un extremo de elección u otro, se pueden
utilizar escalas de numeración pares (por ejemplo, 4 puntos, 6 puntos) para eliminar una
opción neutral en el medio.
El tipo de ítems de cuestionarios más frecuentemente visto, es posiblemente el que brinda

opciones de respuestas con final cerrado. Las preguntas de final cerrado tienden a
incrementar la posibilidad de obtener respuestas, debido a que requieren menor cantidad de
tiempo y/o trabajo, por parte de las personas involucradas en brindar las respuestas
solicitadas. Ciertamente parece más fácil elegir una respuesta apropiada que ya ha sido
formulada, en vez de crear una respuesta propia. Otra ventaja distintiva de este formato es su
simpleza relativa, con la cual uno puede hacer comparaciones entre las respuestas
presentadas, y por lo tanto, facilitar la fase de análisis de datos. El tener categorías de
respuestas predeterminadas ayuda a los encuestados a enfocarse exclusivamente en las
respuestas que son de interés particular para el equipo de evaluación, sin embargo, el mismo
crédito merece el hecho de que este tipo de respuestas excluyen o limitan otras respuestas
importantes no pensadas por los creadores del cuestionario, y por lo tanto, fuerzan al
encuestado a elegir respuestas que pueden no aplicarse a su caso en particular.
Las preguntas de final abierto son una forma de evitar estos potenciales contratiempos. Sin
embargo, acarrean su propio conjunto de desafíos. Este tipo de preguntas pueden representar
un montón de información irrelevante y tal vez intangible, que requerirá atención y trabajo
extra durante la fase de análisis. Adicionalmente, la gama de respuestas puede ser
significativamente amplia. Una forma de aliviar esto –no eliminar–, es formular estas
preguntas lo más específicamente posible, y diseñarlas para poder relacionar los fines, y no
sólo los medios 9. Esto no sólo ayuda a los encuestados a mantenerse enfocados en el tema de
interés, sino que también los ayuda a recordar información.
Antes de que las comparaciones puedan realizarse –en la fase de análisis–, se debe establecer
un sistema de código para la estandarización de las respuestas recibidas. Sin embargo,
existen instancias en las cuales estos desafíos adicionales valen la pena, como en aquel
cuando los beneficios potenciales de la utilización de respuestas con final abierto pesan más
que los desafíos que este tipo de respuestas presenta.
9
Una forma de cortar el “desorden” de las respuestas generadas ante preguntas de final abierto, es lograr que la
persona que las responda se enfoque en los resultados y las consecuencias, no en los recursos o medios.
123
Finalmente, también es posible combinar ambos formatos dentro de un solo ítem. Estos ítems
usualmente consisten en opciones de respuestas predeterminadas, así como una opción
adicional de “Otra, por favor especificar”. Si una prueba piloto hubiera revelado que esta
opción ha sido utilizada frecuentemente, entonces sería una buena idea mantener la opción.
Si por otro lado, una prueba piloto hubiera revelado que este tipo de formato ha sido
escasamente utilizado, esta opción puede no ser incluida en la versión final.
Otros Formatos de Preguntas

Se puede decir que existen varios tipos de preguntas con final cerrado. Por ejemplo, el orden
de posicionamiento es utilizado para posicionar ítems de acuerdo a su importancia o
prioridad. En este caso, los encuestados reciben un número de respuestas predeterminadas,
sobre las cuales se les pide establecer prioridad en base a algunos criterios específicos.
A veces, el evaluador puede estar buscando más de una respuesta dentro de una pregunta
dada. En este caso, los ítems de chequeo pueden capturar todas las respuestas que apliquen al
ítem presentado.
Estructura del Cuestionario

Las personas que responderán el cuestionario no serán solamente sensibles al lenguaje
utilizado en cada pregunta, sino también al orden en el cual estas preguntas son formuladas.
Mantenga en mente que cada pregunta puede convertirse en el contexto de la próxima.
Teniendo en cuenta esto, los cuestionarios con estructura pobre no sólo pueden confundir a
los encuestados, sino que pueden causar que ellos brinden respuestas imprecisas, y tal vez
hasta lleven a la persona a abandonar el cuestionario.
Un cuestionario bien estructurado debe comenzar con preguntas directas e interesantes, para
motivar a la persona encuestada a continuar con esa tarea. Al igual que en cualquier relación,
lleva tiempo que un individuo se sienta cómodo para compartir información sensible, por lo
tanto, los ítems sensibles deben guardarse para el final del cuestionario.
Las preguntas que se enfoquen en el mismo tema específico deben ser presentadas juntas, así
el encuestado podrá maximizar su reflexión y recuerdo sobre el tema. Una forma que
resultará útil tanto para el diseñador como para el encuestado, es agrupar los ítems
específicos dentro de distintas categorías. Esto sin embargo no debe ser confundido con
colocar preguntas de formato similar consecutivamente. Ya que si este fuera el caso, las
preguntas similares sonsacarían una respuesta automática, en vez de maximizar las
reflexiones del encuestado. Una forma de disminuir la posibilidad de que esto ocurra, es
variar el tipo de preguntas (por ejemplo, con final abierto y cerrado o listado de chequeo),
dentro de una categoría dada con cuidado a no distraer el encuestado con demasiadas
distracciones.
En los casos donde la información requerida va más allá de lo que un cuestionario de

preguntas con final cerrado puede revelar, el cuestionario debe incluir una (o varias)
preguntas con final abierto. Usualmente, estos tipos de ítems deben ser colocados al final de
124
la encuesta, dentro de las limitaciones de seguir una secuencia lógica. Finalmente, preguntas
más generales y con final abierto tales como las que solicitan a la persona encuestada el
agregado de cualquier cosa que pueda considerar importante –pero que no ha sido
preguntado–, deben ser utilizadas para concluir la serie de preguntas.
Extensión del cuestionario

Como lo hemos mencionado antes, la simpleza resulta clave. Nadie quiere completar un
cuestionario largo y complicado. El cuestionario debe incluir exactamente lo que se requiere.
Nada más, nada menos. Recuerde que en nuestro capítulo anterior, expusimos el proceso de
identificación de indicadores relevantes, proceso que debe ser el enfoque central de la
información recolectada. Mientras que puede haber mucha información interesante que
puede ser recolectada mediante la utilización de un cuestionario, si tal información no es
central a los indicadores que están siendo investigados, sólo servirá de distracción, tanto para
los evaluadores como para los encuestados.
Al considerar la extensión del cuestionario, el diseñador no debe pensar solamente en la

extensión real del cuestionario, sino en la cantidad de tiempo invertido que requerirá su
compleción. Como regla general, el cuestionario completo no debe demandar más de treinta
minutos para ser completado, e idealmente, requerirá la mitad de tiempo.
Examen de Conocimiento General
Tal vez el método más ampliamente utilizado para determinar qué ha aprendido alguien, es la
utilización de un examen de conocimiento, –tradicionalmente referido como “examen por
escrito”, aunque los exámenes basados en computación son utilizados para alcanzar el mismo
propósito. Existe una enorme cantidad de información disponible para guiar la construcción y
utilización de este tipo de exámenes. Si los exámenes son bien realizados –válidos y
confiables–, son una buena opción para la medición del conocimiento, y a su vez resultan
eficientes y económicos de administrar. Cuando los exámenes son estandarizados, rinden en
la obtención de información acerca del posicionamiento relativo de quienes se someten al
examen, en una población general seleccionada. Cuando éstos son buenos pronosticadores,
pueden ser utilizados para realizar proyecciones y selección. Sin embargo, muchos de los
exámenes en papel formulados por los instructores, no son validados como instrumentos de
predicción o estandarización, y por lo tanto, tienen un valor interpretativo mucho menor,
únicamente relacionado con el contenido directo de la prueba. El conocimiento de los
exámenes puede jugar un rol importante en la medición del desempeño de habilidades que
involucran una acción física integrada al conocimiento, pero sólo en cierto grado. No pueden
reemplazar a los exámenes de desempeño que involucran acciones e interacciones de quienes
toman el examen, con herramientas físicas o controles de operación.
125
• Exámenes Hechos por el Instructor, para Situaciones de Capacitación

Los exámenes diseñados por el instructor, constituyen el modo de recolección de datos más
penetrantes en la educación y capacitación de hoy en día. Estos exámenes varían en calidad
debido al método de desarrollo informal que a veces incluye una mezcla de métodos y tipos.
En general, los instructores quieren medir el aprendizaje de los participantes en relación al
contenido de las lecciones y objetivos de aprendizaje, utilizados en la fase instruccional de la
capacitación. Raramente los instructores realizan exámenes exhaustivos. Esa sería una buena
forma de averiguar qué es lo que los estudiantes saben o no recuerdan de la instrucción, pero
no es muy eficiente. Por lo tanto, la mayoría de los instructores toman muestras del contenido
e incluyen los contenidos del examen, como parte del contenido entregado. Y aquí ocurren
algunos errores típicos. (1) la muestra del contenido no es representativa; (2) el examen
posee contenidos nuevos no incluidos en la instrucción; (3) el examen requiere un nivel de
integración del contenido y comportamiento para sintetizar las respuestas, que no fue parte de
la secuencia instruccional. Aquí deben establecerse dos puntos. Primero el instructor debe
asegurarse que los exámenes en si no impacten los resultados, lo cual impide identificar una
relación entre los resultados del examen –basada en la muestra–, y el aprendizaje que tomó
lugar. Segundo, el instructor debe evitar los tres errores antes mencionados; existirán
situaciones donde los errores dos y tres constituyan buenas tácticas para estudiantes
avanzados, pero fuera de esto, los exámenes que incluyen los errores mencionados serán
generalmente considerados injustos tanto por la comunidad evaluadora como por – y
especialmente–, los estudiantes.
• Exámenes con Referencia a Criterios

Una forma de examen popular, que ha ganado mayor grado de utilización en los años
recientes, es el examen con referencia a criterios. La característica principal de este tipo de
exámenes es que los ítems son puntuados en forma relativa a un estándar fijo. Los exámenes
con referencia a criterios tienden a incluir más objetivos de desempeño, aunque los basados
en el conocimiento también pueden ser basados en estándares fijos. La idea clave es que se
espera obtener un nivel de desempeño deseado de los estudiantes. Si los estudiantes deben
conocer el procedimiento de seguridad para la utilización de una herramienta en una clase
práctica o taller, el instructor quiere que conozcan el procedimiento completo. Un orden de
posicionamiento relativo a una clase no tiene sentido, si los resultados aún pueden ser que los
estudiantes se corten un dedo con una sierra de mano. La confiabilidad y validez del criterio
de examen ha sido discutido por Berk (1980). En general, el formular exámenes una y otra
vez en el tiempo puede establecer la confiabilidad de dicho examen. La validez del criterio
del examen se basa en la relación entre la habilidad y conocimiento requeridos para
desempeñarse ante una situación designada, y la fidelidad de la situación de examen para
duplicar esas habilidades y conocimientos al ser probados. En el otorgamiento de licencias de
conducir, los Estados quieren ver una demostración de habilidades y conocimientos mínimos
relacionados con la operación segura de un vehículo en carreteras públicas. Los exámenes
con referencia a criterios son buenos para las áreas de desempeño que involucran un
desempeño mínimo para asegurar la seguridad, o una demostración de habilidades respecto a
algunas tareas –especialmente cuando el bienestar humano está involucrado.
126
La validez de los exámenes con referencia a criterios se basa en el logro del objetivo de dicha
prueba. Existen dos temas importantes relacionados con los objetivos del examen, que son:
Cobertura de dominio e inferencias realizadas a partir de los resultados. Al encontrarse ante
una situación de examen, considere dos preguntas: (1) ¿Qué tan comprensivo o inclusivo
debe ser el contenido del examen?, y (2) ¿Qué significado tienen los resultados? La primera
pregunta es a menudo considerada como un tema de dominio, y la segunda trata con la
utilización de los resultados en un modo práctico.
Suponga que usted está realizando una capacitación sobre seguridad en intercambiar la hoja
cortante de una sierra de mano para nuevos empleados de un taller. Si existieran siete pasos y
todos resultaran esenciales para llevar a cabo la tarea en forma correcta, usted podría tomar
un examen para que cada uno de los empleados se desempeñe en cada paso. En un examen
basado en criterios de referencia, el estándar podría ser que cada paso debe ser completado
correctamente. Los empleados que lo hagan pasarán el examen, los que se equivoquen, no lo
pasarán. En este ejemplo, los ítems y el objetivo del examen tendrán lo que Berk (1980)
refiere como “ítem – congruencia con el objetivo”. Aquí el dominio es pequeño –sólo siete
ítems, uno para cada paso–, y el examen será una reproducción virtual del objetivo deseado
para intercambiar correctamente la hoja cortante de una sierra de mano. El instructor puede
tener una alta confianza en que los empleados que pasen el examen satisfactoriamente podrán
ahora cambiar la hoja cortante de la sierra de mano sin inconveniente alguno. Pero ¿qué hay
respecto a un modelo de sierra diferente, u hojas cortantes de otras herramientas como sierras
ingletadoras, sierras circulares, o rotativas? Aquí es donde el tema de dominio y transferencia
entra en escena. Si el maestro del taller quiere asegurarse que los empleados novatos puedan
intercambiar todas las hojas cortantes, el dominio de los ítems del examen puede ser
ampliado. De este modo, el examen incluirá todos los ítems de dominio dependiendo de la
claridad de las instrucciones disponibles respecto a las herramientas requeridas, y de la
inclusión de los ítems requeridos por el examen (temas que también pueden afectar la
confiabilidad de la prueba). El taller puede tener una gran cantidad –aunque gestionable– de
dominios totales de cada ítem durante el curso de un período de clases.
¿Qué ocurre si su objetivo instruccional implica un dominio realmente amplio, o tal vez
infinito? El profesor de matemáticas quiere que sus estudiantes de cálculo avanzado sean
capaces de resolver cualquier problema concebible que pudiera aparecer dentro de los límites
del cálculo analítico. ¿Cómo se construirá un examen para cumplir con este objetivo? ¿Qué
criterios estándares podrían ser utilizados para declarar que un estudiante es competente en la
resolución de estos cálculos? La respuesta se encuentra en la naturaleza del asunto tratado.
Mientras que los procedimientos del taller constituían dominios específicos y limitados, la
aplicación de cálculos involucra un nivel diferente en la taxonomía de objetivos de Bloom. El
cálculo, las abstracciones y generalizaciones del procedimiento del problema, les permite a
los estudiantes hacer frente a cada problema nuevo. Es la maestría del dominio amplio pero
finito de reglas, modelos, principios, lenguaje, anotaciones y procedimientos complejos y
generalizaciones que los estudiantes deben tener. El dominio de potenciales problemas es
infinito, pero el aprendizaje del dominio de reglas, modelos, principios, lenguaje, anotaciones
y procedimientos no lo es. Ciertamente es mucho más amplio que el ejemplo del taller, pero
aún así resulta gestionable. La construcción del examen para esta situación podría incluir la
127
separación de temas en pequeñas secciones, aunque la acumulación de todas los sub-

exámenes es la que eventualmente mediría el dominio completo. El instructor puede aún
requerir una serie de criterios estándar y específicamente fijos, en relación a la serie de
exámenes –una perspectiva de criterio de referencia–, o podría utilizar las puntuaciones
obtenidas para comparar los estudiantes entre sí –perspectiva de referencia normativa. Al
tomar esta decisión, resulta útil considerar el rol del dominio en cuestión.
• Exámenes con Referencia a Normas

Los exámenes con referencia a normas cuentan con una fuerte historia tradicional en la
educación, la cual tiende a hacerlos más aceptables para los maestros aún cuando sean
desaconsejados.
La esencia del examen con referencia a normas es que el estándar o criterio involucra un
puntaje en bruto –sin procesar– y luego un puntaje relativo, el cual está basado en la curva de
desempeño. Usualmente se asume una curva normal. Cuando el objetivo del examen es
clasificar a quienes se desempeñan mejor o peor –según la medición de los ítems del
examen–, el examen normativo es una buena elección. Algunas organizaciones utilizan estos
tipos de exámenes en sus procesos de incorporación de personal, como parte de un esfuerzo
para filtrar a individuos con posibilidades de no desempeñarse tan bien como otros.
Sin embargo, aquí existen algunas precauciones. Usted podría terminar incorporando
individuos que son muy buenos realizando exámenes, pero no necesariamente buenos en la
realización de las tareas relevantes asociadas a ese examen.
Confiabilidad y Validez de los Exámenes
La validez es un concepto esencial que debe considerarse. Al interpretar los resultados del
examen –y sin importar qué tan positivos o negativos parezcan los resultados–, nosotros
debemos depender de ellos si hemos establecido confianza en estos resultados. La confianza
sólo puede ser establecida si el examen mide lo que se supone que medirá –es válido–, y si
obtiene resultados consistentes sobre un individuo dado –es confiable.
No existe una forma simple de determinar la validez con precisión, dado que un examen
puede ser válido para un propósito y audiencia, y no serlo para otros. Existen sin embargo,
una variedad de formas para determinar si un examen es lo suficientemente válido como para
ser útil. Una de las más simples es la validez del contenido. La validez relacionada con el
contenido debe comenzar con la construcción del instrumento –y en base al juicio de
expertos–, involucrando una revisión cuidadosa del contenido del examen, para determinar si
es representativo del dominio de comportamiento en cuestión. La validez del contenido
requiere tanto la validez de los ítems –¿Miden los ítems del examen el área de contenido
intencionado?– y la validez de la muestra –¿Qué tan representativa es la muestra respecto a la
totalidad del área de contenido? Aún así, el examen puede verse válido, pero estar midiendo
128
algo diferente, como la habilidad y capacidad de adivinanza del estudiante. Por lo que un
contenido válido no garantiza un buen examen.
Para la descripción de exámenes se ha utilizado el encontrar su validez “a la vista”, y

mientras que esta no es un acercamiento riguroso, puede resultar útil en la selección inicial
del examen a utilizar. Básicamente se refiere al grado en el cual el examen mide
aparentemente lo que se supone que medirá…a la vista, ¿parece que puede obtener lo que se
supone que entregará? La validez a la vista es el tipo de cosas que intentamos establecer
cuando conducimos cuestionarios pilotos (por ejemplo, cuestionarios de satisfacción de
clientes), para poder mejorar el cuestionario antes de implementarlo en su totalidad.
Una perspectiva más rigurosa para determinar la validez, es comparar el instrumento con un
criterio de validez predeterminado. Un tipo de validez basada en criterios estándares es la
concurrente. La validez concurrente trata con la administración de medidas que
administradaza han sido validadas al mismo tiempo que la medición que se busca validar.
Por ejemplo, para poder establecer este tipo de validez, el diseñador de un examen podría
querer correlacionar los resultados de un examen inventario de personalidad, con los
resultados de uno ya establecido, como la prueba de Myers-Briggs 10, el Minnesota
Multiphasic Personaly Inventory (MMPI), u otro instrumento validado. Esta correlación
produce un valor numérico conocido como coeficiente de validez, el cual indica el grado de
validez del nuevo examen.
El otro tipo de validez referente al criterio, es la validez predictiva, la cual busca determinar
el grado en el cual el nuevo examen predice un comportamiento futuro, o qué tan bien la
persona evaluada lo hará en el futuro. Este tipo de validez resulta crítica para los exámenes
que serán utilizados para clasificar o seleccionar individuos, y es comúnmente vista –aunque
no exclusivamente–, en el sector educacional, con exámenes tales como The Scholastic
Assessment Test (SAT), y el Graduate Record Examination (GRE). La validez predictiva es
determinada al administrar el examen, y luego correlacionar las puntuaciones de dicho
examen con alguna medición, que mida el éxito. Esta correlación obtiene un coeficiente de
validez predictiva.
La validez de constructo es el grado en el cual un examen mide un concepto hipotético. Este

tipo de conceptos son característicamente no observables, y derivados para explicar
comportamientos. Por ejemplo, la inteligencia es un concepto que fue creado para explicar
porqué algunas personas aprenden mejor que otras. Mientras que la inteligencia no puede ser
observada directamente, podemos inferirla en base a indicadores observables. El establecer
este tipo de validez involucra la prueba de hipótesis deducidas de una teoría. Usualmente se
requiere una cantidad de estudios independientes para establecer la validez de constructor de
una medición. Por ejemplo, una investigación de mercado conducida por/para la industria
publicitaria, se enfoca fuertemente en la validación de “tipos de clientes” basados en
comportamientos de compra.
10
Existe algo de controversia al respecto, ya que algunas personas adoran este instrumento y otras se quejas
acerca de que su validez nunca ha sido establecida (Clark & Estes, 2002).
129
La confianza se refiere al grado en el cual un examen brinda resultados consistentes cada una
de las veces que es administrado, considerando que es administrado bajo las mismas
circunstancias. Si un examen no es confiable, no sirve, dado que no podemos sentirnos
confiados de los resultados obtenidos a través de él. Para que un examen sea válido, debe ser
confiable, aunque que la confiabilidad por sí misma no es suficiente para establecer la
validez.
Existen varios modos de establecer la confiabilidad de un examen. El método de examen y

re-examen, como su nombre implica, requiere que la misma prueba sea presentada dos veces,
y que se determine la correlación entre el primer y segundo conjunto de puntuaciones. Uno
de los problemas de esta perspectiva, es que la memoria puede a veces jugar un rol
importante en los resultados del examen. Mientras que la extensión del período de tiempo
entre la administración de un examen y otro puede reducir este problema, si el intervalo es
demasiado prolongado, las personas evaluadas pueden haber cambiado las características
distintivas que están siendo medidas.
El método de equivalencias con formas alternativas, constituye otra perspectiva para

establecer la confiabilidad, y una que elimina el problema de memoria asociado con la
perspectiva de examen y re-examen. Aquí, existen dos exámenes que son idénticos en todos
los aspectos, excepto por los ítems que en realidad son incluidos en ellos. Esto es, ambos
incluyen indicadores e ítems válidos de lo que están midiendo, pero los contienen en forma
diferente. Ambos exámenes son administrados a un grupo, nuevamente, bajo las mismas
circunstancias, correlacionando luego los puntajes de cada uno de ellos.
Si un examen es derivado para medir un concepto específico, es seguro asumir que los ítems
de dicho examen están altamente correlacionados entre sí. El método de confiabilidad de
‘división a la mitad’ , es utilizado para determinar la consistencia interna de la confiabilidad.
Involucra dividir un examen en dos mitades equivalentes, administrando cada parte a un
grupo, y estableciendo la correlación entre los dos conjuntos de puntuaciones. Si la
correlación es alta, el examen tiene una buena confiabilidad de división a la mitad.
Otra perspectiva es establecer una consistencia interna utilizando el método Kuder-

Richardson, donde se establece el modo en que los ítems de un formulario de examen son
comunes entre sí, con respecto a otro formulario. Por lo que estos procedimientos son a veces
referenciados como correlaciones totales de ítems. Tal vez uno de los coeficientes de
consistencia interna más comúnmente conocido es Alpha. Es similar al Kuder-Richardson,
pero puede ser utilizado en exámenes de multiple-choice (elección múltiple) en vez de en
formularios que expresen meramente un formato tipo sí/no, o correcto/errado (por ejemplo,
las encuestas actitudinales que utilizan escalas de Likert).
Es importante remarcar que la medición de consistencia interna sólo resulta apropiada si la

prueba contiene ítems similares que midan un único concepto. Por ejemplo, mientras que
sería apropiado que una prueba mida la habilidad para determinar costos contables, no sería
apropiado que la prueba incluyera una sección dedicada a la habilidad para determinar costos
contables y otra dedicada a macro economía.
130
Métodos Centrados en el Tratamiento
Muy a menudo, el tipo de información requerida para responder a las preguntas evaluativas
es el sub-producto de las actividades que deben tomar lugar para poder obtener esos
resultados. Esto es cierto en muchas actividades, proyectos y programas organizacionales,
pero a veces nosotros imponemos controles adicionales sobre la situación, que no son ajenos
a los experimentos científicos clásicos. Los controles que podemos imponer en el
establecimiento del desempeño, no son usualmente tan precisos como los de un laboratorio,
pero las ciencias sociales pueden en ocasiones utilizar métodos experimentales con algún
grado de éxito. En los años recientes otro método centrado en el tratamiento para obtener
datos de evaluación útiles, es el uso de un monitoreo de simulación de comportamiento,
establecido bajo condiciones controladas que modelan las condiciones de una situación de
desempeño especial. Los métodos basados en el tratamiento para la obtención de datos
evaluativos son a menudo utilizados cuando existen involucradas preguntas de causalidad,
que deben ser distinguidas según los varios factores causales posibles. Si bien esto es
extraño, debido a los recursos y nivel de control intrusivo que es requerido, es sin embargo
un método que ha tomado su lugar en la evaluación, especialmente si los intereses sobre el
desempeño son altos.
Investigación Experimental y Evaluación: Su Relación
Han habido muchos debates acerca de la utilidad del uso de diseños experimentales en la
evaluación (Guba, 1969). En un extremo, algunos sostienen que no existe absolutamente
ninguna utilidad en el diseño experimental, mientras que en el otro extremo, algunos
sostienen que es el único método válido para conducir evaluaciones. La posición de
Stufflebeam (1971), sin embargo, es que la evaluación educacional incluye mucho más que
una metodología de diseño experimental, y que la utilidad del diseño experimental puede
incrementarse al incorporar procedimientos que no requieren instrumentos de criterios
comunes y reglas de decisión uniformes, para todos los participantes de un experimento.
Los experimentos clásicos usualmente involucran la comparación de dos o más grupos,

aunque existen métodos de un solo grupo. El objetivo principal de un experimento es ver qué
pasa bajo condiciones específicas. Si el diseño es cuidadosamente realizado y se utilizan
controles, puede realizarse la inferencia de causa y efecto. Este aspecto del diseño de
investigación clásica es el que lo ha hecho atractivo para los evaluadores, cuando no están
seguros si los resultados observados de un programa, son de hecho debido al tratamiento del
programa o a alguna otra causa. Existen numerosos factores –tanto internos como externos a
la organización–, que impactan sobre el éxito –o falta de él–, del desempeño de una solución.
La asignación de valor de los resultados obtenidos se realiza cuando estos resultados
131
cumplen con las necesidades válidas de la organización y de los clientes y comunidad a la

que la organización sirve. El programa tiene un “valor instrumental” en base al grado en que
es capaz de entregar los resultados deseados en forma consistente. Ha habido mucha
discusión dentro de las comunidades de evaluación e investigación, para establecer
distinciones entre estas dos disciplinas. Los experimentos clásicos son en general
considerados dentro del dominio de la investigación, mientras que la evaluación es en parte
concerniente a la determinación de valor o mérito. Aunque esto es ampliamente aceptado, la
distinción no debe privar a un evaluador de utilizar metodología experimental, cuando
existan temas de causalidad en cuestión. Ni debe la investigación intentar estar libre de
valores. Las normas éticas y de procedimientos deben ser parte de cualquier régimen de
investigación. Los intentos de evitar valores son confusiones cometidas con el objetivo
general de evitar influencias. Los resultados de un evaluador –o cualquier investigador–,
nunca debe ser alterado debido a una influencia o parcialidad que tenga el experimentador.
Diseño del Experimento
A veces usted puede ser capaz de conducir un experimento para obtener las respuestas que
resultan importantes y útiles para la organización. Por ejemplo, usted podría querer
determinar empíricamente si un programa de incentivos es mejor que otro. Cuando esto es
una opción, existen algunas consideraciones básicas que deben tenerse en cuenta.
El diseño experimental es construido sobre la idea de que cuando algo sucede, usted puede
observar el resultado directamente. Si usted trata a algo en un modo nuevo y encuentra que
obtiene un nuevo resultado (por ejemplo, una variable dependiente), usted asume que el
cambio se debe a una nueva solución/tratamiento (por ejemplo, variable independiente).
Imaginemos que usted implementa un nuevo programa de incentivos –variable
independiente–, y usted observa un incremento en el desempeño de los empleados afectados
–variable dependiente. El problema con este acuerdo es que no siempre es tan simple. Para
asegurar que el cambio observado fue de hecho debido al tratamiento, y no a alguna causa no
observada, los investigadores aumentaron el alcance del diseño en dos formas. Primero
insistieron en la repetición del experimento varias veces, para asegurar que los resultados
sean consistentes, y luego comenzaron a agregar controles para regular las explicaciones
alternativas. Un control es una medida que puede ser entendida en dos dimensiones. Primero
existen controles sobre condiciones para asegurar la consistencia, y segundo existen
características de diseño adicionales que conllevan a las explicaciones alternativas más
típicas.
Los experimentadores han identificado a lo largo del tiempo, varios factores potencialmente
causales, y han desarrollado formas para regularlos, como una fuerza de contribución de gran
importancia en el experimento. Algunos de los más comunes incluyen: efectos de
aprendizajes anteriores, edad y sexo, capacitación durante el procedimiento, y maduración
basada en el desarrollo normal de las personas. Un ejemplo de control puede ser la utilización
132
de un segundo grupo de personas que se desempeñen bajo las mismas condiciones que el
grupo de tratamiento experimental, excepto por la pregunta clave del tratamiento –un
ejemplo plausible puede ser la implementación de tratamientos en sitios o grupos piloto de la
organización, antes de su implementación en toda la organización. Este control es diseñado
para regular la posibilidad de que quienes se desempeñan en la tarea puedan aprender nuevos
comportamientos por sí mismos. Si el grupo experimental que obtiene el nuevo tratamiento
demuestra una mejora de desempeño sobre el grupo control –cuyo apoyo de pruebas
estadísticas no es casual–, estaremos un poco más seguros de que el tratamiento es lo que ha
causado el cambio, ciertamente más seguros de que si sólo hubiésemos observado
únicamente al grupo experimental. Utilicemos nuevamente un nuevo programa de incentivos,
y rastreemos el desempeño de los empleados en dos grupos diferentes –pero comparables–,
antes y después del programa, excepto que nosotros sólo implementaremos el programa en
uno de esos grupos. Si existiera un cambio en el desempeño del grupo sobre el cual hemos
implementado el programa, pero no en los otros, podríamos concluir que el cambio se ha
debido al programa en cuestión.
Note que este tipo de comparación no es igual a comparar dos tratamientos diferentes para
ver cuál funciona mejor. En el sentido estricto del diseño experimental, la comparación entre
dos tratamientos es menos deseable que hacer un experimento con un tratamiento y varios
controles. Aunque usted pueda tener un tratamiento con resultados que parezcan ser más
deseables que los de otro tratamiento, la ambigüedad general de confianza en los resultados
no es mayor que cuando usted está utilizando un diseño de tratamiento simple que no tenga
control alguno. El objeto del diseño en la experimentación, es producir datos sobre causa y
efecto entre un tratamiento y el resultado. Esos datos deben incluir una declaración de
confianza que uno pueda atribuir a los hallazgos. En un diseño experimental típico, para un
solo tratamiento, la muestra es asignada al azar a cada uno de los grupos (ya sea el del
tratamiento o el grupo control), y el resto se vería como se muestra en la Tabla 7.2:
133
Tabla 7.2 Diseño Experimental Típico para Un Solo Tratamiento
Grupo Prueba/ Recolección de Tratamiento o Prueba/Recolección

Datos Solución de Datos
implementada
(línea base)
Tratamiento X X X
Control X X
Note que lo único que cambia entre los dos grupos es el tratamiento, el resto de las
condiciones es exactamente igual. También debe notarse que las dos muestras no tengan
miembros superpuestos sino que surgirán de la misma población seleccionada. La fortaleza
del diseño incrementará según el tamaño de la muestra. Los estadistas han generalmente
aceptado el número arbitrario de 30 como suficientemente representativo para sobrellevar
errores de medición inherentes a una muestra pequeña.
Problemas con Estudios Experimentales Clásicos y

Escenarios Aplicados
Aunque la experimentación clásica es útil para incrementar la confianza en los hallazgos
respecto a tratamientos y resultados; la utilización de la experimentación clásica es raramente
encontrada en la mayoría de los estudios de evaluación. Primero, el método no resuelve el
valor del resultado. Segundo, el experimento clásico requiere recursos y tiempo que
usualmente no están disponibles para el evaluador. Tercero, las organizaciones no están
siempre dispuestas a comprometerse con el tiempo y los recursos para conducir
experimentos. Por ejemplo, si los líderes de la organización toman la decisión de
implementar un nuevo programa de incentivos, basados en datos recabados mediante un
proceso de detección de necesidades, ellos querrán moverse hacia delante e implementarlo en
todos los grupos relevantes, con la esperanza de que el desempeño de todos mejore lo antes
posible. Desde su perspectiva, el tiempo es dinero, y cuanto antes mejoremos el desempeño
de todos los grupos, mejor.
Finalmente, los diseños experimentales clásicos no capturan la importancia y profundidad de

lo que el programa o solución ha producido y contribuido, ni las consecuencias no-
intencionadas de tales métodos. En parte, porque ignora las interdependencias entre el objeto
evaluado y otros programas, soluciones y eventos que interactúan para causar el efecto
observado. Aún si se condujera un análisis de regresión múltiple, uno tendría que asumir que
todas las variables contribuyentes son conocidas.
134
El entendimiento de temas que están alrededor del diseño de un experimento clásico puede,
sin embargo ayudar al evaluador, al observar eventos y considerar los resultados. Los
evaluadores deben intentar evitar el error de asumir que todos los resultados observados son
directamente rastreables a los programas y nada más. Los evaluadores deben mantenerse
alerta a la posibilidad de que otras causas puedan estar operando. Algunas de ellas pueden ser
eventos únicos, y otras pueden ser construidas en el encuadre de desempeño.
Estudios de Series Periódicas
Mientras que la investigación experimental tradicional ha sido bastante exitosa en su

aplicación a las ciencias naturales, los diseños de series periódicas son considerados más
útiles para muchos científicos sociales, incluyendo economistas y analistas de
comportamiento aplicado (Brethower, 2006). De la misma forma, un diseño de serie
periódica bien ejecutado podría ser aún más poderoso que un diseño experimental
(Brethower, 2006; Campbell, Stanley, & Gage, 1966).
Una serie periódica simple consiste simplemente en la recolección de observaciones

cuantitativas a intervalos regulares realizando mediciones repetidas. Brethower (2006)
sintetiza cuatro variaciones específicas de este diseño:
• El Diseño AB: Mide lo que está pasando ahora (A), hace algo (B), y mide lo que pasa
cuando hacemos eso.
• Diseño Repetido AB: Hace varios diseños AB con la misma intervención (B) en
diferentes lugares a diferentes momentos, digamos la planta de Chicago en Junio, la
planta de Nueva York en Julio, y la planta de Miami en Agosto.
• Diseños ABA Inverso: Hace un diseño AB, luevo “invierte” y vuelve a lo que estaba
haciendo en A.
• El Diseño ABC…D…: Hace un AB, luego intenta otra cosa (C), y tal vez algo más (D), y
luego algo más (E) y así hacia delante. Midiendo qué ocurre en cada oportunidad.
Una forma de ver a este diseño, es que comienza con una detección de necesidades –algo que
fue medido: un resultado, digamos específicamente, una brecha entre el nivel de resultado
actual y el deseado–; luego continúa con la implementación de una solución –se hace algo–;
y luego evaluamos el impacto de eso que se hizo sobre los otros resultados –medición de ese
resultado nuevamente. Para asegurar más rigurosamente el impacto que la solución tuvo en
los resultados, usted puede aplicar cualquiera de las variaciones de esta perspectiva,
descriptas por Brethower.
• Simulaciones y Juegos
El uso de la teoría de simulación y juego para crear tratamientos de mejora del desempeño,
está incrementándose, siguiendo aplicaciones exitosas en negocios y encuadres militares. El
objetivo de una simulación es permitir a los participantes experimentar factores de eventos
135
problemáticos, pero bajo condiciones controladas y más seguras de las encontradas en las
situaciones reales. Las simulaciones han sido utilizadas para enseñar las operaciones del
sistema de corte, el sistema político, capacitación de vuelo, sistemas eléctricos y paternidad y
cuidado de niños. En todos los casos, los participantes experimentan algunos, pero no todos
los aspectos de la situación real que está siendo modelada.
• Determinar qué modelar en un juego o simulación

El juego o simulación debe contener una aproximación razonable al escenario en el cual
ocurre el comportamiento, aunque el encuadre de elementos sólo modelará algunos aspectos
del escenario real, y otros no. Sólo las señales y respuestas de comportamiento son
importantes. Por lo tanto, una simulación de un panel eléctrico no necesita tener energía de
alto voltaje, por lo que las señales y las interacciones del alumno pueden ser realizadas
utilizando un voltaje bajo. Un trozo de cartón cortado en forma de semáforo puede ser
suficiente, ya que las luces roja, amarilla y verde son señales suficientes para que quienes
están aprendiendo tomen las decisiones que los llevarán al aprendizaje deseado. Cuando se
modela un juego o simulación, haga un cuadro de flujo del comportamiento deseado en el
escenario actual, y liste todos los patrones de respuesta a señales que conllevan al
comportamiento deseado. Luego fíjese la forma en la cual las mismas señales pueden ser
duplicadas en un ambiente simulado de juego o ejercicio. Pruebe los elementos substituidos
utilizando participantes reales para ver si existe fidelidad suficiente para obtener el nivel de
señales requerido para completar la tarea que está siendo modelada. Luego de algunas
experimentaciones, construya el modelo simulador alrededor del flujo de tareas utilizando los
elementos sustituidos. La clave es seguridad y control. Muchos simuladores son más
efectivos cuando la simulación cuenta con la provisión de un instructor que tiene el control
de detener dicha simulación, y brindar consejos a los estudiantes que requieren asistencia.
Para arribar al diseño final de un simulador, normalmente se requiere una prueba piloto.
• Utilización de Simulaciones y Juegos para la Evaluación

La evaluación es fácilmente servicial, si la simulación es diseñada para observar fácilmente
a los participantes. Dado que la simulación o juego habrán sido diseñados utilizando un flujo
de trabajo o modelo de tareas, el comportamiento correcto es especificado de antemano, y el
observador-evaluador será capaz de comparar el comportamiento del participante con el
desempeño correcto estándar. Por ejemplo, al utilizar un sistema de simulación para la
navegación de un vehículo, se les puede dar a los participantes una tarea o escenario
utilizando la simulación, para determinar la eficacia de la simulación en el logro de sus metas
de aprendizaje, que los consultores de ventas pueden también demostrar la funcionalidad del
sistema de navegación a los clientes. Adicionalmente, la mayoría de las simulaciones son
diseñadas para permitir el control sobre los inicios y señales, para que los participantes
puedan iniciar la realización de la secuencia o acto correctos en el momento apropiado. Si el
encuadre real no incluye un conjunto rico de inicios establecidos, la simulación puede ser
diseñada para reducir gradualmente las indicaciones de inicio, mientras el estudiante
desarrolla señales internas y patrones de memoria.
136
Métodos Centrados en la Documentación

• Revisión de Datos Existentes
Los datos existentes se refieren a los datos que se encuentran disponibles en alguna forma de
registro organizacional. Como tal, el lugar más inteligente para comenzar es considerando si
estas fuentes pueden contener datos relevantes y útiles. Algunos ejemplos de fuentes de datos
existentes pueden ser: planes estratégicos actuales, informes de industria, informes de
presupuesto actual, datos de censos, informes de detecciones de necesidades previamente
realizadas, informes de evaluaciones previas, evaluaciones de desempeño, u otras fuentes que
usted podría descubrir –y existen muchas. Uno también podría elegir ver los informes
recolectados por otras entidades, como agencias públicas y privadas, instituciones, y
corporaciones.
Bajo esta perspectiva, los informes organizacionales son identificados como relevantes, y son
revisados para encontrar información sobre los elementos clave de la intervención o
programa, incluyendo evaluaciones pasadas, notas de reuniones y declaraciones de misión
organizacional. Uno de los puntos fuertes es que uno es capaz de tomar ventaja de los datos
ya existentes, lo cual puede resultar muy eficiente en cuanto a los tiempos, particularmente si
pueden ser buscados y analizados utilizando métodos electrónicos. Sin embargo, estos datos
no están siempre separado en las categorías que el evaluador pueda estar buscando, y por lo
tanto, el determinar qué es relevante y qué no lo es, puede consumir algo más de tiempo.
Aquí también, es posible utilizar la frecuencia en que las ideas aparecen, como alguna
indicación de la importancia o tiempo dedicado al tema.
Mientras que los cuestionarios, los procesos grupales y las entrevistas están tradicionalmente
asociados con la recolección de datos cualitativos –abstractos–, los datos existentes tienden a
ser asociados con datos cuantitativos –concretos. Por ejemplo, si uno quisiera saber la
inversión financiera por ítems, de un programa dado, o qué porcentaje de compleción exitoso
tuvo, el preguntar la opinión de alguien seguramente no le brindará el tipo de datos válidos y
confiables como los que les puede brindar el buscar en informes organizacionales
documentados –asumiendo por supuesto, que los datos ingresados son exactos.
La tarea preliminar es igual a la de los métodos previos. Esto es, antes de seleccionar este
método como viable para la recolección de datos, uno debe primero comenzar con las
preguntas evaluativas y los indicadores asociados previamente identificados. Si los datos
relevantes pueden ser obtenidos de informes existentes, entonces existe poca utilidad en la
creación de herramientas para la recolección de datos, para obtener los mismos datos. En este
caso, es más factible revisar los datos que ya existen. Esto no significa que uno debe
recostarse solamente en los datos existentes. Sino que uno debe considerar a estos datos en el
contexto de otra recolección de datos durante el proceso evaluativo.
137
• Revisión de Literatura
Es difícil subestimar el valor de una revisión de literatura bien planificada. La literatura
existente sobre evaluación, administración educacional, efectividad de programas, estrategias
instruccionales, toma de decisiones, etc. pueden asistir al equipo de evaluación en la
planificación e implementación de una evaluación. Las citas de literatura pueden agregar
credibilidad a los informes de la evaluación.
Aquí, básicamente hacemos una lista de palabras clave y temas, y la utilizamos para conducir
búsquedas en bases de datos para identificar libros, artículos, informes y otros periódicos y
fuentes. Será de ayuda listar los temas y relacionarlos con las palabras clave que son
utilizadas en varios programas de búsqueda que ahora aumentan el sistema de catálogo en las
librerías modernas. Muchas bases de datos especiales son ahora actualizadas regularmente.
Las búsquedas en librerías lo pueden ayudar a estructurar su búsqueda y a guiarlo hacia las
bases de datos apropiadas. La mayoría de las librerías, utilizan ahora bases de datos que están
sujetas a búsquedas electrónicas y ubicación de títulos, autores y temas que hacen que el
proceso resulte bastante eficiente. Por supuesto, una vez que la lista de temas es concluida,
alguien tiene que leer o buscar para encontrar la parte valiosa, y ese proceso puede demandar
un tiempo considerable. Como valor agregado, este tipo de búsqueda puede identificar otros
estudios basados en mediciones que pueden haber sido conducidos en encuadres similares.
• Artefactos y Productos de Trabajo

Esta es otra fuente de evaluación: Es el producto real producido. Si, por ejemplo, uno quiere
revisar las brechas de desempeño de un supervisor, tal vez quiera revisar el desempeño del
equipo que él o ella lidera. Si la evaluación revela que el 45% de ellos no está alcanzando los
estándares de desempeño, este será un indicador de la competencia del supervisor. Si
queremos emitir un juicio de su competencia más certeramente, miraremos otros productos o
indicadores del desempeño del supervisor –en un esfuerzo para triangular los datos actuales–,
así como mirar las brechas existentes en el desempeño de su gente, para que los otros
factores contribuyentes resulten en recomendaciones claras y comprensivas para la mejora
del desempeño que puede tomar lugar.
Este capítulo ha cubierto el amplio –aunque no completamente exhaustivo– rango de

perspectivas para la recolección de datos, y los métodos disponibles para los evaluadores –y
otros investigadores. Los datos que recabamos deben ser representativos de la realidad, y por
lo tanto, lo que nosotros hacemos y cómo recolectamos los datos, resulta el tema central para
toda buena evaluación. Si se utilizan métodos inapropiados y/o inválidos para una situación
dada, también resultarán inapropiados e inválidos los datos recabados –y en consecuencia
las interpretaciones y recomendaciones realizadas. La credibilidad y validez de sus
hallazgos y recomendaciones están directamente relacionadas con el rigor –y con esto no me
refiero a lo lento o extremadamente complejo– impuesto a su recolección de datos.
138
Capítulo 8
Análisis de los Datos de Evaluación: Herramientas y
Técnicas
Mientras que el análisis de datos es a menudo concebido como la computación de números,

es en realidad más que eso. Recuerde de capítulos anteriores que podríamos encontrarnos con
datos concretos y/o abstractos. El análisis de datos como parte del esfuerzo evaluativo, es la
organización de la información para descubrir patrones y fortificar argumentos utilizados
para sostener las conclusiones resultantes de su estudio de evaluación. En síntesis, nosotros
estamos meramente sintetizando extensos volúmenes de datos en formatos gestionables y con
significado, que puedan ser rápidamente comunicados. De hecho, uno podría decir que el
análisis de datos comienza aún antes de su recolección, en virtud del análisis de las
características de los datos requeridos, como hacemos antes de seleccionar los métodos para
la recolección de datos en sí.
Si usted tiene datos cuantitativos, varias operaciones estadísticas lo pueden ayudar a

organizar sus datos mientras categoriza sus hallazgos. Los datos cualitativos están también
sujetos a rutinas analíticas. Las observaciones cualitativas pueden ser ordenadas por fuente y
por impacto, o categorizadas de acuerdo a los temas generales y hallazgos específicos. El
revisar la frecuencia de las observaciones cualitativas, comenzará a aunar los datos
cualitativos con los cuantitativos. Recuerde que la serie de datos, tanto cualitativos como
cuantitativos, deben ser obtenidos de fuentes de información selectivas.
Métodos del Análisis Cualitativo

Una cosa que vale la pena notar, es que no todos los datos recabados se convertirán en
prolijas mediciones en escalas. Recuerde de capítulos anteriores, que se pueden utilizar una
variedad de métodos para recolectar datos cualitativos (por ejemplo, observaciones,
entrevistas y grupos de enfoque). Los métodos para el análisis de datos cualitativos varían
desde descripciones narrativas hasta análisis cuantitativos de tales descripciones.
Análisis de Modelos y Patrones

El reflejar continuamente y buscar patrones dentro de los datos, aún cuando el proceso de
recolección de datos está activo, puede ayudar a los evaluadores a realizar ajustes pro-activos
y reenfocar su proceso de recolección de datos para obtener información más útil.
139
Debajo hay algunos pasos generales que deben guiar el análisis de datos cualitativos:
1. Revisión de notas para reflejar cuidadosamente sus impresiones.

2. Reconocimiento de temas recurrentes y codificación de acuerdo a esa recurrencia.
3. Organización de datos de acuerdo a los temas que ha identificado.
4. Observar relaciones potenciales entre los temas, si las hubiere.
5. Identificar explicaciones, factores causales, impactos potenciales, etc. para cada tema.
6. Validar interpretaciones preliminares triangulando los datos –utilizando tres o más
fuentes– para sostener o desaprobar su hipótesis –este es un buen momento para
considerar explicaciones alternativas.
7. Sacar conclusiones.
Para la revisión de excelentes fuentes referidas al análisis de datos cualitativos, vea Miles y
Huberman (1994); Richards y Richards (1994); Weitzman y Miles (1995).
Análisis Utilizando una Discusión Estructurada

De vez en cuando durante el curso de una evaluación, el líder del equipo de evaluación puede
contar con observadores que participen en una discusión acerca de las observaciones
realizadas hasta ese punto en el estudio, y más adelante discutir los resultados en relación a
los eventos observados. El propósito de la discusión estructurada es clarificar temas que
hayan emergido en el estudio, e identificar las posibles relaciones de causa y efecto respecto
a los eventos y resultados. Cada tema es identificado, y luego categorizado de acuerdo a la
relevancia que tiene en el estudio, y a la posible influencia sobre los programas y resultados.
Uno de los beneficios de este tipo de discusión, es que todos los temas pueden ser
considerados, aún si no hubieran sido anticipados en la etapa de planificación del estudio.
Otras ventajas incluyen el hecho de que los temas pueden ser modificados a partir de la
aparición de datos; hipótesis que pueden ser formuladas y continuar siendo revisadas, y
confirmación entre eventos y resultados; y que los datos pueden ser organizados utilizando
este método de análisis, incluyendo la utilización de datos nuevos emergentes, y datos de las
categorías inicialmente establecidas para la recolección.
Por otro lado, este método no es bueno para derivar pruebas contundentes. Adicionalmente,
los observadores no pueden votar para considerar a algo como verdadero o falso, sólo pueden
identificar temas que deben ser investigados y sujetos a mayores pruebas o indagaciones.
Finalmente, las discusiones que no se conduzcan con disciplina y liderazgo pueden generar
malestares y al mismo tiempo, un liderazgo fuerte puede introducir una fuerte inclinación o
influencia a la discusión.
140
Estructura Impuesta para Temas Emergentes

La estructura de este tipo de discusión analítica surge de las reglas de conducta que son
impuestas por el líder del equipo de evaluación. Una discusión estructurada no es del todo
libre, y no permite a cada observador incorporar a la discusión todos los chismes de lo que
ocurrió durante su observación. El líder del equipo comienza cada discusión con una
pregunta designada, enfocada a una parte específica del estudio. Un ejemplo de una pregunta
para una discusión estructurada sería: “¿Tiene alguien alguna observación que sea relevante a
la utilización del programa de tutoría, como parte de apoyo para el desarrollo del liderazgo?”
En este momento, cada miembro del grupo tendrá la oportunidad de comentar sus
observaciones, en cuanto a la pregunta se refiere. La primera regla de conducta es mantener
el enfoque en el tema tratado. La segunda regla de conducta es que ninguna observación se
descartará o desacreditará en la primera ronda de preguntas. La tercera regla es que los
comentarios son escritos. El líder del equipo abre un foro para discusión general y el grupo
coloca un puntaje a todas las observaciones, como potenciales explicaciones de causas y
efectos, de acuerdo a su potencial para una mayor investigación y para relegar las
observaciones a la categoría de “no estoy seguro de lo que significa”. En este momento, el
líder pasa a la siguiente pregunta y el proceso se repite. Luego de que todas las preguntas del
listado del líder han sido tratadas, cada participante puede agregar una pregunta a la
discusión, si sienten que hubo algo que no fue inicialmente incluido. El producto de la
discusión estructurada es un listado de eventos o temas observados, que pueden contribuir
con el estudio, como una serie de posibles relaciones de causa y efecto, y áreas que requieran
una investigación más profunda. Todos estos elementos son organizados por la estructura de
la pregunta y por su relevancia general.
Relevancia
La relevancia es decidida en base al potencial o contribución demostrada al enfoque principal
del estudio de evaluación: es importante y hará la diferencia. La lógica a simple vista de
nuestra perspectiva de evaluación, es que las soluciones organizacionales deben fluir a partir
de necesidades válidas –brechas entre resultados– de los clientes y de la organización; y
nuestro enfoque primario de la evaluación es asegurar que los resultados de la solución
cubran esas necesidades. El enfoque secundario de la evaluación es identificar los factores
del programa que contribuyen o interfieren con los resultados deseados. Por lo tanto, toda la
información que sirva para sostener esta cadena de lógica es relevante. Cuando los
evaluadores notan que los gerentes se han desviado de los objetivos requeridos, esa
observación será relevante para posteriores discusiones acerca de los resultados, y de qué los
causó. Si un evaluador se hará cargo de anotar la ubicación que cada empleado utiliza en el
estacionamiento cada uno de los días, esta información no será relevante para mantener el
enfoque en la evaluación –al menos por supuesto, que el atraso sea un problema y que la
141
estructura física de la organización esté demasiado alejada de la playa de estacionamiento.

Para ser considerado como relevante, un dato debe contribuir al estudio con algo plausible
ligado al desempeño. Tanto los eventos de disminución, falla o mejora del desempeño
contarán como relevantes.
Controles sobre una Discusión Estructurada

Las discusiones estructuradas funcionan mejor cuando son guiadas por un líder fuerte, que
tenga pleno conocimiento como evaluador, y que sea respetado por el grupo. Las
herramientas principales para mantener una discusión enfocada y productiva son: una serie
de reglas de conducta, y el respeto del grupo por el líder de la discusión. Estas reglas
incluyen:
• Preparar siempre una agenda con preguntas de temas específicos para enfocar la
discusión.
• Mantener la discusión enfocada en las preguntas hasta el final, momento en que se abre
un foro para nuevas preguntas.
• Cada participante tiene su turno para la presentación de temas y observaciones.
• Ningún tema que contribuya a la pregunta será eliminado.
• Se revisa cada tema para establecer su relevancia.
• Los temas son posicionados de acuerdo a su relevancia y potencial causalidad.
• Se formulan hipótesis sólo luego de que todos los temas hayan sido presentados.
• Se escribe la minuta de cada discusión.
• Se asignan futuras observaciones como ítems de acción.
Métodos del Análisis Cuantitativo

Existe una cantidad de técnicas disponibles para el análisis cuantitativo, pero la selección de
la técnica apropiada depende no sólo de la escala utilizada para medir los datos, sino también
del propósito específico de su análisis. Debajo encontrará algunos ejemplos de tales
propósitos y los tipos de técnicas de análisis cuantitativo apropiadas para cada uno de ellos:
• Para mostrar la posición relativa de un individuo respecto a un grupo (medición de

tendencia central)
o Ejemplo: ¿Qué vendedor se distingue del resto del equipo?
• Para describir la forma del conjunto de datos (medición de variabilidad)
o ¿Son las cifras de ventas lo suficientemente consistentes para esta sucursal?, o
¿varían las cifras de ventas individuales de los vendedores significativamente
de uno a otro?
• Para mostrar un posicionamiento relativo (medición de tendencia central)
142
o ¿Cuál es el puntaje de desempeño de Jane Doe con respecto a su grupo?

• Para comparar dos conjuntos de datos (medición de variabilidad)
o El equipo de esta sucursal, ¿se desempeña en forma comparable a los de la
sucursal de suroeste?
• Para descubrir relaciones (medición de relación)
o ¿Existe una relación entre el número de cursos de capacitación tomados y las
ventas?
• Para mostrar causa y efecto (prueba estadística)
o ¿Causó el nuevo programa de incentivo un incremento en las ventas?
• Para hacer declaraciones de probabilidad o hacer una predicción (prueba estadística)
o El desempeño de un vendedor, ¿predice el desempeño de la gerencia?
El tener datos brutos es una cosa, el responder preguntas con esos datos, es otra. Para que los
datos revelen las respuestas a nuestras preguntas evaluativas, ellos deben estar representados
en un modo que tenga significado para aquellos que los vean, los usen y tomen decisiones
basados en ellos. A lo largo de los años, han surgido muchos tipos de estadísticas para refinar
los datos brutos. Aquí hay un breve resumen de algunas estadísticas útiles.
Estadísticas
Mientras que la sola mención del término “estadísticas” puede ser intimidante para algunos,
todos nosotros –cada uno de nosotros–, estamos ciertamente más familiarizados con el
término de lo que en realidad pensamos. Nosotros lo escuchamos en las publicidades todo el
tiempo: “El 90% de los destintas encuestados recomiendan…”, o tal vez hemos escuchado a
alguien preguntar cuántas millas hace en promedio un vehículo por galón de combustible. El
entendimiento de la estadística sirve más allá del análisis formal de datos y de la evaluación.
Ciertamente nos ayuda a ser consumidores más atentos ante el conocimiento, productos,
servicios –todo con lo que tratamos en la vida cotidiana–, para poder tomar buenas
decisiones.
Dos tipos de estadísticas
Existen dos tipos principales de estadísticas: descriptivas (descriptive) e inferenciales

(inferential). El primer paso para que los datos tengan sentido es sintetizarlos o describirlos.
Como el nombre lo implica, la estadística descriptiva es utilizada para este fin. Este tipo de
estadística nos permite sintetizar un listado casi interminable de puntajes individuales en uno
o varios índices. En algunas instancias, la obtención de estadística descriptiva es el único
procedimiento de análisis de datos utilizado para responder a las preguntas evaluativas. Por
143
ejemplo, ¿cómo se desempeñó en forma promedio –en cifras de ventas–, el equipo de ventas
durante el último cuatrimestre?
Uno tal vez quiera encontrar qué tan bien se desempeñó un individuo particular en relación al
promedio (por ejemplo, ¿cómo se comparan las cifras de Raúl Bustamante respecto al
promedio de su equipo?), o cómo separar los puntajes de la cifra promedio (por ejemplo:
¿son las cifras de los miembros del equipo consistentes, o varían significativamente de una
persona a otra?).
La estadística inferencial nos permite hacer generalizaciones a partir de una muestra de la

población. Como el nombre lo implica, estamos infiriendo que los hallazgos derivados de
una muestra dada, son representativos de los hallazgos que encontraríamos en la población
entera. Por lo tanto, uno de los prerrequisitos para la utilización de la estadística inferencial –
para lograr que tenga significado–, es obtener los datos a partir de una muestra aleatoria
representativa. Por ejemplo, antes de invertir en la implementación de un programa dado en
el grupo entero de asociados de ventas de una compañía farmacéutica global, primero
querríamos seleccionar aleatoriamente a un representante del grupo, y determinar el impacto
del programa. Si el estudio fuera bien conducido, los hallazgos brindarían confianza en la
asunción de que veríamos el mismo impacto en todos los asociados de ventas, y entonces los
stakeholders tomarán la decisión de implementar el programa para todos los asociados de
todas las sucursales. El mayor desafío, por supuesto, es aislar otras variables que puedan
estar impactando los hallazgos (por ejemplo, diferencias de medioambiente, diferencias
culturales, diferencias en sus respectivos gerentes, etc.).
Mientras que el enfoque principal de esta sección estará centrado en la estadística descriptiva,
algunas herramientas de estadística inferencial son descriptas brevemente más adelante en
este capítulo.
Medición de Tendencia Central
La estadística descriptiva más comúnmente utilizada es la de medición de la tendencia

central, la medición de variabilidad, las representaciones visuales, y la medición de
relaciones. La medición de tendencia central es probablemente el mejor modo de describir
los datos cuando debemos recostarnos en un único número para representar –y brindarnos
una visión instantánea–, un conjunto entero de puntajes. Existen tres medidas de tendencia
central: promedio, media y modo.
• El Promedio
El promedio es tal vez la medición más frecuentemente utilizada para la medición de
tendencia central, técnicamente es el promedio matemático de un conjunto de puntajes. Es
calculado agregando todos los puntajes individuales y dividiendo el total por la cantidad de
puntajes existentes en el conjunto de datos.
144
Una de las características que lo hacen ser tan comúnmente utilizado es su estabilidad.
Debido a que todos los puntajes son incluidos en su cálculo, es más estable que otras
mediciones de tendencia central, que sólo utilizan un par de puntajes individuales.
Sin embargo, la contra-cara de utilizar todos los puntajes que es muy susceptible a puntajes
extremos. Por ejemplo, mire el siguiente conjunto de puntajes:
18; 19; 17; 18; 18; 18; 16; 59
El promedio para este conjunto de 8 puntajes es aproximadamente 23, sin embargo, todos los
puntajes –excepto uno– varían de 16 a 19. ¿Es este promedio verdaderamente representativo
del puntaje típico? Bueno, si no fuera por ese único resultado fuera de rango –o puntaje
extremo– de 59, el promedio hubiera sido en realidad aproximadamente 18. Dado que el
promedio se ve afectado por los puntajes extremos, usualmente no es la mejor opción cuando
se esté tratando con un conjunto de datos que contengan uno o dos –o aún unos pocos en
algunas instancias– puntajes extremos; note que las razones por las cuales existen estos
puntajes extremos, pueden ser importantes.
La utilización del promedio resulta apropiada cuando los datos son medidos en un intervalo o
en una escala de proporción (vea la Tabla 3.1 para ejemplos de cosas medidas con cada
escala…por ejemplo, puntajes de exámenes, dinero, etc.). Desafortunadamente el promedio
es a menudo utilizado inapropiadamente, sin tener en cuenta el tipo de medición utilizado
para la obtención de los datos. Un ejemplo de esto puede ser visto cuando brindamos un
promedio de puntajes de ítems de cuestionarios, los cuales tienden a ser medidos con una
escala nominal u ordinal, aún si le atribuyéramos un valor numérico (por ejemplo, las escalas
de Likert que varían de un fuerte desacuerdo (1), desacuerdo (2), neutral (3), acuerdo (4) y
fuerte acuerdo (5). Vea la figura 5.1 como ejemplo). El agregar una variedad de respuestas
tales como fuerte desacuerdo, acuerdo y neutrales tiene poca significancia si luego decimos
que la respuesta promedio fue acuerdo y dos/décimos – ó 4.2. Para los datos ordinales, la
media y los modos –debajo descriptos– resultan mediciones más apropiadas de la tendencia
central. Específicamente, para datos medidos con una escala de Likert, aún los porcentajes de
cada respuesta pueden resultar más exactos y útiles para sintetizar los resultados.
• La Media
La media es el punto medio de una distribución. Dado que la mitad de los puntajes están
sobre ella y la mitad de los puntajes están debajo de ella, también es referida como el
quincuagésimo –o cincuentavo– percentil. En casos donde existe un número impar de
puntajes, la media está constituida por el puntaje medio. En los casos donde existe un
conjunto con cantidad par de puntaje, la media será el promedio entre los dos puntajes
medios. El mejor modo de reconocer un puntaje medio, es acomodar el conjunto de puntajes
en orden numérico –ya sea ascendente o descendente. Por ejemplo, tomemos el siguiente
conjunto de puntajes:
18, 17, 16, 19, 20.
145
Estos números son primeramente acomodados en orden numérico:
16
17
18 x El puntaje medio resulta obvio
19
20
Si hubiera un número par de puntajes:
15
16
17 x El promedio de los dos puntajes medios será: 17+18÷2= 17.5
18 x
19
20
Como puede ver, la media no tiene que representar necesariamente un puntaje exacto del
conjunto de datos.
La media es la medida más apropiada de tendencia central para la medición de datos en

escala ordinal (por ejemplo, respuestas sobre escala Likert a partir de un cuestionario
actitudinal, según fuera anteriormente descripto). Debido a que es el punto medio de un
conjunto de puntajes, la media no se ve necesariamente afectada por cada uno de los
puntajes. En relación a la media, encontramos que no es sensible a puntajes fuera de rango, y
por lo tanto, constituye la mejor medición de tendencia central cuando la distribución de
puntajes incluye un puntaje extremo. Así, la media puede ser potencialmente utilizada para la
medición de datos en intervalos y escalas de proporción, particularmente en casos donde la
distribución de puntajes se ve significativamente distorsionada, y el promedio no es
representativo del puntaje típico.
• El Modo
El puntaje, la medición de tendencia central menos utilizada, consiste simplemente en
encontrar el puntaje más frecuente. No se requiere ningún cálculo para identificar el modo.
En vez de ello, se establece al mirar al conjunto de datos o representación gráfica de esos
datos, para ver cuál puntaje ocurre más frecuentemente. El modo acarrea consigo una
limitación significativa, básicamente, que es posible que una distribución de puntajes tenga
146
más de un modo. Si hubieran dos puntajes ligados a la frecuencia más alta, entonces se dice
que estamos frente a una distribución bimodal, y si los puntajes ligados con la frecuencia más
alta, fueran tres o más, se dice que estamos frente a una distribución multimodal.
Finalmente, si cada puntaje ocurre con la misma frecuencia, no existe ningún modo, y esta
situación se referencia como una distribución rectangular.
El modo es la medición de tendencia central más apropiada al utilizar datos que hayan sido
generados mediante una medida de escala nominal. Por ejemplo, si usted está conduciendo
una evaluación para el departamento de transporte, y uno de los indicadores que debe mirar
es el método de transporte más comúnmente utilizado para la sección con mayor tráfico del
distrito de negocios del centro, la media podrá hacer poco para describir las respuestas a este
ítem del cuestionario. Sin embargo, si utiliza el modo, podrá comunicar fácilmente al
stakeholder, cuál es el método más comúnmente utilizado –la respuesta más frecuente. Una
forma de apoyar la presentación del modo es acompañarla con porcentajes (X% de personas
indicaron Y), o proporciones (80 de 100 personas indicaron X).
Existe un error conceptual común respecto a la naturaleza infalible de los números. Yo

recomiendo que mantenga en mente que al igual que otras cosas pueden ser manipuladas para
contar una historia que no es exactamente así, los números también. Cuando son sacados
fuera de contexto, calculados con otras cifras imperfectas, o analizados con los métodos
estadísticos inapropiados, usted no estará realmente más cerca de tomar buenas decisiones,
de que lo estaba antes de realizar la evaluación. De hecho, usted podría ahora estar más
alejado de la verdad, al aferrarse a datos que son completamente infundados. Por ejemplo,
una medida de tendencia central puede ser mal utilizada para obtener el índice más favorable,
en vez del más exacto. Por lo tanto, es importante considerar las características, limitaciones
y usos apropiados de cada medida de tendencia central, porque cada una impactará
inevitablemente nuestras representaciones del conjunto de datos obtenidos, y
consecuentemente, las conclusiones que derivamos de ellos.
Medición de Dispersión (Variabilidad)
Mientras que las medidas de la tendencia central son esenciales para describir a un conjunto
de datos, no cuentan toda la historia. Antes de que podamos darle sentido a esas
descripciones, también tendremos que tener una estimación de la extensión y variabilidad del
conjunto de datos, tanto dentro de una distribución dada, como entre las distribuciones. Los
índices utilizados para hacer estas estimaciones son llamados medidas de variabilidad. Las
mediciones de variabilidad más comúnmente utilizadas son: el rango, la desviación cuartil y
la desviación estándar.
147
• El Rango
El rango –también llamado extensión–, es probablemente la medición de variabilidad más
fácil y rápida de estimar. Se define como la diferencia entre el puntaje más alto y el más bajo
(R= A-B), o como la diferencia más 1 (R=A-B+1), lo cual es referido más específicamente
como rango inclusivo. Por ejemplo, el rango para los siguientes dos conjuntos de datos está
determinado como sigue:
90 40
94 55
93 60
96 80
95 95
Rango = 95-90= 5 Rango = 95- 40= 55
Por lo tanto, un rango pequeño representa a un conjunto de puntajes que están agrupados
conjuntamente, mientras que el rango más grande representa a un conjunto de puntajes que
están más dispersos. Un contratiempo potencial es que dado que sólo toma en cuenta a los
puntajes más alto y más bajo, un puntaje extremo –ya sea en el extremo más alto o en el más
bajo–, puede producir un rango erróneo. Por ejemplo:
90 38
93 93
95 95
97 97
99 99
Rango = 99–90= 9 Rango = 99–38= 61
Si usted lo nota, existe sólo un puntaje que se distingue del resto del conjunto de datos, pero
la diferencia en ese puntaje único como puntaje extremo (90 para 38), tiene un increíble
efecto en el rango.
Mientras que el rango resulta fácil de calcular y brinda una visión instantánea de cuánto o
cuán poco están distribuidos los puntajes de un conjunto de datos, la realidad es que sólo le
está hablando de los dos puntajes extremos, y prácticamente no le dice nada acerca de los
puntajes que se encuentran en medio de ellos. Más aún, lo que está entre esos dos puntajes
extremos es más representativo del conjunto de datos que los extremos mismos. Por ejemplo,
un rango de 26 llamados resueltos en una hora por los representantes del servicio al cliente en
horas pico, le dice que el representante más productivo –si definiéramos la producción en
cuanto al número de llamadas/temas resueltos–, contestó 26 llamados más que el menos
productivo. Pero no le dice demasiado acerca de cómo está distribuida la productividad del
resto de los representantes del servicio a clientes.
148
• El Rango Semi-Intercuartil
El rango semi-intercuartil (RSI), o desviación cuartil –como también es conocido–, es
estimado por el 50% medio de los puntajes, y como tal, no es sensible a los puntajes
extremos como lo es el rango. Esencialmente le dice qué tan amplio y distribuido es el
desempeño que estamos midiendo. La fórmula es la siguiente:
RSI= Q3 – Q1
2
Aquí, Q3 representa al tercer cuartil, el punto debajo el cual cae el 75% de los puntajes,
mientras que Q1 representa el punto debajo del cual se encuentra el 25% de los puntajes.
Recuerde que la media es el punto medio de los puntajes, y como tal, se corresponde con Q2,
o segundo cuartil. De hecho, la media es usualmente utilizada conjuntamente con el rango
semi-intercuartil.
Por ejemplo, si nosotros tuviéramos un conjunto de 40 puntajes, Q3 es el puntaje debajo del

cual se encuentran 30 puntajes (75% de 40 = 30), y Q1 es el punto debajo del cual se
encuentran 10 puntajes (25% de 40 = 10). Si usted organiza cada puntaje en orden numérico,
rápidamente identificará cada cuartil. En el caso de distribuciones pares, cada cuartil puede
ser estimado de igual modo que como lo hicimos con la media (Q2).
La misma característica que hace que esta medición sea menos sensible a puntajes extremos
–estimado por el 50% medio de los puntajes–, también puede ser considerada como un
contratiempo. Después de todo, el 50% de los puntajes están siendo excluidos de esta
estimación. Así que mientras el rango semi-intercuartil es mejor que el rango para la
estimación de variabilidad, no resulta ser la medición más estable.
• La Desviación Estándar
Tal vez la medición más estable de la tendencia central sea la desviación estándar (DE). Y es
tal vez la medición de variabilidad más comúnmente utilizada, y la más apropiada cuando los
datos son medidos en intervalos o escalas de proporción. Recuerde que el promedio es la
medida más apropiada para la medición de tendencia central con estas escalas, y por lo tanto,
el promedio y la desviación estándar son usualmente informados en forma conjunta. Como el
promedio, la desviación estándar es estimada con todos los puntajes de un conjunto de datos,
y como tal, es la medición de variabilidad más estable. Si usted tiene tanto el promedio como
la desviación estándar de un conjunto de datos, usted tiene una buena idea de cómo los
puntajes están distribuidos.
Existen muchos paquetes de software que le permiten estimar la desviación estándar –y

básicamente cualquier estadística–, con sólo presionar un botón. Para su propia curiosidad y
entendimiento, la fórmula para calcular la desviación estándar es:
149
DE = √∑ (X- ) o (porque X- = x) DE = √ ∑x²

N N
Donde “X” representa al puntaje, y mientras que (exclusión pronunciada de X) representa
el promedio y la ‘x’ minúscula a la desviación de un puntaje a partir del promedio de su
distribución. Entonces, uno puede primero calcular el promedio y luego substraer el
promedio de cada uno de los puntajes. Luego, cada una de las desviaciones es calculada al
cuadrado y luego sumada (como lo indica “∑”). El valor de esta formula es luego dividido
por la cantidad de puntajes (N), y se calcula la raíz cuadrada. Por ejemplo:
150
√13 √2.6 = 1.6

X x²
X - = x
14 DE =
14 –17 = -3 9
16 5
16 –17 = -1 1
18 1
18 –17 = 1
18 1
18 –17 = 1
19 4
19 –17 = 2
= 17 ∑x² = 13
Al igual que con las otras mediciones de variabilidad, un valor pequeño de desviación
estándar representa una variabilidad pequeña, eso es, puntajes que están cercanamente
agrupados juntos. Cuanto mayor sea el valor de la desviación estándar, más grande será la
variabilidad. Una variabilidad importante podría estar indicándonos que la solución que
estamos evaluando no es el único factor que está impactando sobre el desempeño. Podrían
haber otros factores (por ejemplo, educación y/o experiencia previa, diferencia en el
ambiente gerencial), que se unan a la solución para crear un nivel de impacto entre el
desempeño de los individuos, mientras que las personas que no son expuestas a esos otros
factores demuestren un nivel de desempeño diferente.
¿Cómo utilizamos la desviación estándar para hacer inferencias acerca del desempeño de un
individuo?
Digamos que para una distribución dada –un conjunto de puntajes– de ítems vendidos por día
por un representante de ventas minoristas, el promedio –número promedio de ítems vendidos
por día– es 18, y la desviación estándar de ese promedio es 4. Si nosotros estamos evaluando
el desempeño de Mary, representante de ventas minoristas, y vemos que en forma promedio
ella vende 26 ítems por día, podemos inferir que el desempeño de Mary es ejemplar, dado
que su puntaje es 2 desviaciones estándar más arriba del desempeño promedio. La operación
de abajo explica esta inferencia:
= 18 ítems vendidos por día

ED = 4 ítems
X = 26
Si nosotros agregamos 1 DE al puntaje promedio, obtendríamos 22; si agregáramos 2 DE al
puntaje promedio, obtendríamos el puntaje de Mary: 26 ( + 2(4)= 26). La siguiente
discusión acerca de la distribución normal, clarificará este razonamiento.
• La Curva Normal
Los resultados obtenidos deben tener sentido para los stakeholders, especialmente en el punto
de tomar decisiones importantes acerca de la mejora del desempeño. La discusión siguiente
cubre algunas formas claras de pensar acerca de, y comunicar, nuestros datos de evaluación.
151
La curva normal –también conocida como curva tipo campana–, es un concepto hipotético
basado en principios matemáticos que nos permiten hacer comparaciones entre los puntajes.
Mientras que probablemente ninguna distribución real se amolda a este modelo
perfectamente, pueden acercarse bastante, y por lo tanto nos permitirá tomar decisiones. De
hecho, la forma de la distribución es a menudo encontrada en nuestro medioambiente (por
ejemplo en curvas de estatura, peso, puntajes de coeficiente intelectual). Para tomar uno de
los ejemplos, el peso de la mayoría de las personas se agrupa alrededor de un promedio.
Luego encontramos menor cantidad de personas que son o más altas o más bajas que ese
promedio, y luego encontraremos aún menor cantidad de personas que son
considerablemente más altas o más bajas. Cuanto más nos alejamos del promedio, menos
individuos encontraremos. Vea la Figura 8.1 que servirá de ilustración.
Figura 8.1 Curva Campana
Promedio
Media
Modo
. 0. 13% 2.14% 13.59%34.13% 34.13% 13.59% 2.14% 0..13%
-3DE -2DE -1DE 0 1DE 2DE 3DE
Lo más alto de la curva representa la distribución normal. En esa distribución, el promedio, la

media y el modo coinciden por completo. Note que el 99.9% de los casos caen dentro de las
desviaciones estándar ± 3 –con el agregado de porcentajes de cada intervalo para obtener esta
figura. No incluye el 100% de los puntajes para adaptarse a la potencial existencia de de
puntajes extremos.
Por ejemplo, si nosotros hubiéramos utilizado una curva normal para ilustrar una distribución
con un promedio de 50 y una desviación estándar de 5, podríamos asumir que el 34.13% de
los puntajes caen entre 50 y 55. Debido a que el mismo porcentaje de puntajes puede ser
encontrado entre 45 y 50, también podríamos establecer que el 68% de los puntajes caen
entre 45 y 55. Nuevamente, refiérase a la figura 8.1 para ver cómo estos porcentajes están
relacionados.
A menudo se asume que la curva normal es útil, dado que se cree que representa la realidad.
La curva normal muestra qué ocurre cuando la naturaleza tiene su propio curso. La idea por
supuesto, es que las soluciones de desempeño no se parezcan demasiado a una curva tipo
campana. Lo que estamos buscando idealmente es que todos los individuos se desempeñen
152
en forma ejemplar, o al menos tengan un promedio de maestría ligado a la parte alta de la

curva –reflejando una distorsión negativa, según lo ilustrado en la figura 8.2–, y que la
distribución sea bastante pequeña. Cuanto más efectivas sean nuestras soluciones de
desempeño, más individuos se desempeñarán por sobre el promedio. Por ejemplo, el número
de ítems vendidos por día, por individuo en una distribución con distorsión negativa incluirá
puntajes como: 10,11, 22, 24, 26, 26, 25, 24, 27, 27,28. Note que la mayoría de los puntajes
se inclinan hacia el punto más alto, y hay solamente dos puntajes que están fuera del rango de
la mayoría. Como contrapartida, una distribución con distorsión positiva tendrá a la mayoría
de los puntajes alineados con el extremo más bajo, y muy pocos puntajes ubicados en el
extremo más alto de desempeño.
La curva normal, mientras está bien establecida en la mente de algunos, no resulta útil para
los encuadres operacionales, según la opinión de otros. En las operaciones, nosotros
queremos tener algún impacto, y por lo tanto querremos obtener algo más que una
distribución normal. Por ejemplo, si nosotros capacitamos a las personas para procesar
aplicaciones de crédito, lo que queremos no es una curva normal al final de la capacitación,
sino una con distorsión negativa, que muestre que nos hemos acercado hacia el objetivo de
que mayor cantidad de individuos demuestren competencias, que si no hubiéramos hecho
nada.
Figura 8.2 Distribución con Distorsión Positiva y Negativa
Representación Gráfica de Datos

El poder de las representaciones visuales no puede ser exagerado. Esto es especialmente
cierto cuando tratamos con cálculos y datos estadísticos. Los gráficos nos ayudan a
interpretar la información rápidamente, sin la utilización de muchas palabras, y de hecho,
muchas personas los encuentran más fáciles de entender que los resultados estadísticos.
Las frecuencias, por ejemplo, pueden ser representadas gráficamente mediante gráficos de
barras. En la figura 8.3, se organizaron las categorías verticalmente, y los valores
horizontalmente.
Figura 8.3 Gráfico de Barras
153
Los gráficos de líneas también son comúnmente utilizados para mostrar tendencias en los
datos a intervalos iguales. Este tipo de gráficos pueden mostrar tendencias en el tiempo o
categorías, y pueden ser creados con marcadores que muestren cada valor ingresado. La
Figura 8.4 muestra un gráfico de líneas con categorías múltiples (Europa, los Estados Unidos,
Japón).
Figura 8.4 Gráfico de Líneas
Otra forma útil de representar las distribuciones, es mediante la utilización de un gráfico

circular –o tipo torta. Un gráfico circular muestra el tamaño de las categorías que conforman
un conjunto de datos. Es particularmente útil para la comunicación de efectos relativos. La
Figura 8.5 brinda tal ejemplo.
Figura 8.5 Gráfico Circular
154
Medición de Relaciones
En algunas instancias, nuestras preguntas evaluativas estarán enfocadas en la relación
existente entre dos puntajes o factores. Por ejemplo, nosotros podríamos querer saber si el
alto grado de desempeño en un área, está relacionado con el alto –o tal vez bajo– grado de
desempeño en otra área; o tal vez si una característica participante está relacionada con otra
característica. Estos temas pueden estar relacionados con la toma de decisiones acerca de la
admisión de potenciales participantes en un programa en particular. Lo que queremos saber
aquí, es si el desempeño de estas dos áreas diferentes está correlacionado. Para responder a
esta pregunta, comparamos los dos conjuntos de datos utilizando un coeficiente de
correlación, o r.
El coeficiente de correlación es un número que irá de .00 a 1, el cual indica el grado de

relación entre estos dos conjuntos de puntajes. Cuanto más cerca el coeficiente esté de 1,
mayor relación habrá, y viceversa, cuando más cerca el coeficiente esté de .00, más débil será
la relación. Sin embargo, es importante notar que de lo que estamos hablando aquí no es de
una relación causal –usted puede haber escuchado la expresión “la correlación no siempre
implica causalidad”. El hecho de que dos factores puedan estar relacionados, no nos brinda
evidencia de que uno esté afectando o causando al otro. Esto es enteramente posible, si un
tercer factor –no identificado–, puede estar causando el efecto. Sin embargo, un error de
interpretación común, es asumir que si las dos variables están correlacionadas, una debe estar
causando la otra (por ejemplo, muchas creencias y comportamientos supersticiosos están
basados en esta idea falsa).
Mientras que no existe una regla universalmente aceptada con respecto a qué coeficiente
preciso constituye una fuerte correlación, versus una débil, existen algunos lineamientos
generales –aunque variarán de acuerdo a los diferentes campos o áreas de estudio:
.00 a .20 = Débil

.30 a .40 = Moderada
.50 a .60 = Moderada a Fuerte
.70 y más = Fuerte
Las relaciones pueden ser positivas o negativas. Una relación positiva es aquella en la cual
ambos factores varían en la misma dirección. Por ejemplo, el desempeño dentro de dos
155
programas diferentes pueden ser ambos altos o ambos bajos. Una relación negativa es aquella
en la cual cada uno de los factores varía en dirección opuesta. Por ejemplo, un alto grado de
desempeño en un área puede estar correlacionado con un bajo desempeño en otra área. Una
correlación negativa es expresada con un coeficiente que varíe de .00 a -1.
Aquí hay algunas muestras de interpretaciones:
r= .25: Positivamente Bajo, significando que mientras que los dos factores varían en la
misma dirección, no aparentan tener una fuerte relación. Por ejemplo, las cifras de
producción y ausentismo pueden ambas haber aumentado este mes, pero la relación entre
estas dos variables –según lo indicado por el coeficiente–, parece ser baja, y por lo tanto no
están relacionadas la una con la otra.
r= –.40 Moderadamente Negativa, significando que ambos factores aparentan estar

inversamente relacionados entre sí, siendo esta relación ni demasiado débil ni demasiado
fuerte. Por ejemplo, las devoluciones bajo garantía continúan creciendo este cuatrimestre, y
nosotros podemos observar que los niveles de ganancias están disminuyendo. Con un
coeficiente de -.40, podríamos inferir que existe una buena posibilidad de que ambos factores
están relacionados.
r= –.05 Muy débil y Negativa, significando que probablemente no existe mucha relación
entre los dos factores, aún cuando existen rastros de una potencial relación siendo inversa.
Por ejemplo, nosotros podríamos observar que los puntajes de la evaluación de desempeño en
una población dada están disminuyendo, al mismo tiempo que se incrementa la cantidad de
cursos de capacitación que ellos están recibiendo. Sin embargo, con un coeficiente de -.05,
dudosamente estos dos factores estén relacionados.
r= .76 Fuertemente Positiva, lo cual sugiere que los dos factores están fuertemente
relacionados, y varían en la misma dirección. Por ejemplo, nosotros podríamos observar que
al igual que la calidad –según lo ilustrado por indicadores de medición relevantes–, las ventas
también están incrementándose. Con un coeficiente de .76, podemos sentirnos confiados de
que estos dos factores están cercanamente relacionados.
Mientras que existen numerosas formas de estimar un coeficiente de correlación –y una vez
más, la forma más apropiada depende de la escala de medición–, dos de los métodos más
comúnmente utilizados son Pearson r –también referido como coeficiente de correlación
producto-momento–, el cual resulta más apropiado cuando los datos a ser correlacionados
han sido medidos en intervalos o escalas de porcentaje; y Spearman Rho, el cual es apropiado
si al menos uno de los factores que está siendo correlacionado es medido con una escala
ordinal.
Estadística Inferencial: Paramétrica y No Paramétrica
156
Existen dos tipos principales de estadísticas inferenciales: las paramétricas y las no

paramétricas. Las estadísticas paramétricas son procedimientos matemáticos para la prueba
de hipótesis, las cuales asumen que las distribuciones –conjunto de puntajes– de las variables
que están siendo evaluadas tienen ciertas características. Por ejemplo el Análisis de Varianza
(en inglés, ANOVA), asume que las distribuciones subyacentes son distribuidas normalmente
y que la varianza en las distribuciones que están siendo comparadas es similar. Mientras que
las técnicas paramétricas son generalmente robustas, esto es que tienen un poder substancial
para detectar diferencias o similitudes aún cuando las suposiciones sean violadas, algunas
distribuciones violan estas suposiciones tan notablemente, que justifican la utilización de
técnicas no paramétricas para detectar tales diferencias o similitudes.
Las estadísticas no paramétricas son otro tipo de procedimientos matemáticos para la

comprobación de hipótesis, los cuales no hacen suposiciones respecto a la frecuencia de las
distribuciones de las variables que están siendo detectadas. Algunos métodos comúnmente
utilizados incluyen: Chi-Square, Mann-Whitney U, Kruskal Wallis, sólo para notar los más
frecuentemente utilizados. Cuando las suposiciones subyacentes al uso de la comprobación
paramétrica no son satisfechas, las pruebas no paramétricas pueden tener más poder
estadístico.
La selección de la herramienta estadística inferencial depende de una cantidad de cosas:
1. La escala utilizada para medir estas variables (las comprobaciones no paramétricas

tienden a ser apropiadas para datos nominales y ordinales, mientras que las pruebas
paramétricas son utilizadas para intervalos y datos de proporción).
2. El número de grupos que está siendo comparado.
3. La relación entre los grupos (por ejemplo, prueba anterior y posterior en un grupo), o
independencia entre ellos (por ejemplo, un grupo control –que no reciba tratamiento
como la participación en un programa–, y un grupo experimental –que reciba el
tratamiento–)
Mientras que aquí no cubriremos un listado extensivo de pruebas estadísticas, la Tabla 8.1
puede resultarle de utilidad para la selección de la herramienta correcta:
Tabla 8.1 Comparaciones y formas de detección de resultados

Número de grupos Medición en Mediciones Nominal (Binomial
que están siendo Intervalos o Ordinales (por (Dos Respuestas Posibles,
comparados Proporciones ejemplo, ítems de por ejemplo: hombre/mujer;
cuestionario con demócrata/republicano,
escala actitudinal) coca-cola/pepsi)
Un grupo respecto a Prueba t de una Prueba Wilcoxon Prueba Chi-square

un valor hipotético muestra o
Binomial
157
Dos grupos Prueba t impar Prueba Mann- Prueba de Fisher

independientes Whitney (chi-square para grandes
muestras)
Dos grupos Prueba t par Prueba Wilcoxon Prueba de McNemar

relacionados
Tres o más grupos Análisis de Prueba Kruskal- Prueba Chi-square

independientes varianza de un Wallis
groups lado
Tres o más grupos Análisis de Prueba Friedman Cochrane Q

relacionados varianza,
mediciones
repetidas
Por ejemplo, si usted quisiera comparar las diferencias entre hombres y mujeres en términos
de método de transporte preferido –público vs. privado– para asistir a su trabajo en el área
central metropolitana, usted estará tratando con datos medidos en escala nominal. Por lo
tanto, usted no será capaz de probar esas diferencias con estadísticas paramétricas (como una
prueba t por ejemplo), porque sus datos no son medidos en una escala interna o de
proporción. En este caso de la prueba Chi-square lo ayudará a determinar si existe una
diferencia significativa en las preferencias de estos dos grupos.
Aún luego de determinar si los resultados son significativos (por ejemplo, los resultados no
se debieron a la casualidad, resultando un rechazo a la nulidad y consideración de
alternativas), o no (falla para rechazar lo nulo, lo cual básicamente significa que no tenemos
evidencia para determinar que nuestro tratamiento tuvo efecto), aún seguimos sin estar listos
para derivar conclusiones. Como veremos en la próxima sección, la significancia estadística
es una pieza de información, una que difiere de la significancia parcial. La Figura 8.6 ilustra
la progresión entre los datos analizados y la recomendación final. Su informe de evaluación
debe contener –y alinear–, todos estos elementos. Para lograr que sus recomendaciones y
conclusiones sean creíbles, usted debe establecer este orden lógico a lo largo de la
comunicación de los resultados de evaluación, en un informe escrito y/o en un resumen oral.
158
Figura 8.6 Progresión desde los datos analizados hasta las recomendaciones para
tomar acción
Recomendaciones para tomar Acción

(¿qué hacemos al respecto?)
Conclusiones
(explicación lógica)
Interpretaciones
(¿qué significa eso?)
Hallazgos
(datos organizados y analizados)
Datos Recabados
Interpretación
Como lo mencionáramos antes en la presentación de El Proceso Para Evaluar Impacto, el
análisis de datos se enfoca en la organización y síntesis de la información; en sus hallazgos,
usted comienza a resaltar los elementos más importantes, comprometiéndose en el proceso de
conversión de datos. Y sus hallazgos comienzan a darle significado a los números y patrones
del análisis que realizó.
La interpretación agrega significado a esa información organizada, para poder establecer

conclusiones plausibles y sostenibles. En este sentido, el análisis de datos trata con los
hechos, mientras que la interpretación está relacionada con los juicios de valor. Debido a que
este es un proceso innatamente subjetivo, debe prestarse especial atención y esfuerzo al
aseguramiento de imparcialidad, apertura y tanta objetividad como actitud realista sean
posibles, bajo las circunstancias dadas. Aún los evaluadores más justos y con mejores
intenciones se verán influenciados en algún grado. Nuestras percepciones son impactadas por
nuestras experiencias pasadas, preferencias, valores, hábitos (por ejemplo, nuestra tendencia
159
a notar algunos detalles y pasar otros desapercibidos). Por lo tanto, resulta sumamente útil el
poder articular claramente nuestro razonamiento, para las interpretaciones que hagamos
enlazadas a los hallazgos encontrados, los cuales están por supuesto, basados en los datos que
usted analizó. Como lo expusiéramos antes, esta alineación resulta crítica a lo largo del
proceso evaluativo….los datos que recabamos son relevantes a indicadores válidos de los
resultados que queremos lograr, que estuvieron previamente relacionados con las preguntas
evaluativas importantes, las cuales queremos responder para que los stakeholders tomen
decisiones contundentes acerca de la mejora del desempeño.
Otra táctica de ayuda es involucrar a otros en la interpretación. El incluir a los stakeholders

en la interpretación de los datos, brinda la oportunidad de considerar los datos en una
variedad de perspectivas diferentes. Para la incorporación de otras perspectivas, también
resulta de ayuda la revisión de resultados a partir de otros proyectos relevantes. Ellos pueden
brindar ideas útiles que tal vez hayan sido pasadas por alto en esta evaluación.
Aún los datos más perfectamente cuantificables requieren de una interpretación. Suponga que
sus resultados son estadísticamente significativos, ¿qué hacemos ahora? Una de las preguntas
básicas que usted tendrá que preguntarse es si los resultados observados tienen una
importancia práctica. Por ejemplo, suponga que los datos para una de sus preguntas
evaluativas –una dedicada a la relación existente entre dos variables, cifras de ventas y
cantidad de cursos de capacitación tomados–, obtuvo un coeficiente de correlación de .22, el
cual fue encontrado como estadísticamente significativo. Mientras que fue encontrado
estadísticamente significativo, eso es, que no ocurrió por casualidad, ¿tiene significado
práctico? Usted y sus stakeholders tendrán que decidir eso. ¿Es la relación real lo
suficientemente fuerte como para basar decisiones importantes en ella? Tal vez no, y
entonces, una decisión que puede tomarse respecto a los datos, en este caso, sería
concentrarse en otros datos donde basar la decisión a tomar. Recuerde, el punto de la
evaluación es facilitar la toma de decisiones válidas y útiles para la mejora continua.
Al interpretar los resultados, también es posible mantener en mente el propósito de la

evaluación, así como las preguntas evaluativas que fueron respondidas con los datos. Esto
por supuesto, debe enlazarse a las necesidades –brechas entre resultados–, identificadas
durante la detección inicial de necesidades. Estas piezas de información serán los
instrumentos para la realización de interpretaciones y conclusiones. Basados en esto –en las
inferencias–, debe derivarse una lista detallada de recomendaciones aplicables. Tales
recomendaciones de acción, brindan la base central para la toma de decisiones, y por lo tanto,
son las que motivan la evaluación en primer lugar. Usted puede ver porqué esta puede ser la
sección del informe evaluativo que llame más la atención inmediata de quienes tomarán las
decisiones.
En suma, existe una gran variedad de consideraciones y perspectivas para el momento de

hacer las interpretaciones. Debajo encontrará un listado de lineamientos generales para
considerar en este proceso:
1. Involucre a los stakeholders en el proceso.
160
2. Consulte varias perspectivas (como otras personas, informes de evaluación, estudios

diferentes pero relacionados, etc.).
3. Revise el propósito de la evaluación: qué preguntas hemos formulado y respondido.
4. Determine si las preguntas evaluativas han sido satisfactoriamente respondidas por
los datos recabados (y recuerde que esto debe ser enlazado a las necesidades
identificadas en el proceso de detección de necesidades…en otras palabras, determine
si las necesidades –brechas entre resultados– tienen de hecho que ser reducidas o
eliminadas).
5. Determine el valor e implicancias de los hallazgos.
6. Busque consenso cuando sea apropiado, pero no lo fuerce si es que no existe.
7. Distinga entre la significancia estadística y la significancia práctica.
8. Sea franco y explícito respecto a las limitaciones de los datos y su interpretación.
9. Sea conservativo cuando los enlaces entre la intervención que está siendo evaluada y
el impacto observado causen preocupación.
161
Capítulo 9
Comunicación de los Hallazgos
La comunicación de los hallazgos es uno de los aspectos más importantes de la evaluación.

Después de todo, el punto de hacer la evaluación es ayudar a los stakeholders a tomar
decisiones respecto a cómo mejorar el desempeño. Por lo tanto, la forma como nosotros
comunicamos nuestros hallazgos determinarán qué acciones se tomarán, ¡si es que toma
acción alguna!
Resulta imperativo notar que la comunicación de los hallazgos no es algo que sólo ocurre al
final del proceso de evaluación. En capítulos anteriores hemos remarcado la necesidad de la
relación con los stakeholders para mantenerlos activos durante el proceso de evaluación, lo
cual es un requerimiento para lograr que una evaluación resulte útil. Un mecanismo útil y
formal para mantener una comunicación abierta, es integrar esta relación al plan de gestión
del proyecto evaluativo como etapa de Revisión de Stakeholder y Retroalimentación, al final
de cada una de las funciones principales del proyecto. La comunicación continua, tanto
verbal como electrónica apoyará por supuesto a este mecanismo. Uno de mis colegas ha
tenido un increíble éxito con la “Informe de Lunes a Primera Hora”, un correo electrónico
semanal que brinda una visión instantánea del proyecto en una sola página; el estado
(mostrando verde, amarillo o rojo en términos de compleción a tiempo); las tareas
completadas durante la semana anterior; las tareas a realizar esta semana (incluyendo
responsabilidades de los stakeholders); y las tareas planificadas para la semana entrante.
La comunicación abierta y transparencia genera una sensación de influencia sobre el proceso

y su futuro en todas las personas involucradas, así como logra brindar puntos de vista
múltiples que pueden ser utilizados para minimizar las inclinaciones, lo cual a su vez permite
que los hallazgos resulten más exactos.
Recomendaciones
Mientras que la comunicación abierta acerca del proceso y de los descubrimientos que se
están llevando a cabo es deseable, el evaluador debe evitar emitir juicios prematuros –y no
avalados aún– acerca de lo que sus hallazgos significan o de cómo arreglarlos. Usted puede
ciertamente ofrecer un conjunto de recomendaciones preliminares en base a cuán experto sea
en el área, a su investigación y a su experiencia, sin embargo, las recomendaciones son un
tema perfectamente apropiado para ser desarrollado en forma conjunta con los stakeholders.
De hecho, las posibilidades de que ellos implementen soluciones que se les ocurrieron a ellos
mismos, son significativamente más altas. Mientras que algunas personas pasan a veces por
un momento difícil, al articular qué fines están realmente persiguiendo, usualmente no faltan
las ideas acerca de cómo llegar allí, primeramente porque el trabajo de la mayoría de las
162
personas está enfocado en esos “cómo”. Las recomendaciones son precisamente acerca de
cómo alcanzar los fines que queremos y requerimos.
Aún así, una de las funciones importantes del evaluador es brindar un marco de trabajo
centrado en los datos, a partir del cual se pueden identificar recomendaciones apropiadas,
básicamente, los requerimientos de una solución exitosa para sobreponerse a los problemas
identificados. Mírelo de este modo, usted no contrataría a la primera persona que pasara
caminando, sólo porque se acercó a su oficina. Usted primero determinará qué funciones
tendrían que ser cubiertas por su empleado, para poder contribuir a los objetivos del equipo,
departamento, organización y demás. Del mismo modo, la solución que es recomendada
tiene que cubrir ciertas “calificaciones para el trabajo”, y si las cubre todas, o al menos las
más importantes –a veces esta es la forma más práctica de seguir y aún lograr cumplir con el
trabajo–, sólo entonces puede ser seleccionada. Para reiterar, si usted se asegurará de brindar
un marco de trabajo centrado en los datos, que comunique al stakeholder los requerimientos
para una solución efectiva, no abra la puerta ‘alabando’ a alguna solución que usted sabe no
beneficiará a la solución.
La Tabla 9.1 brinda una lista de los pasos que pueden ayudarlo a brindar un marco de trabajo
sólido para la identificación de soluciones efectivas. Mientras que es sistemático, el proceso
no tiene que ser lento y largo, si usted lo facilita. Mantenga a todos enfocados en el impacto
deseado.
Tabla 9.1 Marco de Trabajo para la Identificación de Soluciones a Recomendar

Paso Consideraciones/Tareas
1. Defina problema a ser ¿A qué resultados están relacionados? ¿Qué factores involucran? ¿Qué
resuelto. personas se desempeñarán? ¿Gerencia? ¿Programas? ¿Valor externo
agregado? ¿Temas de Fondos/Presupuesto? ¿Otros recursos? Esto puede
parecer obvio, pero el clarificar el tema central hará que la vida de todas las
personas involucradas sea más fácil. ¿Cuáles son los costos y
consecuencias de resolver el problema versus evadirlo o evitarlo?
2. Identifique los ¿Qué cosas críticas tienen que pasar para que este tema sea resuelto? ¿Qué
requerimientos para la característica tienen que tener la solución de este tema para hacer que esas
resolución del tema. cosas críticas sucedan? ¿Dentro de qué lapso de tiempo deben ocurrir esas
cosas? ¿Qué valor debe agregar la solucion?
3. Identifique las alternativas Los stakeholders y evaluador(es) conjuntamente deben identificar las
posibles. alternativas, y cuantas más personas se sientan involucradas en la creación
de soluciones, más alta será su inversión personal para el logro del éxito de
esa solución. La motivación clave en la generación de ideas viables es si
cubren los requerimientos para resolver el tema, según fuera identificado en
el paso previo.
4. Identificar los Pro y las Para cada una de las alternativas identificadas, considere las fortalezas y
Contras (incluyendo debilidades. ¿Pesan más las fortalezas que las debilidades? Esta pregunta
estimación de costos) no se trata solamente del número de fortalezas vs. debilidades, sino también
de su importancia. Puede existir una sola fortaleza aparente contra cinco
163
Paso Consideraciones/Tareas
aparentes debilidades, pero si esa sola fortaleza fuera por ejemplo “salvar
vidas”, seguramente pesará más que las debilidades y los costos. En el
próximo paso, posiciónelas para que pueda comparar las alternativas y
determinar si puede obtener la misma fortaleza en otra alternativa, a un
costo más bajo. ¿Cuál es el valor agregado?
5. Posicione las Alternativas Con esta información en mano, estamos en posición de establecer un orden
de posicionamiento de las alternativas de acuerdo a lo apropiadas y
factibles que resultan. Lo que sea apropiado y factible variará de una
organización a otra. Los stakeholders deben crear una lista de criterios
pertinentes que tengan sentido para su propia organización y propósitos.
Los criterios pueden incluir efectividad de la alternativa, costo, experiencia
previa en su aplicación, y consideraciones políticas –si las hubiera–, para
nombrar algunos.
6. Tome la Decisión Luego de posicionar las alternativas, ellos tendrán que finalmente decidir
cuál es la que tiene más sentido. El paso previo puede haber facilitado
bastante este paso, o puede haber dejado con más preguntas a quienes
tomarán las decisiones. El considerar no tomar ninguna acción en ese
momento, respecto a una decisión, puede aún ser una sabia decisión. Todas
las alternativas y sus potenciales impactos deben ser cuidadosamente
consideradas.
Desarrollo del Informe

Una Perspectiva Iterativa
Antes de llegar al desarrollo real del informe, mantenga esto en mente: un hábito útil para
desarrollar respecto a sus clientes de la evaluación, es brindarles borradores –claramente
designados como tales. Cuando se provee un borrador, el evaluador puede adjuntar al mismo
tiempo una o más preguntas para el stakeholder que lo revisará. La pregunta(s) puede
solicitar al stakeholder parafrasear el significado de partes clave del extracto, o la totalidad.
El evaluador puede también formular preguntas al stakeholder para que las responda en
forma específica en cuanto a significado, tono y/o énfasis. A los stakeholders encargados de
revisar el informe también se les debe solicitar cualquier comentario adicional que él o ella
considere apropiado. Este acercamiento es similar a la prueba de usabilidad y protocolo de
prueba CAED (Collecting and Analysing Evaluation Data/ Recolectando y Analizando los
Datos de Evaluación), utilizado en una amplia variedad de agencias gubernamentales y
corporativas, para mejorar documentos de todo tipo (Dumas & Redish, 1999).
164
Debajo discutiremos algunas consideraciones importantes para el desarrollo de un informe

evaluativo útil y efectivo. Se le recomienda que considere esto al comienzo de su proyecto de
evaluación, y no sólo cuando esté listo para preparar el informe.
1. Conocer a Su Audiencia
Lenguaje: El lenguaje resulta crítico para lograr una comunicación efectiva, y es sin embargo
muy a menudo pasado por alto. Se supone que el informe final consistirá en información
clara y concisa para comunicar a quienes toman decisiones, cuáles son las decisiones
avaladas por su estudio. Un riesgo es que la persona que tomará la decisión puede tomar una
inexacta, basado en la mala interpretación o en una sobre reacción al lenguaje del informe.
Resulta imperativo que usted conozca a quién le estará enviando el informe. ¿Incluirá su
audiencia a personas de finanzas; del área técnica; políticos; otros, o una mezcla de todos
ellos? Asegúrese de que usted y su audiencia tengan en claro a quién se dirigirá su informe.
Usted también debe considerar la educación, el conocimiento, la experiencia, y otros factores
relevantes que puedan impactar sobre la efectividad de la comunicación.
Un término puede significar diferentes cosas para diferentes personas, asegúrese de buscar un
lenguaje que pueda ser interpretado de diferentes formas por diferentes grupos representados.
Mientras que el lenguaje en general es abierto a cierto grado de interpretación, tome los pasos
necesarios para asegurarse de minimizar la variabilidad de las posibles interpretaciones, lo
más que pueda. Una forma de hacer esto es brindar definiciones operacionales, o elaborar los
términos en cuestión brindando explicaciones y ejemplos concisos, evitando
simultáneamente largas justificaciones.
Es importante que las declaraciones sean establecidas en forma descriptiva, y no como

juicios de valor. Cuanto más describa sus hallazgos –como será avalado por el análisis de
datos–, menos bases sentará para la aparición de desacuerdos y/o resistencia. Por otro lado,
cuanto más evaluativas sean sus declaraciones, más la gente se resistirá a ellas. Sustituya
palabras como: excelente, pobre, bueno, malo, controlado, fuerte, débil, para descripciones
de comportamiento. Por ejemplo, en distinto decir que Carlos es un excelente supervisor, a
decir que el supervisor del grupo A y su equipo han cubierto o excedido consistentemente los
objetivos operacionales durante el último año.
El University of Illinois’ Center for Instructional Research and Curriculum Evaluación

(CIRCE – Centro para la Investigación y Evaluación de Currículo de la Universidad de
Illinois), es una de las muchas organizaciones profesionales de evaluación que revisa el
impacto de los resultados y el lenguaje de las presentaciones, utilizando revisiones de
evaluadores que están fuera de su equipo investigativo inmediato. Esta revisión –una forma
de “meta evaluación”–, puede ser utilizada para detectar palabras que disparen temas
candentes y sentimientos tensos que puedan llevar a acciones programáticas no garantizadas.
Pero, ¿cómo determinan los evaluadores si el reporte posee una buena comunicación? Esto
es, ¿cómo pueden los evaluadores detectar la posibilidad de que los stakeholders que leerán
el informe de evaluación lo interpretarán de acuerdo a la intención del autor? Una variación
de la meta evaluación, es utilizar una persona abocada a la toma de decisiones, distinta que el
stakeholder, para revisar los hallazgos y cursos de acción subsiguientes. Esto apunta a la
165
reducción del riesgo de errores de comunicación. Las siguientes son algunas preguntas
generales para que la persona sustituta considere mientras revisa el informe:
1. ¿Aparentan los hallazgos estar declarados en el orden de importancia correcto (mala

priorización de hallazgos)? ¿Cuál es el razonamiento?
2. ¿Son el formato y la organización de la información pobres para el uso del cliente?
3. ¿Son las frases demasiado emotivas (por ejemplo palabras recargadas)?
4. ¿Resultan ambiguas las palabras utilizadas (una frase fácilmente tomada en dos
aspectos), o imprecisas (términos o frases vagos)?
Formato:
Una de las formas más efectivas de encontrar lo que mejor se adecua al formato para una
audiencia particular, es preguntar. Pregúntele a su contacto, el patrocinador del proyecto, o a
cualquier cliente de la organización que haya estado apoyando sus esfuerzos o que esté en
posición de brindarle una retroalimentación útil. La pregunta básica será: ¿Qué tipo de
informe espera el cliente?
• Escrito u Oral;
• Presentación PowerPoint formal o discusión informal;
• Breve o extenso;
• Formato general o formato especial interno
La clave es adaptar el informe a las expectativas y preferencias del cliente. Un estudio de
evaluación amplio requerirá un informe más extenso que uno diseñado para estudios
pequeños o para responder poca cantidad de preguntas. Los siguientes son cuatro tipos de
informes escritos y tres tipos de informes orales que cubren la mayoría de las situaciones.
Informes Escritos
El tipo de informe debe avalar el tipo de evaluación. El énfasis principal es confirmar que los
resultados obtenidos son aquellos que intencionaron la evaluación, y los esperados cuando la
solución o programa fue implementado.
Como fuera señalado antes, la función de la evaluación puede ser enfatizada en diferentes
etapas del programa. Es común que los administradores requieran informes de progreso –
evaluaciones formativas–, que involucren la evaluación de metas que llevarán a los
resultados finales. Esto es especialmente cierto si los intereses sobre el desempeño son altos.
Todos los gerentes deben conocer los costos y penalizaciones por fallar en el logro de su
objetivo. Todos los gerentes también deben conocer que los ajustes de tiempo del programa
pueden ser la diferencia entre el éxito y el fracaso. Debe notarse que este rol es a menudo
expresado mediante los términos de evaluación “formativa” y “acumulativa”. La siguiente
tipología de informes está basada en los requerimientos de presentar los hallazgos en
diferentes puntos del ciclo de vida del programa. El término programa es aquí utilizado en
sentido general al curso de acción o estrategia de solución que tiene un comienzo y un fin, y
que puede ser gestionado. Durante el curso de eventos reales, muchos programas coexisten,
166
comienzan y se detienen en un complejo contexto social, económico y de fuerzas físicas. Los

evaluadores pueden evitar los factores importantes de ruidos de fondo y confusión, al escribir
o presentar un informe claro y bien fundado, pudiendo contribuir enormemente a la
organización.
Informe de Hallazgos basado en el Programa de Evaluación de Resultados. Este informe es

utilizado al finalizar el programa –o el contrato de evaluación–, para presentar los hallazgos
relacionados a los varios niveles de resultados de la solución o programa bajo estudio. Este
informe incluirá una comparación entre los resultados obtenidos y los resultados esperados, y
las explicaciones de la diferencia existente entre ambos en base a las observaciones, las
cuales ocurrieron durante el estudio de evaluación. El informe incluirá recomendaciones para
cursos de acción futuros referentes al programa en cuestión.
Informe de Hallazgos basado en la Evaluación de Cursos de Acción Alternativos. Este

informe es utilizado siguiendo la detección de necesidades cuando las metas y objetivos –los
fines–, han sido derivados y enlazados a la visión organizacional en base a las necesidades
sociales. En este punto se evalúan las soluciones alternativas para alcanzar las metas y
objetivos –los medios a ser utilizados para alcanzar los resultados deseados–, en base a la
relación costo-beneficio y otros criterios relacionados con los stakeholders específicos. Este
informe también puede ser utilizado para informar hallazgos y recomendaciones relacionadas
con ajustes de medio curso. Cuando no se consiguen las metas, algunos ajustes pueden ser
solicitados. Los eventos imprevistos pueden causar la ruptura de las tácticas. Los cambios
pueden ser requeridos debido a un recorte en los recursos, a cambios en las poblaciones
involucradas, a cambios en la situación política y a muchos otros factores.
Informe de Hallazgos basado en la Evaluación de Metas y Objetivos. Este informe es

utilizado cuando el equipo de evaluación tiene alguna razón para cuestionar la legitimidad de
las metas y objetivos. Tal vez nunca se haya realizado una detección de necesidades. El
equipo puede querer recomendar uno, y brindar los lineamientos pertinentes.
Informe de Hallazgos basado en los Registros de Evaluación de Desempeño. Este informe es

utilizado para presentar hallazgos en el estudio de evaluación que está dirigido a percibir
deficiencias en el desempeño. El informe contendrá evidencia y argumentos como resultado
de cada candidato causal o factor contribuyente. Los factores son establecidos en orden de
posicionamiento. A veces existen recomendaciones hechas en referencia a cómo las
deficiencias pueden ser reducidas o eliminadas.
La mayoría de los informes escritos incluyen los mismos componentes generales, aunque
algunos de estos elementos pueden ser organizados en forma diferente. Debajo se incluye una
forma de organizar un informe escrito, una que puede ser utilizada para un informe más
formal y técnicamente elaborado:
1) Resumen Ejecutivo
2) Cuerpo del Informe
a) Introducción
b) Declaración de Propósito
167
c) Experiencia y/o Antecedentes

d) Descripción del Alcance Indagatorio de la Evaluación
e) Preguntas Evaluativas Generales y Específicas
3) Descripción de la Metodología
a) Resultados Específicos e Indicadores a Observar
b) Fuentes de Datos e Instrumentos/Métodos para la Recolección de Datos
c) Cronología de la Observación
d) Discusión de factores relevantes
4) Resultados del Análisis de Datos
a) Hallazgos e Interpretación (que responda a cada pregunta evaluativa)
5) Recomendaciones y Conclusiones (que estén directamente enlazadas a los hallazgos y
datos relevantes)
6) Anexos/Apéndices Clave
Debajo encontrará una segunda forma de organizar un informe final, uno que puede resultar
más apropiado si la audiencia está interesada en una idea “rápida y sucia” de lo que está
pasando y qué pueden hacer al respecto. Vale la pena notar que mientras que las primeras
tres secciones están organizadas del mismo modo, en este segundo escenario, serán mucho
más concisas. En el primer escenario serán usualmente más elaboradas y detalladas.
1) Resumen Ejecutivo
2) Cuerpo del Informe
a) Introducción
b) Declaración de Propósito
c) Experiencia y/o Antecedentes
d) Descripción del Alcance Indagatorio de la Evaluación
e) Preguntas Evaluativas Generales y Específicas
3) Descripción de la Metodología
a) Resultados Específicos e Indicadores a Observar
b) Fuentes de Datos e Instrumentos/Métodos para la Recolección de Datos
4) Hallazgos de la Evaluación
a) Tema 1
i) Hallazgo 1
ii) Datos de Apoyo
iii) Recomendaciones
iv) Hallazgo 2
v) Datos de Apoyo
vi) Recomendaciones
b) Tema 2
i) Hallazgo 1
ii) Datos de Apoyo
iii) Recomendaciones
iv) Hallazgo 2
v) Datos de Apoyo
vi) Recomendaciones
vii) Hallazgo 3
168
viii) Datos de Apoyo

ix) Recomendaciones
c) Tema 3, etc…
5) Anexos/Apéndices Clave
Aquí los hallazgos son agrupados entorno a temas (tal vez de 3 a 5 en total), conteniendo
cada uno de los temas entre 2 y 5 hallazgos específicos. Los temas pueden girar entorno a un
problema general, como la falta de enlaces entre los varios niveles estratégicos, tácticos y
resultados operacionales, con hallazgos específicos que brinden instancias específicas de
cada uno, con el apoyo de los datos correspondientes.
Informes Orales
Muy a menudo se requiere que los evaluadores lleven a cabo presentaciones orales. Aquí
incluimos una breve discusión de tres situaciones que a menudo se presentan en cualquier
estudio de evaluación.
Resumen Ejecutivo. El resumen ejecutivo debe ser corto e ir directamente al punto. Preste
particular atención a evitar repeticiones y conozca el contenido de los resúmenes previos para
no cubrir viejos temas. Puede incluirse una breve recapitulación del informe previo brindado
–la cual debe ser breve–, limitándose a los puntos que son relevantes al resto de su
presentación. En general, las mismas cosas listadas anteriormente como componentes del
informe son las que le brindarán la estructura para su presentación. Recuerde, como
evaluador usted debe liderar a partir de metas y objetivos acordados, derivados de la
detección de necesidades y enlazados al mega. Como tal, usted está allí para resumir los
hechos de los hallazgos. No para hacer un discurso de ventas. Muchos de los libros de
consejos para discursos en público, se enfocan en la presentación de argumentos
convincentes y cierres de negocios. En una evaluación, no hay negocio que cerrar. Usted
debe informar los hallazgos relativos a las metas del programa y a los lineamientos de la ética
profesional. Cuando usted salta hacia la promoción y los rodeos, se habrá alejado de la
evaluación, para asumir un nuevo rol.
Foro Público.
El hablar en público puede ser intimidante para algunos evaluadores. Toast Masters es un
buen foro de práctica, pero la presentación de los hallazgos de una evaluación le ha agregado
el requerimiento de informar más que de entretener. El uso de una estructura lógica en su
presentación, de ayudas visuales claras que sean simples y directas, y de notas para
mantenerse en el camino, le ayudarán a servir a la audiencia. En un foro público, usted debe
estar preparado para responder preguntas. Mientras que es su deber mantener la
imparcialidad en la presentación de sus hallazgos, su audiencia muy a menudo contendrá
partidarios apasionados por diferentes puntos de vista. La presentación de los hallazgos de la
evaluación no es un foro propicio para discutir o defender estos puntos de vista. Si su
programa ha sido iniciado utilizando una detección de necesidades disciplinada, usted estará
169
en posición de responder las preguntas que le sean formuladas, debido al beneficio social, y
su enlace con las metas del programa han hecho que el proceso sea explícito.
Demostración. Muy a menudo las demostraciones son más efectivas que las palabras en la
presentación de los hallazgos de la evaluación. Las grabaciones de video y audio pueden
transmitir los resultados en los casos donde las metas de desempeño involucran habilidades
psicomotrices. La medicina, los deportes o la producción representan áreas de desempeño
donde el ver los resultados tomando acción puede brindar un apoyo valioso a otras medidas
de desempeño.
2. Identificación del Mensaje Clave: ¡Tome Acción!

Esta consideración va de la mano con la primera. El formato y el lenguaje que resultan
apropiados para su cliente deben por supuesto, estar enlazados a la acción que el cliente debe
tomar para mejorar la organización, y a su habilidad de cubrir las necesidades de sus clientes
y de los clientes de sus clientes. Por lo tanto, usted tiene que determinar casi
simultáneamente, el Quién y el Qué.
Junto con la identificación de quién debe hacer qué, parte de este lineamiento será
alimentado por nuestra discusión acerca de las recomendaciones. El comunicarle a un cliente
lo que debe ser hecho puede parecer completamente claro para el evaluador –u otro tipo de
consultores–, pero para la mayoría de los clientes, rara vez es suficiente. También es
importante articular el Cómo esta recomendación debe ser llevada a cabo, y en términos
sueltos, cómo será implementada.
Es alrededor de estas consideraciones que el evaluador puede comenzar a articular el

contenido de un informe final, ya sea oral u escrito. Recuerde, el conducir una evaluación es
un mero vehículo para tomar decisiones contundentes acerca de cómo mejorar el desempeño.
Este informe es donde nosotros recomendamos –basados en los datos–, cómo mejorar el
desempeño.
La pregunta guía aquí debe ser: ¿Qué fue? ¿Qué fue lo que los datos señalaron
consistentemente y cuál es la mejor forma de tratar con eso efectiva y eficientemente?
3. Haga Distinciones Claras y Enlaces Entre: Recomendaciones,

Interpretaciones, Hallazgos y Datos Analizados.
El mensaje principal que usted debe obtener de este libro es la alineación. La alineación
entre:
• El valor agregado o sustraído de (1) socios externos y sociales, (2) socios internos a la
organización, y (3) asociados dentro de la organización.
• El propósito de la evaluación y las preguntas evaluativas subsecuentes;
• Las preguntas y los resultados que importan;
• Los resultados y los indicadores de desempeño claves;
• Los indicadores y las fuente y métodos utilizados para recabar datos relevantes;
170
• El tipo de datos y las técnicas utilizadas para su análisis;

• Los resultados del análisis de datos y las interpretaciones;
• Las interpretaciones y recomendaciones para tomar acción.
Piense en ello como una construcción, si alguno de estos elementos no está bien alineado,
entonces usted no contará con una estructura sólida. Si usted no está parado sobre una
estructura sólida, la gente tendrá poca o nada de confianza en la estructura sobre la cual usted
está parado.
Usted no debe confundir su interpretación de lo que los datos sugieren, con los datos en sí
mismos. Sea claro respecto a esto en su comunicación de los resultados. Si usted no lo es,
alguien seguramente se lo señalará. Usted estará mejor inclinándose hacia un sitio más
conservativo que exponiendo su cuello sin contar con la evidencia suficiente, porque
seguramente uno de sus stakeholders le señalará que sus puntos no están avalados por la
evidencia. Si esto ocurre, este hecho promueve una nube de dudas sobre sus otras
conclusiones y recomendaciones, aún aunque ellas estén perfectamente avaladas.
Usted debe asegurarse de que los hallazgos de la evaluación para los que trabajó tan duro, no
causen que su audiencia tome decisiones que no estén avaladas por los datos. Haga enlaces
claros, no solamente a través de la comunicación de resultados, sino a través de su proceso
completo de evaluación.
4. Sea Claro Acerca de las Responsabilidades de su Stakeholder

Mientras usted esté clarificando qué acciones deben tomarse, sea específico respecto a los
roles y responsabilidades de sus stakeholders en la implementación de las recomendaciones.
Es importante que ellos entiendan que es posible mejorar su situación, sin importar cuánto
trabajo y esfuerzo deba involucrarse en el proceso.
Asegúrese de enlazar y alinear los resultados y consecuencias para cada uno de los elementos
organizacionales, aún cuando la solicitud original que haya recibido haya consistido en sólo
un programa, proyecto o actividad. Note el valor agregado o sustraído de la sociedad que
compartimos, de nuestra organización y de sus asociados.
A toda costa debe evitar nutrir una “localización externa de control”. Mientras que la
autoridad y poder para tomar decisiones no están equitativamente distribuida, todos –a todos
los niveles– tienen cierta cantidad de control sobre sus contribuciones únicas y colectivas
para la organización. Sea claro y específico –cuando sea posible–, acerca de cómo los
diferentes grupos e individuos pueden ser participantes activos en la formulación de
recomendaciones para mejorar el desempeño.
Una de las formas para comunicar las responsabilidades a los stakeholders, es una entrega
adicional –o como parte del informe de evaluación si así hubiera sido negociado–, brindando
un plan de gestión general para el proyecto, dedicado a la implementación de las
recomendaciones que hayan sido seleccionadas y aprobadas por los stakeholders. Aquí, el
evaluador –en consulta con los expertos de una recomendación en particular y el grupo
stakeholder correspondiente–, puede definir las funciones principales, las tareas clave, los
171
lineamientos de tiempo, y los grupos o individuos responsables para una tarea o función
determinada. Los cuadros de flujo pueden a menudo ser útiles para ayudar al cliente a
visualizar el proceso completo de implementación.
El Rol del Evaluador Luego de la Presentación del Informe
Mientras que los evaluadores usualmente no están involucrados con la implementación o

recomendaciones, el darle a los stakeholders una imagen tan vívida como fuera posible,
puede brindar el momento requerido para la implementación real de las recomendaciones. Si
el proyecto de evaluación es continuo, ellos pueden también ser responsables por el marco de
trabajo de la evaluación, cualquiera que hayan sido las alternativas seleccionadas para
implementar. Adicionalmente, ellos pueden estar involucrados en el diseño, desarrollo,
implementación y evaluación formal luego de la implementación recomendada. El que el
evaluador esté involucrado en todas y cada unas de las etapas, alienta a todos a mantenerse
enfocados en los resultados de medición y en la mejora que las recomendaciones intentan
obtener.
172
Capítulo 10
Contratación de Servicios de Evaluación
Este capítulo le brindará consejos respecto al contrato requerido cuando usted quiera que una
organización externa conduzca la evaluación, y está basado en Kaufman, Guerra, y Platt
(2006). Los listados de revisión y declaraciones de trabajo brindadas, pueden sin embargo ser
utilizadas como planificación de su propia evaluación. Un desafío encontrado en cualquier
evaluación es la compleción del estudio de acuerdo a lo originalmente planificado, sin dejar
que temas extraños consuman demasiado tiempo y otros recursos.
Una vez más, el conjunto de preguntas evaluativas juega un rol central en un contrato. Usted
puede utilizarlo para asegurarse de que un contratista asegure encargarse de cada una de las
preguntas y entregas incluidas en las preguntas evaluativas que hayan sido formuladas. Del
mismo modo, las preguntas evaluativas son el ancla para un proceso de evaluación interno, y
todas las actividades asociadas a él.
Lo que no puede hacerse es controlar qué es lo que el contratista provea en forma de

preguntas. La credibilidad de los hallazgos de una evaluación –interna o externa– reside en la
objetividad e independencia que es otorgada y respetada. Existen formas de guiar a los
equipos de evaluación para mantenerlos en el camino de respuesta a las preguntas
evaluativas, pero las respuestas no son dictadas como parte de ese paquete.
La Naturaleza de los Contratos

Un contrato es un acuerdo entre dos partes para brindar algo a cambio de una consideración –
usualmente un pago en dinero a cambio de bienes y servicios. En principio, un apretón de
manos puede cerrar un trato, pero es prudente que las personas reconozcan el valor de los
contratos escritos, que son claros y ejecutados frente a testigos. Esto resulta valioso si las
partes están en desacuerdo acerca de algo o por otros motivos termina presentando una
acción legal. De hecho, un contrato escrito puede prevenir cualquier diferencia, evitando
confrontaciones legales, o al menos brindando bases claras para el establecimiento de la
disputa.
La ley contractual es un campo complejo, y no será cubierta aquí. En vez de ello, este
capítulo se concentrará en ayudarlo a desarrollar una descripción clara, así como
especificaciones de tareas y entregas que usted quiera lograr en la evaluación, que sean
entendidas mutuamente, acerca de qué será entregado y qué no. Esta es la parte que un
funcionario adjudicador o contratista, o procurador oficial no puede hacer por usted.
Nosotros incluiremos controles para guiar al contratista al escribir propuestas, presentando un
173
ejemplo de una declaración de trabajo, y sugerencias de tipos de mecanismos contractuales

para el pago. Por ejemplo:
• Precio fijo
• Costo más honorario fijo
• Tiempo y materiales
• Anticipo de consulta
Precio Fijo
Un contrato de precio fijo significa que todo el trabajo es realizado a cambio de una cifra de
dinero preestablecida, al momento que el contrato es acordado –usualmente basada en la
propuesta del contratista. Este tipo de pago contractual funciona mejor cuando las propuestas
son aceptadas a partir de una serie de contratistas en competición, y el trabajo es claro y
rigurosamente especificado. Los contratistas que conocen el campo pueden planificar su
trabajo eficientemente, y arribar a un precio que resultará adecuado de acuerdo al
acercamiento técnico del trabajo a realizar. Sin embargo debe notarse, que si luego de ser
acordado el contrato, la parte que solicita el trabajo comienza a agregar cosas en la lista de
tareas del contratista, el contratista está en todo su derecho de solicitar una renegociación del
contrato de precio fijo previamente establecido, y agregar más dinero correspondiente a las
nuevas tareas a realizar. Luego de que el contrato es otorgado, el contratista no se enfrenta a
ninguna competición, por lo que existe menos presión para mantener bajos los costos,
durante un cambio de propuesta. Si no hubiera ninguna innovación técnica o descubrimiento
solicitado, y ambas partes conocieran bien el campo, el riesgo es aproximadamente igual para
cada una de las partes. Un estudio de evaluación que haya sido firmemente contraído, podría
utilizar este tipo de contrato. Sin embargo, es bueno mantener en mente que algunos estudios
de evaluación se acercan más a la naturaleza de estudios de identificación de problemas, en
forma opuesta a la confirmación de resultados de un marco experimental. Un estudio que
tendrá alguna amplitud, puede incluir tareas de trabajo adicionales dentro de la declaración
de trabajo, que estén remarcadas como opciones a precios adicionales, pero esto requiere de
algo de anticipación en la naturaleza de la opción de tareas a realizar. Por lo tanto, tal vez sea
más adecuado optar por una forma de contrato diferente.
Costo Más Honorario Fijo

Un contrato de costo-más-honorario-fijo, significa un contrato que debe mantener registro de
todos los gastos y facturas por el costo real del trabajo que se está realizando –los cuales
estarán sujetos a auditoría. Al final del contrato, se le paga al contratista un honorario fijo,
que puede ser un monto total, un monto preestablecido, o alguna fórmula que sea aceptada
por ambas partes. En este arreglo, el contratista puede aceptar algunas variaciones del trabajo
o tomarse el tiempo para investigar temas emergentes, mientras se mantengan los registros de
174
costo y dicha variación sea aceptable para ambas partes. Note que los cambios de órdenes
deben ser aceptados antes de iniciar la variación del trabajo. Un contratista que se sale del
alcance original de la evaluación sin permiso, puede ser forzado a absorber el costo de esa
decisión. Sin embargo, y de acuerdo a la misma regla, cualquier lineamiento exuberante de
cualquier personal, puede significar que el contratista recibirá el pago adicional por cualquier
trabajo resultante. El establecer un papel claro para seguir la pista a cualquier orden de
cambios es una buena idea, y servirá para que ambas partes se aseguren de conocer quién
autoriza el cambio. Este tipo de contrato permite un riesgo asociado con un descubrimiento
de algo desconocido, mientras se mantenga un buen control de la situación.
Tiempo y Materiales
Un contrato de tiempo-y-materiales significa que el contratista obtiene una paga por los
honorarios –un monto determinado por hora de trabajo–, de cada uno de los trabajadores
comprometidos con la provisión de apoyo directo o indirecto al contrato. El contratista
también recibe un pago por los gastos incurridos, como viajes y materiales utilizados. Un
contrato de tiempo-y-materiales se utiliza cuando el alcance de la tarea y la declaración de
tareas incluyen el análisis, descubrimiento o experimentación que pueden ser repetidos tantas
veces como sea necesario hasta obtener los resultados deseados. La redirección de la
actividad laboral resulta simplemente en mayor cantidad de tiempo y consumo de materiales.
Sin embargo una sabia decisión es la de mantener el control sobre los cambios de ordenes de
trabajo, aunque la flexibilidad ofrecida es mucho mayor. Se debe tener en cuenta que el
riesgo para la organización es que el trabajo puede ser consumido y los fondos agotados,
antes de que el contratista haya producido cualquier producto deseado. Se pueden establecer
límites de montos máximos incluidos en el contrato de tiempo-y-materiales. Si bien existe la
posibilidad de alcanzar ese límite sin haber obtenido el resultado final del trabajo, esa
posibilidad puede ser más improbable al existir una revisión gerencial atenta utilizando
revisiones periódicas del programa.
Anticipo de Consultas
El tipo de contrato más flexible es un acuerdo entre un consultor o firma consultora para
brindar servicios de evaluación. Los consultores pueden hacer la evaluación completa o
brindar lineamientos para su plan e implementación de su propio estudio. Cada consultor
tendrá su propia forma de arreglar el pago. Esto puede ser desde la aceptación de honorarios
hasta montos fijos de honorarios diarios. La utilización de consultores puede ser
extremadamente beneficial para un sistema educacional, así como también puede ser
provocativa y desperdiciar recursos. Lo mejor es considerar la utilización de un consultor
sólo luego de una primera revisión de recursos internos, y luego hacerlo mediante un
contexto de búsqueda del candidato apropiado para llevar adelante la tarea.
175
Controles de Contratación
La contratación de servicios de evaluación –y resultados–, es más que una simple cuestión de
tomar a un contratista y luego dejarlo libre mientras que usted se dedica a otros negocios. Es
más como subirse a un caballo que usted debe manejar hacia el final del camino. La “calidad
de la cabalgata” depende de usted. Usted puede magnificar lo que puede ser hecho mediante
el uso apropiado de un contrato, pero requerirá una inversión de tiempo y atención a los
detalles. Algunas de las cargas de gestión pueden ser facilitadas si usted comienza con un
buen contrato, que sea claro y brinde por adelantado un marco de trabajo para usted y para el
contratista, a través de las etapas de trabajo y compleción de tareas que usted desea realizar,
con un conjunto de resultados deseados.
Aquí hay algunas características contractuales que lo ayudarán a usted –y al contratista– a

establecer claramente qué es lo que desean y los límites del trabajo.
Alcance del Trabajo

El alcance del trabajo es una declaración que usted incluirá en su contrato, que define
claramente qué trabajos se llevarán a cabo y cuáles son los límites del esfuerzo de esos
trabajos. Esto es particularmente importante, en el caso de que surjan temas relacionados al
pago, o para la determinación de si una pieza de trabajo está dentro o fuera del alcance
primeramente establecido.
Declaración de Trabajo (SOW, Statement of Work)

La declaración de trabajo es un tipo de especificación. Esto requiere de un entendimiento
común por parte de los contratistas y de los representantes de la organización, respecto a
ciertas tareas y a qué será entregado. Por ejemplo, una simple frase “conducir una
evaluación” no incluye demasiado detalle. Pero la frase “conducir un análisis de varianza”
puede ser demasiado específica, especialmente si otras estadísticas serán utilizadas de
acuerdo a que resulten más apropiadas para el estudio. En los estudios de evaluación, el
contrato puede estar basado en el conjunto de preguntas evaluativas, el cual debe ser firme y
mutuamente entendido. Las dos provisiones principales de cualquier declaración de trabajo
son: una lista de tareas a realizar y las entregas asociadas a cada una de esas tareas.
176
Otras Cláusulas Contractuales

Muy a menudo resulta útil la inclusión de cláusulas en su contrato, para cubrir expectativas
en el área de derecho sobre cualquier producto basado en datos que pueda ser generado
durante la evaluación. La publicación de hallazgos en informes puede incluir restricciones
respecto a su distribución, o requerimientos de distribución específicos. Las especificaciones
respecto al número de informes, número de copias, costos de envío y formato pueden ser
incluidas. En el caso de instrumentos desarrollados, cualquier derecho de autor para una
futura utilización de los instrumentos desarrollados bajo un contrato, deben ser aquí
especificadas.
Plan de Gestión
Usted puede solicitar al contratista que presente un plan de gestión que describa cómo
procederá con el trabajo y qué entregas en-proceso serán brindadas para la realización de la
revisión y retroalimentación correspondientes. En casos donde la negociación es solicitada
para ajustar la declaración de trabajo, esta es una forma de incluir detalles que no fueran
posibles de ser incluidos en la declaración de trabajo –comúnmente, usted tendrá que
comenzar el trabajo para saber con qué está tratando. El plan de gestión debe incluir la
provisión de revisiones de progreso, informes, cronogramas de evaluación y mecanismos
para cambios, control de calidad y aprobación para reemplazo de personal.
Revisión del Programa

Se recomienda que tomen lugar revisiones mensuales formales, en las cuales se solicita al
contratista mostrar el progreso logrado en todas las tareas, mostrar la situación financiera
para todos los fondos gastados, y discutir todos los cambios posibles o re-direccionamientos
necesarios a la luz de cualquier problema o eventos inusuales que puedan afectar el estudio
de evaluación.
Cronogramas y Desglose de la Estructura de Trabajo

Cada tarea incluida en la declaración de trabajo se convierte en un ítem que debe tener una
fecha de inicio y finalización dentro del cronograma establecido para el programa. Hoy en
día existen muchas herramientas excelentes para la gestión de proyectos, que hacen que el
cronograma del proyecto resulte una tarea relativamente fácil
177
Entrega y Aceptación
Cada una de las entregas debe tener una fecha de finalización, y las condiciones de
aceptación deben estar establecidas en el contrato. Muchos contratistas utilizan una carta de
presentación con una firma de aceptación para cada uno de los ítems a entregar. Asegúrese de
que el contrato especifique quién firmará cada entrega. En la mayoría de las organizaciones,
el funcionario adjudicador o contratista, o procurador oficial, o el representante técnico, son
designados como la autoridad oficial para firmar esas entregas.
A menudo resulta vital incluir un lineamiento de tiempo de aceptación de lo que ha sido

presentado. Una forma de asegurar que el contratista obtendrá una respuesta que no le evitará
progresar en la evaluación, es la utilización de una cláusula que establezca qué es lo que
ocurrirá en caso de no obtener una respuesta bajo los tiempos establecidos: “Si no existiera
respuesta por parte de la organización, la presentación se convertirá automáticamente en
“aceptada y aprobada”.
Ética y Profesionalismo
No se venda a usted mismo convirtiéndose en un “mentiroso pero contratado”. Diga la
verdad acerca de lo que hizo, de cómo lo hizo y de por qué lo hizo, así como también
respecto a qué fue lo que encontró. Sea franco respecto a todas las suposiciones y
limitaciones. No agregue ni omita nada que esté justificado, y no cambie nada simplemente
porque el cliente así lo quiere.
Ahora revisemos una muestra receptiva y responsable de una declaración de trabajo incluida
en un contrato de evaluación. El siguiente es sólo un ejemplo, pero está basado en el trabajo
de William Platt con el ejército y gobierno Estadounidense. Usted puede reemplazar los
ítems de este ejemplo con los que considere apropiados para su organización educacional y
evaluación.
Muestra de Declaración de Trabajo
Información General
1. Título del Proyecto:
Evaluación del Nuevo Programa de Incentivos para Ventas, de la Corporación Vendomucho.
178
2. Alcance del Trabajo:

El contratista debe proveer todo el material y personal para el logro de las entregas descriptas
en la declaración de trabajo, excepto si fuera de otro modo especificado. El alcance de esta
orden para la realización de la tarea y las entrega asociadas incluyen: (a) revisión de literatura
utilizando herramientas de búsqueda basadas en la universidad, (b) análisis de bases
conceptuales/teóricas de las ventas y las técnicas, métodos y actividades de incentivo, (c)
evaluación de las perspectivas alternativas para incentivos de ventas, (d) preparación de
preguntas evaluativas previamente acordadas que motivarán y guiarán la evaluación, (e)
creación y administración de una base de datos para los datos recabados durante esta
evaluación, (f) recolección de datos utilizando métodos válidos y confiables, y técnicas para
la recolección de datos que aseguren la obtención de datos válidos y confiables relacionados
directamente con las preguntas evaluativas previamente acordadas, (g) preparación de
informes y documentos de resumen y revisión de acuerdo a lo solicitado, y (h) viajes a
instalaciones organizacionales específicas para resúmenes y reuniones.
El contratista debe ser competente en todas las fases de la evaluación, contando con una
habilidad probada en la evaluación de sistemas educacionales y programas educacionales. Se
solicitan referencias para confirmar esto.
Pasos de Trabajo
Los pasos de trabajo deben incluir lo siguiente: (a) análisis de ventas y programas de
incentivos, y políticas de Vendomucho y otras corporaciones similares, (b) conducir una
búsqueda en la base de datos literaria relativa al tipo de programa que está siendo evaluado, y
a las herramientas y técnicas utilizadas en proyectos similares, (c) desarrollar y obtener
aprobación de las preguntas evaluativas que motivarán la recolección de datos y los
hallazgos, (d) preparación de un flujo de trabajo y cronograma de la evaluación, (e)
identificación de métodos de evaluación, medios, proceso y técnicas; y relacionarlos con las
preguntas evaluativas, (f) identificar y documentar los métodos seleccionados para la
recolección de datos, (g) definir los lugares, muestras y recursos requeridos para la
recolección de datos, (h) recabar datos, (i) reducir y analizar los datos utilizando estadísticas
y herramientas de análisis válidas y confiables, (j) brindar hallazgos iniciales y
recomendaciones para la acción de los patrocinadores, y revisar según sea solicitado, (k)
preparar y presentar borradores del informe final, y (l) revisar según sea solicitado.
Visitas de Campo
Todas las visitas en el área de trabajo así como observaciones internas, deben ser coordinadas
con el director del departamento de la oficina de ventas y/o con el director del proyecto de
evaluación.
Gestión del Proyecto

Durante el período de desempeño en las tareas ejecutadas de acuerdo a esta declaración de
trabajo, el contratista debe mantener al director de oficina de ventas y equipo stakeholder de
la evaluación completamente informado respecto a los temas y progreso inherentes a la
evaluación que se está llevando a cabo.
179
3. Contexto:
Este contrato es el seguimiento de respuestas rápidas, y esfuerzos de corto plazo, para
investigar las tendencias y conceptos en los incentivos de ventas y compensación que
impacta o potencialmente podrían impactar a las ventas, políticas de ventas y capacitación de
ventas en la corporación Vendomucho.
4. Período de Desempeño:
El trabajo debe comenzar dentro de los 10 días calendario luego de establecerse el presente
contrato, al menos que sea de otra forma especificado. El trabajo en las instalaciones de la
corporación no debe tomar lugar durante los feriados o fines de semana, al menos que así sea
establecido por el funcionario adjudicador o contratante. El informe de ítems de entrega y
cronograma serán establecidos en una reunión de lanzamiento posterior.
5. Tipo de Contrato:
Tiempo y materiales. Con límite de precio fijo.
Reunión de Contratación
El contratista no debe comenzar su desempeño en las áreas establecidas en la presente

declaración de trabajo, hasta que el funcionario adjudicador o contratante haya conducido la
reunión de lanzamiento, o haya notificado al contratista que la reunión de lanzamiento ha
sido pospuesta.
Requerimientos Generales
1. El contratista debe confirmar las tareas telefónicas asignadas, con el gerente del
proyecto de evaluación. Un breve lineamiento de trabajo debe estar reflejado en la
propuesta técnica.
2. Todas las entregas escritas deben ser fraseadas en una terminología aceptable para el
campo en cuestión. Las palabras deben ser definidas en lenguaje lego. La
terminología estadística u otra terminología técnica deben ser definidas en un glosario
de términos y referenciadas por validez y utilidad.
3. Al menos que sea de otro modo especificado, cuando se solicite una entrega escrita en
forma de borrador, la oficina del distrito escolar completará la revisión del borrador
dentro de los 10 días calendario a partir de su recepción. Si no hubiera respuesta por
parte de la Corporación Vendomucho dentro de los 10 días calendario, será
automáticamente considerado como “aprobado”. El contratista tendrá 10 días
180
calendario para realizar la entrega final a partir de la fecha de recepción de los

comentarios.
4. Este contrato no requiere acceso a legajos individuales de desempeño.
5. Todas las entregas, excepto cuando sea de otro modo establecido, deben ser
presentadas en copia electrónica por correo electrónico al gerente del proyecto. Todas
las entregas deben ser presentadas en software compatible con los utilizados en la
Corporación Vendomucho.
6. La Corporación Vendomucho se reserva el derecho a revisar los currículo del
personal que el contratista propone para asignar a cada tarea o sub-tarea, y a aprobar o
desaprobar asignaciones al personal, en base a los currículos brindados.
7. El contratista debe brindar minutas por correo electrónico, de todas las reuniones,
dentro de los tres días de haberse llevado a cabo.
Tareas Mandatorias Específicas y Entregas Asociadas

Descripción de Tareas y Entregas Asociadas:
El contratista debe brindar entregas específicas, según lo debajo descripto.
Tarea 1: el contratista conducirá los estudios de evaluación y datos de acuerdo al plan de

gestión de la evaluación, y a las preguntas evaluativas que hayan sido acordadas. La
Corporación Vendomucho revisará el borrador de revisión y brindará comentarios escritos al
contratista dentro de los 10 días calendario a partir de la recepción del borrador de revisión.
El contratista deberá entonces presentar la revisión en un período de tiempo que no supere
los 20 días a partir de la recepción de los comentarios. Si no hubiese respuesta del distrito
dentro de los 10 días calendarios, será automáticamente considerado como “aprobado”. El
contratista actualizará la revisión según lo solicitado por los lineamientos de la corporación
Vendomucho. La entrega debe hacerse en forma electrónica y transmitida por correo
electrónico, utilizando software compatible con el disponible en la oficina de distrito escolar.
Entrega 1: Informe de Evaluación
Tarea 2: El contratista debe proveer un análisis detallado de los temas seleccionados e

identificados en el informe de evaluación, y el tipo de temas debe corresponder con los
lineamientos del gerente del proyecto. El trabajo debe procesarse a tiempo y los materiales
no deben exceder las limitaciones financieras de la orden de compra específica. El contratista
debe presentar los hallazgos en tiempo y forma al equipo de gestión del proyecto, utilizando
un formato apropiado desarrollado por el contratista en tanto en papel como en formato
electrónico.
Entrega 2: Informe Borrador y Final de la Evaluación
181
Cronograma de Entregas
1. El contratista debe brindar las entregas al gerente del proyecto, de acuerdo a lo
establecido en el cronograma acordado, y en la reunión de lanzamiento.
2. Al menos que sea de otro modo especificado, el número de copias borrador y el
número de copias del informe final deben ser iguales (por ejemplo, una copia
electrónica enviada por correo electrónico).
3. Si por alguna razón, el producto no puede ser entregado en el momento establecido
por el cronograma, se solicita al contratista una explicación de porque ha sucedido
esto, que debe ser presentada por escrito al funcionario adjudicador o contratante,
incluyendo un compromiso firme en cuanto a la fecha de compleción del trabajo. Esta
notificación al funcionario adjudicador o contratante debe citar las razones de la
demora y el impacto en el proyecto general. El funcionario adjudicador o contratante
revisará los hechos y emitirá una respuesta de acuerdo a las regulaciones aplicables,
dentro de los 10 días.
Cambios en la Declaración de Trabajo

Cualquier cambio en esta declaración de trabajo debe ser autorizado y aprobado sólo
mediante correspondencia escrita del gerente del proyecto. Una copia de cada cambio será
archivada en el legajo del proyecto, conjuntamente con otros productos del proyecto. Los
costos incurridos por el contratista mediante las acciones de otras partes que no sea el gerente
del proyecto, deben nacer del contratista.
Requerimientos de Informes
1. Se solicita que el contratista brinde al gerente del proyecto informes semanales de
progreso, tanto telefónicamente o por correo electrónico.
2. Los informes de progreso deben cubrir todo el trabajo completado durante la semana
precedente, y debe presentar el trabajo que será llevado a cabo durante la semana
subsiguiente. Este informe también debe identificar cualquier problema que haya
aparecido y una declaración explicando cómo el problema fue resuelto. Este informe
también debe identificar cualquier problema que haya ocurrido pero que no haya sido
completamente resuelto, con una explicación al respecto. Los informes de progreso
también brindarán datos de costo, de cronograma, de varianza de costos y de varianza
del cronograma, según sea solicitado por cada orden de trabajo.
182
Viaje y Visitas a Instalaciones

Los viajes y las visitas a instalaciones deben ser autorizadas por el gerente del proyecto, se
asume que viajes limitados serán realizados.
Responsabilidades de la Corporación Vendomucho

La Corporación Vendomucho brindará acceso a información técnica y de procedimientos. La
Corporación Vendomucho brindará una copia de la declaración de confidencialidad requerida
al momento de otorgamiento del contrato, o de acuerdo a la solicitud del contratista.
Requerimientos de Experiencia del Contratista

El contratista debe contar con experiencia en investigación de evaluaciones educacionales y
análisis. Conocimientos adicionales relevantes son preferibles en las áreas de investigación,
literatura teórica y aplicación práctica en las siguientes campos: detección de necesidades,
desarrollo de aprendizaje e implementación, desarrollo de exámenes con referencia a criterios
y detección de validez y confiabilidad, evaluación formativa, evaluación acumulativa,
recolección de datos, análisis de datos, resumen de datos y resultados e informes de
resultados de la evaluación.
Confidencialidad y No Divulgación
Queda convenido que:
1. Las entregas preliminares y final, y todos los trabajos presentados asociados a ellos,
así como otro material considerado relevante para la Corporación Vendomucho, los
cuales hayan sido generados por el contratista durante el desempeño de las tareas
requeridas, son propiedad exclusiva de la Corporación Vendomucho, y deben ser
presentadas al gerente del proyecto al concluir la iniciativa evaluativa.
2. El gerente del proyecto debe ser el único oficial autorizado para divulgar –
verbalmente o en forma escrita–, cualquier dato, borradores de entregas, entrega final
o cualquier otro material escrito o impreso pertinente a la tarea que ha sido ordenada.
El contratista no divulgará ninguna información. Cualquier solicitud de información
relacionada con la orden de la tarea a realizar por el contratista, debe ser presentada al
gerente del proyecto para su aprobación.
183
3. Los comunicados de prensa, material publicitario o cualquier otra documentación

impresa o electrónica relacionada con este proyecto, no debe ser publicitada sin la
expresa autorización escrita del gerente del proyecto.
184
Sección 3
Mejora Continua
185
Capítulo 11
Errores Comunes en la Evaluación
La intención de este libro ha sido ayudar a los evaluadores, y a aquellos que utilizan los datos
de la evaluación, a conducir y entender el significado del tiempo y significancia de la
evaluación, efectivos para guiar y ajustar programas y soluciones para la mejora del
desempeño. He brindado modelos y consejos sobre lo que usted debe hacer.
Otra manera para que usted se mantenga en el camino correcto, es mostrarle algunas cosas
que debe evitar. He enmarcado esta sección como una discusión de los errores de evaluación.
Algunos de estos son penosamente comunes, y otros son encontrados en menor cantidad de
oportunidades, pero creemos que es importante que presentemos un cuadro completo del
dominio de los errores más comunes en la evaluación, porque están relacionados con los
fundamentos de lo útil que resultará su evaluación.
Nuestro desafío individual y colectivo es ayudar a entregar resultados útiles. Mucho de lo

que la ciencia social ha aprendido acerca del comportamiento organizacional puede ser
aplicado a la evaluación. Sin embargo, también hemos señalado que muchas de las ideas
actuales en lo que se ha convertido el área de evaluación, deben ser cuidadosamente
examinadas para separar los “ismos” del realismo. Algunos modelos y perspectivas pueden
ser utilizados para una evaluación práctica, mientras que otras deben dejarse a la disertación
académica.
Mi definición de evaluación se enfoca en el concepto de los resultados: formular las

preguntas correctas y encontrar lo que funcionó y lo que no para de esa manera poder
mejorar el desempeño de forma medidle.
Como he enfatizado los resultados, comenzaremos nuestra discusión planteando una

pregunta que también puede ser considerada por científicos sociales: ¿Cómo sé yo que los
resultados que he observado –y medido– son de hecho causados por mi programa de
actividades, y no por alguna otra fuerza o fuerzas actuando en el contexto? Los científicos
sociales utilizan a menudo grupos de control, comparando los resultados de un grupo que ha
tenido intervención, con un grupo que no ha tenido nada. Pero el encuadre operacional de la
evaluación a menudo excluye la utilización de controles debido al tiempo y debido a que
puede existir un problema ético al no trabajar con algunos grupos mientras se trabaja con
otros. Los evaluadores deben recostarse en el entendimiento del sistema, y en la persuasión
del medioambiente en el cual están operando. Debemos tener cuidado de conceptuar
apropiadamente al sistema general y a los sub-sistemas componentes que son importantes
para el programa o solución a evaluar. Por lo tanto, el primer conjunto de errores es
agrupado bajo el título: Errores de Mapeo del Sistema.
186
Errores de Mapeo del Sistema
Error de camino causal

La mayoría del tiempo, nosotros enseñamos y observamos los efectos de enseñar
directamente, y es correcto que asumamos el enlace directo entre la enseñanza –o alguna otra
táctica instruccional–, y los resultados. En las lecciones de uno-a-uno, y tutoriales, este es un
supuesto usualmente seguro. Pero, ¿qué ocurre cuando intentamos aplicar el enlace causal
directo a todos los programas y demasiados estudiantes y promediar los puntajes de los
exámenes? Cuanto más amplio y más complejo sea el programa, y más largo el período de
tiempo, más debemos considerar un amplio rango de variables que pueden o no estar
influenciando los resultados de nuestros programas. ¿Qué ocurre si una perturbación
contribuyó a la obtención de puntajes bajos en un programa que de otro modo hubiera sido
exitoso? ¿Qué ocurre si un esfuerzo extra por parte de un profesor influenció los resultados
de un programa débil? Los administradores educacionales podrían tomar una mala decisión.
El desechar un buen programa y apoyar a un programa débil son dos errores de camino
causal –la carretera hacia los resultados. (Usted puede ver un paralelismo aquí en el famoso
error tipo uno y tipo dos del que tanto se habla en las pruebas de hipótesis estadísticas).
Error de una mala atribución

En el lugar de trabajo de hoy en día, los gerentes tienden a pensar en términos de problemas
y soluciones. La mayoría del tiempo ese es un modo útil de acercamiento a una situación.
Pero ocasionalmente, un problema complejo está combinado con una solución simplista que
hace más daño que bien. Esto está usualmente acompañado con una mala atribución a causas
y efectos o problemas y soluciones. Por ejemplo, el directorio del colegio de Chicago
estableció una vez mejorar el desempeño académico en una escuela en particular. Ellos
percibieron que la falta de progreso de una escuela estaba relacionada con la falta de
voluntad o habilidad por parte del Director local. La solución propuesta era reemplazar al
director. Tomó la intervención de un sabio evaluador –Bob Stake–, para señalar que esa
escuela estaba en un vecindario proclive a las drogas, y la mayoría de los estudiantes eran de
familias con padres separados o de madres solteras, la única buena comida que recibían los
chicos era proveída por la escuela, y que se alentaba a la tutoría de muchos jóvenes en
problemas, por parte del director local, el cual había creado un puerto seguro para que los
estudiantes tengan cada día. El progreso académico no cumplía con los estándares del
directorio, pero bajo la luz de otros logros relacionados con supervivencia fundamental, el
director local había realizado un trabajo remarcable. Su reemplazo no hubiera mejorado el
desempeño académico, y podría haber hecho las cosas peor.
Error de “el jugador faltante”

A veces queremos una razón para explicar la causa de los resultados y en el caso de
consecuencias indeseables, queremos culpar a alguien.. Sin embargo, en ningún caso, ya sea
187
que no estemos seguros de la causa o causas actuantes en la obtención de los resultados, o en

ausencia de cualquier dato, nosotros atribuimos el éxito o el fracaso a un programa o a una
persona determinada o a un grupo de personas, cometiendo el error de “el jugador faltante”.
Error de valor local

La evaluación se trata de hacer una declaración no ambigua acerca de qué es bueno y qué es
malo; qué es útil y qué no lo es, acerca de qué salvar y qué desechar. Sin embargo, es
importante recordar que lo que nosotros tomamos como bueno a un nivel de un sistema es
derivado del nivel superior siguiente, y tarde o temprano arribaremos al bien del nivel social.
La moralidad y la ética –los filósofos hablan de “normativo” al tratar con el valor, y esto no
debe ser confundido con la noción estadística de normalidad–, no pueden divorciarse del
trabajo cotidiano de educación. Sin embargo, a veces nos envolvemos tanto en los temas
locales que definimos lo que es bueno, basados en un sistema cerrado que en el extremo
puede estar desprovisto de ética y moralidad aceptable. Las sectas y las pandillas tratan de
“educar” a sus miembros y escudarlos de la vista social más amplia. Este es un error de valor
local. Si nosotros no estamos agregando valor a la sociedad que compartimos, podríamos
estar sustrayéndolo 11.
Errores de Lógica
Error de conclusión falsa
Cuando alcanzamos una conclusión respecto a un programa, que no está avalada por los
hechos del caso, o está influenciada por inclinaciones particulares, comentemos el error de
conclusión falsa.
Error del experto

Cuando nosotros nos recostamos en los consejos de un experto que opera fuera de su área de
experiencia, o cuando vemos a los expertos como infalibles, aún si sus opiniones vuelan de
cara a los hechos; estamos cometiendo el error del experto. Gilbert (1978) habló de esto
como un culto peligroso en el mundo de la mejora del desempeño. Gilbert dijo que pagamos
un alto tributo a los tan llamados expertos, debido a la cantidad de experiencia o
conocimiento que ellos pueden tener, independiente de los resultados de que puedan o no
puedan entregar. De hecho, si usted mira a los resultados de desempeño reales de los tan
llamados expertos, su posicionamiento como expertos podría serles quitado.
Error de pensamiento de deseo

Cuando alcanzamos una conclusión que no está basada en los hechos del caso, sino en las
expectativas y objetivos deseados, ese es un error de pensamiento de deseo. Lo que nosotros
11
Primeramente sugerido por el Profesor Emérito de la Universidad de Western Michigan, Dale Brethower.
188
deseamos puede no necesariamente correlacionarse con los hechos independientemente

verificables.
Error de asociación
Cuando alcanzamos una conclusión que contradice los hechos debido a que una personalidad
notoria tomó parte, o debido a la reputación pasada de los participantes, o debido a la
publicidad –la mayoría de las publicidades dependen de nuestros errores de asociación–,
estamos cometiendo un error de asociación.
Error de rápido arreglo

Cuando nosotros basamos nuestras acciones y conclusiones en el deseo de vernos efectivos y
decididos, pero de hecho colocamos programas a medias para poder decir que hicimos algo,
comentemos el error de arreglo rápido.
Error de explicación de arrastre

Cuando observamos un comportamiento, nosotros tenemos una tendencia a explicarlo en
términos de motivación, y otras construcciones como hambre, o fuerzas sociales como lucha
por el éxito y similares. Todas esas explicaciones son de hecho sólo hipótesis, las cuales
deben ser verificadas y confirmadas con otras observaciones, y probadas contra explicaciones
alternativas. Esto es aceptable si es abiertamente realizado en el contexto apropiado. Sin
embargo, ocasionalmente inventamos o construimos explicaciones atractivas que se
convierten en tan convenientes que se separan del comportamiento original. Estas
explicaciones son luego utilizadas para apoyar la planificación y las decisiones como si
fueran la piedra fundamental de causa y efecto. Cuando sobre extendemos nuestras
explicaciones al punto donde razonamos directamente a partir de ellas para planificar y
ejecutar acciones, corremos el riesgo de crear un razonamiento auto-contenido que en
realidad está separado del mundo real. Las consecuencias de este error pueden variar desde
eventos medianamente embarazosos hasta calamidades sociales horroríficas.
Errores de procedimiento
Error de instrumento
Nosotros a menudo utilizamos instrumentos –electrónicos y mecánicos así como papel o
computadoras–, para la entrega de exámenes y ejercicios. Resulta en realidad sabio mantener
en mente que todos los instrumentos están sujetos a fallas o pérdida de calibración o
utilización incorrecta. Algunos instrumentos electrónicos requieren un conjunto de
procedimientos que son complicados, y deben incluir un tiempo de precalentamiento. El
acoplamiento de documentos adjuntos puede requerir un cuidado particular y una colocación
correcta. Las instrucciones escritas pueden resultar confusas. Los exámenes pueden no ser
confiables ni válidos. El lenguaje utilizado puede diferir entre los grupos, como cuando un
189
examen con lenguaje médico complejo es administrado a personas sin experiencia en el área
de la medicina. Todos estos problemas potenciales deben incrementar el cuidado dedicado al
uso de instrumentos. El fracaso en esta área agravará los errores de medición.
Error de medición
Nosotros medimos cosas para poder hacer generalizaciones acerca de los fenómenos de los
programas que estamos evaluando. Pero debemos siempre considerar qué es lo que está
siendo medido. ¿Estamos midiendo las cosas correctas? –llamado validación–, ¿qué podemos
reclamar en base a lo que medimos, y qué significa la medición en el sistema completo de
eventos, y en la mezcla entre intenciones y resultados? Nosotros debemos preguntar por qué
cada medición es importante para nuestras conclusiones. Y debemos considerar qué tan a
menudo medir, qué medir y qué escala utilizar para tal medición. La medición puede agregar
precisión al estudio, pero la medición incorrecta puede llevar a una sensación de precisión
falsa, donde nada está garantizado debido a un procedimiento defectuoso. Por ejemplo, el uso
de una escala equivocada y los subsiguientes tratamientos matemáticos de los datos, pueden
llevar a una distorsión enorme.
Error del modelo

Los modelos pueden ser poderosos y útiles para la planificación y ejecución de las
evaluaciones. Pero todos los modelos son aproximaciones o representaciones, que pueden o
no adecuarse a los eventos y situaciones que están siendo modeladas. Cuando nosotros
creamos un modelo ya sea para un procedimiento o para una explicación o para un mapeo,
nosotros utilizamos a menudo el modelo para predecir eventos en los programas que están
siendo evaluados. Si el modelo se adecua bien, puede ser útil para la predicción de
resultados. Sin embargo, siempre debemos tener en mente que el modelo no es la cosa real y
que cuando basamos nuestras conclusiones y planes en el modelo solamente, sin confirmar la
predicción con información repetidamente destilada de otras fuentes, comentemos el error del
modelo.
Error del artefacto

Ocasionalmente observamos algo en un estudio de evaluación, que ocurre solamente una vez
y no puede ser repetido mediante una manipulación directa del programa bajo estudio. A
veces el evento único –artefacto– es bueno, y a veces malo. Es importante que el que ocurra
una sola vez estimule estudios adicionales. Sin embargo, es igualmente importante que las
conclusiones acerca del programa no estén basadas en un solo resultado. Al hacer eso,
estaríamos cometiendo el error del artefacto.
Error del punto ciego

Hemos remarcado la importancia de la utilización de los resultados de un programa como el
enfoque clave de la evaluación, pero implicamos al mismo tiempo que los evaluadores no
deben prestar atención a la ejecución completa del programa. Por ejemplo, en el evento de
que los resultados del programa no hayan sido los intencionados, o si hubieran sido en
190
detrimento de algún tipo para el bienestar de la sociedad más amplia, nosotros querríamos
descartar lo que no ha funcionado. Pero, ¿significa eso que el programa entero debe ser
desechado y un programa totalmente nuevo debe ser colocado en su lugar? Este puede ser el
caso si no hubieran existido observaciones durante el programa. Lo que nos brinda las claves
de qué partes del programa pueden ser cambiadas o modificadas es la penetración total del
programa, en tantas modalidades de observación como sea posible.
Error de cambios de desplazamiento

Cuando observamos eventos en la evaluación de un programa, tendemos a mirar donde
podemos, y no siempre es donde debemos mirar. Si nosotros limitamos nuestras
observaciones sólo a las partes fáciles, podríamos perdernos de aspectos críticos del
programa. Existe un viejo chiste acerca de un hombre que pierde la llave de su auto en un
estacionamiento oscuro. Él comienza a buscar la llave en la calle. Cuando se le pregunta
porqué está buscando en la calle y no en el estacionamiento, el responde que las luces de la
calle hacen que su búsqueda resulte más fácil. Otro tipo de desplazamiento ocurre cuando
escribimos los objetivos educacionales para cubrir sólo partes del desempeño que tienden a
ser fáciles de escribir. El ejemplo clásico es tratar de evaluar una habilidad compleja
formulando preguntas acerca de los nombres de los pasos en el desempeño. Si usted limita su
evaluación a ese solo aspecto, usted habrá cometido el error de cambios de desplazamiento.
Error del camino ahorquillado

Cuando los procedimientos que llevan a dos productos finales diferentes comienzan con los
mismos pasos en común, es posible comenzar haciendo el procedimiento A y terminar
haciendo el procedimiento B. Esto es particularmente cierto si usted está retrasado en el
cronograma, bajo presión, o si acaba de completar el procedimiento B como tarea anterior.
Este error puede afectar a los evaluadores en la recolección de datos, al hacer
investigaciones, diseñar instrucciones y documentar resultados. Este error puede ser reducido
creando “Restricciones de Pausa y Consideración”, justo adelante del punto de bifurcación.
Error de población enmascarada

Si un sub-grupo de una población general dice que los estudiantes en un curso básico de
estadísticas tienen un problema con el profesor, el entrevistarlos puede revelar el problema.
Sin embargo, si los datos sobre la insatisfacción de los estudiantes fueran apoyados por la
población general para obtener un nivel promedio de estudiantes insatisfechos, el problema
del sub-grupo en particular estaría sumergido en el conjunto de datos generales. Si usted basa
conclusiones acerca de la existencia de problemas en sólo datos promedio y sin mayor
análisis, usted corre el riesgo de cometer el error de población enmascarada.
Error de la persona promedio

Nosotros a menudo hablamos acerca del estudiante promedio. Sin embargo, los límites
impuestos por la clase de medición utilizada y las características de medición deben ser
explícitos. El estudio de ergonometría ha crecido a partir de la utilización de datos en
191
poblaciones, pero en la mayoría de los casos se utilizan los extremos para capturar a la
mayoría de la población, usualmente el 90%. El uso de datos promedio debe ser incluido
como pensamiento de guía general acerca de las poblaciones, pero cada individuo debe ser
considerado en todas sus múltiples dimensiones, rasgos distintivos y estados. El razonar
acerca de un individuo dado, utilizando solamente normas de la población general, es
cometer el error de la persona promedio.
La evaluación educacional es demasiado importante como para debilitar sus contribuciones

mediante defectos en nuestros pensamientos y métodos. Es cierto, la educación es “confusa”
en términos de todas las cosas que suceden en las escuelas y en los sistemas. Pero aún así, y a
pesar de esto, nuestro desafío –profesional y personal–, es formular y responder las preguntas
correctas, sin caer en el fango durante el proceso, con errores que pueden ser evitados.
192
Capítulo 12
Mejora Continua
En el mundo de los negocios, gobierno y educación, la mejora continua es un concepto

aceptado; desafortunadamente existe bastante camino por recorrer del concepto a la práctica.
Los términos como la mejora continua –como control de calidad y valor agregado–, suenan
impresionantes, tanto que la gente los utiliza comúnmente. Yo sospecho que la frecuencia
con la que nosotros escuchamos este término no es un buen indicador de qué tan
frecuentemente, o qué tan bien las organizaciones están implementando y sosteniendo
verdaderos mecanismos de mejora continua, en el contexto de una cultura de mejora
continua.
El beneficio de la mejora continua puede tener pagas increíbles en cualquier

emprendimiento. El proceso ideal es aquel que pueda ser controlado para definir y luego
mantener la calidad, y para ajustarse a ella ante el menor signo de que está sucediendo algo
inaceptable. Mientras que la medición del control de calidad mantiene las cosas en su
camino, todas las partes de la organización son alentadas a mirar, de un modo coordinado,
por las formas para mejorar la empresa mediante el ajuste de especificaciones diseñadas y la
alteración de varios procesos para incluir cualquier nueva característica improvisada y/o
cambios en aquello que no entregue mediciones exitosas. La mejora continua de una
organización depende del tipo de responsabilidad individual, apoyado por el requerimiento
de autoridad para llevar a cabo los cambios solicitados.
¿Qué es la Mejora Continua?

La mejora continua depende del conocimiento de hacia donde vamos, y el monitoreo
continuo de nuestro curso para poder llegar desde donde estamos hasta donde queremos
estar. Nosotros hacemos esto formulando las preguntas correctas, recolectando datos útiles en
forma continua, y luego, aplicando los datos para tomar decisiones importantes acerca de los
cambios requeridos y/o qué iniciativas deben ser sostenidas. El objetivo de una cultura de
mejora continua, es por lo tanto, apoyar un viaje continuo hacia el logro de la visión
organizacional mediante el uso de retroalimentación de desempeño.
Se habla mucho de la mejora continua, y en realidad raramente se hace o se sostiene. Una

razón para esto, es que existe mucha confusión acerca de qué exactamente es la mejora
continua. Existen dos componentes principales para el logro de la mejora continua: el
monitoreo y el ajuste. El monitoreo es acerca de la medición y el rastreo. Nosotros medimos
lo que importa y rastreamos su progreso. El ajuste es acerca del cambio. Nosotros utilizamos
la retroalimentación obtenida en nuestra etapa de monitoreo para promover y facilitar el
cambio deseable. La discusión que continúa se enfoca en estas dos funciones centrales.
193
Monitoreo de Desempeño
• Utilizar la Evaluación para Construir la Mejora Continua en las
Organizaciones: Un Marco de Trabajo de Auto-Evaluación
Los beneficios que la evaluación puede brindar no es algo que sucede una vez y se detiene
luego del informe final. La evaluación, si es conducida apropiadamente, nos puede dar una
retroalimentación útil respecto a cuánto más cerca –o más lejos– estamos de nuestra meta
final. En el contexto de la mejora continua, la evaluación nos ayuda a hacer esto
estableciendo un marco de trabajo evaluativo, que permite medir consistentemente y en
forma confiable las cosas que importan. Usted puede decir que este marco de trabajo
evaluativo es la médula del sistema de gestión del desempeño. Usted no puede gestionar el
desempeño –al menos no eficientemente–, sin los datos de desempeño requeridos para ello.
Una vez que se desarrolla el marco de trabajo evaluativo, el cual incluye objetivos de
desempeño a varios niveles organizacionales, indicadores de medición e iniciativas
respectivas para apuntar a ellos, la recolección de datos caerá naturalmente en las categorías
significativas. En este sentido, no es como facilitar una auto-evaluación continua que brinda
retroalimentación justo a tiempo para realizar los ajustes oportunamente. La
retroalimentación es un concepto central aquí, y depende de los sistemas de comunicación
efectivos. Si es desarrollada apropiadamente, permitirá a los líderes y empleados a rastrear,
gestionar y a veces pronosticar, desempeños en el momento oportuno. En este sentido, es
bastante similar al monitoreo de signos viales de la organización.
Otra función que el marco de trabajo evaluativo puede abarcar, es facilitar la colaboración
entre varios departamentos de la organización. Cuando el individuo aún cumpliendo con su
contribución a varios departamentos, es publicado afuera, la gente tiende a entender más
rápidamente sus roles de interdependencia y a ver que la clave del éxito organizacional –y
del suyo propio–, no es competir por recursos limitados, sino colaborar para que los recursos
puedan ser maximizados. Esto a su vez lleva al reconocimiento y eliminación de procesos
redundantes y/o productos internos. Nuevamente, la información abierta, exacta y consistente
es crítica.
• Características del Marco de Trabajo Evaluativo

El siguiente contenido es listado como una lista de características debido a que son
intencionados para guiar el desarrollo de un marco de trabajo evaluativo personalizado. Cada
organización es diferente, y tienen su propia serie de metas, valores, fortalezas y debilidades.
Pero mientras que los marcos de trabajo evaluativos deben poseer las siguientes cinco
características, seguramente se verán y sentirán diferentes.
194
1. Alinear Todos los Resultados Clave a Varios Niveles Organizacionales (Sistemático):

Recuerde que el valor de cualquier intervención es si logra finalmente ayudar a la
organización a acercarse al logro de su visión. Por lo tanto, no rastree solo los resultados
inmediatos a un nivel inmediato, más vale asegúrese de hacer hipótesis y probar los
enlaces durante todo el camino hacia la visión del nivel de metas.
2. Brinde Enlaces Entre las Intervenciones o Iniciativas y los Indicadores que Impactarán:
Recuerde que una de las tareas en el camino de la evaluación es brindar evidencia de la
efectividad de las soluciones implementadas. Lo que es importante para articular los
enlaces para todos y entre estas soluciones, y entre las soluciones y los indicadores
organizacionales que tienen intención de impactar. Cuanto más claros sean los enlaces,
más será capaz la gente de entender y utilizar los datos.
3. Reactivo y Dinámico: El marco de trabajo evaluativo es más un patrón que una estructura
limitada. Mientras que el marco de trabajo puede mantenerse bastante constante, los
indicadores reales pueden cambiar –o los resultados en sí mismos–, a medida que se van
cumpliendo los objetivos, y otros nuevos son derivados. Recuerde que mientras que las
soluciones podrían resolver viejos problemas, también pueden traer con ellas un nuevo
conjunto de desafíos. La modificación de este marco de trabajo para mantener sus
indicadores al día, no debe hacerse a expensas de la constancia del propósito de su
organización. El cambio de su misión todos los años no lo hará estar al día, mas vale le
dará un objetivo en movimiento que su organización probablemente no alcanzará.
4. Accesible por todos aquellos que tomen decisiones: Mientras que todas estas
características son críticas, esta es probablemente la que resulta más dificultosa para ser
captada por los líderes. La idea de que el informe de la organización sea abierto para
todos, es algo que puede generar bastante temor. Es importante recordar que el propósito
de la evaluación es recabar e interpretar datos de desempeño, no para señalar o culpar.
Todos deben tener una tarjeta de acceso libre para que puedan tomar decisiones a tiempo
acerca de cómo mejorar el desempeño –tanto individual como organizacional. Estos
esfuerzos deben, por supuesto, ser coordinados e integrados.
5. Retroalimentación y Comunicación: usted no puede hablar acerca de la mejora continua
sin considerar el lazo de ida y vuelta de la retroalimentación. El lazo de la
retroalimentación representa la naturaleza reiterativa del rastreo y ajuste. Los datos de
desempeño no solo deben ser fácilmente accesibles para todos, sino que deben ser
claramente entendidos por todos. Por lo que el brindar una retroalimentación consistente
acerca del desempeño, es parte de los sistemas de comunicación más amplios. El
progreso, las metas alcanzadas y no alcanzadas, los planes de acción para lograr las metas
deseadas, etc., deben ser comunicados consistente y exactamente a través de la
organización.
Todo esto por supuesto, debe tomar lugar en el contexto de un medioambiente bien avalado.
Un ambiente donde se utilicen datos relevantes, confiables y válidos, antes de tomar
decisiones como parte de la cultura organizacional. Esto sólo puede ser logrado modelando
esto desde la cima de la organización hacia abajo, y alineando las consecuencias apropiadas
con los logros deseados y los comportamientos relacionados con la mejora continua.
195
Ajuste de Desempeño
El marco de trabajo del monitoreo o cuadro de mando del desempeño (Eckerson, 2006) en sí
mismo es un agente potente en el cambio organizacional. Hace esto al ayudar a la
organización a definir, comunicar y enfocarse en los resultados importantes claramente.
También brinda una retroalimentación consistente y a tiempo, que informa las decisiones
acerca de qué cambios son requeridos para beneficiar a la organización, sus clientes y sus
empleados. En este punto, hemos hablado vagamente acerca del concepto de mejora del
desempeño. Pero ¿qué es lo que en realidad está involucrado en la mejora del desempeño,
específicamente en lo que se refiere a un cambio real? La discusión de abajo intenta
responder a esta pregunta.
• Cambios de Proceso
¿Qué son las dinámicas del cambio de proceso para aquellos que son mandados a cambiar
algo por sus líderes? Todos, incluyendo a los individuos, equipos y grupos Inter.-
departamentales, atraviesan tres cambios de procesos críticos (Coghlan, 2000):
1. Percepción: El significado que el cambio tiene para ellos; el grado en el cual ellos
controlan el cambio; y el grado de confianza que los individuos tienen en esos
mandatos o promoción de cambio.
2. Detección del Impacto del Cambio: ¿El cambio será mejor; incierto pero
probablemente positivo; incierto; incierto pero probablemente negativo; amenazador
o destructivo?
3. Respuesta: el individuo puede negar; eludir, oponerse, resistirse, tolerar; aceptar,
apoyar o abrazar el cambio.
¿Qué factores impactan estos procesos? Un factor que tiene un impacto significativo es la
disponibilidad de información acerca del cambio, y de los procesos de comunicación entre
aquellos que ordenan el cambio y aquellos afectados por el. Recuerde las discusiones
anteriores acerca de los stakeholders, se notó que los stakeholders incluyen a ambos, aquellos
quienes pueden impactar el proceso de evaluación así como aquellos que serán
potencialmente impactados por sus resultados. Una comunicación abierta del proceso de
evaluación, de los hallazgos y recomendaciones impacta directamente sobre el cambio del
proceso. La falta de información promueve una sensación de ansiedad y resistencia,
particularmente cuando los individuos comienzan a crear sus propias historias acerca de lo
que está pasando, y qué pasará en el futuro.
Cualquier iniciativa de cambio, ya sea por el proceso de evaluación en sí mismo, o por las
recomendaciones que se desprendan de esa evaluación, debe atender a estros tres procesos.
Un plan de cambio que tenga en cuenta cómo estos cambios serán percibidos y evaluados por
los empleados debe ser derivado, para poder obtener las respuestas deseadas.
Mientras que resulta crítico tomar los pasos para gestionar el cambio apropiadamente – para
que resulte útil–, es importante considerar el otro lado de la moneda: la creación del cambio
196
(Kaufman & Lick, 2004). La creación del cambio es esencialmente qué estamos haciendo
cuando establecemos la dirección del cambio. Nosotros hacemos esto durante una
planificación estratégica auténtica y el proceso de detección de necesidades, donde
identificamos dónde queremos estar dentro de algunos años, y qué tenemos que lograr y
hacer en el entretiempo para poder llegar allí. Con suerte, fue a través de esos procesos que la
solución que ahora usted está afrontando con la evaluación, fue seleccionada. La gestión del
cambio es entonces lo que usted hace para asegurar que las cosas sucedan lo más suavemente
posible en su camino hacia su destino final. La evaluación es una de las herramientas que
facilita la navegación suave al brindarle información importante y necesaria para esa
navegación.
El Rol del Liderazgo
Uno de los prerrequisitos fundamentales en la mejora organizacional es el rol activo de los

ejecutivos más altos y de los gerentes. Tradicionalmente, estos son los individuos encargados
de la dirección estratégica y operación de la organización. Ellos, conjuntamente con otros
stakeholders clave, deciden cuando el cambio tomará lugar, y en qué medida. Debido a que
los ejecutivos presentes pueden no tener experiencia, tiempo y capacidad para hacerse cargo
de muchas de las tareas claves involucradas en la trasformación organizacional, otras
personas –ya sean consultores internos o externos–, son designadas para esta función tan
importante. La investigación de Cummings y Worley (2005) indica que los consultores
externos o los ejecutivos externamente seleccionados tienen tres veces más de posibilidades
de iniciar tal cambio, que los equipos de ejecutivos existentes.
De acuerdo a Cummings y Worley (2005), las tres funciones clave que el equipo de liderazgo
debe jugar para facilitar la mejora continua y el cambio en la organización son:
1. Visión: Los líderes deben articular objetivos claros y creíbles, incluyendo la visión
general, con respecto a los estándares de desempeño.
2. Energía: Los líderes deben modelar la excitación personal y conductas de
compromiso que esperan de los otros, así como comunicar ejemplos tempranos de
éxito.
3. Apoyo: Los líderes deben brindar los recursos requeridos para llevar adelante el
cambio significativo, y alinear las consecuencias con los comportamientos deseables.
Las recomendaciones brindadas por el evaluador brindan un ingreso fundamental en el
proceso de visión de los líderes y otros stakeholders. Es a partir de esta visión final y de los
objetivos de apoyo, que surgen las iniciativas de cambio. El informe de evaluación también
juega un rol crítico en la motivación y energía de los stakeholders para entrar en acción.
Recuerde de capítulos anteriores que una consideración clave es desarrollar el informe para
que las responsabilidades de cada stakeholder estén claramente especificadas. Este es un
buen lugar para comenzar a clarificar expectativas y comportamientos descriptibles para el
proceso de cambio.
197
La importancia de apoyar a los miembros de la organización permitiéndoles mejorar, no

puede ser exagerada. Esto requiere de la creación de un ambiente ideal donde se aliente y se
premie el cambio. El alentar a otros a cambiar va más allá que decirles que se deben sentirse
fuertes, o de darles más responsabilidad. Requerirá un balance de las responsabilidades, con
la autoridad y los recursos requeridos para cubrir sus expectativas. Más esfuerzos para crear
el ambiente correcto incluyen el establecer los antecedentes o señales apropiadas para el
desempeño y comportamientos deseados, así como hacer un seguimiento de ellos con las
consecuencias apropiadas. Puesto simplemente, si usted desea sostener o mejorar
comportamientos deseados, debe seguirlos de consecuencias placenteras –placenteras a los
ojos de quien se desempeña–, si usted quiere eliminar o disminuir comportamientos
indeseados, déjeles saber y ¡elimine las recompensas asociadas a esos comportamientos!
Uno de los errores más comunes y fatales que cometen los líderes es castigar a quienes se
desempeñan bien, dándoles más para hacer, simplemente porque pueden, mientras que
recompensan a la incompetencia al no otorgarle las consecuencias apropiadas para aquellos
que no se desempeñan al nivel de los estándares establecidos. El ignorar el problema es
reforzarlo. El establecer el ambiente ideal requiere de un proceso de aprendizaje continuo,
donde los comportamientos sean probados y sus consecuencias detectadas, y el requerimiento
de modificaciones –si los hubiera–, sean implementados.
Es importante notar, que para lograr que esto suceda, los líderes deben recostarse en un
sistema de información confiable y válido, que los ayude a comunicar las estrategias, metas y
objetivos específicos de un modo claro y conciso a todos los empleados, consistentemente.
Los evaluadores pueden jugar un rol significativo en la creación de ese sistema. Este sistema
debe permitir a los líderes y a los empleados por igual, rastrear el desempeño organizacional,
del equipo y el individual, para que todos obtengan una retroalimentación de desempeño en
forma fácilmente accesible.
198
Capítulo 13
Recopilación de Inteligencia para la Toma de
Decisiones: Sistemas de Monitoreo de Desempeño
Medición, Inteligencia y Decisiones

En el capítulo anterior, el monitoreo de desempeño fue identificado como uno de los
elementos clave para la mejora continua. Nosotros medimos lo que importa y rastreamos su
progreso. La medición de desempeño es central para la mejora del desempeño. La práctica
seria y responsable de la mejora del desempeño requiere la utilización de datos y evidencia
en el diagnóstico de brechas de desempeño, y en la realización de las recomendaciones
apropiadas para la mejora del desempeño. Esto es en parte ilustrado por el Behavioral
Engineering Model de Thomas Gilbert (Modelo de Ingeniería de Conducta – 1978), donde se
presentaron las varias categorías de factores que impactan sobre el desempeño humano (por
ejemplo, expectativas de desempeño claras, retroalimentación, incentivos, instrumentos,
conocimiento, capacidades y motivos internos), todos los cuales deben ser considerados a la
hora de medir las brechas de desempeño, sus causas de raíz y sus interrelaciones. Del mismo
modo, el trabajo de Harless: An Ounce of Análisis is Worth a Pound of Objectives (Una
Onza de Análisis Vale más que Una Libra de Objetivos -1970) es consistente con esta
noción, y ha ilustrado la medición de desempeño como un proceso medular en la
identificación y resolución de brechas de desempeño.
La utilización de herramientas de monitoreo y gestión del desempeño, puede jugar un rol

importante en el éxito continuo de las organizaciones que operan en un mundo
incrementalmente complejo de interdependencias. La utilización de estas herramientas
integradas puede brindar el medio para explorar la complejidad dinámica de las
organizaciones, rastreando y enlazando las mediciones de desempeño y cómo éstas son
impactadas por las iniciativas organizacionales que surgen con la intención de mejorar el
desempeño a varios niveles de la organización –estratégico, táctico y operacional.
Berrah, Mauris, & Montmain (2008), sostienen que aún estando de acuerdo con la hipótesis
Tayloriana de que el desempeño general es simplemente la suma de desempeños elementales
independientes, simplificando la toma de decisiones. Sin embargo, los autores advierten: “en
el contexto actual de interacciones transversas entre criterios, se ha hecho más difícil para
quienes toman decisiones, identificar los criterios de desempeño que están causando un
desempeño general pobre, o presentando una necesidad de mejora de alta prioridad” pp.341.
199
Los sistemas de monitoreo o medición de desempeño, son instrumentales en el aval para la

toma de decisiones, sirviendo como un marco de trabajo general para la recolección
inteligente y a tiempo. Mientras que resulta fundamental para la toma de decisiones, el
aspecto más negado de la toma de decisiones en la literatura es la ganancia de inteligencia
(Eisenhardt, 1998; Nutt, 2006). La toma de decisiones comienza cuando los stakeholders ven
una tendencia que dispara la cuestión (por ejemplo, la disminución de ganancias o ventas), o
un evento (por ejemplo, una amenaza gremial), como significativa, apurándose a tomar los
pasos para ganar inteligencia (Nutt, 2006). Las personas que toman decisiones son a menudo
inundadas con señales de clientes, empleados, accionistas, abogados, competidores,
reguladores y proveedores. El encontrar sobre qué tendencia o eventos vale la pena
concentrar la atención, es una proposición abrumadoramente desafiante.
Algunos investigadores sugieren que las señales deben ser decodificadas como brechas de
desempeño (Pounds, 1969; Nutt, 1979; Cowan, 1986), y que la brecha será considerada
significativa cuando un indicador de desempeño importante –como la porción de mercado o
ganancias–, cae debajo de los criterios preestablecidos, e inversamente, la señal sería
ignorada si el desempeño iguala o excede los criterios de desempeño esperados. Cuando se
detecta una brecha de desempeño, ella también revela la magnitud de la preocupación que
vendrá (Cowan, 1990), esta magnitud puede ser una consideración principal en la
priorización de problemas de desempeño a ser resueltos. La toma de decisiones es entonces
emprendida para encontrar maneras de tratar con la eliminación de la brecha de desempeño,
y la reducción o eliminación de la preocupación.
Nutt (2006) señala otro acercamiento más peligroso en cuanto a la toma de decisiones, como
fuera propuesto por los investigadores de motivación social, con una visión diferente de este
proceso. Él nota que en la visión de motivación social, las acciones de quienes toman
decisiones son apuradas por la disonancia 12, equidad o consistencia relacionada de teorías,
donde las creencias de quienes toman decisiones, sus motivaciones e impulsos los tientan a
buscar la información pertinente a esas creencias, motivaciones e impulsos. Quienes toman
decisiones, tal vez a veces inconscientemente, forman la impresión de que sus conclusiones
son bien fundadas y provocan imparcialidades e influencias, al hacer que sus interpretaciones
parezcan justas para todos los preocupados por el tema. Nutt continúa, apuntando que estas
personas encargadas de tomar decisiones tienden a buscar información acerca de una
desviación para evitar sentir las señales que pueden advertir que su interpretación preferida
es inválida. La consecuencia sería que sólo algunos tipos de brechas de desempeño serán
reconocidas y otras ignoradas, dejándolas crecer y empeorando con el tiempo.
Sistemas de Medición de Desempeño
12
Un término primeramente propuesto por el psicólogo social Leon Festinger en 1957, el cual se refiere a la
percepción de incompatibilidad entre dos percepciones (por ejemplo: conocimiento, actitud, emoción, creencia
o comportamiento).
200
Los sistemas de medición de desempeño (de aquí en adelante referenciado como SMD, (PMS
en inglés), son instrumentos que pueden apoyar una toma de decisión objetiva para la mejora
del desempeño 13. Desde una perspectiva global, el sistema de medición de desempeño es un
instrumento de criterios múltiples para informar a quienes toman decisiones acerca de una
variedad de cosas diferentes. Por ejemplo, puede rastrear el nivel actual de desempeño, la
serie de factores para un buen o mal desempeño, y los criterios por los cuales se requiere una
mejora en tiempo y forma. Un sistema de medición de desempeño receptivo también puede
rastrear los recursos consumidos para un desempeño observado, para determinar el valor neto
del desempeño (Berrah, et al., 2008). Una perspectiva que continúa la definición de valor del
desempeño de Gilbert (1978):
Desempeño Valioso = Logros
Costo del comportamiento
De hecho, muchos de los pasos del modelo ADDIE (Analysis, Design, Development,
Implementation, and Evaluation – Análisis, Diseño, Desarrollo, Implementación y
Evaluación) en la mejora del desempeño, pueden formar las bases para el conjunto de
objetivos y criterios a ser rastreados por el SMD. Un SMD puede hacerse a partir de la red de
objetivos de desempeño para ser consistentemente alineado respecto a la visión y misión de
la organización. Por ejemplo, los objetivos de la nueva iniciativa desarrollo de recursos
humanos, contribuye a los objetivos de las plantas de producción, las cuales a su vez
contribuyen con los objetivos de la organización. Por lo tanto, para apoyar las decisiones (por
ejemplo continuar solventando una iniciativa de desarrollo de recursos humanos, o eliminar
las barreras de la iniciativa de ese desarrollo, antes de decidir continuar o suspender su
subvención, etc.), la serie de desempeños debe ser revisada para comparar cualquier brecha y
comparar el conjunto de escenarios.
Los cuadros de mando del desempeño son tal vez el ejemplo más prominente de un sistema
de medición de desempeño y monitoreo. Ellos son capaces –si están bien diseñados–, de
brindar la información correcta en el momento correcto acerca de indicadores de desempeño
y procesos clave. Ellos pueden estar basados en Internet o en una intranet, pero la idea es que
los individuos que requieran información para tomar decisiones puedan acceder
convenientemente a los datos en tiempo real, o cercanamente real. Uno de los beneficios
clave es la mejora de justificación y poder para quienes toman las decisiones.
Los cuadros de mando del desempeño pueden brindar múltiples panoramas a múltiples
niveles de usuarios para que cada grupo tenga acceso a la información que está intrincada a
sus responsabilidades (por ejemplo, los ejecutivos pueden acceder a un panoramas que se
13
Sin embargo, debe ser notado que allí donde hayan involucradas personas, la objetividad absoluta no es
certera. Por ejemplo, algunos evaluadores, asesore e investigadores por igual son propensos –concientemente o
no– a utilizar una recolección de datos y herramientas de análisis inapropiadas, obteniendo cifras y conclusiones
que no son en realidad exactas. Aquellos que no poseen experiencia en la utilización de esas herramientas,
pueden ser fácilmente guiados en una dirección equivocada.
201
enfoque específicamente en indicadores estratégicos, mientras que los gerentes pueden

obtener panoramas más enfocados en indicadores operacionales). Lo que pueden ver son
usualmente representaciones gráficas de datos cuantitativos que les permiten detectar brechas
entre los niveles actuales y óptimos de desempeño. Dependiendo del diseño del sistema, las
causas raíz pueden ser enlazadas a esos indicadores, aunque la complejidad de las
organizaciones representa un desafío al momento de rastrear todos los posibles factores que
estén impactando sobre los indicadores. Los panoramas que brindan los cuadros de mando
del desempeño, también pueden incluir información agregada como resúmenes, informes,
contexto y excepciones resaltadas. Algunos cuadros de mando del desempeño brindan
estratos para varios niveles de preocupación (por ejemplo: alto riesgo, riesgo moderado o
bajo riesgo), que pueden ser definidos con criterios específicos establecidos por los
stakeholders. Esto también les permite a los usuarios detectar las tendencias más fácilmente,
sin la utilización de técnicas de análisis más sofisticadas. Algunos cuadros de mando del
desempeño son configurados para ofrecer varios cursos de acción plausibles, en parte
relacionados a las causas potenciales y al nivel de riesgo.
La literatura apoya los beneficios de la utilización de mediciones de desempeño para

desplegar objetivos de negocios, y para apuntar y monitorear las mejoras de desempeño
(Beers, 1979; Blenkinsop, 1993). Otros investigadores también han notado los enlaces entre
la medición de desempeño y los planes estratégicos y/o los factores de éxito críticos de los
negocios. Las investigaciones de Nelly (1991), Grady (1991), y Eccles y Pyburn (1992),
apoyan las mismas conclusiones.
Mientras que la teoría de sistemas llama al entendimiento de cómo la organización funciona

en general, la literatura acerca de cómo ver y entender el desempeño organizacional general
es escasa. La mejora de desempeño sistemática no es el marco de trabajo conceptual que por
defecto tienen quienes toman decisiones, ya que ellos tienden a tomar decisiones basados en
su propia intuición, intereses y creencias, como lo exponen los teóricos sociales, y tal vez las
de las personas a su alrededor. En un estudio reciente, Nutt (2006) encontró que supuestas
brechas identificadas subjetivamente tuvieron un efecto negativo sobre el éxito –ya sea en
forma de una necesidad u oportunidad–, con un impacto negativo aún mayor sobre las
brechas desempeño reales. El encontró que la identificación de brechas de desempeño es una
actividad crucial y exploró cómo este proceso es llevado a cabo. Luego de descubrir una
variedad de tácticas para identificare brechas y sus premisas, el autor encontró que algunas
tienen más éxito que otras:
Se encontró que estas tácticas influenciaban la perspectiva de búsqueda seleccionada para

descubrir las alternativas, al igual que éxito de la decisión resultante. Los mejores resultados
fueron notados cuando los esfuerzos de búsqueda eran guiados por necesidades
documentadas con una brecha de desempeño cuantitativa; y cuando la búsqueda formal o
negociación es utilizada para identificar las alternativas. Estos hallazgos incluyen decisiones
que tienen dificultad alta y baja, y aquellas con altos y bajos apoyo de recursos.
202
Puntos de Consideración en los Sistemas de Medición de

Desempeño
Como esfuerzos para desarrollar marcos de trabajo teóricos para mediciones de desempeño
motivadas e integradas estratégicamente, se han incrementado en los años recientes, la
medición de desempeño es un campo que ha atraído una considerable atención. Sin embargo,
si los sistemas de medición realmente facilitarán el proceso de mejora continua, al monitorear
y tomar decisiones importantes, algunos temas deben ser tratados. Santos, Belton, & Howick,
2002 apuntaron hacia dos temas claves que inhiben los sistemas de medición de desempeño
respecto a alcanzar su potencial completo: 1) problemas con el diseño e implementación de
los sistemas de medición de desempeño; y 2) problemas con el análisis y uso de la
información producida por las mediciones.
Los sistemas de medición pobremente diseñados pueden comprometer gravemente su

implantación, y en consecuencia, su impacto. Un factor importante que deben considerar las
organizaciones es la selección de un marco de trabajo apropiado para la medición. En el
capítulo anterior se listaron varios marcos de trabajo para la medición de desempeño (por
ejemplo, balanced scorecard). Algunos progresos se han hecho para articular los
procedimientos de identificación y medición de desempeño grupal, en un modo en que la
interpretación pueda ser más directa. Sin embargo, los autores reconocen que aún hay mucho
por hacer en la identificación de relaciones entre mediciones (Nelly, 1999; Suwignjo, Bittici
y Carrie 2000). Mientras que algunos pueden reconocer la importancia del entendimiento de
las relaciones entre el rastreo de varias mediciones de desempeño, las organizaciones
continúan diseñando sistemas de medición de desempeño sin resolver formalmente las
interdependencias entre las medidas, lo cual finalmente socava la validez y utilidad de la
información producida por el sistema.
Para atender la identificación de relaciones, Biticci et al., (2000), desarrollaron los Modelos
Cuantitativos para los Sistemas de Medición de Desempeño (Quantitative Models for
Performance Measurement Systems, o QMPMS), utilizando mapas cognitivos, diagramas de
causa y efecto, diagramas tipo árbol, y proceso de jerarquía analítica. En este trabajo, los
autores describieron cómo describir una técnica utilizada para la identificación de factores
que impactan el desempeño y sus relaciones, cómo estructurarlos jerárquicamente, cómo
cuantificar el efecto de los factores sobre el desempeño y cómo expresarlos cualitativamente.
Mientras tanto, Norton y Kaplan recomiendan la utilización de mapas estratégicos (2001).
Mientras que ambas perspectivas son en principio útiles para resolver la importancia de
establecer interdependencias, se necesita una mayor investigación y aplicación. Santos et. al
(2002), recomiendan el uso de ambos modelos cualitativo y cuantitativo para enriquecer el
análisis y producir un diseño de SMD más perspicaz.
Adicionalmente a las consideraciones de diseño, las organizaciones que están interesadas en

el uso de SMD, también deben considerar la implementación bien pensada. Los temas de
implementación son usualmente culpables de por qué la mayoría de las soluciones o
iniciativas en las organizaciones salen mal. La implementación efectiva se trata de la
203
creación y gestión de un cambio positivo14, y en el caso de la implementación de los SMD,

esto no es diferente. De igual modo, las potenciales barreras vistas en una evaluación general
o detección de necesidades son aquí presentadas (por ejemplo, temor respecto a que la
información sea utilizada para culpar o avergonzar). El liderazgo debe jugar un rol activo en
el establecimiento de las expectativas, del modelo de los comportamientos deseados y de la
motivación de aquellos afectados. El sistema de medición de desempeño debe ser visto como
un componente dentro de un sistema entero de gestión de desempeño.
La otra serie de desafíos que enfrenta el SMD está relacionada con el análisis de datos
apropiado, y el uso de la información para mejorar el desempeño. Un análisis riguroso debe
tener en cuenta el contexto de los datos de desempeño observados. Esto incluye una cantidad
ilimitada de otros factores que están en realidad afectando el desempeño, y con las
limitaciones obvias del cerebro humano y los SMD en la justificación de cada uno de los
factores de desempeño, la tarea no resulta ni directa ni sincera. Por ejemplo, nosotros
podemos tener una justificación por el hecho de que los logros en uno de los indicadores de
desempeño surgieron a expensas de otro indicador de desempeño. Si nosotros estudiamos la
independencia última del primero, podríamos arribar a conclusiones inexactas, las cuales
conllevarán a decisiones pobres. Los profesionales involucrados en la mejora de desempeño
se encuentran a menudo con esta situación al conducir detecciones de necesidades y análisis,
donde ellos limitan su búsqueda a los síntomas, y se detienen antes de identificar la brecha
real de desempeño y las causas de raíz.
Santos et al. (2000) señalan que muchos autores (por ejemplo Skinner 1974, Da Silveira y
Slack 2001, entre otros) han discutido acerca de que las organizaciones no pueden tener éxito
en todos y cada uno de los indicadores de desempeño, y que las decisiones explícitas acerca
de los intercambios deben ser definidas. Una vez más, aún queda por ser explorado mucho
trabajo en el área de los SMD.
Conclusión
El desarrollo de marcos de trabajo para la medición de desempeño, mejor integrados,
equilibrados y estratégicamente motivados, ha estado acompañado por un incremento en la
práctica de la medición del desempeño. Los SMD pueden ser una herramienta formidable en
el monitoreo y mejora continua del desempeño organizacional. Sin embargo, a pesar de los
significativos avances que han tomado lugar, aún existen algunos temas que requieren mayor
estudio, si es que los sistemas de medición serán completamente efectivos en el proceso de
gestión, a través del monitoreo y la toma de decisiones (Santos et al. 2002). Algunos temas
para mantener en mente al considerar el diseño de uso de los SMD son:
• Establecer claramente qué se debe medir y por qué.

• Utilizar las métricas correctas.
14
Referirse al Mejora Continua, del capítulo anterior para una revisión de estos conceptos.
204
• Considerar la perspectiva limitada de los SMD.

• Estar atentos a datos, análisis e interpretaciones inconsistentes.
• Alcance y panoramas limitados
• Sobreabundancia de información.
• Visualizaciones que pueden ser engañosas.
• Deben ser utilizados si resultarán de ayuda, por lo que su uso debe ser integrado como
parte de un sistema de medición de desempeño más amplio (por ejemplo, expectativas y
consecuencias claras para el uso o falta de uso).
205
Capítulo 14
El Futuro de la Evaluación en la Mejora del Desempeño
La Sociedad Internacional para la Mejora del Desempeño (Society for Performance

Improvement, ISPI) define a la mejora de desempeño como una perspectiva sistemática para
mejorar la productividad y competencia; utilizando una serie de métodos y procedimientos
para vislumbrar las oportunidades relacionadas con el desempeño de las personas. Pershing
(2006), declara que el proceso central mediante el cual se logra esto, es a través de la
selección, análisis, diseño, desarrollo, implementación y evaluación de programas que
influencien al comportamiento y los logros humanos bajo la mejor relación costo-efectividad.
Anteriormente hemos rastreado las raíces de la mejora del desempeño hacia la instrucción
programada, los sistemas de diseño instruccional y más frecuentemente hacia el trabajo de
B.F. Skinner y sus colaboradores sobre el comportamiento y su medioambiente. Esto tal vez
sea por qué la mejora del desempeño ha estado tradicionalmente tan cercanamente enlazada
con la capacitación y las soluciones instruccionales. Por lo tanto, muchos de los modelos de
evaluación que se han popularizado en el área, han estados enfocados a los programas de
evaluación de capacitación y otras soluciones instruccionales.
Así, la mejora del desempeño ha evolucionado desde un enfoque instruccional hacia un

enfoque de desempeño, donde las soluciones instruccionales son un sub-conjunto de una
gama de soluciones requeridas para resolver las brechas de desempeño. Más aún, y más allá
de brindar soluciones, los profesionales abocados a la mejora del desempeño concentran su
final último en la mejora del desempeño a través de cualquier medio que resulte apropiado y
ético. El reconocimiento de que la evaluación es un paso crítico y necesario en el proceso
general de mejora del desempeño, aún no es una realidad.
Los profesionales abocados a la mejora del desempeño se han tradicionalmente enfocado en

brindar soluciones –instruccionales y otras–, y no han hecho mucho en torno a las
detecciones de necesidades objetivas que les permiten identificar el mejor conjunto de
soluciones, ni en las evaluaciones de dichas soluciones. Kaufman y Clark (1999) discuten
acerca de que lo que los profesionales abocados a la mejora del desempeño están haciendo y
entregando resulta frecuentemente cuestionable en términos de valor agregado –el
incremento en valor y contribución hacia nuestros clientes y stakeholders. Debido a esto, el
éxito futuro de la profesión se ve amenazado. Más aún, los autores sostienen que muchos en
nuestro campo sólo brindan soluciones confortables para los problemas asumidos, todo esto
en un contexto en el cual la gente aún demanda ayuda profesional, mientras que su habilidad
para probar que han hecho una contribución mesurable a nuestros clientes, es sospechada.
Farrington y Clark (2000), señalan que en vez de estar enfocados en el negocio de la creación
de capacitación y otras soluciones, los técnicos de desempeño humano deben estar enfocados
en el negocio de mejorar los resultados. Ellos continúan con una recomendación de que para
ayudar a los individuos, organizaciones y sociedades a lograr sus metas, los consultores de
desempeño deben seguir un proceso sistemático y luego deben seleccionar las soluciones que
206
en realidad funcionan, advirtiendo que muchas soluciones populares no funcionan, y otras

aún pueden empeorar las cosas.
Una de las razones a menudo escuchadas para no conducir los procesos de mejora de
desempeño fundamental –tales como la detección de necesidades y la evaluación–, es la falta
de recursos: los fondos y el tiempo simplemente no están allí. Sin embargo, ni la detección de
necesidades ni la evaluación deben verse como intervenciones aisladas en sí mismas. En vez
de ello, ellas son las bases para la identificación, diseño, desarrollo, implementación y mejora
continua de las soluciones.
¿Qué Nos Depara el Futuro?

El campo de la mejora continua continúa estando en transición y continuo desarrollo como lo
indicaran previos contribuyentes en el campo (por ejemplo, Clark & Estes, 1999; Farrington
& Clark, 2000). Mientras nos encontramos con una desconexión entre lo que debe ser
evaluado en los programas y organizaciones, y las herramientas y modelos de evaluación que
tradicionalmente dominaron el campo de la mejora del desempeño, el requerimiento de
expandir nuestro marco de trabajo evaluativo y los modelos, se convierten en un elemento de
mayor presión. Así, la literatura sobre la investigación y la práctica evaluativa continuará
incrementandose. La investigación acción fusionará la línea entre la evaluación e
investigación clasica, y así nosotros debemos abrirnos a esta evolución, expandiendo nuestras
definiciones, nuestra conceptualización y perspectivas acerca de la evaluación y la medición.
En cuanto los clientes y empleadores demanden justificaciones por los recursos consumidos,
uno esperará que tanto la evaluación como la medición de desempeño se moverán hacia los
primeros puestos de la lista de prioridad de los profesionales abocados a la mejora del
desempeño, de los clientes y otras personas involucradas en la toma de decisiones. La
evaluación continúa evolucionando tanto como un proceso dentro de la mejora del
desempeño, como una disciplina y campo en sí misma.
En cuanto la demanda de evaluaciones y evaluadores se incremente, los cursos y programas

de evaluación dentro de instituciones educacionales, así como talleres profesionales, también
se verán incrementados. Nosotros debemos esperar que conjuntamente con un incremento en
la cantidad, experimentaremos un incremento en la calidad.
En cuanto el mundo continúe desarrollándose, dando lugar a la aparición de nuevas

organizaciones, programas, iniciativas y soluciones, la evaluación también emergerá en más
partes del mundo, como un prerrequisito para justificar los beneficios prometidos y los
recursos consumidos. La evaluación será intrincadamente enlazada a las prácticas éticas
demandadas por la sociedad.
Con la integración de la tecnología en mucho de lo que nosotros hacemos –no solamente en

este campo sino en el mundo–, el uso de los sistemas de medición de desempeño crecerá. La
207
tecnología ya ha impactado en el modo de recolectar y analizar los datos, y este impacto

continuará creciendo. Este crecimiento en los sistemas de medición del desempeño, tendrá
que estar acompañado por mediciones de calidad para asegurar que el diseño,
implementación y uso de los sistemas de medición de desempeño resulten apropiados. La
guía, educación y consecuencias positivas también tendrán que acompañar el uso de los
sistemas de medición de desempeño –en el contexto de un sistema de gestión de desempeño
más amplio–, y de la información que produzcan, para que en realidad cubran su potencial de
facilitar la toma de decisiones que resulte en una mejora de desempeño mensurable.
Conclusión
Tal vez el tema más dominante en este libro haya sido la mejora. Para que ocurra una mejora,
nosotros debemos estar bien predispuestos y ser capaces de aprender; para aceptar una
retroalimentación valiosa y convertirla en acción. Mucha investigación ha resaltado el poder
de la retroalimentación en la mejora del desempeño. La evaluación es un mecanismo central
a través del cual podemos obtener una retroalimentación útil. Es en este contexto que yo
espero que el lector haya visto el valor de la evaluación. Es en este contexto que uno verá a la
evaluación como un parte integral y necesaria en todo lo que hacemos, en vez de cómo un
elemento aislado e innecesario en el uso de recursos.
208
Referencias y Lectura Relacionada
• Adler, P. A., & Adler, P. (1994). Observational techniques. In N. K. Denzin & Y. S.

Lincoln (Eds.), Handbook of qualitative research (pp. 377-392). Thousand Oaks, CA:
Sage Publications
• Alliger, G.M. & Janak, E.A. (1989). Kirkpatrick’s Levels of Training criteria: Thirty
years later. Personnel Psychology. 42 (2). 331-342
• Baldwin, TT & Ford, JK. (1988). Transfer of training: A review and directions for future
research. Personnel Psychology. 41. 63-105
• Barker, J. A. (1990). The business of paradigms [Videorecording (vid); Videocassette
(vca); VHS tape (vhs)]. Burnsville, MN: Charthouse Learning Corp.
• Barker, J. A. (1992). Future edge: Discovering the new paradigms of success (1st ed.).
New York, NY: W. Morrow.
• Bassi, LJ, Benson, G., Cheney, S. (1996). The top ten trends. Training and Development,
50, (28-42).
• Bates, R. (2004). A critical analysis of evaluation practice: The Kirkpatrick model and
the principle of beneficence. Evaluation & Program Planning, 27(3), 341-347.
• Beer, S, (1979). The Hart of Enterprise, New York: Wiley.
• Berk, R. A. (1980). Criterion-referenced measurement : The state of the art. Baltimore,
MD: Johns Hopkins University Press.
• Berrah, L., Mauris, G., Montmain, J. (2008). Monitoring the improvement of an overall
industrial performance based on a Choquet integral aggregation. Special Issue on
Multiple Criteria Decision Making for Engineering. Omega. 36(3), pgs 340-351.
• Bititci, U. (1995). Modelling of performance measurement systems in manufacturing
enterprises, International Journal of Production Economics 42 (1995), pp. 137–147.
• Bititci, U.S., Turner, T., Begemann, C. (2000), "Dynamics of performance measurement
systems", International Journal of Operations & Production Management, Vol. 20 No.6,
pp.692-704.
• Blenkinsop, S.A., (1993). Organisational aspects of Information Processing Systems,
PhD Thesis, University of Loughborough.
• Borg, W. R., & Gall, M. D. (1989). Educational research : An introduction (5th ed.).
New York: Longman.
• Branson, R. K. (1975). Interservice procedures for instructional systems development.
Tallahassee, FL: Center for Educational Technology, Florida State University.
• Brethower, D. M. (2005). Yes We Can: A rejoinder to Don Winiecki's rejoinder about
saving the world with HPT. Performance Improvement, 44(2), 19-24.
• Brethower, D. M. (2006). How time series designs your work: Why they are practical and
powerful, and why you should care. Retrieved January, 30th, 2006, from
http://performancexpress.org/0601
• Brethower, D. M., & Dams, P.-C. (1999). Systems thinking (and systems doing).
Performance Improvement, 38(1), 37-52.
209
• Brewer, J., and Hunter, A. (1989). Multimethod research: A synthesis of styles. Newbury
Park: Sage.
• Brinkerhoff, R. (1981). Making evaluation more useful. Training & Development
Journal, 35(12), 66-70.
• Brinkerhoff, R. (2005). The Success Case Method: A Strategic Evaluation Approach to
Increasing the Value and Effect of Training. Advances in Developing Human
Resources. San Francisco: Vol.7, Iss. 1; pg. 86, 16 pgs
• Brinkerhoff, R. O. (1983). The success case: A low-cost, high-yield evaluation. Training
& Development Journal, 37(8), 58-61.
• Brinkerhoff, R. O. (1988). An integrated evaluation model for HRD. Training &
Development Journal, 427(2), 66-68.
• Brinkerhoff, R. O. (2003). The success case method: Find out quickly what's working and
what's not. San Francisco: Berrett-Koehler Publishers.
• Brinkerhoff, R. O., & Apking, A. M. (2001). High impact learning: Strategies for
leveraging business results from training. Cambridge, MA: Perseus Publishing.
• Brinkerhoff, R. O., & Jackson, G. (October, 2003). Managing education to maximize
impact. Chief Learning Office. Retrieved May 02, 2007 from
http://www.clomedia.com/content/templates/clo_feature.asp?articleid=269&zoneid=32
• Campbell, D. T., Stanley, J. C., & Gage, N. L. (1966). Experimental and quasi-
experimental designs for research. Chicago, IL: R. McNally.
• Carroll, A. (2000). Conceptual and consulting aspects of stakeholder theory, thinking,
and management. In Handbook of organizational consulting (2nd ed., Vol. 81, pp. 1045
p.). New York, NY: Marcel Dekker.
• Cascio, W.F. (1987). Applied Psychology in personnel management (3rd ed). Englewood
Cliffs, NJ: Prentice Hall.
• Clark, R. E., & Estes, F. (2000). A proposal for the collaborative development of
authentic performance technology. Performance Improvement, 38(4), 48-53.
• Clark, R. E., & Estes, F. (2002). Turning research into results: A guide to selecting the
right performance solutions. Atlanta, Ga.: CEP Press.
• Coghlan, D. (2000). Perceiving, evaluating, and responding to change: An interlevel
approach. In Handbook of organizational consulting (2nd ed., Vol. 81, pp. 1045 p.). New
York, NY: Marcel Dekker.
• Converse, J. M., & Presser, S. (1986). Survey questions : Handcrafting the standardized
questionnaire. Beverly Hills, CA: Sage Publications.
• Cooperrider, D. L., & Srivastva, S. (1987). Appreciative inquiry in organizational life. In
R. W. Woodman & W. A. Pasmore (Eds.), Research in organizational change and
development : An annual series featuring advances in theory, methodology and research
(Vol. 1, pp. 129-169). Greenwich, CT: JAI Press.
• Corcoran, C. (1997). IS managers need to put a price tag on productivity [Electronic
version]. InfoWorld, 19.
• Cooley, W. W., & Lohnes, P. R. (1976). Evaluation research in education. New York,
NY: Irvington Publishers : Distributed by Halsted Press.
• Cooperrider, D. L., & Srivastva, S. (1987). Appreciative inquiry in organizational life. In
R. W. Woodman & W. A. Pasmore (Eds.), Research in organizational change and
210
development : An annual series featuring advances in theory, methodology and research

(Vol. 1, pp. 129-169). Greenwich, CT: JAI Press.
• Cowan DA. (1986) Developing a process model of problem recognition. Academy of
Management Review;11(4):763 –776.
• Cowan DA. (1990). Developing a classification structure of organizational problems: an
empirical investigation. Academy of Management Journal; 33(2):366–390.
• Cresswell, A. LaVigne, M. (2003). ROI analyses for IT projects must focus on strategic
objectives. PA Times, 26(8), 3. Retrieved May, 6, 2007. from the Business Source
Primier database.
• Cronbach L. (1980). Toward reform of program evaluation: Aims, methods, and
institutional arrangements. San Francisco: Jossey-Bass.
• Cronbach, L. J. (1982). Designing evaluations of educational and social programs. San
Francisco: Jossey-Bass.
• Cummings, T. G., & Worley, C. G. (2005). Organization development and change (8th
ed.). Mason, Ohio: Thomson/South-Western.
• Da Silveira, G., Slack, N. (2001), "Exploring the trade-off concept", International
Journal of Operations & Production Management, Vol. 21 No.7, pp.949-64.
• Davis, I. The McKinsey Quarterly, 2005 Number 3.
• Dean, P. (1993). A selected review of the underpinnings of ethics for human performance
technology professionals. Part one: Key ethical theories and research. Performance
Improvement Quarterly, 6(4), 6-32.
• Dick, W. (1987). A history of instructional design and its impact on educational
psychology. In Instructional technology: Foundations. Hillsdale, NJ: L. Erlbaum
Associates.
• Dick, W., & Carey, L. (1990). The systematic design of instruction (3rd ed.). Glenview,
Ill: Scott, Foresman/Little, Brown Higher Education.
• Dick, W., & King, D. (1994). Formative evaluation in the performance context.
Performance and Instruction, 33(9), 3-8.
• Doucouliagos, C. & Sgro, P. (2000). Enterprise return on a training investment. Final
report. The National Centre for Vocational Education Research, Australia. June 11,
2000.
• Dumas, J. S., & Redish, J. (1999). A practical guide to usability testing (Rev Ed). Exeter,
England; Portland, OR: Intellect.
• Drucker, P. F. (1993). The five most important questions you will ever ask about your
nonprofit organization (1st ed.). San Francisco, CA: Jossey-Bass Publishers.
• Eccles. R.G. and Pyburn, P.J., (1992). Creating a comprehensive system to measure
performance, Mgmt. Accounting, 41-44.
• Eckerson, W. (2006). Deploying Dashboards and Scorecards (Business Objects and The
Data Warehouse Institute). Retrieved February 26, 2007 from DM Review Magazine web
site: http://www.dmreview.com/portals/portal.cfm?topicId=230006.
• Eisenhardt K. (1998). Decision making and all that jazz. In: Papadakis V, Barwise P,
editors. Strategic decisions. Boston, MA: Kluwer.
• Ferrington, J., & Clark, R. E. (2000). Snake Oil, Science, And Performance Products.
Performance Improvement, 39(10), 5-10.
211
• Flannigan, J. C. (1954). The critical incident technique. Psychological Bulletin, 51(4),

327-359.
• Fitzgerald, L., Johnston, R., Brignall, S., Silvestro, R., Voss, C. (1991), Performance
Measurement in Service Businesses, CIMA Publishing, London, .
• Fitzpatrick, J. L., Sanders, J. R., & Worthen, B. R. (2004). Program evaluation:
Alternative approaches and practical guidelines (3rd ed.). Boston: Pearson/Allyn &
Bacon.
• Foxon, M. (1993). A process approach to transfer maintenance: Part 1: The impact of
motivation and supervisor support on transfer maintenance. Australian Journal of
Educational Technology. 9(2). 130-143
• Gharajedaghi, J. (1999). Systems thinking: Managing chaos and complexity, a platform
for designing business architecture. Boston: Butterworth Heinemann
• Gilbert, T. F. (1978). Human competence: Engineering worthy performance. New York,
NY: McGraw-Hill.
• Grady, M.W., (1991). Performance measurement, implementing strategy. Mgmt.
Accounting, 49-53.
• Guba, E. (1969). The failure of educational evaluation. Educational Technology, 9, 29-
38
• Guerra, I (2003a). Key Competencies Required of Performance Improvement
Professionals. Performance Improvement Quarterly. 16 (1).
• Guerra, I. (2003b). Asking and answering the right questions: Collecting relevant and
useful data. Performance Improvement, 42(10), 24-28.
• Guerra, I. (2003c). Identifying and tracking key performance indicators. ASTD Links
Retrieved February 8, 2006, from
http://www1.astd.org/news_letter/October03/Links/Practice_Identifying.html
• Guerra, I. (2005). Developing Useful Questionnaires. In Silverman, M. & Phillips, P.’s
The 2005 Training and Performance Sourcebook
• Guerra-López, I (submitted for publication). Intelligence Gathering Practices of
Performance Improvement Professionals: Are we really measuring performance?
Performance Improvement Quarterly.
• Guerra-López, I. (2007a). Evaluating Impact: Evaluation and Continual Improvement for
Performance Improvement Practitioners. Human Resource Development Press.
• Guerra-López, I. (2007b). Evaluating impact: Building a case for demonstrating the
worth of performance improvement Interventions. Performance Improvement Journal
46(7).
• Guerra-López, I. (2007c). Planning a responsive evaluation: Establishing solid
partnerships by clarifying expectations and purpose. Performance Improvement Journal
46(8).
• Guerra-López, I. (2007d). A Seven-Step evaluation process for evaluating performance
improvement interventions. Performance Improvement Express. No. 10
• Guerra, I., Bernardez, M., Jones, M., & Zidan, S. (2005). Government workers adding
societal value: The Ohio workforce development program. Performance Improvement
Quarterly, 18(3), 76-99.
212
• Guerra, I., & Rodriguez, G. (2005). Social responsibility and educational planning.
Performance Improvement Quarterly, 18(3), 56-64.
• Gupta, P. (2004). Six Sigma Business Scorecard : ensuring performance for profit. New
York: McGraw-Hill.
• Harless, 1970 An Ounce of Analysis is Worth a Pound of Objectives
• Henderson, Davies & Willis, (2006). Australian Health Review. November 2006. V30. n
4
• Hofstadter D.R. & Dennett, D.C. (1981). The mind’s I: Fantasies and reflections on self
and soul. New York: Bantam Books.
• Holton, E. (1996). The flawed four-level evaluation model. Human Resource
Development Quarterly, 7(1), 5-21.
• Joint Committee on Standards for Educational Evaluation (1981). Standards for
evaluations of educational programs, projects, and materials. New York: McGraw-Hill.
• Joint Committee on Standards for Educational Evaluation (1994). The program
evaluation standards. Thousand Oaks, CA: Sage
• Kaplan, R.S., Norton, D.P. (1992), "The balanced scorecard – measures that drive
performance", Harvard Business Review, pp.71-9.
• Kaplan, R.S., Norton, D.P. (2001), The Strategy-Focused Organization – How Balanced
Scorecard Companies Thrive in the New Business Environment, Harvard Business
School Press, Boston, MA, .
• Kaufman, R. (1992). Strategic Planning Plus: An organizational guide. Newbury Park,
CA: Sage (Revised).
• Kaufman, R. A. (2000). Mega planning: Practical tools for organizational success.
Thousand Oaks, CA: Sage Publications.
• Kaufman, R. A. (2006a). Change, choices and consequences: A guide to mega thinking
and planning. Amherst, MA: HRD Press Inc.
• Kaufman, R. A. (2006b). Thirty seconds that can change your life: A decision-making
guide for those who refuse to be mediocre. Amherst, MA: HRD Press Inc.
• Kaufman, R. A., & Lick, D. (2004). How to get your organization balanced through
change creation. In M. L. Silberman & P. Philips (Eds.), The 2004 team and
organizational development sourcebook (pp. 255-267). Poughkeepsie, NY: Inkwell
Publishing.
• Kaufman, R. A., Guerra, I., & Platt, W. A. (2006). Practical evaluation for educators :
Finding what works and what doesn't. Thousand Oaks, CA: Corwin Press.
• Kaufman, R. A., & Clark, R. (1999). Re-establishing performance improvement as a
legitimate area of inquiry, activity, and contribution: Rules of the road. Performance
Improvement 38(9), 13-18.
• Kaufman, R., & Keller, J. M. (1994). Levels of evaluation: Beyond Kirkpatrick. Human
Resources Development Quarterly, 5(4), 371-380.
• Kirkpatrick, D.L (1959). Techniques for evaluating training programs. Journal of ASTD,
13(11), 21-26.
• Kirkpatrick, D.L. (1987). Evaluation. In R.L. Craig (ed). Training and development
handbook (pp. 301-310). New York: McGraw Hill.
213
• Kirkpatrick, D.L. (1994). Evaluating Training Programs: The Four Levels. San
Francisco, CA: Berrett-Koehler.
• Kirkpatrick, D.L. (2006). Seven keys to unlock the four levels of evaluation. Performance
Improvement Journal 45(7).
• Liston, C. (1999). Managing quality and standards. Buckingham, UK: Open University
Press.
• Lynch, R.L., Cross, K.F. (1991), Measure Up! How to Measure Corporate Performance,
Blackwell Publishers, Oxford, .
• Lynch. D. Greer, A,, Larson, L., Cummings, D., Harriett, B., Springer Dreyfus. K., Clay,
M. (2003). Descriptive metaevaluation: Case Study of an Interdisciplinary Curriculum.
Evaluation & the Health Professions. Beverly Hills. Vol.26(4), pg. 44-461
• Madaus, G. & Stufflebeam, D. (1989). Educational evaluation: Classic works of Ralph
W. Tyler. Boston: Kluwer Academic Publishers.
• Mager, R. F. (1997). Preparing instructional objectives: A critical tool in the
development of effective instruction (3rd ed.). Atlanta, GA: Center for Effective
Performance.
• Maskell, B. (1992). Performance Measurement for World Class Manufacturing: A Model
for American Companies. Productivity Press, Cambridge
• McMillan, J. H. (1992). Educational research: Fundamentals for the consumer. New
York, NY: HarperCollins
• Miles, M. B., & Huberman, A. M. (1994). Qualitative data analysis: An expanded
sourcebook (2nd ed.). Thousand Oaks, CA: Sage Publications.
• Mohr, L. B. (1992). Impact analysis for program evaluation. Newbury Park, CA: Sage
Publications.
• Neely, A. (1999), "The performance measurement revolution: why now and what next?",
International Journal of Operations & Production Management, Vol. 19 No.2, pp.205-
28.
• Neely, A., Adams, C., Kennerley, M. (2002), The Performance Prism: The Scorecard for
Measuring and Managing Business Success, FT Prentice-Hall, London, .
• Neely, A.D., Mills, J.F., Plats, K.W., Gregory, M.J. and Richards, A.H., (1991).
Realizing Strategy. Mgmt. Accounting, 49-53.
• Niven, P. R. (2002). Balanced scorecard step by step: Maximizing performance and
maintaining results. Retrieved February, 8, 2006.
• Noe, R. A. (1986). Trainees' attributes and attitudes: Neglected influences on training
effectiveness. Academy of Management Review, 11(4), 736-749.
• Nutt P. (1979). Calling out and calling off the dogs: managerial diagnoses in
organizations. Academy of Management Review ;4(2):203–14.
• Nutt, P. (2006). Intelligence gathering for decision making. Omega N. 25 (604-622).
• Nutt, P. (2007). Intelligence gathering for decision making. Omega No. 35. pp 604-622.
• Patton, M (1984). An alternative evaluation approach for the problem-solving training
program: A Utilization-focused evaluation program. Evaluation and Program Planning,
7, 189-192
• Patton, M. (1980). Qualitative evaluation methods. Thousand Oaks, CA: Sage
214
• Patton, M. Q. (1997). Utilization-focused evaluation: The new century text (third edition).
Thousand Oaks, CA: Sage Publications.
• Patton, M. Q. (2003). Utilization-focused evaluation. In T. Kellaghan & D.L.
Stufflebeam (Eds). International handbook of educational evaluation (pp223-244).
Norwell, MA: Kluwer
• Pershing, J. (2006). Handbook of Human Performance Technology: Principels,
practices, potential (Ed). San Francisco, CA: John Wiley & Sons.
• Peters, T. J., & Waterman, R. H. (1982). In search of excellence: Lessons from America's
best-run companies (1st ed.). New York, NY: Harper & Row.
• Phillips, J. (1997a). Handbook of Training Evaluation and Measurement Methods. 3rd ed.
Houston: Gulf Publishing Co.
• Phillips, J. (1997b). Return on investment in training and performance improvement
programs. Woburn, MA: Butterworth-Heinemann.
• Phillips, J. (1997c). Measuring return on investment in action: Volume 2. (Ed.).
Alexandria, VA: American Society for Training & Development.
• Popcorn, F. (1991). The Popcorn report: Faith Popcorn on the future of your company,
your world, your life (1st ed.). New York: Doubleday.
• Popham, W. J. (1975). Educational evaluation. Englewood Cliffs, NJ: Prentice-Hall.
• Pounds W. (1969). The process of problem finding. Industrial Management Review
1969; 1–19.
• Provus. M. (1971). The discrepancy model. For educational program improvement and
assessment. Berkley, CA. McCutchan Publishing. Co.
• Pyzdek, T. (2003). The six sigma handbook: A complete guide for green belts, black
belts, and managers at all levels. New York, NY: McGraw-Hill.
• Rea, L. M., & Parker, R. A. (1997). Designing and conducting survey research: A
comprehensive guide (2nd ed.). San Francisco, CA: Jossey-Bass Publishers.
• Richards, T., & Richards, L. (1994). Using computers in qualitative analysis. In N. K.
Denzin & Y. S. Lincoln (Eds.), Handbook of qualitative research (pp. 643). Thousand
Oaks, CA: Sage Publications.
• Rossett, A. (1987). Training needs assessment. Englewood Cliffs, N.J.: Educational
Technology.
• Rossett, A. (1999). Analysis for human performance technology. In H. D. Stolovitch
and E. J. Keeps (Eds). Handbook for Human Performance Technology. 2nd Ed. San
Francisco. Jossey-Bass Pfeiffer.
• Rothwell, W. (1996). ASTD models for human performance improvement: Roles,
competencies, and outputs. Alexandria, VA: The American Society for Training and
Development.
• Rummler, G. A. (2004). Serious performance consulting: According to Rummler.
Silver Spring, MD: International Society for Performance Improvement.
• Rummler, G. A., & Brache, A. P. (1995). Improving performance: How to manage
the white space on the organization chart (2nd ed.). San Francisco, CA: Jossey-Bass.
• Saari, LM, Johnson, TR. McLaughlin SD, Zimmerle DM (1988). A survey of
management training and education practices in U.S. companies. Personnel Psychology,
41. 731-743.
215
• Sanders (1979). The technology and art of evaluation. A review of seven evaluation
primers. Evaluation News, 12 2-7
• Santos, S., Belton, V., Howick, S. (2002). Adding value to performance measurement by
using system dynamics and multicriteria analysis. International Journal of Operations &
Production Management. 22(1), 1246 - 1272
• Scriven, M (1968). An introduction to metaevaluation. Educational Products Report,
2(5). 36-38.
• Scriven, M. (1967). The methodology of evaluation.. In R. Tyler, R. Gagne, and M.
Scriven (eds). Perspectives on curriculum evaluation. New York: McGraw Hills.
• Scriven, M. (1973). Goal free evaluation. In E. R. House (Ed.), School evaluation: The
politics & process (pp. 331). Berkeley, CA: Calif., McCutchan Pub. Corp.
• Scriven, M (1974). Standards for the evaluation of educational programs and products. In
G.D. Borich (Ed). Evaluating educational programs and products. Englewood Wood
Cliffs, NJ: Educational Technology.
• Scriven, M. (1991). Evaluation Thesaurus (4th edition). Thousand Oaks, CA: Sage.
• Scriven, M. (2002). Key evaluation checklist. [On-line] available:
www.wmich.edu/evalctr/checklists Retrieved 5-8-07
• Skinner, W. (1974), "The focused factory", Harvard Business Review, pp.113-21.
• Stake, R. (1967). The countenance of education evaluation. Teachers College Record,
68, 523-540
• Stake, R. (1970). Objectives, priorities, and other judgment data. Review of Education
Research, 40 181-212.
• Stake, R. E. (1973). Evaluation design, instrumentation, data collection, and analysis of
data. In B. R. Worthen & J. R. Sanders (Eds.), Educational evaluation: Theory and
practice (pp. 372). Worthington, OH: Charles A. Jones Pub Co.
• Stake, R. (1975). Program evaluation, particularly responsive evaluation. Kalamazoo:
Evaluation Center, Western Michigan University
• Stake, R. E. (2004). Standards-based & responsive evaluation. from
http://www.loc.gov/catdir/toc/ecip046/2003014865.html
• Stolovitch, H. D., Keeps, E. J., & Rodrigue, D. (1999). Skill sets for the human
performance technologist. In H. D. Stolovitch & E. J. Keeps (Eds.), Handbook of human
performance technology : Improving individual and organizational performance
worldwide. (2nd ed., pp. 691). San Francisco, CA: Jossey-Bass/Pfeiffer.
• Stufflebeam, D. (1967). The evaluation of context, input, process, and product in
elementary and secondary education. Paper commissioned by and presented to the U.S.
office of Education
• Stufflebeam, D. (1971). The Use of Experimental Design in Educational Evaluation.
Journal of Educational Measurement, Vol. 8, No. 4 (Winter, 1971), pp. 267-274
• Stufflebeam, D. Foley, W., Gephart, W., Guba, E., Hammond, R., Merriman, H., &
Provus, M. (1971). Educational evaluation and decision making. Itasca, IL: Peacock.
• Stufflebeam, D. & Shinkfield, A. (2007). Evaluation theory, models, and applications.
San Francisco: John Wiley & Sons.
• Stufflebeam, D. L., & Webster, W. J. (1980). An analysis of alternative approaches to
evaluation. Educational Evaluation and Policy Analysis, 2(3), 5-19.
216
• Stufflebeam, McKee, & McKee, 2003

• Technos: Quarterly for Education and Technology. (2000). Russell L. Ackoff: Interview.
Technos: Quarterly for Education and Technology Retrieved February, 8, 2006, from
http://www.findarticles.com/p/articles/mi_m0HKV/is_3_9/ai_66408220
• Tyler, R. (1949). Basic Principles of curriculum and instruction. Chicago: University of
Chicago Press.
• Suwignjo, P., Bititci, U.S., Carrie, A.S. (2000), "Quantitative models for performance
measurement system", International Journal of Production Economics, Vol. 64 pp.231-
41.
• Watkins, R., & Guerra, I. (2003). Assessing or evaluating: Determining which approach
is required. In M. L. Silberman (Ed.), The 2003 training and performance sourcebook.
Princeton, NJ: Active Training.
• Weitzman, E. A., & Miles, M. B. (1995). Computer programs for qualitative data
analysis : A software sourcebook. Thousand Oaks, CA: Sage Publications.
• Witkin, B. R., & Altschuld, J. W. (1995). Planning and conducting needs assessments: A
practical guide. Thousand Oaks, CA: Sage Publications.
217

Medición y Mejora Del Desempeño 2014

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Medición y Mejora Del Desempeño 2014

Cargado por

Copyright:

Formatos disponibles

Evaluación y Mejora Continua:

Conceptos y Herramientas Para la

Un Enfoque en Resultados e Impacto

Ingrid Guerra-López, Ph.D.

Institute For Needs Assessment & Evaluation

© Copyright and all Rights Reserved Ingrid Guerra-López

Este trabajo está dirigido a:

La segunda sección compete a herramientas y técnicas críticas para conducir una

SECCIÓN 1: FUNDAMENTOS DE LA EVALUACIÓN ............................................................................ 8

Sección 1: Fundamentos de la Evaluación

Desafortunadamente, esta información no está siempre disponible, y si en realidad existe,

Un Breve Resumen de la Historia de la Evaluación

Como respuesta a la insatisfacción respecto a los programas educacionales y sociales, una

En 1963, Cronbach publicó un importante trabajo, Course improvement through evaluation

Las entidades educacionales en particular, generaron comisiones evaluadoras, en parte para

Evaluación: Propósito y Definición

El concepto de que “el propósito más importante de la evaluación no es probar, sino

• Compara resultados respecto a expectativas;

Mientras que existen ciertas perspectivas de la evaluación que no se enfocan en resultados u

En términos específicos, antes de que el evaluador inicie un plan –y ciertamente antes de

• Evaluación para ver si la solución a un problema está funcionando, si los métodos

Mejora del Desempeño: Marco Conceptual de Trabajo

El resultado de la mejora del desempeño, o de la tecnología del desempeño humano, como

En la actualidad, la Sociedad Internacional para la Mejora del Desempeño (International

productividad y competencia, que utiliza una serie de métodos y procedimientos –y una

Lograr una Evaluación Exitosa: Asegurar la Participación

Un desafío vital respecto a los stakeholders que contribuirán al éxito de la evaluación, es

Si las recomendaciones surgidas de la evaluación no son implementadas, o son

El Evaluador: ¿Un Trabajo o Un Rol?

herramienta o la utilización de un recurso. El objetivo final es utilizar esta información para

• Describir el objeto a evaluar y su contexto en forma precisa.

La Relación con Otros Procesos de Investigación:

A continuación encontrará la Tabla 1.1, que ilustra algunos ejemplos de preguntas a

Tabla 1.1 Perspectivas Únicas para la Detección de Necesidades y Evaluación

Preguntas para la Detección de Necesidades Preguntas Evaluativas

¿Y cómo ingresa al escenario la investigación científica? Antes de responder esta pregunta,

Para responder entonces nuestra pregunta, la investigación es esencialmente otro proceso

Ciertamente, en una investigación mucho más básica, la generalización de los hallazgos

Tabla 1.2 Dimensiones de los Procesos Investigativos

Dimensiones Investigación Básica Investigación Evaluación

¿Cuándo Ocurre Una Evaluación?

Mientras que el determinar el valor agregado general –o potencialmente sustraíble– de

La evaluación formativa debe comenzar con una identificación, diseño, desarrollo e

• ¿Nos estamos enfocando en los objetivos correctos?

• El programa/solución, ¿está siendo implementado apropiadamente? 2

Orientaciones Generales para la Evaluación

La evaluación acumulativa (summative evaluation) ocurre luego de la implementación de un

Otra distinción utilizada muy a menudo respecto a las orientaciones de la evaluación, es la de

Stufflebeam y Webster (1980) han discutido sobre la evaluación de programas basada en

La evaluación de resultados, también es referida como evaluación de efectividad, y es

Otras perspectivas de la evaluación –asociadas con la evaluación de efectividad–, son las

La evaluación costo-beneficio considera formas alternativas de lo que el programa brinda, de

Finalmente, en el contexto de tecnología de soluciones, una orientación adicional de la

Desafíos Con Los Que Se Encuentran Los Evaluadores

La falta de experiencia también se convierte en una barrera. Cuando en una organización,

Otro desafío es el poco conocimiento de la utilidad y beneficios que brinda la evaluación. La

Figura 1.1 Visión Ideal de Kaufman

Visión Ideal Básica:

acuerdo en un destino común –resultados a lograr–, son la clave para un emprendimiento

Al minimizar esos temores –que en parte están basados en experiencias de evaluaciones

La creación de una sociedad para evaluar y mejorar el desempeño depende tanto de

• La evaluación puede brindar datos relevantes, confiables y válidos para ayudarnos a

• Desempeño: Los logros surgidos del comportamiento, más que el comportamiento en sí

¿Qué estamos buscando?