Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad 7:
Indicadores a partir de estudios de evaluación, encuestas y estudios cualitativos
Leonor Cariola
Introducción
1. Rol de la evaluación en los sistemas educacionales
1.1. Introducción
1.2. Impactos posibles de la evaluación
1.3. Decisiones de la política de evaluación
1.4. Usos de la evaluación
2. Tipos de evaluación de aprendizajes
2.1. ¿Qué es la evaluación de aprendizajes?
2.2. Tipos de evaluación
2.3. Principios generales de la evaluación
2.4. Tensiones de los sistemas de evaluación
3. Instrumentos y Requerimientos Metodológicos de la Evaluación
3.1. Introducción
3.2. Instrumentos de evaluación
3.3. Procesos de evaluación y sus etapas
4. Comunicación de indicadores de aprendizaje a partir de las evaluaciones
4.1. Introducción
4.2. Consistencia del sistema de evaluación
4.3. Criterios para la entrega de resultados
4.4. Formas de entregar resultados e indicadores
4.6. Impacto de la evaluación para mejorar los aprendizajes
4.7. Necesidad de medir el impacto efectivamente logrado
Bibliografía
1
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Introducción
Esta unidad supone que ya se han visto los indicadores referidos al sistema en general,
tales como cobertura, transición, etc. Y por lo tanto sólo se referirá a los indicadores origina-
dos en la evaluación de aprendizajes de los estudiantes en el sistema educacional regular.
Muchos países cuentan con sistemas de evaluación más o menos sofisticados, con los cua-
les se intenta aquilatar los productos, resultados o logros de la educación. Los resultados a
evaluar pueden ser de distintos tipos como la tasa de egresados en una cohorte, la tasa de
aprobados, la retención y otros. También se podría evaluar el desarrollo afectivo de los es-
tudiantes o sus actitudes. Todos estos son también resultados del sistema educacional, pero
lo que nos interesa estudiar en esta unidad es la evaluación de los aprendizajes cognitivos,
conocimientos y habilidades. Nótese que el término es restrictivo, no se refiere a la “calidad
educativa”, ya que esta se mide por un conjunto mucho más amplio de indicadores.
El principio básico y general de esta unidad es mostrar que la finalidad última de la eva-
luación siempre es mejorar los aprendizajes, lo que es un aspecto importante de la calidad
de la educación.
3
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
tomar la fiebre para tener o comunicar la información exclusivamente, sino para medicar y
sanar al enfermo. La evaluación estandarizada y externa de los logros de aprendizaje nos
permite saber cuánto del currículo prescrito aprenden los estudiantes y comparar estos
logros entre ellos o entre categorías de estudiantes, como también entre escuelas o tipos
de ellas. A partir de la información recopilada es posible iniciar las actividades de mejora.
Objetivos
A través del desarrollo de esta unidad se pretende que los participantes estén en condi-
ciones de:
4
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
1. Rol de la evaluación en los sistemas educacionales
1.1. Introducción
El siguiente gráfico muestra que el sistema de evaluación es parte del educacional. El siste-
ma educacional determina los aspectos relevantes a evaluar y el subsistema de evaluación
produce información, considerada útil para mejorar la calidad, y la entrega al resto del siste-
ma educacional. Se hace notar que el sistema de evaluación incluye tanto las evaluaciones
nacionales como las internacionales.
Los sistemas educacionales tienen objetivos más amplios que “instruir”, en el sentido de
entregar información que los alumnos sean capaces de retener. Deben desarrollar com-
petencias superiores para aplicar, relacionar y transferir esos conocimientos. Estas compe-
tencias permitirán seguir aprendiendo en contextos no escolares y llegar a crear nuevos
aprendizajes. Junto a lo anterior, los sistemas educacionales deben formar ciudadanos res-
ponsables capaces de convivir y producir en armonía. Esta unidad se refiere a uno de los
aspectos de la calidad de la educación: los logros de aprendizaje. Aunque los aprendizajes
se consideren de primordial importancia, hay otras dimensiones que son fundamentales
para la calidad educativa. (Martínez Rizo, 2003, Toranzos, L., 1996), como por ejemplo la
enseñanza de hábitos, disciplina de trabajo, actitudes adecuadas para la vida, etc.
5
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Fuente: Presentación en curso “Objetivo de las evaluaciones censales, ventajas y desventajas”, Leonor Cariola
Huerta, CURSO H-6 IKASTAROA: Las Evaluaciones Censales y de Diagnóstico en Educación, Universidad San
Sebastián, 2008
6
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Para las escuelas, las consecuencias pueden ser incentivos positivos, negativos o una mez-
cla de ambos. Entre los incentivos positivos está el dar premios en dinero para las escuelas
o para los profesores. También se puede focalizar programas específicos para apoyar o
favorecer el aprendizaje en escuelas con menores rendimientos. En otros casos, se puede
sancionar a las escuelas informando a la comunidad de sus bajos rendimientos, dando
plazo para superarse, interviniendo su administración o cerrándolas directamente. (Chay,
Mcewan, y Urquiola, 2005; Toranzos, L., 1996).
Existe un amplio consenso en que la mejor estrategia para que las escuelas mejoren es
poner una cuota de presión con evaluaciones con consecuencias y una cuota de apoyo para
superar el déficit detectado en las evaluaciones.
Dada la existencia y la participación cada vez mayor de los países en las evaluaciones
internacionales, es importante notar que cuando se habla de sistema de evaluación este
incluye tanto a dichas evaluaciones internacionales como a las nacionales. Ambos tipos de
evaluación son complementarias y útiles.
Las evaluaciones nacionales permiten evaluar los aprendizajes de acuerdo a las prioridades
curriculares del país, lo que lleva a decidir qué áreas de aprendizaje se evalúan. La estruc-
tura de la enseñanza es otro elemento a tener en cuenta para determinar en qué grado o
niveles se puede evaluar. El formato de la evaluación --lápiz y papel, electrónica o prueba
oral--, también determina qué se puede evaluar. Normalmente se aplican pruebas de papel
y lápiz lo que limita, por ejemplo, la posibilidad de evaluar expresión oral o rapidez lectora.
Las pruebas nacionales están orientadas a evaluar el sistema educacional del país en sí
mismo. Permite determinar sectores que están más carentes que otros y factores que se
asocian al rendimiento a nivel nacional.
1 También existe una opción internacional que permite ampliar las muestras para hacerlas representativas a niveles regionales. Así
lo hicieron Brasil, España y México en el Programa Internacional para la evaluación de Estudiantes (PISA).
7
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Entre estas decisiones, tal vez la más decisiva sea el uso que se le dará a la evaluación.
Por ejemplo, se sabe que en Estados Unidos, debido al “Act of no child left behind”, la
evaluación de aprendizaje se considera un indicador del progreso y/o cumplimiento de es-
tándares. Muchos distritos elaboran rankings de escuelas para asignar recursos, asistencia
técnica y sanciones a las escuelas (Chay, Mcewan, y Urquiola, 2005; De Landsheere, G.,
2001). En los análisis de la evaluación en América Latina es recurrente la recomendación
de clarificar cuál será el uso que se le quiere dar a los sistemas de evaluación. (Ravela, P;
Arregui, P; Valverde, G. y otros, 2008).
Ya hemos mencionado que los sistemas de educación varían respecto a las consecuencias
de los resultados de la evaluación y esto se relaciona con la atribución de responsabilidad.
Si es a la escuela, la presión se puede ejercer a través de:
Estímulos/Sanciones
Información privada a la comunidad escolar a distintos niveles
Información pública
En este rol, es prioritario cuidar el equilibrio entre la presión y el apoyo. Exigir lo que se requie-
re, pero no más de lo que las escuelas pueden dar para que no caigan en el desánimo total.
Siempre se debe considerar el sistema educacional como un todo, en que las distintas po-
líticas deben complementarse y fortalecerse consistentemente. Si la evaluación es usada
para ejercer presión, debe también ser vista de la mano del apoyo necesario para desarro-
llar las competencias que se requieren en la escuela. (Ravela, P; Arregui, P; Valverde, G. y
otros, 2008).
Independientemente de lo anterior, los resultados de la evaluación pueden ser de un gran
apoyo a docentes y directivos de la escuela, ya que permite saber cómo está la escuela en
relación a otras (si se entregan resultados por escuela), cómo se distribuyen los resultados
de sus estudiantes, determinar cuáles son las áreas de mayor fortaleza y debilidad y deter-
minar si hay aspectos de la práctica docente o de la gestión escolar que podrían favorecer
los mejores resultados. Si no se entregan resultados por escuela, el esfuerzo por parte de la
unidad de evaluación debe ser para establecer el vínculo de la información con las prácticas
8
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Los posibles usos de la información que produce la evaluación son muchísimos y los au-
tores en general los enumeran sugiriendo obtener claridad respecto a lo que se quiere
hacer con los resultados. El peor riesgo es que se evalúe y no se utilicen los resultados o se
difundan en forma ineficiente.
El apoyo que debe brindar el Estado a las escuelas, directamente o a través de sus orga-
nizaciones intermedias, está destinado a que los actores entiendan la información que se
recibe, analicen los medios para mejorar y determinen las acciones que emprenderán para
mejorar los resultados. No es posible afectar el proceso más central de la enseñanza, -el
aprendizaje que se da en la intimidad del aula-, solo con presión externa. Para lograr esta
transformación se requiere la acción conjunta de todos los actores y a todos los niveles.
Por eso el objetivo de la evaluación no es culpabilizar a nadie, sino ayudar a que cada cual
asuma su responsabilidad.
“Ayudar a las escuelas y a los profesores a mejorar la calidad de la educación que im-
parten, proporcionándoles una información relevante y significativa que les permita valorar
su situación real y sus logros.
Conocer y valorar en qué medida se están alcanzando los objetivos educativos o los
estándares propuestos para los distintos niveles o parcelas del sistema educativo, contribu-
yendo al mismo tiempo a establecer metas y niveles de referencia.
Forzar a las instituciones escolares y a los agentes educativos a generar dinámicas de
cambio, por medio de la comparación o la competencia.
Rendir cuentas a la sociedad o a las autoridades educativas acerca de los logros conse-
guidos, eliminando así la opacidad del sistema educativo y de las instituciones escolares.
Establecer sistemas de incentivos para las instituciones y para los profesionales de la educación.
Certificar, acreditar o seleccionar instituciones, programas de estudio, profesores o estudiantes.
Conocer y valorar la situación del sistema educativo, así como el impacto producido por
las políticas adoptadas.
Introducir elementos de racionalidad en el debate público y en la construcción de polí-
ticas en el ámbito de la educación”
9
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
También, de este análisis, vale la pena conjeturar sobre los mecanismos o herramientas
que se utilizan para lograr una mejora de aprendizaje. En este sentido podemos destacar:
10
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
para “evaluar y controlar”. Estos usos podrán ser efectivos siempre y cuando las escuelas
cuenten con los recursos y las capacidades para hacer cambios efectivos.
También hay usos orientados a las políticas educativas: sistemas de incentivos, evalua-
ción de políticas, proveer evidencia, monitorear, retroalimentar el currículo, y asignación
de presupuestos. Se deduce claramente que estos usos son menos amenazantes para las
escuelas, pero no se sabe si suficientemente movilizadores.
Sin embargo, se echa de menos un uso que debería ser prioritario y aparecer con fuerza:
orientar el apoyo (recursos, capacitación) que debe dar el Estado, sea directamente o a
través de instituciones intermedias, a las escuelas para superar sus resultados.
Nos parece importante volver a enfatizar la necesidad de equilibrar presión y apoyo a las
escuelas, junto con políticas educacionales acertadas.
Se evalúa cuando existe un parámetro, una referencia contra la cual se compara. En cualquier
caso, hay que tener en cuenta que para evaluar es necesario medir en primer término, y
luego confrontar.
Las evaluaciones estandarizadas facilitan las comparaciones porque a todos los estudian-
tes se les aplican preguntas iguales o equivalentes y en las mismas condiciones (tiempo,
contexto, espacio, etc.). Además, las preguntas están referidas a un marco de evaluación
11
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
que es conocido y que se ha fijado de acuerdo a criterios públicos. Por ejemplo, un criterio
puede ser correspondencia con el marco curricular; otro, como en el caso de PISA, pueden
ser las competencias que se consideran necesarias para la vida.
Este criterio definirá, por una parte, al universo de estudio, es decir, a quiénes queremos
diagnosticar su aprendizaje. Por ejemplo estudiantes de 4º básico, estudiantes de 15 años
o estudiantes de 6º básico en colegios públicos.
Una vez hecha esa decisión o junto con hacerla habrá que decidir si la evaluación será:
Censal: En este caso se trata de evaluar al 100% de la población definida, lo que im-
plica llegar a todas las escuelas y alumnos del país. La evaluación censal tiene ventajas y
desventajas. Las ventajas van en la línea de las posibilidades que abre el hecho de tener
resultados para todas y cada una de las escuelas. Con esto la responzabilización y el apoyo
pueden estar mejor orientados y las escuelas no pueden ignorar sus propios resultados.
También permite contrastar los resultados de cada escuela con los de otras con caracterís-
ticas semejantes o de determinadas categorías. En caso que se quiera hacer seguimiento
para medir valor agregado, habrá un mayor número de estudiantes posibles de encontrar al
término de un período, aunque proporcionalmente sean equivalentes a los que se pueden
seguir en una muestra. Este tipo de evaluación posibilita focalizar programas en escuelas
más necesitadas de apoyo. Si bien se evita el error muestral, la ocurrencia de factores ex-
ternos que conducen a errores ajenos al muestreo obliga a considerar mayores variables
operativas que inciden en la calidad de la información y en el costo total de la evaluación.
La desventaja de este tipo de aplicaciones es que se facilita la culpabilización a las escuelas
o, al menos, que estas se perciban a sí mismas como culpables. Otra desventaja son los
costos, que son muy superiores a cuando la evaluación se hace muestral.
Muestral: En este caso se establece estadísticamente un conjunto de escuelas y alum-
nos que sean representativos al nivel que se desee. La representatividad rigurosa es un
tema que habrá que cuidar y explicitar, para que los destinatarios de la información no
lleguen a conclusiones erróneas. Las ventajas y desventajas de las evaluaciones a una
muestra son las contrarias de las pruebas censales: son más económicas y con ellas es
más fácil evitar las consecuencias derivadas de los errores ajenos al muestreo, propios de
operativos de una considerable envergadura. Como son menos intimidantes, se prestan
mejor para incluir mayor diversidad de indicadores y los auto-reportes probablemente son
más confiables.
12
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
La decisión entre realizar pruebas muestrales o censales dependerá del objetivo que se
persiga y de la información que se quiera entregar. Es muy importante que las decisiones
-respecto al sistema de evaluación- sean consistentes entre sí, así como con el objetivo
de la evaluación y con la política educativa en general. Se requiere gran claridad respec-
to a “para qué evaluar” y “a quién evaluar”, luego habrá que clarificar “qué y cuando
evaluar” para responder al objetivo de la evaluación. Habiendo respondido a estas pre-
guntas, se podrá decidir el “cómo evaluar”.
Si se desea entregar resultados a nivel de alumnos, todos ellos deberán responder un gran
número de ítemes en común. Esto puede llevar incluso a diseñar una prueba única; es de-
cir, el número total de preguntas será muy reducido. Por tanto, el marco de evaluación no
podrá ser muy amplio o muy profundo.
13
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Mientras mayor sea la unidad de análisis en que se reportarán resultados, mayores posi-
bilidades de ampliar el marco de evaluación y la cobertura curricular porque entonces es
posible aplicar un conjunto diferente de ítemes a los distintos estudiantes. Es sacar distintas
muestras del conocimiento que se quiere evaluar para aplicarlo entre distintos estudiantes.
En síntesis, cada ítem o pregunta tiene que ser respondido por un mínimo de alumnos y
habrá que ver si ese mínimo se logra para un curso, para una escuela o para una agrupación
geográfica. En esto se sustenta la potencialidad de pruebas como TIMSS o PISA, que por lo
general entregan resultados al nivel del país. En ellas se aplica un gran número de ítemes
que pueden estar distribuidos en muchos cuadernillos (en ocasiones más de diez), y entre-
gan resultados por un área completa y por sub-áreas. Por ejemplo, en TIMSS hay una escala
general de matemáticas y también sub-escalas de números, álgebra, geometría, medición
y estadísticas. Esto se puede hacer gracias a que se ha aplicado un número suficiente de
preguntas para cada sub-área.
14
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Pruebas normativas, comparan los estudiantes evaluados entre sí. Ello permite ordenar
a los alumnos según un puntaje que indica mayor o menor aprendizaje, pero carece de
significado respecto a los aprendizajes esperados. No señala qué se aprendió o que faltó
por aprender. Permite rankear las escuelas y a los alumnos, pero no describe qué es lo que
saben y pueden hacer.
Criteriales, evalúan según un estándard o según lo que se supone que los alumnos
deben conocer y saber hacer. Las expectativas respecto al aprendizaje están previamente
establecidas e informadas. En este caso existen unos estándares contra los cuales se con-
fronta el conocimiento demostrado en la prueba por el estudiante. Esto tiene la gran ven-
taja de que permite transmitir un mensaje claro respecto a lo que los estudiantes saben y
no saben. Sin embargo, esto se critica muchísimo por el riesgo de estandarización, ya que
los estudiantes y las escuelas difieren entre sí. Otra gran crítica es que con esto se reduce el
currículo solo a lo que está estandarizado. Volveremos sobre esto a propósito de la entrega
de resultados, en el tema 4.
Permite rankear
Normativas
No se señala cuán cerca o lejos se está de la meta
Da mayor sentido a la comunicación de resultados
Criteriales
Facilita el apoyo a los docentes
15
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Hay ciertos principios que toda evaluación debe cumplir, que no obedecen solo a principios
éticos, sino que son necesarios para que la evaluación cumpla su función de palanca para
el progreso de los aprendizajes. El poder de la evaluación se basa en la credibilidad pública
de la información que se tenga, ya que, como hemos visto, su impacto depende de las
acciones que emprendan otros a raíz de los datos. Si estos no se creen o no son tomados
en serio, no pueden producir los efectos esperados.
Diversos autores (OEI, 1996; Cariola, L., 2008; Ravela, P.; Arregui, P.; y otros, 2008) hacen
mención de estos principios por los cuales se debe regir la evaluación. A continuación pre-
sentamos una síntesis:
Evaluación referida a criterios comunes y conocidos. Tanto los docentes como los estu-
diantes deberán estar en conocimiento sobre lo que serán evaluados, sea a través de un
marco de evaluación, del currículo o de unos estándares. Así también los estudiantes deben
estar familiarizados con el tipo de preguntas a las que se verán enfrentados.
La evaluación mide aprendizajes considerados centrales y relevantes. Esto tiene mucha
importancia para no entregar señales equívocas al sistema. De alguna manera la evalua-
ción incide en lo que se enseña y se trata de orientar hacia conocimientos y habilidades
que se quiere que los estudiantes desarrollen. Esto exige dedicación para elaborar ítemes
de opción múltiple o de respuesta construida que evalúen lo que importa evaluar.
La información recogida en la evaluación debe informarse de manera transparente y
precisa. Se requiere ser muy claros en los límites y posibilidades de la información entre-
gada –lo que se puede y no se puede hacer con ella. Además tiene que ser comprensible
para los distintos públicos a los que está dirigido.
Los aspectos metodológicos deben cumplir estándares rigurosos y ser transparentes
ante la comunidad. Es importante documentar los procesos que se llevan a cabo y deben
estar disponibles para quien quiera consultar por ellos. Es muy recomendable que estos
procedimientos sean revisados y acreditados por otra agencia de evaluación, como una
forma de dar transparencia a la unidad de evaluación y así fortalecer su credibilidad.
16
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Apoyo versus presión a las escuelas. Ya hemos señalado que esta tensión se resuelve
con el equilibrio. El apoyo a las escuelas supone que hay condiciones que determinan los
bajos resultados, como pueden ser los recursos, la mala gestión o falta de calificación de
los profesores, y que es necesario apoyarlas para que puedan mejorar. La presión se ejerce
con mecanismos de sanción que pueden ser incentivos o directamente castigos que puede
incluso llegar al cierre de la escuela si ésta no mejora.
Autonomía para que la escuela decida las estrategias de mejora versus sanciones desde
el Ministerio a través de una intervención directa en la escuela sin tomar en cuenta las
opiniones de la comunidad escolar.
Evaluación interna versus evaluación externa, ya discutida.
Cobertura curricular versus precisión por unidad de análisis. Como ya se describió, para
aumentar la cobertura curricular es necesario hacer más preguntas en más cuadernillos de
prueba. Esto afecta el error de medición y no permite entregar resultados para alumnos
individuales o para grupos reducidos.
El desarrollo del sistema de evaluación debe armonizarse con una cultura evaluativa que
prevenga los usos no deseados de la información. Se entiende por cultura evaluativa aque-
lla que valora la evaluación como una forma de identificar insuficiencias para superarlas,
y que permite que las personas evaluadas no se sientan amenazadas sino desafiadas. Por
sobretodo, en una cultura evaluativo se respeta la evaluación como productora de informa-
ción objetiva que no se puede ni debe alterar.
Si existe una cultura de este tipo, se evitan o disminuyen algunos riesgos de la evaluación
como la resistencia de los docentes, que los puede llevar a ignorar sus resultados o incluso
a obstaculizar las aplicaciones. Una consecuencia no deseada es que la escuela en un in-
tento de subir sus resultados seleccione a los estudiantes más adelantados, o con mejores
condiciones socio-económicas o con buenos antecedentes, lo que en el mediano plazo
llevará a una segmentación del sistema. Una comprensión cabal de la evaluación también
puede prevenir la reducción curricular producto de “enseñar para la prueba”.
Otros riesgos de la evaluación es que se llegue a estigmatizar a las escuelas con bajo rendi-
miento y con ello es posible que se profundicen las diferencias, sin lograr la mejora buscada.
Una buena comprensión de la evaluación como palanca para el mayor aprendizaje, per-
mitirá considerar las condiciones en que se desarrolla el aprendizaje y brindar un apoyo
específico a las necesidades de las escuelas, sin necesidad de enfatizar los “rankings”.
17
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
3.1. Introducción
En este tema haremos un recorrido por las principales fases del proceso de evaluación
señalando sus exigencias y riesgos de error. Este tema tiene por objeto identificar posibles
problemas de confiabilidad y validez de los resultados, en cuyo caso se afectaría también
la validez de los indicadores.
Empezaremos por analizar los instrumentos de la evaluación, vale decir las pruebas y cues-
tionarios. Es importante señalar que nos estamos refiriendo a pruebas de papel y lápiz que,
por ahora, son las más corrientes en nuestra región. Estas consisten en un conjunto de pre-
guntas, que también se pueden denominar ítemes o reactivos, a las cuales los estudiantes
responden simultáneamente escribiendo las respuestas.
Luego señalaremos que el proceso de evaluación debe cumplir ciertos estándares, patrones
o requisitos que se ha impuesto a sí mismo el sistema de evaluación. Estos son descripcio-
nes explícitas4 respecto a la forma en que se realiza la evaluación.
Las pruebas tienen requisitos insalvables para que puedan arrojar una información válida
y confiable.
Ya nos hemos referido a la importancia de que las preguntas tengan relación con los conte-
nidos relevantes y centrales. Es decisivo que estos se establezcan previamente en un marco
de evaluación o en descripciones detalladas y precisas sobre lo que los alumnos deberán
demostrar que saben y saben hacer5. Generalmente estos contenidos (conocimientos y
habilidades) se traducen en una matriz de evaluación referida al número de ítemes con que
se deberá contar para cada intersección de conocimiento y habilidad. Es conveniente que el
marco, además de ser consonante con el currículo, sea validado social y profesionalmente,
esclareciendo cualquier duda sobre su centralidad curricular y relevancia disciplinaria.
3 Este capítulo se basa en forma importante en Allalouf (2007) y en la propia experiencia de la autora en su trabajo en el SIMCE.
4 No se deben confundir los estándares de la evaluación, que corresponden a condiciones que debe cumplir el sistema de evalua-
ción, con los estándares de contenido o los de desempeño, que deben cumplir las escuelas y los estudiantes.
5 A estas descripciones se las denominan estándares de desempeño y sobre ellos profundizaremos en el próximo epígrafe.
18
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
preguntas de respuesta corta, donde el estudiante debe escribir la única respuesta posible.
Las más complejas son las preguntas abiertas o de desarrollo en que el estudiante debe
construir una respuesta a la pregunta planteada. Estas últimas se corrigen en base a pautas
o rúbricas y demandan tiempo y capacitación para que los correctores alcancen la consis-
tencia deseada, es decir que una misma respuesta sea evaluada de la misma manera por
distintos correctores. Se deduce que este proceso es costoso y por eso mismo generalmen-
te no se incluyen demasiadas preguntas abiertas. Sin embargo, cada vez más se considera
necesario incluir preguntas de este tipo porque ellas permiten medir más fácilmente habi-
lidades de razonamiento en comparación con las preguntas de opción múltiple. Además,
hay competencias que simplemente no se pueden evaluar si no es a través de preguntas
construidas, como por ejemplo, la capacidad de redacción.
Luego, los ítemes deberán ser sometidos a una prueba experimental que permita asegurar
que discriminan suficientemente, que tienen un nivel de dificultad adecuado, que no tienen
sesgo y que se ajustan métricamente al modelo que se utilizará. Esto se hace a través de
análisis psicométricos.
19
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Lo anterior se refiere a cada ítem en sí mismo, pero también el conjunto de ítemes que
constituyen la prueba debe contar con ciertas características como es el hecho de cubrir
todos los niveles de dificultad y que sus resultados permitan reportar el nivel de dominio
de los conocimientos y habilidades sobre los cuales se quiere informar. A este proceso se
le denomina “armado” de la prueba. En el caso de que haya distintas formas o cuadernillos
de prueba este proceso es más complejo porque se debe cuidar la equiparación entre ellas,
es decir, las formas tienen que ser equivalentes entre ellas.
Los cuestionarios son un segundo tipo de instrumento que, a diferencia de las pruebas, no
están dirigidos a evaluar el aprendizaje de los estudiantes, pero que ayudan a interpretar
los resultados de la evaluación.
Son instrumentos que permiten recoger información sobre el contexto social y familiar del
estudiante, sobre el contexto escolar, las prácticas de enseñanza y la gestión del estableci-
miento educacional. Como veremos en el siguiente tema, la información que se recoge es
decisiva para entregar los resultados de aprendizaje en forma justa y adecuada (ver Ravela,
P., 2001b).
Los cuestionarios pueden estar dirigidos a padres o apoderados, a los profesores, a los di-
rectores del establecimiento y a los mismos estudiantes.
Esta información puede cumplir distintos objetivos, pero los principales son los siguientes:
20
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Un uso menos notorio, pero que puede ser importante, es la utilidad de esta información
para validar la base de datos ya que se pueden encontrar estudiantes que no cumplen las
condiciones para ser evaluados (por estar en otro grado, por ejemplo), para clasificar a los
estudiantes y establecer grupos comparables o para calcular los valores plausibles6.
Al igual que en el caso de las pruebas es muy importante que exista un marco de referencia
para la elaboración de los cuestionarios y un plan de análisis en el corto y mediano plazo. El
marco de evaluación deberá incluir factores externos a la escuela, que se sepan asociados
al rendimiento, para entregar los resultados mostrando las características de estos factores
y poder hacer comparaciones justas entre escuelas. Al ser factores externos a las escuelas,
en su mayoría familiares, la escuela no los puede alterar, pero si afectan los logros, es im-
portante que los resultados los tengan en cuenta. Estos se deberán medir junto con cada
evaluación de aprendizajes ya que es un elemento esencial para interpretar los resultados.
Los cuestionarios también deben incluir factores de la escuela y esto será un elemento im-
portante de retroalimentación para la política educacional y para las decisiones de gestión
y de prácticas de enseñanza en el aula. No es necesario realizar análisis explicativos con
toda la información pertinente en cada evaluación. Se recomienda desarrollar un plan de
análisis en que periódicamente se vayan confirmando los hallazgos anteriores y al mismo
tiempo se avance en el análisis de distintos temas relevantes para la política educacional
y para las prácticas educativas.
Según Allalouf (2007) en cualquier proceso constituido por una serie de etapas sucesivas
hay numerosas fuentes de error. La evaluación conlleva un proceso de este tipo y, por
consiguiente, es muy importante establecer procedimientos para el control de calidad. Las
unidades de evaluación deben hacerse responsables –dar cuenta- respecto de los procesos
que llevan a cabo.
6 Los valores plausibles se calculan para cada estudiante estimando su distribución de resultados posibles de acuerdo a su patrón
de respuestas (en las preguntas que enfrentó) y a sus características personales. Al azar, se obtiene un número determinado de resultados
en esa distribución. En las pruebas internacionales se tienen cinco valores plausibles. De esta manera, se disminuye el error producto de
responder distintos ítemes
21
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
3.3.1. Empadronamiento
3.3.2. Aplicación
También es necesario prevenir problemas durante la aplicación de las pruebas. Las pruebas
internacionales tienen un sistema de observadores capacitados que asisten a un 10% de
los establecimientos en que se aplica la prueba. Ellos registran paso a paso (a través de
formularios predefinidos) si se cumplen las instrucciones del manual de operaciones con
el fin de asegurar que el proceso de administración de la prueba sea estandarizado. Los
sistemas nacionales tienen sus propios mecanismos de control de calidad, incluyendo la
observación. Una de las principales preocupaciones durante la aplicación es que los estu-
diantes no reciban ayuda para la resolución de las pruebas y que éstas no se filtren para
asegurar los ítemes de equiparación o para controlar posibles efectos de contaminación.
Una vez que la prueba ha sido aplicada, es necesario reunir todo el material de campo y
asegurarse de que está completo y bien ordenado. Recuérdese siempre que los proble-
mas son acumulativos y es más fácil corregir el error en el momento que se produce que
rastrearlo posteriormente hacia atrás sin saber dónde se originó. Luego, la información se
debe traspasar a un medio digital, sea digitando, por lectura óptica o por escaneo.
22
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Las bases así producidas deberán ser revisadas desde distintos puntos de vista. La com-
pletitud es importantísima porque se pueden perder cuadernillos o la captura puede haber
sido incompleta. Habrá que revisar que esté la información de todas las escuelas evaluadas,
que cada escuela tenga la información de todos los alumnos presentes, y que el número
de presentes (incluyendo discapacitados/integrados) y ausentes totalice el número de
alumnos matriculados. Esto incluye revisar que los códigos identificadores estén completos,
sean consistentes para las distintas bases y no se repitan entre alumnos diferentes. Luego,
se deberá comprobar que para cada estudiante se ingresó la información de todos los cua-
dernillos de prueba y de los cuestionarios correspondientes.
Luego habrá que chequear posibles errores de captura, y asegurarse de que los registros
faltantes son realmente sin respuesta y no efecto de marcas borrosas y que las marcas
borradas no estén consideradas. En ocasiones esto puede ser una fuente de error que se
debe medir junto con el error de medición.
Además, es muy importante que se hagan análisis de consistencia. Quien conoce las bases
sabrá qué cruces son capaces de develar errores. Por ejemplo, cuando se obtiene la misma
información de dos fuentes como la edad de los estudiantes de los registros escolares y del
cuestionario a estudiantes, o cuando se pregunta edad y experiencia a los profesores, será
muy útil cruzar las variables.
Hay casos en que las revisiones necesariamente se deben realizar manualmente, como las
marcas demasiado débiles o la revisión de casos sorprendentes porque tienen puntajes
demasiado bajos o demasiado altos o contradictorios entre sí.
Tanto si se realiza análisis clásico como si se usa teoría de respuesta al item (TRI), el análisis
psicométrico se inicia analizando las características de los ítemes.
La dificultad de cada item, que no puede ser demasiada alta ni demasiado baja, según
el porcentaje de respuestas correctas.
23
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Si el análisis se realiza de acuerdo a la TRI, dependerá del número de parámetros con que
se quiera analizar –uno, dos o tres– cuántas de las siguientes características se considerarán:
Los parámetros de los ítems deben estar dentro de los rangos establecidos. Si las caracterís-
ticas de algún ítem no cumplen con las condiciones necesarias, (“no ajusta”), es necesario
sacar ese ítem, volver a hacer el análisis e iterar (repetir el procedimiento). Cuando todos
los ítems ajustan, se dice que la prueba calibró y se puede puntuar.
3.3.5.3. Puntuación
La puntuación con TRI es un proceso más complejo. Las pruebas internacionales inician este
proceso condicionando los resultados a una serie de características contextuales, lo que ya
hemos descrito como el cálculo de valores plausibles. Otros sistemas (Chile, por ejemplo)
24
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Para el control de calidad del análisis de ítemes, Allalouf (2007) propone realizar tanto
análisis clásico como IRT y correlacionar los parámetros. Otra posibilidad es que el análisis
lo realicen dos personas independientemente y después se comparen los resultados.
El proceso de equiparación de datos7, entre formas o con las pruebas anteriores debe ser
revisado cuidadosamente y cuantificar su error, sin embargo no siempre se mide. Este
error se puede producir si los ítemes con que se equiparan las pruebas (ítemes comunes)
no tienen las mismas características. Este supuesto no siempre se cumple en su totalidad
y eventualmente en esos casos habrá que decidir entre modelos alternativos de equipa-
ración. Algo que exige especial cuidado es que los ítemes comunes deben mantener su
posición en las distintas formas o pruebas que se quieran equiparar. Otro supuesto que
hay que cuidar y respetar es que las pruebas se apliquen exactamente en las mismas con-
diciones, formato, instrucciones, tiempo, etc. Diferencias de este tipo pueden llevar a un
comportamiento distinto de los ítemes. Otra forma de comprobación es calibrar las pruebas
por separado y con el conjunto de ítemes, los resultados deberían ser los mismos. Revisar y
duplicar las fórmulas de conversión usada es otra forma de control de calidad. Finalmente,
también se pueden comparar y correlacionar los puntajes con las características de los estu-
diantes para ver si se cumplen las expectativas, así como si los porcentajes de estudiantes
en los distintos niveles de logro (si los hay) no son muy sorprendentes.
7 La equiparación (equating) es el proceso mediante el cual se establece la equivalencia entre los puntajes de dos pruebas distintas.
Estas pruebas pueden ser formas paralelas en cuyo caso se trata de ser justo con los alumnos que contestan pruebas distintas; también
pueden ser pruebas entre años que se equiparan para poder establecer tendencias y señalar cómo ha evolucionado el aprendizaje.
25
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Antes de reportar los resultados es necesario asegurarse de que los puntajes fueron ho-
nestamente obtenidos. El riesgo de fraude o trampa aumenta cuando las pruebas tienen
altas consecuencias. El fraude puede originarse en la clase, la escuela, en el distrito (o nivel
intermedio del sistema) ya que profesores y directores pueden ser sancionados por los
resultados. Sin embargo, es necesario tener extremo cuidado antes de denunciar fraude
ya que los problemas también se pueden haber originado en la aplicación (cuando no es
responsabilidad de la escuela) por problema del examinador; o en la recopilación de datos,
cuando por ejemplo aparecen muchos alumnos ausentes pero en realidad sus cuadernillos
o registros se podrían haber perdido.
Se les pide a los estudiantes de bajo rendimiento que no asistan a la escuela o se les
asigna una actividad distinta.
Se sustituyen estudiantes, por ejemplo con los de algún curso superior.
Se conoce la prueba de antemano y se les hace saber a los estudiantes cuáles son las
respuestas correctas.
Copia entre estudiantes.
Se introduce material no autorizado a la sala de prueba.
Los estudiantes reciben ayuda del examinador o de otra persona en la sala o por vía
electrónica.
Para evitar este tipo de problemas es muy importante penalizar el fraude. Preventiva-
mente, se debe difundir la rutina que se utilizará para detectar los posibles fraudes y ase-
gurarse de que previamente sea conocida por todos los actores. Capacitar y motivar a los
examinadores para que comprendan la relevancia y responsabilidad de su trabajo y cuiden
los procedimientos al interior de la sala. Estos procedimientos tienen que estar completa-
mente protocolizados. Chequear los patrones de respuesta para detectar posibles copias
entre estudiantes sentados cerca o en forma contigua y para detectar los raros como si por
ejemplo se contestan mejor los ítemes difíciles que los fáciles. Los controles de calidad de
la aplicación también ayudan a evitar algunos de estos fraudes.
26
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
4.1. Introducción
La entrega de resultados es el proceso final y el que justifica todos los anteriores. Es lo que
determina la utilidad de toda la evaluación y, si se hace adecuadamente, permitirá lograr
las finalidades que se buscan con la evaluación.
En este tema reforzaremos conceptos en los que hemos venido insistiendo y que deberán
plasmarse en la forma en que se entregan los resultados y en los indicadores de aprendi-
zaje que se producen. Pretende hacer algunas reflexiones sobre las maneras de potenciar
la relación de la evaluación con la política educacional y las prácticas educativas. Veremos
también algunas precauciones que se sugieren para el diseño de las estrategias comuni-
cacionales.
Desde el primer epígrafe hemos venido insistiendo en que el tipo de información que
recoge y entrega la evaluación debe estar relacionado con el enfoque político y el uso
que se le quiera dar desde el sistema educacional. El sistema de evaluación es parte del
de educación y, al mismo tiempo, constituye un sistema en sí mismo, ya que sus distintos
elementos deben estar orgánica y consistentemente relacionados para cumplir los objeti-
vos propuestos. Al mismo tiempo, al ser parte del Sistema Educacional (subsistema) debe
comunicarse, coordinarse y apoyarse en este.
En la figura 3 se observa que los objetivos de la evaluación provienen del sistema educacio-
nal en general, pero al mismo tiempo su cumplimiento está restringido por las condiciones
métricas y las características de las pruebas, que provienen de la evaluación. El sistema de
evaluación entrega información al resto del sistema, que la utiliza (o no la utiliza) para di-
ferentes fines tales como diseño de políticas, diseño curricular, o estrategias de enseñanza.
8 Esta unidad recoge en parte un documento elaborado por la autora para el Instituto Nacional de Evaluación Educativa (INEE) de
México en febrero de 2009, titulado La Importancia de la Comunicación de Resultados de las Evaluaciones Externas y Estandarizadas.
27
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
El medio que utiliza el sistema de evaluación en el esfuerzo por mejorar los aprendizajes es
la entrega de información a los actores claves. En el diagrama anterior se observa que estos
actores claves son los diseñadores de política, los encargados del currículo y la escuela. En
la escuela se incluye a directivos, profesores y padres de familia o apoderados.
Como vimos en el primer epígrafe, el sistema educacional a su vez está inmerso en la so-
ciedad a la cual también informa.
28
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
La preocupación por la equidad es un criterio muy presente en las políticas públicas de los
países iberoamericanos, por lo cual se convierte en un eje fundamental a tener en cuenta
respecto de la entrega de resultados.
Por una parte, la evaluación estandarizada tiene la capacidad de develar los núcleos donde
se concentran los peores y mejores aprendizajes. Es importante reconocer estas situaciones
para poder apoyar con recursos económicos y profesionales a las escuelas más desfavoreci-
das. Desde que la preocupación por la cobertura educacional viró a la calidad educativa y a
favorecer el aprendizaje de todos y todas las estudiantes, la exigencia de explicar y superar
las brechas es imperiosa. Esto solo se puede hacer si se identifican las falencias.
Conviene aquí hacer una aclaración, ya que muchas veces se malentiende la palabra “es-
tandarizada” o “estándares”. De lo que se trata es que todos los estudiantes tengan logros
semejantes o equivalentes, pero esto no quiere decir que los obtengan de la misma ma-
nera. Hay certeza que los estudiantes social y económicamente desfavorecidos tendrán
más dificultades para incorporar los aprendizajes escolares, razón por la cual requieren ser
discriminados positivamente con mayores recursos y mejores competencias docentes.
Las brechas de aprendizaje entre ricos y pobres, entre hombres y mujeres, entre estudiantes
urbanos y rurales, entre diferentes orígenes étnicos y entre tipos o modalidades de enseñan-
za deben ser combatidas con políticas educativas certeras y bien informadas, así como con
enfoques pedagógicos adecuados. Cuanto mejor se describan y más se analicen los factores
que intervienen o afectan esta realidad, mejor se podrá mejorar la política pública.
La equidad también se refiere a que la información que se entregue sea justa para con las
escuelas. Si se sabe que hay factores externos a la escuela, como los señalados más arriba,
que afectan el aprendizaje, no sería justo entregar resultados por escuela sin clasificarlas
por las características del alumnado. Hay escuelas cuyo trabajo es más difícil y esto habrá
que reconocerlo.
29
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
El medio que utiliza el sistema de evaluación en el esfuerzo por mejorar los aprendizajes es
la entrega de información a los actores claves. En el diagrama anterior se observa que estos
actores claves son los diseñadores de política, los encargados del currículo y la escuela, que
incluye a directivos, docentes y padres de familia o apoderados.
Un criterio esencial es que cada audiencia debe recibir una comunicación que satisfaga sus
necesidades específicas, lo cual puede derivar en conjuntos diferenciados de indicadores
educativos propios de cada una de ellas.
4.3.3. Transparencia
Por último, también se debe ser transparente para comunicar las opciones y decisiones
técnicas que se han debido tomar y los límites y posibilidades de la información que se
está entregando. Se debe advertir a los lectores de las interpretaciones erróneas y de las
restricciones de interpretación.
La regla es informar solo lo que técnicamente es posible de comprobar. Aún cuando se tra-
te de simplificar el mensaje y no se entreguen detalles y justificaciones técnicas, se debe
tener certeza de que la información es correcta. En el epígrafe anterior, hemos visto el gran
número de errores que es posible cometer en las distintas fases del proceso de evaluación
y hemos señalado algunas de las medidas de seguridad para tratar de evitarlos. Será muy
importante observar estas y otras medidas y dejarlas documentadas en un reporte técnico
que sea público y, ojalá, conocido y discutido por la academia.
30
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Especialmente en los casos que tienen consecuencias para las escuelas, habrá que ser cui-
dadosos en la forma de entregar los resultados. Entre los efectos no deseados, la literatura
menciona, por ejemplo, el aumento de la repitencia o que los profesores enseñen para la
prueba sin ocuparse de su propia planificación y de cubrir todos los aspectos del currículo
aunque no puedan ser evaluados en pruebas estandarizadas de lápiz y papel. Otros efec-
tos pueden ser aumentar artificialmente el número de niños declarados con dificultad de
aprendizaje o el aumento de la expulsión de estudiantes con bajo rendimiento y su proba-
ble deserción.
Algunos de estos efectos no deseados se pueden evitar entregando indicadores, por ejem-
plo, de repitencia escolar o de rotación de estudiantes. También informando respecto a si
la escuela selecciona a sus estudiantes y los criterios con que lo hace.
4.4.1. Ítemes
Presentar algunos o todos los ítemes con el número o el porcentaje de estudiantes que
responde correctamente es una forma cualitativa muy gráfica de mostrar lo que los estu-
diantes pueden y no pueden hacer. En todos los casos habrá que especificar el número
total de estudiantes que respondió para transparentar la confiabilidad de la información.
Además, se pueden también mostrar los porcentajes para los distintos distractores lo que
permite visualizar el tipo de errores que cometen los estudiantes. También resulta inte-
resante mostrar la dificultad y el puntaje-ancla, que representa el puntaje que tienen los
estudiantes para responder correctamente ese ítem con una cierta probabilidad (65% a
72%). Siempre es conveniente entregar al menos una muestra de ítemes (Wolfe, 2001).
31
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Esta medida considera el total de preguntas correctas para cada estudiante, o para el total
de ellos, y calcula el porcentaje sobre el total de preguntas hechas al estudiante o al grupo
total que se evalúa. Cuando se evalúa el aprendizaje de un grupo con este indicador, equi-
vale al porcentaje de preguntas que responden correctamente en promedio los estudiantes
de determinada agrupación. Esta es una medida cuantitativa porque no se sabe nada sobre
qué es lo que saben o no saben los estudiantes. En este caso cada pregunta tiene el mismo
peso que las otras, sin considerar si es más fácil o más difícil que el resto.
4.4.3. Percentiles
Esta es una forma de ordenar a los estudiantes o a las escuelas desde el menor al mayor
puntaje (en una escala estandarizada). Los alumnos o las escuelas se clasifican según si
están en el 1% inferior, en el percentil 1, o en el superior, en el percentil 100. Esta es una
típica escala normativa donde no se sabe el significado del puntaje, sino solamente la ubi-
cación en un ordenamiento determinado. Sin embargo, es más explicativo que un puntaje
del cual no se sabe su rango de variación o solo se conoce el promedio, como sucede con
los puntajes IRT.
El puntaje IRT también es parte de una escala normativa, que ordena a los sujetos según el
aprendizaje demostrado, pero tiene al menos dos grandes ventajas: por una parte conside-
ra la dificultad de los ítemes y por otra, es posible equiparar o calibrar dos escalas diferen-
tes para poderlas comparar. Esta escala se basa en la dificultad latente de los ítemes y en
la habilidad latente de los estudiantes y ambas se asocian a una escala cuyo promedio se
fija arbitrariamente (Wolfe, 2001).
32
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Los estándares de desempeño son descripciones de lo que los estudiantes saben y saben
hacer en distintos niveles de habilidad (proficiency). Expresan lo que se espera que los
estudiantes hayan aprendido o lo que se considera aceptable en un determinado grado. Es
una medida cualitativa, en la medida que describe las capacidades que los alumnos tienen
que demostrar para ubicarse en uno u otro nivel. Sin embargo, al mismo tiempo, por la
forma en que se construyen están asociados a unos rangos de puntajes en la escala cuan-
titativa. Por lo tanto, se puede aprovechar de las ventajas de ambas medidas.
4.4.7. Tendencias
Esta es una medida del aprendizaje de un mismo grupo de alumnos en un período com-
prendido entre dos pruebas. La primera, antes de la intervención (que puede ser uno o más
años escolares) y otra al final de la intervención. El supuesto es que los alumnos mantienen
su situación socio-económica y su ambiente familiar y que el conocimiento previo está
controlado por la primera prueba. Aunque hay variables que no están medidas ni antes ni
después, esta medición es más clara respecto a la responsabilidad que se puede atribuir a
la escuela y sus factores.
Se habla de progreso cuando solo se mide cuánto más conocimiento demuestran los alum-
nos en la segunda medición en relación a la primera. Si esto se ajusta por cuanto “debería o
podría” haber variado el aprendizaje, se le denomina valor agregado. Para determinar este
“deber ser” se analiza el promedio del progreso que han tenido escuelas o agrupaciones
con características semejantes.
Esta medida tiene la gran ventaja de controlar la condición “de entrada”, el conocimiento y
las habilidades con que llegan los estudiantes, y lo que ha podido aprender como fruto de
la experiencia escolar. Esto permite comparaciones más justas entre escuelas.
En los puntos anteriores, nos hemos referido a distintas maneras de presentar los resul-
tados y de cuantificar los aprendizajes. Estos indicadores pueden combinarse con otras
variables tanto para fines descriptivos como para fines explicativos.
33
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Para fines descriptivos será muy importante entregar los resultados (representados a tra-
vés de cualquiera de los indicadores anteriores), clasificados según las categorías de los
criterios señalados en el punto de equidad. Esto será importante para identificar brechas y
aproximarse a políticas públicas adecuadas.
Para fines explicativos, se pueden determinar factores que inciden en los aprendizajes y
que pueden ser alterados desde las familias (expectativas de escolaridad o involucramiento
en la escuela), factores de la escuela como tipos de gestión, desde las prácticas de ense-
ñanza como cobertura curricular o desde la política como programas específicos.
Según los desafíos que cada país enfrente, las herramientas que utilice para incentivar
mayores aprendizajes y los objetivos que se haya fijado para la evaluación, se decidirán las
formas de combinar indicadores de aprendizaje con indicadores de contexto.
Nos referiremos aquí a los dos niveles que nos parecen los más susceptibles de ser impac-
tados por la evaluación.
Políticas públicas
Políticas a nivel de escuela, que pueden involucrar a directivos y a su gestión, a profe-
sores con sus prácticas y a los padres de familia.
Nuestro planteamiento es que los resultados de una evaluación, al igual que la investi-
gación, pueden constituir evidencia para nutrir el diseño de políticas públicas (Cariola, L.;
Cares, G.; Rivero, R. 2008).
Por una parte y en primer lugar, los sistemas de evaluación tienen la expectativa de cum-
plir con los requisitos para ser evidencia. Debemos decir que esto no necesariamente es
así, pero aunque lo sea, es muy importante que la información producida sea legitimada
públicamente.
34
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Por esto, es necesario que la información difundida haga sentido en el ámbito de la opinión
pública a primera vista (face validity). Es muy difícil ir contra el sentido común de la gente,
o intentar posicionar en la agenda pública un determinado tema con argumentos dema-
siado técnicos y complejos, si no tiene sentido para las personas. Aunque sea redundante,
la evidencia debe ser “evidente” para muchos. Para constituir evidencia para el diseño de
políticas, la información, además de robusta y clara, debe estar disponible de manera fácil
y oportuna.
Sin embargo, se observa que a pesar de las dificultades, al menos en Chile, la evaluación
de aprendizajes ha tenido impacto (Meckes y Carrasco, 2006; Cariola et al., 2008). En base
a esta experiencia, nos atrevemos a plantear una hipótesis sobre la forma de impactar a
la política.
35
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Se debe tener en cuenta que la comunicación se hace principalmente a través de los medios
de prensa y por tanto es necesario que periodistas y comunicadores tengan conocimientos,
aunque sean básicos, de lo que es la evaluación de aprendizajes y de sus requerimientos.
El otro gran potencial para impactar el aprendizaje de los estudiantes se encuentra en las
escuelas. De aquí la importancia de informar específicamente a Directores, Profesores y
Padres de una manera clara y adecuada.
La forma de impactar en las escuelas ha sido muchas veces graficada con la frase “apoyo
y presión”. Detrás de esta frase, la responsabilización de las escuelas y profesores es un
elemento fundamental. Nos interesa enfatizar aquí la aparente necesidad de hacer un pro-
cesamiento muy particular de la información sobre evaluación en el contexto escolar. En el
caso de Chile, donde cada escuela recibe un informe individual (dado que la evaluación es
de carácter censal), se ha llegado a la conclusión de que la única forma en que docentes
y directivos se apropien de esta información es haciendo jornadas especiales dedicadas a
analizar sus propios resultados en contraste con otros.
36
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Si se entregan resultados por escuela en forma pública o privada, es importante que estos sean:
Contextualizados por variables tales como: nivel socioeconómico, características del es-
tablecimiento como si se selecciona a los estudiantes, la retención, la antigüedad de la es-
cuela, la rotación de profesores y la repitencia, entre otros. Dar la posibilidad de compararse
con otros de características semejantes.
Dispersión de resultados y niveles de logro, ya que esto requiere medidas pedagógicas
especiales.
Ejemplos de preguntas, analizando aspectos posibles de trabajar en el aula y posible
reorientación de las estrategias de enseñanza.
Cuando los resultados no se entregan a cada escuela es una opción que, como todas, tiene
ventajas y desventajas. Esta decisión puede fundarse en el interés de evitar la resistencia
de los docentes y directores o la estigmatización de las escuelas. También puede ser una
sana medida si las pruebas no permiten evaluar a los individuos o a las escuelas con sufi-
ciente confiabilidad, dado el tamaño del error de medición. Y, evidentemente, si las prue-
bas se aplican a una muestra de estudiantes como sucede con las pruebas internacionales,
habría que reflexionar detenidamente acerca de la posibilidad de entregar resultados a
algunas escuelas y a otras no. Si no se entregan resultados por escuela, pueden evitarse
muchos efectos no deseados, aunque las escuelas tendrán más dificultades para dejarse
impactar por resultados que pueden sentir como ajenos.
Aunque los resultados que se entreguen sean a un nivel de agrupación mayor a la escuela
(distrito, municipio, Estado o nacional), hay muchas formas de impactar a las escuelas.
Entre ellas podemos señalar las siguientes:
En primer lugar será muy importante explicitar que el diagnóstico que se hace es repre-
sentativo de todas las escuelas que se incluyen y que será más pertinente mientras más
cercana sea la agrupación. Es importante que las escuelas se sientan involucradas en los
resultados.
Establecer una relación entre la forma estandarizada de evaluar y las posibles evalua-
ciones en el aula. De esta manera los docentes podrán comparar sus resultados con los de
las pruebas estandarizadas.
Las pruebas muestrales tienen la gran ventaja de que pueden lograr mayor cobertura
curricular, ya que pueden aplicar más preguntas en un conjunto mayor de estudiantes. Esto
significa que se pueden entregar resultados con mayor detalle. Por ejemplo, se pueden
entregar resultados por sub-escalas y así saber si es más importante reforzar álgebra, nú-
meros o geometría. Será información valiosa que si es bien comunicada ayudará mucho a
los docentes.
Otra herramienta que sirve a los profesores para determinar cuán avanzados están sus
estudiantes, son los estándares de desempeño o niveles de logro. Al especificar y describir
en detalle lo que los estudiantes de un determinado nivel saben y pueden hacer, los do-
37
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
centes pueden determinar qué les falta por lograr a sus estudiantes.
Los ejemplos de preguntas es algo que ilustra muy bien el tipo de conocimientos que
los estudiantes deben manejar. El desafío es que las preguntas deben ser ejemplares en
cuanto a los objetivos que se miden y a su construcción. Ojalá los distractores indiquen
falencias específicas y características de la materia evaluada, lo que permite identificar las
acciones reparadoras que parecen necesitarse.
Finalmente, ya nos hemos referido a que los resultados son más aplicables a la propia
realidad mientras más cercano es el agrupamiento al que se refieren. Así cuando se entre-
gan resultados de una comuna por nivel socioeconómico, las escuelas con características
semejantes se podrán identificar con esos resultados. Sin embargo, hay que ser cuidadosos
para que esas características no aparezcan como disculpas para desempeños bajos. Las di-
ferencias de rendimiento son indicadores de inequidad y deben incentivar a su reparación.
Es bueno que se sepa que hay estudiantes con más dificultad que otros, para destinarles
más tiempo y recursos, pero no para conformarse con rendimientos inferiores.
Para ello sugerimos medir la información recibida por cada uno de los actores y los efec-
tos de la evaluación percibidos por ellos. Si hubiere efectos no deseados, será necesario
revisar si esto se asocia a la forma de comunicar resultados o a otras características de la
evaluación.
Acceso. Dependiendo de cuál sea la forma de distribución, puede ser que los actores
relevantes no reciban los reportes. De ser así, no hay ninguna posibilidad de impactar con
los resultados.
Uso de los informes. Una vez asegurado el acceso es importante determinar cuál es
el uso que se da a esos reportes. El uso debe estar acorde con el tipo de impacto que se
quiere lograr.
Oportunidad. Para las escuelas esto significa al inicio del año escolar, cuando están en
proceso de planificación
Comprensión. Es importante asegurarse de que se está comprendiendo exactamente lo
que se quiere comunicar. Especial atención hay que dar a la comprensión de los símbolos,
por ejemplo de significación, que son relevantes y si no se entienden no cumplen ningún
propósito. Una constatación frecuente es lo crípticos que resultan muchos términos utiliza-
dos en el campo de la evaluación. Incluir un Glosario en los informes puede ser una buena
medida. Los gráficos e indicadores estadísticos deben ser objeto de máximo cuidado.
En el caso de los docentes, la comprensión de lo que se ha evaluado y de lo que indican
38
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
los resultados debería ser tal que les permitiera replicar y/o complementar la evaluación
al interior del aula.
Importancia gráfica. La forma de presentar resultados también debe ser sometida a
juicio para asegurarse de que ayuda a la comprensión y que parece amigable.
Bibliografía
Obligatoria
Ravela, P. y otros (2007): Las Evaluaciones Educativas que América Latina necesita, PREAL,
Documentos No 40.
http://www.oei.es/evaluacioneducativa/evaluaciones_educativas_AL_necesita_preal.pdf
Recomendada
Castillo Sánchez, M., comp. (2004): La Evaluación: Una Estrategia A Nivel Internacional Para
El Mejoramiento De La Calidad Educativa, Secretaría de Educación de Bogotá, Dirección de
Evaluación y acompañamiento, Subdirección de Evaluación y Análisis.
http://www.eduteka.org/EvaluacionBogota.php
Chay, K.Y.; McEwan, P.J. y Urquiola, M. (2005): The Central Role of Noise in Evaluating Inter-
ventions That Use Test Scores to rank Schools, The American Economic Review, Septiembre.
http://www.columbia.edu/~msu2101/ChayMcEwanUrquiola(2005).pdf
De Landsheere, G. (2001): Implicit Theories, Unexamined Assumptions and the Status Quo
of Educational Assesment, Assessment in Education, Vol. 8, No2.
http://www.oei.org.ar/noticias/Que_pretendemos_evaluar.pdf
39
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos
Obligatoria
Recomendada
http://www.rieoei.org/numeros_anteriores.htm
OEI: http://www.oei.es/quipu/peru/index.html#eval
Obligatoria
Recomendada
Allalouf, Avi (2007): Quality Control Procedures in the Scoring, Equating, and Reporting of
Test Scores, Educational Measurement: Issues and Practice, Spring 2007.
http://ncme.org/linkservid/4760E0DB-1320-5CAE-6E6B90BC299B5FE5/showMeta/0/
Esquivel, J.M. (20010): El diseño de las pruebas para medir logro académico: ¿Referencia a
normas o a Criterios?, En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo avanzar en la Eva-
luación de Aprendizajes en América Latina?, Documentos PREAL No 20.
http://www.oei.es/calidad2/grade.PDF
40
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos
Toranzos, L. (s. f.): Los ámbitos de la evaluación educativa y algunas falacias frecuentes,
OEI. En: http://www.oei.es/calidad2/falacias.htm
Verhelst, N.D., (2004): Classical Test Theory. En en Reference Supplement to the Preliminary
Pilot version of the Manual for Relating Language examinations to the Common European
Framework of Reference for Languages: learning, teaching, assessment, Sección C , DGIV/
EDU/LANG (2004) 13, Council of Europe.
http://www.coe.int/t/dg4/linguistic/manuel1_en.asp
Obligatoria
Cariola, L.; Cares, G.; Rivero, R. (2008): “Sistemas de evaluación como herramientas de
políticas”,, En Revista Iberoamericana de Evaluación Educativa, 2008, Vol 1, N° 1,. Parte 3,
páginas 64-7812 y siguientes. http://rinace.net/riee/numeros/vol1-num1/art5.html
Ravela, P. (2001): ¿Cómo Presentan sus Resultados los Sistemas Nacionales de Evaluación
Educativa en América Latina?, Documentos PREAL, Agosto 2001.
http://www.oei.es/calidad2/ravela.pdf
Wolfe, R. (2001b): Alternativas técnicas en relación a las escalas de reporte de los resul-
tados de las pruebas de rendimiento, En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo
avanzar en la Evaluación de Aprendizajes en América Latina?, Documentos PREAL No 20.
http://www.oei.es/calidad2/grade.PDF
Recomendada
41