Está en la página 1de 41

U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Unidad 7:
Indicadores a partir de estudios de evaluación, encuestas y estudios cualitativos
Leonor Cariola

„„
Introducción
„„
1. Rol de la evaluación en los sistemas educacionales
1.1. Introducción
1.2. Impactos posibles de la evaluación
1.3. Decisiones de la política de evaluación
1.4. Usos de la evaluación
„„
2. Tipos de evaluación de aprendizajes
2.1. ¿Qué es la evaluación de aprendizajes?
2.2. Tipos de evaluación
2.3. Principios generales de la evaluación
2.4. Tensiones de los sistemas de evaluación
„„
3. Instrumentos y Requerimientos Metodológicos de la Evaluación
3.1. Introducción
3.2. Instrumentos de evaluación
3.3. Procesos de evaluación y sus etapas
„„
4. Comunicación de indicadores de aprendizaje a partir de las evaluaciones
4.1. Introducción
4.2. Consistencia del sistema de evaluación
4.3. Criterios para la entrega de resultados
4.4. Formas de entregar resultados e indicadores
4.6. Impacto de la evaluación para mejorar los aprendizajes
4.7. Necesidad de medir el impacto efectivamente logrado
„„
Bibliografía

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

1
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

„„
Introducción

Esta unidad supone que ya se han visto los indicadores referidos al sistema en general,
tales como cobertura, transición, etc. Y por lo tanto sólo se referirá a los indicadores origina-
dos en la evaluación de aprendizajes de los estudiantes en el sistema educacional regular.

Muchos países cuentan con sistemas de evaluación más o menos sofisticados, con los cua-
les se intenta aquilatar los productos, resultados o logros de la educación. Los resultados a
evaluar pueden ser de distintos tipos como la tasa de egresados en una cohorte, la tasa de
aprobados, la retención y otros. También se podría evaluar el desarrollo afectivo de los es-
tudiantes o sus actitudes. Todos estos son también resultados del sistema educacional, pero
lo que nos interesa estudiar en esta unidad es la evaluación de los aprendizajes cognitivos,
conocimientos y habilidades. Nótese que el término es restrictivo, no se refiere a la “calidad
educativa”, ya que esta se mide por un conjunto mucho más amplio de indicadores.

En un esquema como el siguiente nos ubicamos en la sección de resultados. Este esquema


pretende mostrar que el sistema educacional puede considerarse como subsistema de la
sociedad en su conjunto; más adelante veremos que la evaluación constituye un subsiste-
ma del educacional.

Figura 1. Sistema educacional

El principio básico y general de esta unidad es mostrar que la finalidad última de la eva-
luación siempre es mejorar los aprendizajes, lo que es un aspecto importante de la calidad
de la educación.

Comúnmente se compara la evaluación con un termómetro para tomar la fiebre al enfermo.


Esta analogía es útil para considerar la razón de ser de la evaluación. Nadie se imaginaría

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

3
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

tomar la fiebre para tener o comunicar la información exclusivamente, sino para medicar y
sanar al enfermo. La evaluación estandarizada y externa de los logros de aprendizaje nos
permite saber cuánto del currículo prescrito aprenden los estudiantes y comparar estos
logros entre ellos o entre categorías de estudiantes, como también entre escuelas o tipos
de ellas. A partir de la información recopilada es posible iniciar las actividades de mejora.

Objetivos

A través del desarrollo de esta unidad se pretende que los participantes estén en condi-
ciones de:

„„ Describir el concepto de evaluación de aprendizajes.


„„ Identificar los límites y posibilidades de la evaluación de aprendizajes.
„„ Reconocer cuáles son indicadores válidos derivados de la evaluación.
„„ Construir indicadores válidos de logros de aprendizaje y modos de comunicarlos en
función de mejorar la calidad de la educación.
„„ Reflexionar sobre los posibles indicadores y estadísticas a reportar a distintas audiencias.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

4
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

„„
1. Rol de la evaluación en los sistemas educacionales

1.1. Introducción

Para entender el papel de la evaluación de aprendizajes es necesario contextualizarla en


la forma en que está organizado el sistema educacional. Es importante que el sistema de
evaluación esté inmerso en una relación sistémica, como se grafica en la figura 1, donde
se muestra que la evaluación retroalimenta al sistema educacional para que este mejore
sus políticas.

El siguiente gráfico muestra que el sistema de evaluación es parte del educacional. El siste-
ma educacional determina los aspectos relevantes a evaluar y el subsistema de evaluación
produce información, considerada útil para mejorar la calidad, y la entrega al resto del siste-
ma educacional. Se hace notar que el sistema de evaluación incluye tanto las evaluaciones
nacionales como las internacionales.

Un sistema de evaluación debe estar dirigido a mejorar la calidad de la educación. La ca-


lidad de la educación es un concepto sumamente amplio que incluye los indicadores ya
vistos en este curso, así como el logro de los distintos tipos de resultados.

Los sistemas educacionales tienen objetivos más amplios que “instruir”, en el sentido de
entregar información que los alumnos sean capaces de retener. Deben desarrollar com-
petencias superiores para aplicar, relacionar y transferir esos conocimientos. Estas compe-
tencias permitirán seguir aprendiendo en contextos no escolares y llegar a crear nuevos
aprendizajes. Junto a lo anterior, los sistemas educacionales deben formar ciudadanos res-
ponsables capaces de convivir y producir en armonía. Esta unidad se refiere a uno de los
aspectos de la calidad de la educación: los logros de aprendizaje. Aunque los aprendizajes
se consideren de primordial importancia, hay otras dimensiones que son fundamentales
para la calidad educativa. (Martínez Rizo, 2003, Toranzos, L., 1996), como por ejemplo la
enseñanza de hábitos, disciplina de trabajo, actitudes adecuadas para la vida, etc.

Gráficamente se puede representar de la siguiente manera.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

5
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Figura 2. Un sistema de evaluación para un sistema educacional

Fuente: Presentación en curso “Objetivo de las evaluaciones censales, ventajas y desventajas”, Leonor Cariola
Huerta, CURSO H-6 IKASTAROA: Las Evaluaciones Censales y de Diagnóstico en Educación, Universidad San
Sebastián, 2008

Aspectos importantes de considerar pueden ser la organización del sistema educacional en


cuanto a establecimientos públicos y particulares y la proporción de matrícula en ellos, el
grado de centralización y descentralización, la existencia o no de autoridades educativas
intermedias, tipos de currículo y sus formas de concreción, y la autonomía de las escuelas.
Estas características son fundamentales para determinar las formas en que el sistema de
evaluación puede formar un todo orgánico con el resto del sistema educacional.

1.2. Impactos posibles de la evaluación

La evaluación puede impactar el diseño de política a nivel nacional, a nivel intermedio, a


nivel de escuela y/o de prácticas de aula, dependiendo de las características de la eva-
luación tanto como del sistema. Los impactos de las evaluaciones se pueden clasificar en
un continuo que va de bajas a altas consecuencias (high stakes), las que pueden ser para
la escuela o para los estudiantes. Ejemplos de altas consecuencias para los estudiantes, es
cuando se aplica una prueba estandarizada que da acceso a la Educación Superior o que
certifica un determinado nivel de escolaridad. Esto impactos se pueden obtener a través
de variados mecanismos o herramientas, como se verá más adelante, a propósito de los
usos de la evaluación.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

6
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Para las escuelas, las consecuencias pueden ser incentivos positivos, negativos o una mez-
cla de ambos. Entre los incentivos positivos está el dar premios en dinero para las escuelas
o para los profesores. También se puede focalizar programas específicos para apoyar o
favorecer el aprendizaje en escuelas con menores rendimientos. En otros casos, se puede
sancionar a las escuelas informando a la comunidad de sus bajos rendimientos, dando
plazo para superarse, interviniendo su administración o cerrándolas directamente. (Chay,
Mcewan, y Urquiola, 2005; Toranzos, L., 1996).

Existe un amplio consenso en que la mejor estrategia para que las escuelas mejoren es
poner una cuota de presión con evaluaciones con consecuencias y una cuota de apoyo para
superar el déficit detectado en las evaluaciones.

Dada la existencia y la participación cada vez mayor de los países en las evaluaciones
internacionales, es importante notar que cuando se habla de sistema de evaluación este
incluye tanto a dichas evaluaciones internacionales como a las nacionales. Ambos tipos de
evaluación son complementarias y útiles.

Las evaluaciones nacionales permiten evaluar los aprendizajes de acuerdo a las prioridades
curriculares del país, lo que lleva a decidir qué áreas de aprendizaje se evalúan. La estruc-
tura de la enseñanza es otro elemento a tener en cuenta para determinar en qué grado o
niveles se puede evaluar. El formato de la evaluación --lápiz y papel, electrónica o prueba
oral--, también determina qué se puede evaluar. Normalmente se aplican pruebas de papel
y lápiz lo que limita, por ejemplo, la posibilidad de evaluar expresión oral o rapidez lectora.

Las pruebas nacionales están orientadas a evaluar el sistema educacional del país en sí
mismo. Permite determinar sectores que están más carentes que otros y factores que se
asocian al rendimiento a nivel nacional.

Las pruebas internacionales, generalmente se realizan a una muestra nacional y no nece-


sariamente se corresponden con el currículo del país1. Son muy útiles para comparar los
estándares del país frente a la comunidad internacional y para la actualización del propio
currículo. Permite saber qué y cuánto están aprendiendo los alumnos de un país, compa-
rados con los de otros países. En un mundo globalizado, esto es de primordial importancia
tanto por la movilidad geográfica que puedan tener los alumnos como por la necesidad de
ser competitivos frente a otras naciones.

1.3. Decisiones de la política de evaluación

Hay decisiones previas al desarrollo de indicadores de logros de aprendizaje. En general


muchas de ellas dependen de la autoridad política y de las orientaciones ideológicas sobre
la educación. Siendo así, estas decisiones están lejos de las unidades de estadística, pero
es importante que se entienda el por qué de las decisiones que se hayan tomado.

1 También existe una opción internacional que permite ampliar las muestras para hacerlas representativas a niveles regionales. Así
lo hicieron Brasil, España y México en el Programa Internacional para la evaluación de Estudiantes (PISA).

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

7
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Entre estas decisiones, tal vez la más decisiva sea el uso que se le dará a la evaluación.
Por ejemplo, se sabe que en Estados Unidos, debido al “Act of no child left behind”, la
evaluación de aprendizaje se considera un indicador del progreso y/o cumplimiento de es-
tándares. Muchos distritos elaboran rankings de escuelas para asignar recursos, asistencia
técnica y sanciones a las escuelas (Chay, Mcewan, y Urquiola, 2005; De Landsheere, G.,
2001). En los análisis de la evaluación en América Latina es recurrente la recomendación
de clarificar cuál será el uso que se le quiere dar a los sistemas de evaluación. (Ravela, P;
Arregui, P; Valverde, G. y otros, 2008).

Ya hemos mencionado que los sistemas de educación varían respecto a las consecuencias
de los resultados de la evaluación y esto se relaciona con la atribución de responsabilidad.
Si es a la escuela, la presión se puede ejercer a través de:

„„ Estímulos/Sanciones
„„ Información privada a la comunidad escolar a distintos niveles
„„ Información pública

Si se responsabiliza al sistema y a las políticas educativas, se puede:

„„ Implementar programas especiales


„„ Otorgar recursos adicionales
„„ Tomar otras medidas de apoyo como capacitación o apoyo en gestión

La bibliografía señala que para mejorar la calidad de la educación es importante entregar


apoyo a las escuelas, pero también presionarlas y exigirles mejores resultados. Este es el
rol central del Estado o de sus representantes a niveles intermedios. (Bolívar, A., 2008). El
fundamento de esta aseveración es evidente: las escuelas y los docentes no podrán mejo-
rar si no tienen la capacidad, la motivación y los medios para ello. (Fullan, 1998).

En este rol, es prioritario cuidar el equilibrio entre la presión y el apoyo. Exigir lo que se requie-
re, pero no más de lo que las escuelas pueden dar para que no caigan en el desánimo total.

Siempre se debe considerar el sistema educacional como un todo, en que las distintas po-
líticas deben complementarse y fortalecerse consistentemente. Si la evaluación es usada
para ejercer presión, debe también ser vista de la mano del apoyo necesario para desarro-
llar las competencias que se requieren en la escuela. (Ravela, P; Arregui, P; Valverde, G. y
otros, 2008).
Independientemente de lo anterior, los resultados de la evaluación pueden ser de un gran
apoyo a docentes y directivos de la escuela, ya que permite saber cómo está la escuela en
relación a otras (si se entregan resultados por escuela), cómo se distribuyen los resultados
de sus estudiantes, determinar cuáles son las áreas de mayor fortaleza y debilidad y deter-
minar si hay aspectos de la práctica docente o de la gestión escolar que podrían favorecer
los mejores resultados. Si no se entregan resultados por escuela, el esfuerzo por parte de la
unidad de evaluación debe ser para establecer el vínculo de la información con las prácticas

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

8
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

de enseñanza, caracterizando las distintas situaciones según la diversidad de las escuelas.


Las escuelas deberán hacer su propio auto-diagnóstico y deducir las formas en que los re-
sultados de la evaluación les pueden ayudar. Es un diagnóstico más indirecto, que permite
evitar efectos no deseados de la evaluación con mayor facilidad.

1.4. Usos de la evaluación

Los posibles usos de la información que produce la evaluación son muchísimos y los au-
tores en general los enumeran sugiriendo obtener claridad respecto a lo que se quiere
hacer con los resultados. El peor riesgo es que se evalúe y no se utilicen los resultados o se
difundan en forma ineficiente.

El apoyo que debe brindar el Estado a las escuelas, directamente o a través de sus orga-
nizaciones intermedias, está destinado a que los actores entiendan la información que se
recibe, analicen los medios para mejorar y determinen las acciones que emprenderán para
mejorar los resultados. No es posible afectar el proceso más central de la enseñanza, -el
aprendizaje que se da en la intimidad del aula-, solo con presión externa. Para lograr esta
transformación se requiere la acción conjunta de todos los actores y a todos los niveles.
Por eso el objetivo de la evaluación no es culpabilizar a nadie, sino ayudar a que cada cual
asuma su responsabilidad.

Tiana (2002) entrega la siguiente lista de usos de la evaluación:

„„ “Ayudar a las escuelas y a los profesores a mejorar la calidad de la educación que im-
parten, proporcionándoles una información relevante y significativa que les permita valorar
su situación real y sus logros.
„„ Conocer y valorar en qué medida se están alcanzando los objetivos educativos o los
estándares propuestos para los distintos niveles o parcelas del sistema educativo, contribu-
yendo al mismo tiempo a establecer metas y niveles de referencia.
„„ Forzar a las instituciones escolares y a los agentes educativos a generar dinámicas de
cambio, por medio de la comparación o la competencia.
„„ Rendir cuentas a la sociedad o a las autoridades educativas acerca de los logros conse-
guidos, eliminando así la opacidad del sistema educativo y de las instituciones escolares.
„„ Establecer sistemas de incentivos para las instituciones y para los profesionales de la educación.
„„ Certificar, acreditar o seleccionar instituciones, programas de estudio, profesores o estudiantes.

„„ Conocer y valorar la situación del sistema educativo, así como el impacto producido por
las políticas adoptadas.
„„ Introducir elementos de racionalidad en el debate público y en la construcción de polí-
ticas en el ámbito de la educación”

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

9
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Castillo Velasco (2004) compila la siguiente lista:

„„ “Informar a la opinión pública sobre la calidad educativa y generar cultura social de la


evaluación.
„„ Proporcionar información para investigación aplicada sobre impacto de variables socia-
les y escolares sobre el aprendizaje y los tipos de intervenciones más efectivos.
„„ Identificar áreas o unidades prioritarias de intervención focalizada para garantizar igual-
dad de oportunidades.
„„ Motivar mejoras y logros, vía la comparación o emulación.
„„ Identificar deficiencias en los resultados de los sistemas educativos y movilizar apoyo
público para intervenciones alrededor de metas claras de aprendizaje.
„„ Devolver información a escuelas y maestros para análisis y planes de mejoramiento.
„„ Brindar a padres información para evaluar y controlar calidad.
„„ Contribuir a establecer o monitorear estándares de calidad.
„„ Certificar a estudiantes que dominan determinadas competencias o que finalizan un
determinado nivel de enseñanza.
„„ Seleccionar a estudiantes, escuelas o jurisdicciones para incentivos y acceso a programas.
„„ Evaluar impacto de políticas, innovaciones o programas específicos.
„„ Retroalimentar el currículo y los planes de estudio.
„„ Realizar estudios de costo-beneficio que orienten decisiones sobre distribución de recursos.
„„ Contar con argumentos para gestión de presupuesto o justificar cambios en orientaciones.
„„ Analizar el peso del factor docente en los aprendizajes e influir en la formación, capacitación
y desempeño de los maestros. Así como también, para establecer un sistema de incentivos.
„„ Promover una responsabilidad efectiva de todos los actores involucrados en los procesos
educativos, incluyendo a los propios estudiantes.“

El análisis de ambas listas hace pensar en la variedad de destinatarios de la información


derivada de la evaluación: sociedad, opinión pública, diseñadores de política, autoridades
educativas, escuelas, profesores y padres y apoderados. Esto ya constituye un desafío para
la elaboración de indicadores porque ellos tienen que ser inteligibles y útiles para todas
estas audiencias. Otros autores también enumeran finalidades y las analizan. (Ver Ravela
(ed.), 2001, Introducción, Cuadro 1).

También, de este análisis, vale la pena conjeturar sobre los mecanismos o herramientas
que se utilizan para lograr una mejora de aprendizaje. En este sentido podemos destacar:

„„ Algunos usos se restringen exclusivamente a la entrega de información o a clarificar


las metas que debe lograr la escuela, sugiriendo que esto será suficiente para motivar y
desencadenar acciones de mejora en ella.
„„ Otros están claramente orientados al mercado: responsabilizar o inducir a la compa-
ración o la competencia entre escuelas. Se dice que con esto se les podrá “forzar” para
emprender mejoras. Aquí también se puede incluir la entrega de información a los padres

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

10
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

para “evaluar y controlar”. Estos usos podrán ser efectivos siempre y cuando las escuelas
cuenten con los recursos y las capacidades para hacer cambios efectivos.
„„ También hay usos orientados a las políticas educativas: sistemas de incentivos, evalua-
ción de políticas, proveer evidencia, monitorear, retroalimentar el currículo, y asignación
de presupuestos. Se deduce claramente que estos usos son menos amenazantes para las
escuelas, pero no se sabe si suficientemente movilizadores.

Sin embargo, se echa de menos un uso que debería ser prioritario y aparecer con fuerza:
orientar el apoyo (recursos, capacitación) que debe dar el Estado, sea directamente o a
través de instituciones intermedias, a las escuelas para superar sus resultados.

Nos parece importante volver a enfatizar la necesidad de equilibrar presión y apoyo a las
escuelas, junto con políticas educacionales acertadas.

2. Tipos de evaluación de aprendizajes

En esta sección profundizaremos en el concepto de evaluación de aprendizajes distin-


guiendo y caracterizando sus distintas modalidades. Analizaremos las distintas formas en
que se puede evaluar con sus posibilidades y restricciones.

2.1. ¿Qué es la evaluación de aprendizajes?

Es diferente medir que evaluar. Volviendo a la analogía del termómetro, señalada en el


tema anterior, se mide la temperatura cuando observamos los grados y simplemente los
registramos. Se evalúa la temperatura cuando se contrasta el valor obtenido de la medición
con un criterio, como por ejemplo la temperatura más frecuente, 36,5, para saber si la
fiebre está sobre o bajo ella, o con las expectativas de los médicos. En el caso de medir el
aprendizaje, el resultado se arroja en un número, que permite ordenar a los sujetos medi-
dos, pero no nos dice cuán cerca o cuán lejos está el individuo, o el conjunto, del óptimo de
los conocimientos que se deberían alcanzar.

Se evalúa cuando existe un parámetro, una referencia contra la cual se compara. En cualquier
caso, hay que tener en cuenta que para evaluar es necesario medir en primer término, y
luego confrontar.

Se habla de evaluaciones estandarizadas en contraste con las evaluaciones de aula. La


evaluación de aula la realiza el docente para su curso de acuerdo con los contenidos vistos
en clase, de sus expectativas del aprendizaje de los estudiantes y la corrige de acuerdo a
ciertos criterios que el mismo establece. Esto hace que los criterios de evaluación y califi-
cación sean susceptibles de variaciones entre un docente y otro.

Las evaluaciones estandarizadas facilitan las comparaciones porque a todos los estudian-
tes se les aplican preguntas iguales o equivalentes y en las mismas condiciones (tiempo,
contexto, espacio, etc.). Además, las preguntas están referidas a un marco de evaluación

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

11
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

que es conocido y que se ha fijado de acuerdo a criterios públicos. Por ejemplo, un criterio
puede ser correspondencia con el marco curricular; otro, como en el caso de PISA, pueden
ser las competencias que se consideran necesarias para la vida.

Los indicadores de aprendizaje en general se basan en una evaluación estandarizada por-


que así es posible comparar los aprendizajes de los distintos estudiantes.

2.2. Tipos de evaluación

Las evaluaciones estandarizadas se pueden clasificar según distintos criterios:

2.2.1. Según a quiénes se apliquen las pruebas

Este criterio definirá, por una parte, al universo de estudio, es decir, a quiénes queremos
diagnosticar su aprendizaje. Por ejemplo estudiantes de 4º básico, estudiantes de 15 años
o estudiantes de 6º básico en colegios públicos.

Una vez hecha esa decisión o junto con hacerla habrá que decidir si la evaluación será:

„„ Censal: En este caso se trata de evaluar al 100% de la población definida, lo que im-
plica llegar a todas las escuelas y alumnos del país. La evaluación censal tiene ventajas y
desventajas. Las ventajas van en la línea de las posibilidades que abre el hecho de tener
resultados para todas y cada una de las escuelas. Con esto la responzabilización y el apoyo
pueden estar mejor orientados y las escuelas no pueden ignorar sus propios resultados.
También permite contrastar los resultados de cada escuela con los de otras con caracterís-
ticas semejantes o de determinadas categorías. En caso que se quiera hacer seguimiento
para medir valor agregado, habrá un mayor número de estudiantes posibles de encontrar al
término de un período, aunque proporcionalmente sean equivalentes a los que se pueden
seguir en una muestra. Este tipo de evaluación posibilita focalizar programas en escuelas
más necesitadas de apoyo. Si bien se evita el error muestral, la ocurrencia de factores ex-
ternos que conducen a errores ajenos al muestreo obliga a considerar mayores variables
operativas que inciden en la calidad de la información y en el costo total de la evaluación.
La desventaja de este tipo de aplicaciones es que se facilita la culpabilización a las escuelas
o, al menos, que estas se perciban a sí mismas como culpables. Otra desventaja son los
costos, que son muy superiores a cuando la evaluación se hace muestral.
„„ Muestral: En este caso se establece estadísticamente un conjunto de escuelas y alum-
nos que sean representativos al nivel que se desee. La representatividad rigurosa es un
tema que habrá que cuidar y explicitar, para que los destinatarios de la información no
lleguen a conclusiones erróneas. Las ventajas y desventajas de las evaluaciones a una
muestra son las contrarias de las pruebas censales: son más económicas y con ellas es
más fácil evitar las consecuencias derivadas de los errores ajenos al muestreo, propios de
operativos de una considerable envergadura. Como son menos intimidantes, se prestan
mejor para incluir mayor diversidad de indicadores y los auto-reportes probablemente son
más confiables.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

12
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Cuadro N° 1. Cuadro Comparativo de Evaluaciones Censales y Muestrales


Evaluaciones Censales Evaluaciones Muestrales

Requieren más recursos porque el operativo es


Demandan menos recursos
más grande

No tienen error muestral Tienen error muestral

Son más susceptibles a errores durante la opera-


Es más fácil controlar la operación de campo.
ción de campo, que generalmente no se miden
Representatividad a todo nivel dentro de los Representatividad limitada a los estratos consi-
marcos establecidos para el universo derados en el muestreo
El número de casos permite hacer una gran di- Limitaciones para realizar determinados tipos
versidad de análisis de análisis
Recomendable cuando interesa informar sobre
Se justifica si se quiere entregar información
la población en su conjunto o grandes sub-gru-
relativa a pequeñas unidades de análisis
pos de análisis

La decisión entre realizar pruebas muestrales o censales dependerá del objetivo que se
persiga y de la información que se quiera entregar. Es muy importante que las decisiones
-respecto al sistema de evaluación- sean consistentes entre sí, así como con el objetivo
de la evaluación y con la política educativa en general. Se requiere gran claridad respec-
to a “para qué evaluar” y “a quién evaluar”, luego habrá que clarificar “qué y cuando
evaluar” para responder al objetivo de la evaluación. Habiendo respondido a estas pre-
guntas, se podrá decidir el “cómo evaluar”.

2.2.1.1. La decisión respecto a pruebas muestrales o censales

En el tema anterior ya se hizo referencia a la importancia de tomar decisiones -respecto al


sistema de evaluación- que sean consistentes entre sí, con el objetivo de la evaluación y
con la política educativa en general. Aquí queremos mostrar que las evaluaciones censales
y muestrales tienen distintas potencialidades.

Es importante, por ejemplo, establecer el nivel o la unidad de análisis respecto al cual se


quiere entregar información porque de ello depende, en parte, la cobertura curricular o
disciplinaria que pueda tener la prueba2. El diseño de la evaluación se establece según el
grado y edad de los estudiantes, de acuerdo al tiempo en que ellos podrían permanecer
respondiendo en forma concentrada y tranquila. Quien diseña la evaluación deberá tradu-
cir ese tiempo en el número de preguntas que podría responder el estudiante.

Si se desea entregar resultados a nivel de alumnos, todos ellos deberán responder un gran
número de ítemes en común. Esto puede llevar incluso a diseñar una prueba única; es de-
cir, el número total de preguntas será muy reducido. Por tanto, el marco de evaluación no
podrá ser muy amplio o muy profundo.

2 Wolfe (2001) denomina a este aspecto granularidad.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

13
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Si la unidad en que se reporta resultados es mayor, se pueden elaborar distintas formas o


cuadernillos de prueba que comparten un número de ítemes y agregan ítemes distintos,
totalizando así un número superior y posibilitando la ampliación y mayor profundidad del
marco de evaluación.

Mientras mayor sea la unidad de análisis en que se reportarán resultados, mayores posi-
bilidades de ampliar el marco de evaluación y la cobertura curricular porque entonces es
posible aplicar un conjunto diferente de ítemes a los distintos estudiantes. Es sacar distintas
muestras del conocimiento que se quiere evaluar para aplicarlo entre distintos estudiantes.

En síntesis, cada ítem o pregunta tiene que ser respondido por un mínimo de alumnos y
habrá que ver si ese mínimo se logra para un curso, para una escuela o para una agrupación
geográfica. En esto se sustenta la potencialidad de pruebas como TIMSS o PISA, que por lo
general entregan resultados al nivel del país. En ellas se aplica un gran número de ítemes
que pueden estar distribuidos en muchos cuadernillos (en ocasiones más de diez), y entre-
gan resultados por un área completa y por sub-áreas. Por ejemplo, en TIMSS hay una escala
general de matemáticas y también sub-escalas de números, álgebra, geometría, medición
y estadísticas. Esto se puede hacer gracias a que se ha aplicado un número suficiente de
preguntas para cada sub-área.

2.2.2. Según quién las administre y procese

„„ Externas: Estas pruebas son elaboradas, aplicadas, corregidas, analizadas e informadas


por un órgano externo a la escuela. Con este tipo de pruebas se asegura la confiabilidad de
la aplicación en el sentido que hay un solo órgano que organiza la aplicación y debe ase-
gurar que esta se lleve a cabo idénticamente en todas las escuelas. Si la prueba es de altas
consecuencias, este tipo de prueba pone a resguardo la posibilidad de “trampa” en varias
de las formas posibles. Tienen el inconveniente de alimentar la desconfianza de profesores
y maestros, aumentando la resistencia a las evaluaciones.
„„ Internas: Son elaboradas externamente, pero aplicadas, corregidas, analizadas e infor-
madas por la misma escuela. Mantienen su carácter de estandarizadas porque se aplica
la misma prueba a todos los estudiantes, sin embargo se arriesga la comparabilidad por
variaciones que se puedan dar tanto en la aplicación como en la corrección de las pregun-
tas abiertas. Tienen la gran ventaja de ser más amigables para los profesores, quienes se
sienten partícipes del proceso de evaluación y les despierta menos suspicacias.
„„ Mixtas: Distintas combinaciones posibles, la escuela puede solo aplicar sin corregir, o
corregir sin aplicar e informar o no los resultados a la autoridad. Con esto se busca tener las
ventajas de las pruebas internas y externas. Otra forma en que se pueden mezclar estas
características, es aplicando externamente a una muestra de establecimiento –para tener
un registro más riguroso de la evolución de los resultados a nivel del sistema- y al mismo
tiempo se aplica internamente, para que los docentes tengan la experiencia de aplicar la
prueba y evaluar sus propios resultados.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

14
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

2.2.3. Según el parámetro de comparación

„„ Pruebas normativas, comparan los estudiantes evaluados entre sí. Ello permite ordenar
a los alumnos según un puntaje que indica mayor o menor aprendizaje, pero carece de
significado respecto a los aprendizajes esperados. No señala qué se aprendió o que faltó
por aprender. Permite rankear las escuelas y a los alumnos, pero no describe qué es lo que
saben y pueden hacer.
„„ Criteriales, evalúan según un estándard o según lo que se supone que los alumnos
deben conocer y saber hacer. Las expectativas respecto al aprendizaje están previamente
establecidas e informadas. En este caso existen unos estándares contra los cuales se con-
fronta el conocimiento demostrado en la prueba por el estudiante. Esto tiene la gran ven-
taja de que permite transmitir un mensaje claro respecto a lo que los estudiantes saben y
no saben. Sin embargo, esto se critica muchísimo por el riesgo de estandarización, ya que
los estudiantes y las escuelas difieren entre sí. Otra gran crítica es que con esto se reduce el
currículo solo a lo que está estandarizado. Volveremos sobre esto a propósito de la entrega
de resultados, en el tema 4.

Hay que distinguir entre estándares de contenido y estándares de desempeño. En el primer


caso, se establecen las expectativas de lo que los estudiantes deben ir dominando sucesi-
vamente en los distintos niveles. Los estándares de desempeño son descripciones en tér-
minos de lo que demuestran saber los estudiantes en la evaluación, que –en consecuencia-
están restringidas a lo posible de medir en la prueba con las características que esta tenga.

A continuación se hace una síntesis de los tipos de evaluación y sus objetivos.

Cuadro N° 2. Tipos de evaluación y objetivos que se le asocian


Tipos de Evaluación Objetivos

Apoyar y responsabilizar a las escuelas


Resultados y retroalimentación a nivel de escuela o individuo
Censales
Certificar (puede ser censal o alternativamente con mayor frecuencia,
sin necesidad de simultaneidad a todos los evaluados)
Promover políticas educacionales basadas en evidencia
Diagnosticar a nivel nacional o según agregación de muestreo
Muestrales
Evaluar políticas educacionales específicas con muestreo ad-hoc
Mayor detalle respecto al área evaluada
Asegurar la confiabilidad de los resultados
Externas Permite hacer comparaciones justas para todos
Facilita mayor estandarización
Provoca menos resistencia de los docentes
Internas
Facilita el apoyo a los profesores

Mixtas Según cómo se combinen tienen las ventajas de cada tipo

Permite rankear
Normativas
No se señala cuán cerca o lejos se está de la meta
Da mayor sentido a la comunicación de resultados
Criteriales
Facilita el apoyo a los docentes

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

15
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

2.3. Principios generales de la evaluación

Hay ciertos principios que toda evaluación debe cumplir, que no obedecen solo a principios
éticos, sino que son necesarios para que la evaluación cumpla su función de palanca para
el progreso de los aprendizajes. El poder de la evaluación se basa en la credibilidad pública
de la información que se tenga, ya que, como hemos visto, su impacto depende de las
acciones que emprendan otros a raíz de los datos. Si estos no se creen o no son tomados
en serio, no pueden producir los efectos esperados.

Diversos autores (OEI, 1996; Cariola, L., 2008; Ravela, P.; Arregui, P.; y otros, 2008) hacen
mención de estos principios por los cuales se debe regir la evaluación. A continuación pre-
sentamos una síntesis:

„„ Evaluación referida a criterios comunes y conocidos. Tanto los docentes como los estu-
diantes deberán estar en conocimiento sobre lo que serán evaluados, sea a través de un
marco de evaluación, del currículo o de unos estándares. Así también los estudiantes deben
estar familiarizados con el tipo de preguntas a las que se verán enfrentados.
„„ La evaluación mide aprendizajes considerados centrales y relevantes. Esto tiene mucha
importancia para no entregar señales equívocas al sistema. De alguna manera la evalua-
ción incide en lo que se enseña y se trata de orientar hacia conocimientos y habilidades
que se quiere que los estudiantes desarrollen. Esto exige dedicación para elaborar ítemes
de opción múltiple o de respuesta construida que evalúen lo que importa evaluar.
„„ La información recogida en la evaluación debe informarse de manera transparente y
precisa. Se requiere ser muy claros en los límites y posibilidades de la información entre-
gada –lo que se puede y no se puede hacer con ella. Además tiene que ser comprensible
para los distintos públicos a los que está dirigido.
„„ Los aspectos metodológicos deben cumplir estándares rigurosos y ser transparentes
ante la comunidad. Es importante documentar los procesos que se llevan a cabo y deben
estar disponibles para quien quiera consultar por ellos. Es muy recomendable que estos
procedimientos sean revisados y acreditados por otra agencia de evaluación, como una
forma de dar transparencia a la unidad de evaluación y así fortalecer su credibilidad.

2.4. Tensiones de los sistemas de evaluación

Al analizar los sistemas de evaluación de aprendizaje, es conveniente tener en cuenta las


tensiones que permanentemente están desafiándolos y las decisiones que se han debido
tomar. Sintetizamos a continuación los más recurrentes:

„„ Monitoreo versus incentivos asociados a resultados. El monitoreo registra la informa-


ción, pero no toma medidas que responsabilicen a las escuelas, descansan en la motiva-
ción natural de los actores en las escuelas. Si se diseñan incentivos para que la escuela se
esfuerce de manera especial por aumentar los aprendizajes, se parte de la base que las
escuelas tienen una tarea pendiente que deben asumir.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

16
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

„„ Apoyo versus presión a las escuelas. Ya hemos señalado que esta tensión se resuelve
con el equilibrio. El apoyo a las escuelas supone que hay condiciones que determinan los
bajos resultados, como pueden ser los recursos, la mala gestión o falta de calificación de
los profesores, y que es necesario apoyarlas para que puedan mejorar. La presión se ejerce
con mecanismos de sanción que pueden ser incentivos o directamente castigos que puede
incluso llegar al cierre de la escuela si ésta no mejora.
„„ Autonomía para que la escuela decida las estrategias de mejora versus sanciones desde
el Ministerio a través de una intervención directa en la escuela sin tomar en cuenta las
opiniones de la comunidad escolar.
„„ Evaluación interna versus evaluación externa, ya discutida.
„„ Cobertura curricular versus precisión por unidad de análisis. Como ya se describió, para
aumentar la cobertura curricular es necesario hacer más preguntas en más cuadernillos de
prueba. Esto afecta el error de medición y no permite entregar resultados para alumnos
individuales o para grupos reducidos.

El desarrollo del sistema de evaluación debe armonizarse con una cultura evaluativa que
prevenga los usos no deseados de la información. Se entiende por cultura evaluativa aque-
lla que valora la evaluación como una forma de identificar insuficiencias para superarlas,
y que permite que las personas evaluadas no se sientan amenazadas sino desafiadas. Por
sobretodo, en una cultura evaluativo se respeta la evaluación como productora de informa-
ción objetiva que no se puede ni debe alterar.

Si existe una cultura de este tipo, se evitan o disminuyen algunos riesgos de la evaluación
como la resistencia de los docentes, que los puede llevar a ignorar sus resultados o incluso
a obstaculizar las aplicaciones. Una consecuencia no deseada es que la escuela en un in-
tento de subir sus resultados seleccione a los estudiantes más adelantados, o con mejores
condiciones socio-económicas o con buenos antecedentes, lo que en el mediano plazo
llevará a una segmentación del sistema. Una comprensión cabal de la evaluación también
puede prevenir la reducción curricular producto de “enseñar para la prueba”.

Otros riesgos de la evaluación es que se llegue a estigmatizar a las escuelas con bajo rendi-
miento y con ello es posible que se profundicen las diferencias, sin lograr la mejora buscada.

Una buena comprensión de la evaluación como palanca para el mayor aprendizaje, per-
mitirá considerar las condiciones en que se desarrolla el aprendizaje y brindar un apoyo
específico a las necesidades de las escuelas, sin necesidad de enfatizar los “rankings”.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

17
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

3. Instrumentos y Requerimientos Metodológicos de la Evaluación3

3.1. Introducción

En este tema haremos un recorrido por las principales fases del proceso de evaluación
señalando sus exigencias y riesgos de error. Este tema tiene por objeto identificar posibles
problemas de confiabilidad y validez de los resultados, en cuyo caso se afectaría también
la validez de los indicadores.

Empezaremos por analizar los instrumentos de la evaluación, vale decir las pruebas y cues-
tionarios. Es importante señalar que nos estamos refiriendo a pruebas de papel y lápiz que,
por ahora, son las más corrientes en nuestra región. Estas consisten en un conjunto de pre-
guntas, que también se pueden denominar ítemes o reactivos, a las cuales los estudiantes
responden simultáneamente escribiendo las respuestas.

Luego señalaremos que el proceso de evaluación debe cumplir ciertos estándares, patrones
o requisitos que se ha impuesto a sí mismo el sistema de evaluación. Estos son descripcio-
nes explícitas4 respecto a la forma en que se realiza la evaluación.

3.2. Instrumentos de evaluación

3.2.1. Las pruebas

Las pruebas tienen requisitos insalvables para que puedan arrojar una información válida
y confiable.

Ya nos hemos referido a la importancia de que las preguntas tengan relación con los conte-
nidos relevantes y centrales. Es decisivo que estos se establezcan previamente en un marco
de evaluación o en descripciones detalladas y precisas sobre lo que los alumnos deberán
demostrar que saben y saben hacer5. Generalmente estos contenidos (conocimientos y
habilidades) se traducen en una matriz de evaluación referida al número de ítemes con que
se deberá contar para cada intersección de conocimiento y habilidad. Es conveniente que el
marco, además de ser consonante con el currículo, sea validado social y profesionalmente,
esclareciendo cualquier duda sobre su centralidad curricular y relevancia disciplinaria.

Recordemos los tipos de preguntas que se incluyen en pruebas estandarizadas de papel


y lápiz. Generalmente la mayoría son preguntas de opción múltiple donde se plantea una
pregunta y se presentan cuatro alternativas de respuestas, de las cuales solo una es co-
rrecta. Este tipo de preguntas son fáciles de corregir y más económicas. Luego están las

3 Este capítulo se basa en forma importante en Allalouf (2007) y en la propia experiencia de la autora en su trabajo en el SIMCE.
4 No se deben confundir los estándares de la evaluación, que corresponden a condiciones que debe cumplir el sistema de evalua-
ción, con los estándares de contenido o los de desempeño, que deben cumplir las escuelas y los estudiantes.
5 A estas descripciones se las denominan estándares de desempeño y sobre ellos profundizaremos en el próximo epígrafe.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

18
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

preguntas de respuesta corta, donde el estudiante debe escribir la única respuesta posible.
Las más complejas son las preguntas abiertas o de desarrollo en que el estudiante debe
construir una respuesta a la pregunta planteada. Estas últimas se corrigen en base a pautas
o rúbricas y demandan tiempo y capacitación para que los correctores alcancen la consis-
tencia deseada, es decir que una misma respuesta sea evaluada de la misma manera por
distintos correctores. Se deduce que este proceso es costoso y por eso mismo generalmen-
te no se incluyen demasiadas preguntas abiertas. Sin embargo, cada vez más se considera
necesario incluir preguntas de este tipo porque ellas permiten medir más fácilmente habi-
lidades de razonamiento en comparación con las preguntas de opción múltiple. Además,
hay competencias que simplemente no se pueden evaluar si no es a través de preguntas
construidas, como por ejemplo, la capacidad de redacción.

La elaboración de los ítemes, reactivos o preguntas es una labor demandante de compe-


tencias que normalmente se perfeccionan con la práctica, aunque existan lineamientos
para su construcción. Exige gran conocimiento disciplinario, experiencia con estudiantes se-
mejantes a los que serán evaluados y conocimiento de las condiciones métricas que deben
cumplir los ítemes. Las unidades de evaluación deberán diseñar un proceso de elaboración
que resguarde la calidad cualitativa, además de métrica, de los ítemes. Esto significa velar
por la precisión conceptual y disciplinaria, la pertinencia del contenido, que el lenguaje sea
adecuado para los niños del grado que se evaluará y las condiciones formales de los íte-
mes. Para ello pareciera que lo más recomendable son las sucesivas revisiones de paneles
de expertos en los cuales junto con depurar los ítemes se desarrollan las capacidades de los
elaboradores. Esquivel (2001) propone que los ítemes se validen desde el punto de vista
estructural y de la correspondencia entre lo que se quiere evaluar o supuesto contenido y
lo que el ítem realmente mide. Valverde (2001) también señala esta precaución y propone
que las unidades de evaluación reporten lo siguiente:

„„ Capacidades o destrezas sobre las cuales se derivarán conclusiones.


„„ Procedimientos con que se aseguró concordancia entre las preguntas aplicadas y lo que
se proponía medir.
„„ Ejemplos de las preguntas que comprueban el dominio de determinadas capacidades.
„„ Evidencias de que la prueba efectivamente predice lo que se espera.
„„ Compatibilidad de resultados con dos instrumentos distintos.
„„ La forma en que se aseguró que los estudiantes habían tenido las mismas oportunida-
des de aprendizaje.
„„ Procedimientos con que se asegura una relación óptima entre lo que se pretende
enseñar en el grado correspondiente y lo que en realidad se evalúa.

Luego, los ítemes deberán ser sometidos a una prueba experimental que permita asegurar
que discriminan suficientemente, que tienen un nivel de dificultad adecuado, que no tienen
sesgo y que se ajustan métricamente al modelo que se utilizará. Esto se hace a través de
análisis psicométricos.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

19
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Lo anterior se refiere a cada ítem en sí mismo, pero también el conjunto de ítemes que
constituyen la prueba debe contar con ciertas características como es el hecho de cubrir
todos los niveles de dificultad y que sus resultados permitan reportar el nivel de dominio
de los conocimientos y habilidades sobre los cuales se quiere informar. A este proceso se
le denomina “armado” de la prueba. En el caso de que haya distintas formas o cuadernillos
de prueba este proceso es más complejo porque se debe cuidar la equiparación entre ellas,
es decir, las formas tienen que ser equivalentes entre ellas.

Antes de seguir adelante, vale la pena referirse al tema de la confidencialidad en la elabo-


ración de ítemes. Especialmente en el caso de evaluaciones con altas consecuencias, pero
no exclusivamente, es importante que la prueba se mantenga resguardada y no se circulen
o filtren las preguntas porque esto claramente invalidaría los resultados. Si los alumnos co-
nocen las preguntas y consiguen las respuestas, podrían responder correctamente sin saber
necesariamente los contenidos evaluados. Si bien es cierto que los ítemes de las pruebas
deben y pueden ser difundidos para mejor aprovechamiento de los docentes, también
es importante resguardarlos antes que sean aplicados. Después de aplicada la prueba, se
debe reservar un número suficiente de ítemes para utilizarlos nuevamente y equiparar las
pruebas en el tiempo.

3.2.2. Los cuestionarios

Los cuestionarios son un segundo tipo de instrumento que, a diferencia de las pruebas, no
están dirigidos a evaluar el aprendizaje de los estudiantes, pero que ayudan a interpretar
los resultados de la evaluación.

Son instrumentos que permiten recoger información sobre el contexto social y familiar del
estudiante, sobre el contexto escolar, las prácticas de enseñanza y la gestión del estableci-
miento educacional. Como veremos en el siguiente tema, la información que se recoge es
decisiva para entregar los resultados de aprendizaje en forma justa y adecuada (ver Ravela,
P., 2001b).

Los cuestionarios pueden estar dirigidos a padres o apoderados, a los profesores, a los di-
rectores del establecimiento y a los mismos estudiantes.

Esta información puede cumplir distintos objetivos, pero los principales son los siguientes:

1. Informar los resultados de aprendizajes contextualizados de acuerdo al capital social


y cultural de los estudiantes, a los recursos económicos de la familia o de la escuela y a
las condiciones de la escuela en general.
2. Explicar los resultados a través de la determinación de factores asociados que permi-
tan hacer recomendaciones de políticas educacionales a los distintos niveles, incluida
la escuela.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

20
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Un uso menos notorio, pero que puede ser importante, es la utilidad de esta información
para validar la base de datos ya que se pueden encontrar estudiantes que no cumplen las
condiciones para ser evaluados (por estar en otro grado, por ejemplo), para clasificar a los
estudiantes y establecer grupos comparables o para calcular los valores plausibles6.

Al igual que en el caso de las pruebas es muy importante que exista un marco de referencia
para la elaboración de los cuestionarios y un plan de análisis en el corto y mediano plazo. El
marco de evaluación deberá incluir factores externos a la escuela, que se sepan asociados
al rendimiento, para entregar los resultados mostrando las características de estos factores
y poder hacer comparaciones justas entre escuelas. Al ser factores externos a las escuelas,
en su mayoría familiares, la escuela no los puede alterar, pero si afectan los logros, es im-
portante que los resultados los tengan en cuenta. Estos se deberán medir junto con cada
evaluación de aprendizajes ya que es un elemento esencial para interpretar los resultados.

Los cuestionarios también deben incluir factores de la escuela y esto será un elemento im-
portante de retroalimentación para la política educacional y para las decisiones de gestión
y de prácticas de enseñanza en el aula. No es necesario realizar análisis explicativos con
toda la información pertinente en cada evaluación. Se recomienda desarrollar un plan de
análisis en que periódicamente se vayan confirmando los hallazgos anteriores y al mismo
tiempo se avance en el análisis de distintos temas relevantes para la política educacional
y para las prácticas educativas.

Cuando se trate de información delicada y susceptible de deseabilidad social será muy


importante triangular la información para controlar en parte este riesgo. Por ejemplo, las
prácticas en el aula se pueden recoger de los profesores y de los alumnos; o el clima de la
escuela, de los directores y de los profesores.

3.3. Procesos de evaluación y sus etapas

Según Allalouf (2007) en cualquier proceso constituido por una serie de etapas sucesivas
hay numerosas fuentes de error. La evaluación conlleva un proceso de este tipo y, por
consiguiente, es muy importante establecer procedimientos para el control de calidad. Las
unidades de evaluación deben hacerse responsables –dar cuenta- respecto de los procesos
que llevan a cabo.

Él también señala que si se producen errores en el proceso de análisis de las pruebas y de


entrega de resultados, en la mayoría de los casos se trata de problemas en el manejo de
los estándares de evaluación. Ya hemos definido estos estándares de la evaluación como
descripciones explícitas respecto a la forma en que se debe realizar la evaluación.

6 Los valores plausibles se calculan para cada estudiante estimando su distribución de resultados posibles de acuerdo a su patrón
de respuestas (en las preguntas que enfrentó) y a sus características personales. Al azar, se obtiene un número determinado de resultados
en esa distribución. En las pruebas internacionales se tienen cinco valores plausibles. De esta manera, se disminuye el error producto de
responder distintos ítemes

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

21
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Allalouf se refiere a los siguientes problemas en el manejo de estándares:

„„ Los estándares no están establecidos o no son suficientemente claros. Es posible que,


dada la premura con que se desarrollan estos procesos, no se escriban manuales o no se ex-
pliciten las formas de proceder para cada actividad. El trabajo se realiza de acuerdo a la expe-
riencia de los más antiguos y se van haciendo las cosas según lo que parece más adecuado.
„„ Las prácticas no se documentan, probablemente por razones semejantes a las anteriores.
El trabajo exige dedicarse a la próxima fase y no hay tiempo para documentar la anterior.
„„ No se respetan los estándares, sea porque no se tienen las capacidades para mantener-
los o porque no se les asigna la suficiente importancia.
„„ Los estándares no están actualizados y, por tanto, no se justifica respetarlos.
„„ También la presión por los plazos o los problemas presupuestarios pueden provocar una
premura que no permite asegurarse y hacer los controles de calidad requeridos.

3.3.1. Empadronamiento

Para la aplicación de las pruebas es necesario disponer de un padrón de los establecimien-


tos a evaluar, el universo. Si la prueba se aplica a una muestra, ella se determinará en
base a la información empadronada o a una base de datos disponibles. Si es censal, este
será el listado de establecimientos a visitar. Este listado inicial será determinante para la
representatividad de la muestra e incluso para que el censo sea tal. Por eso hay que agotar
todos los medios posibles para validar el listado y tener en cuenta los posibles errores en
las bases y archivos maestros de establecimientos educativos de los ministerios, buscando
procesos complementarios de ratificación en cuanto a completitud, actualización y correc-
ción de los datos.

3.3.2. Aplicación

También es necesario prevenir problemas durante la aplicación de las pruebas. Las pruebas
internacionales tienen un sistema de observadores capacitados que asisten a un 10% de
los establecimientos en que se aplica la prueba. Ellos registran paso a paso (a través de
formularios predefinidos) si se cumplen las instrucciones del manual de operaciones con
el fin de asegurar que el proceso de administración de la prueba sea estandarizado. Los
sistemas nacionales tienen sus propios mecanismos de control de calidad, incluyendo la
observación. Una de las principales preocupaciones durante la aplicación es que los estu-
diantes no reciban ayuda para la resolución de las pruebas y que éstas no se filtren para
asegurar los ítemes de equiparación o para controlar posibles efectos de contaminación.

3.3.3. Recolección y procesamiento

Una vez que la prueba ha sido aplicada, es necesario reunir todo el material de campo y
asegurarse de que está completo y bien ordenado. Recuérdese siempre que los proble-
mas son acumulativos y es más fácil corregir el error en el momento que se produce que
rastrearlo posteriormente hacia atrás sin saber dónde se originó. Luego, la información se
debe traspasar a un medio digital, sea digitando, por lectura óptica o por escaneo.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

22
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

3.3.4. Validación de las bases de datos

Las bases así producidas deberán ser revisadas desde distintos puntos de vista. La com-
pletitud es importantísima porque se pueden perder cuadernillos o la captura puede haber
sido incompleta. Habrá que revisar que esté la información de todas las escuelas evaluadas,
que cada escuela tenga la información de todos los alumnos presentes, y que el número
de presentes (incluyendo discapacitados/integrados) y ausentes totalice el número de
alumnos matriculados. Esto incluye revisar que los códigos identificadores estén completos,
sean consistentes para las distintas bases y no se repitan entre alumnos diferentes. Luego,
se deberá comprobar que para cada estudiante se ingresó la información de todos los cua-
dernillos de prueba y de los cuestionarios correspondientes.

Luego habrá que chequear posibles errores de captura, y asegurarse de que los registros
faltantes son realmente sin respuesta y no efecto de marcas borrosas y que las marcas
borradas no estén consideradas. En ocasiones esto puede ser una fuente de error que se
debe medir junto con el error de medición.

Además, es muy importante que se hagan análisis de consistencia. Quien conoce las bases
sabrá qué cruces son capaces de develar errores. Por ejemplo, cuando se obtiene la misma
información de dos fuentes como la edad de los estudiantes de los registros escolares y del
cuestionario a estudiantes, o cuando se pregunta edad y experiencia a los profesores, será
muy útil cruzar las variables.

Hay casos en que las revisiones necesariamente se deben realizar manualmente, como las
marcas demasiado débiles o la revisión de casos sorprendentes porque tienen puntajes
demasiado bajos o demasiado altos o contradictorios entre sí.

3.3.5. Análisis psicométrico

Una vez chequeada la base en sí misma, es necesario hacer el análisis psicométrico de


los ítemes, aun cuando esto se haya hecho para la prueba experimental. Es de la máxima
importancia porque un ítem con buen funcionamiento en la experimental puede fallar o
cambiar sus parámetros en una población mayor o accidentalmente se puede haber hecho
algún cambio en el ítem que pasó desapercibido e hizo variar sus características.

3.3.5.1. Determinación de los parámetros de los ítems

Tanto si se realiza análisis clásico como si se usa teoría de respuesta al item (TRI), el análisis
psicométrico se inicia analizando las características de los ítemes.

En el análisis clásico se analiza (Verhelst, N.D., 2004):

„„ La dificultad de cada item, que no puede ser demasiada alta ni demasiado baja, según
el porcentaje de respuestas correctas.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

23
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

„„ La discriminación del item, que en este caso se establece a través de la correlación


item-test, y es la capacidad de un ítem para diferenciar alumnos de niveles altos y bajos
de desempeño.
„„ La correlación del item con el puntaje del resto de los ítemes.
„„ La distribución de los puntajes para ver que ningún distractor sea más atractivo (obtenga
mayor porcentaje) que la respuesta correcta.
„„ La correlación de cada distractor con el puntaje del conjunto, que deberá ser negativa.
„„ La confiabilidad de la prueba, que puede medirse con pruebas paralelas, con alpha de
Crombach o con el coeficiente de Spearman-Brown.

Si el análisis se realiza de acuerdo a la TRI, dependerá del número de parámetros con que
se quiera analizar –uno, dos o tres– cuántas de las siguientes características se considerarán:

„„ Dificultad, que corresponde a la probabilidad de responder correctamente cualquiera


sea la población a la que se le aplique el ítem. Esto se hace bajo el supuesto de unidi-
mensionalidad del ítem, es decir, que el alumno responde a una sola dimensión sin que lo
influya nada que no sea su conocimiento.
„„ Discriminación, que según esta teoría es la capacidad de un ítem para diferenciar en su
punto de dificultad, es decir, cuánto aumenta la probabilidad de responder bien a partir de
ese punto.
„„ Azar, que es la probabilidad de que un estudiante responda correctamente por azar y
no por conocimiento.

3.3.5.2. Calibración de la prueba

Los parámetros de los ítems deben estar dentro de los rangos establecidos. Si las caracterís-
ticas de algún ítem no cumplen con las condiciones necesarias, (“no ajusta”), es necesario
sacar ese ítem, volver a hacer el análisis e iterar (repetir el procedimiento). Cuando todos
los ítems ajustan, se dice que la prueba calibró y se puede puntuar.

3.3.5.3. Puntuación

La puntuación, en general, es el proceso mediante el cual se le asigna un valor al desem-


peño que cada estudiante tuvo en la prueba. Es un procedimiento técnico que consiste en
la transformación de puntajes brutos (raw) o theta (para IRT) a los puntajes de la escala en
que se comunican los resultados, sean estos percentiles, estandarizados o IRT.
La forma de asignar un valor también varía según si se hace con Teoría Clásica o TRI. En la
teoría clásica puede ser el número de preguntas correctas, la proporción o el porcentaje de
preguntas correctas dentro del total de preguntas que enfrentó el estudiante o un puntaje
estandarizado (puntaje Z).

La puntuación con TRI es un proceso más complejo. Las pruebas internacionales inician este
proceso condicionando los resultados a una serie de características contextuales, lo que ya
hemos descrito como el cálculo de valores plausibles. Otros sistemas (Chile, por ejemplo)

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

24
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

calculan directamente el puntaje en base a los parámetros previamente calculados y al


patrón de respuestas a las preguntas que enfrentó el estudiante. Primero se estima la habi-
lidad latente del estudiante teniendo en cuenta las preguntas que respondió correctamen-
te y sus parámetros. Luego, se calcula el puntaje con esa habilidad latente previamente
establecida. Por esto, hay críticos que argumentan que esto es un procedimiento circular.
En todo caso, estos cálculos tan complejos se hacen fácilmente mediante algún software.

3.3.5.4. Control de calidad de los análisis sicométrico

Para el control de calidad del análisis de ítemes, Allalouf (2007) propone realizar tanto
análisis clásico como IRT y correlacionar los parámetros. Otra posibilidad es que el análisis
lo realicen dos personas independientemente y después se comparen los resultados.

El proceso de equiparación de datos7, entre formas o con las pruebas anteriores debe ser
revisado cuidadosamente y cuantificar su error, sin embargo no siempre se mide. Este
error se puede producir si los ítemes con que se equiparan las pruebas (ítemes comunes)
no tienen las mismas características. Este supuesto no siempre se cumple en su totalidad
y eventualmente en esos casos habrá que decidir entre modelos alternativos de equipa-
ración. Algo que exige especial cuidado es que los ítemes comunes deben mantener su
posición en las distintas formas o pruebas que se quieran equiparar. Otro supuesto que
hay que cuidar y respetar es que las pruebas se apliquen exactamente en las mismas con-
diciones, formato, instrucciones, tiempo, etc. Diferencias de este tipo pueden llevar a un
comportamiento distinto de los ítemes. Otra forma de comprobación es calibrar las pruebas
por separado y con el conjunto de ítemes, los resultados deberían ser los mismos. Revisar y
duplicar las fórmulas de conversión usada es otra forma de control de calidad. Finalmente,
también se pueden comparar y correlacionar los puntajes con las características de los estu-
diantes para ver si se cumplen las expectativas, así como si los porcentajes de estudiantes
en los distintos niveles de logro (si los hay) no son muy sorprendentes.

En relación a la puntuación, se deberá cuidar el uso de los parámetros correspondientes,


que la tabla de conversión a puntajes sea la adecuada y que no se produzcan problemas
de aproximación porque los programas de computación utilizan distintos criterios. Allalouf
(2007) propone los siguientes procesos:
„„ Chequear puntajes bajos en las escalas estandarizadas con los puntajes brutos, que
deben ser igualmente bajos.
„„ Comparar los resultados y parámetros de una forma paralela y estos deberían ser semejantes.
„„ Deshabilitar los programas de edición de las tablas.
„„ Calcular algunos puntajes manualmente y compararlos con los generados computacionalmente.
„„ Chequear la asociación estadística entre puntajes brutos y estandarizados.

7 La equiparación (equating) es el proceso mediante el cual se establece la equivalencia entre los puntajes de dos pruebas distintas.
Estas pruebas pueden ser formas paralelas en cuyo caso se trata de ser justo con los alumnos que contestan pruebas distintas; también
pueden ser pruebas entre años que se equiparan para poder establecer tendencias y señalar cómo ha evolucionado el aprendizaje.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

25
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

3.3.6. Confiabilidad de los resultados

Antes de reportar los resultados es necesario asegurarse de que los puntajes fueron ho-
nestamente obtenidos. El riesgo de fraude o trampa aumenta cuando las pruebas tienen
altas consecuencias. El fraude puede originarse en la clase, la escuela, en el distrito (o nivel
intermedio del sistema) ya que profesores y directores pueden ser sancionados por los
resultados. Sin embargo, es necesario tener extremo cuidado antes de denunciar fraude
ya que los problemas también se pueden haber originado en la aplicación (cuando no es
responsabilidad de la escuela) por problema del examinador; o en la recopilación de datos,
cuando por ejemplo aparecen muchos alumnos ausentes pero en realidad sus cuadernillos
o registros se podrían haber perdido.

Ejemplos de este tipo de engaños (cheating) son los siguientes:

„„ Se les pide a los estudiantes de bajo rendimiento que no asistan a la escuela o se les
asigna una actividad distinta.
„„ Se sustituyen estudiantes, por ejemplo con los de algún curso superior.
„„ Se conoce la prueba de antemano y se les hace saber a los estudiantes cuáles son las
respuestas correctas.
„„ Copia entre estudiantes.
„„ Se introduce material no autorizado a la sala de prueba.
„„ Los estudiantes reciben ayuda del examinador o de otra persona en la sala o por vía
electrónica.

Para evitar este tipo de problemas es muy importante penalizar el fraude. Preventiva-
mente, se debe difundir la rutina que se utilizará para detectar los posibles fraudes y ase-
gurarse de que previamente sea conocida por todos los actores. Capacitar y motivar a los
examinadores para que comprendan la relevancia y responsabilidad de su trabajo y cuiden
los procedimientos al interior de la sala. Estos procedimientos tienen que estar completa-
mente protocolizados. Chequear los patrones de respuesta para detectar posibles copias
entre estudiantes sentados cerca o en forma contigua y para detectar los raros como si por
ejemplo se contestan mejor los ítemes difíciles que los fáciles. Los controles de calidad de
la aplicación también ayudan a evitar algunos de estos fraudes.

La última etapa de este proceso es la entrega de resultados que será desarrollado en el


epígrafe siguiente.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

26
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

4. Comunicación de indicadores de aprendizaje a partir de las evaluaciones8

4.1. Introducción

La evaluación del aprendizaje de los estudiantes en forma externa y estandarizada debe


tener como objetivo principal mejorar los procesos de enseñanza y aprendizaje. Sus resul-
tados constituyen la “evidencia” sobre la cual fundar el diseño de políticas educativas. Sin
embargo, la relación entre la evaluación - o, en términos más amplios, la investigación - y
el diseño de políticas no es automática y requiere de una planificación estratégica. La co-
municación de los resultados de la evaluación es el elemento central para la vinculación de
la evaluación con la política.

La entrega de resultados es el proceso final y el que justifica todos los anteriores. Es lo que
determina la utilidad de toda la evaluación y, si se hace adecuadamente, permitirá lograr
las finalidades que se buscan con la evaluación.

En este tema reforzaremos conceptos en los que hemos venido insistiendo y que deberán
plasmarse en la forma en que se entregan los resultados y en los indicadores de aprendi-
zaje que se producen. Pretende hacer algunas reflexiones sobre las maneras de potenciar
la relación de la evaluación con la política educacional y las prácticas educativas. Veremos
también algunas precauciones que se sugieren para el diseño de las estrategias comuni-
cacionales.

4.2. Consistencia del sistema de evaluación

Desde el primer epígrafe hemos venido insistiendo en que el tipo de información que
recoge y entrega la evaluación debe estar relacionado con el enfoque político y el uso
que se le quiera dar desde el sistema educacional. El sistema de evaluación es parte del
de educación y, al mismo tiempo, constituye un sistema en sí mismo, ya que sus distintos
elementos deben estar orgánica y consistentemente relacionados para cumplir los objeti-
vos propuestos. Al mismo tiempo, al ser parte del Sistema Educacional (subsistema) debe
comunicarse, coordinarse y apoyarse en este.

En la figura 3 se observa que los objetivos de la evaluación provienen del sistema educacio-
nal en general, pero al mismo tiempo su cumplimiento está restringido por las condiciones
métricas y las características de las pruebas, que provienen de la evaluación. El sistema de
evaluación entrega información al resto del sistema, que la utiliza (o no la utiliza) para di-
ferentes fines tales como diseño de políticas, diseño curricular, o estrategias de enseñanza.

8 Esta unidad recoge en parte un documento elaborado por la autora para el Instituto Nacional de Evaluación Educativa (INEE) de
México en febrero de 2009, titulado La Importancia de la Comunicación de Resultados de las Evaluaciones Externas y Estandarizadas.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

27
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Figura 3. Relación del Sistema de Evaluación con el Sistema Educacional

Fuente: Cariola, 2009

El medio que utiliza el sistema de evaluación en el esfuerzo por mejorar los aprendizajes es
la entrega de información a los actores claves. En el diagrama anterior se observa que estos
actores claves son los diseñadores de política, los encargados del currículo y la escuela. En
la escuela se incluye a directivos, profesores y padres de familia o apoderados.

Como vimos en el primer epígrafe, el sistema educacional a su vez está inmerso en la so-
ciedad a la cual también informa.

La información que se entrega más recurrentemente se refiere a qué y cuánto demuestran


saber los estudiantes y los datos de variables que se supone o comprueba que inciden en
el rendimiento de los estudiantes. El objetivo es determinar qué variables pueden ser obje-
to de políticas y favorecer el aprendizaje de los estudiantes. En algunas ocasiones, también
se realizan y comunican análisis que evalúan políticas implementadas a distintos niveles en
función de su aporte a la mejora de los aprendizajes de los estudiantes.

Se comprende que la entrega de información y la comunicación de resultados es el corazón


del sistema que permite nutrirlo. Por eso se señala que la comunicación de resultados es
tan importante como el rigor de la medición.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

28
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

4.3. Criterios para la entrega de resultados

4.3.1. Preocupación por la equidad

La preocupación por la equidad es un criterio muy presente en las políticas públicas de los
países iberoamericanos, por lo cual se convierte en un eje fundamental a tener en cuenta
respecto de la entrega de resultados.

Por una parte, la evaluación estandarizada tiene la capacidad de develar los núcleos donde
se concentran los peores y mejores aprendizajes. Es importante reconocer estas situaciones
para poder apoyar con recursos económicos y profesionales a las escuelas más desfavoreci-
das. Desde que la preocupación por la cobertura educacional viró a la calidad educativa y a
favorecer el aprendizaje de todos y todas las estudiantes, la exigencia de explicar y superar
las brechas es imperiosa. Esto solo se puede hacer si se identifican las falencias.

Conviene aquí hacer una aclaración, ya que muchas veces se malentiende la palabra “es-
tandarizada” o “estándares”. De lo que se trata es que todos los estudiantes tengan logros
semejantes o equivalentes, pero esto no quiere decir que los obtengan de la misma ma-
nera. Hay certeza que los estudiantes social y económicamente desfavorecidos tendrán
más dificultades para incorporar los aprendizajes escolares, razón por la cual requieren ser
discriminados positivamente con mayores recursos y mejores competencias docentes.

Las brechas de aprendizaje entre ricos y pobres, entre hombres y mujeres, entre estudiantes
urbanos y rurales, entre diferentes orígenes étnicos y entre tipos o modalidades de enseñan-
za deben ser combatidas con políticas educativas certeras y bien informadas, así como con
enfoques pedagógicos adecuados. Cuanto mejor se describan y más se analicen los factores
que intervienen o afectan esta realidad, mejor se podrá mejorar la política pública.

La equidad también se refiere a que la información que se entregue sea justa para con las
escuelas. Si se sabe que hay factores externos a la escuela, como los señalados más arriba,
que afectan el aprendizaje, no sería justo entregar resultados por escuela sin clasificarlas
por las características del alumnado. Hay escuelas cuyo trabajo es más difícil y esto habrá
que reconocerlo.

De aquí se desprende la importancia de que los indicadores de aprendizajes, expresados de


la manera que sea, no solo se den para el total sino también desglosados por otras carac-
terísticas. Cuando un grupo sea relativamente reducido y sus datos no se puedan cruzar por
otras variables (un curso, por ejemplo) se podrá describir separadamente su composición
socioeconómica, ubicación geográfica, etc.

Un indicador sumamente valioso en términos de equidad lo constituye la medida de valor


agregado, al cual nos referiremos más adelante.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

29
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

4.3.2. Distintos tipos de audiencia

El medio que utiliza el sistema de evaluación en el esfuerzo por mejorar los aprendizajes es
la entrega de información a los actores claves. En el diagrama anterior se observa que estos
actores claves son los diseñadores de política, los encargados del currículo y la escuela, que
incluye a directivos, docentes y padres de familia o apoderados.

Un criterio esencial es que cada audiencia debe recibir una comunicación que satisfaga sus
necesidades específicas, lo cual puede derivar en conjuntos diferenciados de indicadores
educativos propios de cada una de ellas.

4.3.3. Transparencia

Es otro criterio muy importante y consiste en entregar el máximo de información antes y


después de la aplicación, respecto a las características de la prueba; sin embargo hay que
cuidar que esto se haga dentro de las normas legales y respetando el secreto estadístico.
La información previa ayuda a disminuir la ansiedad de los alumnos para que ellos puedan
demostrar lo que efectivamente saben y es una forma de orientar a los docentes y dar las
señales correctas respecto a la relevancia de contenidos y aprendizajes. Para que así sea,
evaluación y diseño curricular deben estar alineados y esto se debe hacer explícito. La in-
formación y la alineación curricular favorecerán la tarea de los profesores para que puedan
preparar a sus estudiantes y estos tener éxito. Esto no significa “enseñar para la prueba”
sino preocuparse de la cobertura curricular y de los aprendizajes relevantes.

Como parte de la transparencia, es importante mostrar o liberar la mayor cantidad de


ítemes con posterioridad a la prueba, resguardando siempre las posibilidades de equipa-
ración. Esta es una forma notable de apoyar a los docentes en sus propias evaluaciones y
en la comprensión de los resultados de aprendizaje de sus estudiantes. También ayuda a
desmitificar creencias de los detractores de la evaluación, tales como que en las pruebas
solo se preguntan aspectos irrelevantes o memorísticos.

Por último, también se debe ser transparente para comunicar las opciones y decisiones
técnicas que se han debido tomar y los límites y posibilidades de la información que se
está entregando. Se debe advertir a los lectores de las interpretaciones erróneas y de las
restricciones de interpretación.

4.3.4. Rigor técnico

La regla es informar solo lo que técnicamente es posible de comprobar. Aún cuando se tra-
te de simplificar el mensaje y no se entreguen detalles y justificaciones técnicas, se debe
tener certeza de que la información es correcta. En el epígrafe anterior, hemos visto el gran
número de errores que es posible cometer en las distintas fases del proceso de evaluación
y hemos señalado algunas de las medidas de seguridad para tratar de evitarlos. Será muy
importante observar estas y otras medidas y dejarlas documentadas en un reporte técnico
que sea público y, ojalá, conocido y discutido por la academia.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

30
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Un aspecto necesario de recalcar es la importancia de señalar la significación de las dife-


rencias. Según cual sea el error de medición, el error muestral y el de equiparación, una
misma diferencia puede ser o no ser significativa. Este aspecto es difícil de comunicar, pero
de máxima importancia, porque muchas veces se pueden tomar decisiones importantes en
base a diferencias que no significan nada. En el caso de estándares de aprendizaje o nive-
les de logro, a los errores anteriores hay que agregar el error de clasificación, que cuando
hay más de un punto de corte en general son muy altos. Es por esto que determinados
análisis, como asociaciones y factores explicativos, es preferible hacerlos con la escala.

4.3.5. Evitar efectos no deseados

Especialmente en los casos que tienen consecuencias para las escuelas, habrá que ser cui-
dadosos en la forma de entregar los resultados. Entre los efectos no deseados, la literatura
menciona, por ejemplo, el aumento de la repitencia o que los profesores enseñen para la
prueba sin ocuparse de su propia planificación y de cubrir todos los aspectos del currículo
aunque no puedan ser evaluados en pruebas estandarizadas de lápiz y papel. Otros efec-
tos pueden ser aumentar artificialmente el número de niños declarados con dificultad de
aprendizaje o el aumento de la expulsión de estudiantes con bajo rendimiento y su proba-
ble deserción.

Algunos de estos efectos no deseados se pueden evitar entregando indicadores, por ejem-
plo, de repitencia escolar o de rotación de estudiantes. También informando respecto a si
la escuela selecciona a sus estudiantes y los criterios con que lo hace.

4.4. Formas de entregar resultados e indicadores

El qué y el cuánto aprenden los estudiantes se puede representar de distintas maneras


según el público al que están dirigidos. Las formas cualitativas y cuantitativas que a conti-
nuación se detallan no son excluyentes entre sí.

4.4.1. Ítemes

Presentar algunos o todos los ítemes con el número o el porcentaje de estudiantes que
responde correctamente es una forma cualitativa muy gráfica de mostrar lo que los estu-
diantes pueden y no pueden hacer. En todos los casos habrá que especificar el número
total de estudiantes que respondió para transparentar la confiabilidad de la información.
Además, se pueden también mostrar los porcentajes para los distintos distractores lo que
permite visualizar el tipo de errores que cometen los estudiantes. También resulta inte-
resante mostrar la dificultad y el puntaje-ancla, que representa el puntaje que tienen los
estudiantes para responder correctamente ese ítem con una cierta probabilidad (65% a
72%). Siempre es conveniente entregar al menos una muestra de ítemes (Wolfe, 2001).

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

31
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

4.4.2. Porcentajes de respuestas correctas

Esta medida considera el total de preguntas correctas para cada estudiante, o para el total
de ellos, y calcula el porcentaje sobre el total de preguntas hechas al estudiante o al grupo
total que se evalúa. Cuando se evalúa el aprendizaje de un grupo con este indicador, equi-
vale al porcentaje de preguntas que responden correctamente en promedio los estudiantes
de determinada agrupación. Esta es una medida cuantitativa porque no se sabe nada sobre
qué es lo que saben o no saben los estudiantes. En este caso cada pregunta tiene el mismo
peso que las otras, sin considerar si es más fácil o más difícil que el resto.

4.4.3. Percentiles

Esta es una forma de ordenar a los estudiantes o a las escuelas desde el menor al mayor
puntaje (en una escala estandarizada). Los alumnos o las escuelas se clasifican según si
están en el 1% inferior, en el percentil 1, o en el superior, en el percentil 100. Esta es una
típica escala normativa donde no se sabe el significado del puntaje, sino solamente la ubi-
cación en un ordenamiento determinado. Sin embargo, es más explicativo que un puntaje
del cual no se sabe su rango de variación o solo se conoce el promedio, como sucede con
los puntajes IRT.

4.4.4. Puntajes IRT (Teoría de Respuesta al Ítem)

El puntaje IRT también es parte de una escala normativa, que ordena a los sujetos según el
aprendizaje demostrado, pero tiene al menos dos grandes ventajas: por una parte conside-
ra la dificultad de los ítemes y por otra, es posible equiparar o calibrar dos escalas diferen-
tes para poderlas comparar. Esta escala se basa en la dificultad latente de los ítemes y en
la habilidad latente de los estudiantes y ambas se asocian a una escala cuyo promedio se
fija arbitrariamente (Wolfe, 2001).

4.4.5. Escalas y sub-escalas

Es interesante entender esta distinción a la que ya hemos aludido en el epígrafe3, a pro-


pósito de la cobertura curricular de las pruebas. Normalmente, una prueba mide el apren-
dizaje de un área del conocimiento como puede ser Lectura o Matemáticas. Si la muestra
de ítemes es representativa del área en general, se puede informar sobre el conocimiento
en el área general. Sin embargo, si en el diseño de la prueba se tuvo en cuenta el interés
de entregar información por sub-áreas de la disciplina (por ejemplo, geometría o números
en matemáticas) y se incluyeron suficientes preguntas para cada una de ellas, también se
puede entregar información para ellas, siempre que la unidad de análisis en que se informa
no sea demasiado pequeña (Wolfe, 2001). Evidentemente esto resulta de mayor interés
para los docentes, que podrán identificar logros y falencias más específicas.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

32
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

4.4.6. Estándares de desempeño

Los estándares de desempeño son descripciones de lo que los estudiantes saben y saben
hacer en distintos niveles de habilidad (proficiency). Expresan lo que se espera que los
estudiantes hayan aprendido o lo que se considera aceptable en un determinado grado. Es
una medida cualitativa, en la medida que describe las capacidades que los alumnos tienen
que demostrar para ubicarse en uno u otro nivel. Sin embargo, al mismo tiempo, por la
forma en que se construyen están asociados a unos rangos de puntajes en la escala cuan-
titativa. Por lo tanto, se puede aprovechar de las ventajas de ambas medidas.

4.4.7. Tendencias

Frecuentemente, y especialmente cuando se quiere monitorear el sistema o a las escuelas,


interesa evaluar si los aprendizajes han aumentado, mantenido o disminuido en el tiem-
po. En este caso lo que se hace es comparar los puntajes de distintas cohortes pero de un
mismo grado y calcular la diferencia entre ellos. Esta diferencia debe ir acompañada por su
significancia para establecer si esta puede deberse a una variación efectiva o solo a error
de medición.

4.4.8. Progreso o valor agregado

Esta es una medida del aprendizaje de un mismo grupo de alumnos en un período com-
prendido entre dos pruebas. La primera, antes de la intervención (que puede ser uno o más
años escolares) y otra al final de la intervención. El supuesto es que los alumnos mantienen
su situación socio-económica y su ambiente familiar y que el conocimiento previo está
controlado por la primera prueba. Aunque hay variables que no están medidas ni antes ni
después, esta medición es más clara respecto a la responsabilidad que se puede atribuir a
la escuela y sus factores.

Se habla de progreso cuando solo se mide cuánto más conocimiento demuestran los alum-
nos en la segunda medición en relación a la primera. Si esto se ajusta por cuanto “debería o
podría” haber variado el aprendizaje, se le denomina valor agregado. Para determinar este
“deber ser” se analiza el promedio del progreso que han tenido escuelas o agrupaciones
con características semejantes.

Esta medida tiene la gran ventaja de controlar la condición “de entrada”, el conocimiento y
las habilidades con que llegan los estudiantes, y lo que ha podido aprender como fruto de
la experiencia escolar. Esto permite comparaciones más justas entre escuelas.

4.4.9. Indicadores derivados

En los puntos anteriores, nos hemos referido a distintas maneras de presentar los resul-
tados y de cuantificar los aprendizajes. Estos indicadores pueden combinarse con otras
variables tanto para fines descriptivos como para fines explicativos.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

33
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Para fines descriptivos será muy importante entregar los resultados (representados a tra-
vés de cualquiera de los indicadores anteriores), clasificados según las categorías de los
criterios señalados en el punto de equidad. Esto será importante para identificar brechas y
aproximarse a políticas públicas adecuadas.

Para fines explicativos, se pueden determinar factores que inciden en los aprendizajes y
que pueden ser alterados desde las familias (expectativas de escolaridad o involucramiento
en la escuela), factores de la escuela como tipos de gestión, desde las prácticas de ense-
ñanza como cobertura curricular o desde la política como programas específicos.

Según los desafíos que cada país enfrente, las herramientas que utilice para incentivar
mayores aprendizajes y los objetivos que se haya fijado para la evaluación, se decidirán las
formas de combinar indicadores de aprendizaje con indicadores de contexto.

4.5. Impacto de la evaluación para mejorar los aprendizajes

Sabemos de la complejidad de impulsar el cambio educativo y no podemos pensar que


solo con entregar determinada información –datos- se va a desencadenar toda una sinergia
orientada a cambiar y mejorar el sistema educacional.

Nos referiremos aquí a los dos niveles que nos parecen los más susceptibles de ser impac-
tados por la evaluación.

„„ Políticas públicas
„„ Políticas a nivel de escuela, que pueden involucrar a directivos y a su gestión, a profe-
sores con sus prácticas y a los padres de familia.

4.5.1. Políticas públicas

Nuestro planteamiento es que los resultados de una evaluación, al igual que la investi-
gación, pueden constituir evidencia para nutrir el diseño de políticas públicas (Cariola, L.;
Cares, G.; Rivero, R. 2008).

El diseño de políticas basado en evidencias (evidenced informed policy) es el uso cons-


ciente y explícito de la evidencia al tomar decisiones o al elegir entre políticas alternativas
(OCDE, 2007). Davies (2004) contrasta esta forma de hacer política con el diseño de política
basado en la opinión, que usa evidencia selectivamente, o en puntos de vista individuales.
La política basada en evidencia requiere una búsqueda sistemática de información, una
evaluación crítica de los estudios identificados y una comprensión equilibrada de las forta-
lezas y debilidades de los resultados entregados por la investigación.

Por una parte y en primer lugar, los sistemas de evaluación tienen la expectativa de cum-
plir con los requisitos para ser evidencia. Debemos decir que esto no necesariamente es
así, pero aunque lo sea, es muy importante que la información producida sea legitimada
públicamente.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

34
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Por esto, es necesario que la información difundida haga sentido en el ámbito de la opinión
pública a primera vista (face validity). Es muy difícil ir contra el sentido común de la gente,
o intentar posicionar en la agenda pública un determinado tema con argumentos dema-
siado técnicos y complejos, si no tiene sentido para las personas. Aunque sea redundante,
la evidencia debe ser “evidente” para muchos. Para constituir evidencia para el diseño de
políticas, la información, además de robusta y clara, debe estar disponible de manera fácil
y oportuna.

En segundo lugar, los sistemas de evaluación de aprendizajes no siempre están completa-


mente articulados con los decisores de políticas, ni siquiera de las educacionales, aunque
hagan todos los esfuerzos posibles por informar adecuadamente. Tampoco las autoridades
y los decisores de políticas están ansiosos esperando los aportes de la evaluación ni de
la investigación para tomar las decisiones informadamente y basándose en la evidencia.
Aunque se debe reconocer que también existe una forma de generación de políticas con
influencia más directa desde la evidencia, cuando surgen programas especiales desde el
mismo sistema educacional en respuesta a hallazgos específicos.

La teoría de redes sociales, habla de “hacer puentes” (brokerage) mediante intermediarios


que vinculen actores dentro de una misma o varias estructuras. Sin embargo, en algunos
países esto no existe o incluso se vería con desconfianza y se pensaría que se persiguen
fines políticos.

Sin embargo, se observa que a pesar de las dificultades, al menos en Chile, la evaluación
de aprendizajes ha tenido impacto (Meckes y Carrasco, 2006; Cariola et al., 2008). En base
a esta experiencia, nos atrevemos a plantear una hipótesis sobre la forma de impactar a
la política.

Considerando la importancia que juega la opinión pública como mecanismo de coacción


hacia el mundo político, creemos posible otro modelo de impactar a la política. Este se
muestra en la Figura 4, graficando la generación de políticas educacionales a partir de la
evidencia, pero procesada por la opinión pública. Hacia la derecha, creemos que se refleja
la demanda y conquista de iniciativas políticas de gran envergadura que, la gran mayoría
de las veces, son mediadas por la opinión pública.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

35
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Figura 4. Mecanismo de generación de políticas a partir de la evidencia

Fuente: Cariola, L.; Cares, G.; Rivero, R. 2008

La posibilidad señalada no disminuye la importancia de una buena comunicación, ya que


es necesario impactar y movilizar a un grupo social activo. En consecuencia, siempre se va
a requerir un esfuerzo por simplificar los mensajes comunicacionales, de modo que estos
puedan ser absorbidos por un máximo de personas: internas y externas al campo de la
educación, pero también entre los que están a favor y en contra del gobierno de turno. Por
las características propias de la actividad educativa, cada cual tiende a tener una postura
crítica frente al sistema educacional. En la medida que esta crítica sea más informada, se
convierte en un mecanismo de presión valioso y efectivo para la generación de nuevas y
mejores prácticas educacionales.

Se debe tener en cuenta que la comunicación se hace principalmente a través de los medios
de prensa y por tanto es necesario que periodistas y comunicadores tengan conocimientos,
aunque sean básicos, de lo que es la evaluación de aprendizajes y de sus requerimientos.

4.5.2. Impacto en las escuelas

El otro gran potencial para impactar el aprendizaje de los estudiantes se encuentra en las
escuelas. De aquí la importancia de informar específicamente a Directores, Profesores y
Padres de una manera clara y adecuada.

La forma de impactar en las escuelas ha sido muchas veces graficada con la frase “apoyo
y presión”. Detrás de esta frase, la responsabilización de las escuelas y profesores es un
elemento fundamental. Nos interesa enfatizar aquí la aparente necesidad de hacer un pro-
cesamiento muy particular de la información sobre evaluación en el contexto escolar. En el
caso de Chile, donde cada escuela recibe un informe individual (dado que la evaluación es
de carácter censal), se ha llegado a la conclusión de que la única forma en que docentes
y directivos se apropien de esta información es haciendo jornadas especiales dedicadas a
analizar sus propios resultados en contraste con otros.

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

36
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

Si se entregan resultados por escuela en forma pública o privada, es importante que estos sean:

„„ Contextualizados por variables tales como: nivel socioeconómico, características del es-
tablecimiento como si se selecciona a los estudiantes, la retención, la antigüedad de la es-
cuela, la rotación de profesores y la repitencia, entre otros. Dar la posibilidad de compararse
con otros de características semejantes.
„„ Dispersión de resultados y niveles de logro, ya que esto requiere medidas pedagógicas
especiales.
„„ Ejemplos de preguntas, analizando aspectos posibles de trabajar en el aula y posible
reorientación de las estrategias de enseñanza.

Cuando los resultados no se entregan a cada escuela es una opción que, como todas, tiene
ventajas y desventajas. Esta decisión puede fundarse en el interés de evitar la resistencia
de los docentes y directores o la estigmatización de las escuelas. También puede ser una
sana medida si las pruebas no permiten evaluar a los individuos o a las escuelas con sufi-
ciente confiabilidad, dado el tamaño del error de medición. Y, evidentemente, si las prue-
bas se aplican a una muestra de estudiantes como sucede con las pruebas internacionales,
habría que reflexionar detenidamente acerca de la posibilidad de entregar resultados a
algunas escuelas y a otras no. Si no se entregan resultados por escuela, pueden evitarse
muchos efectos no deseados, aunque las escuelas tendrán más dificultades para dejarse
impactar por resultados que pueden sentir como ajenos.

Aunque los resultados que se entreguen sean a un nivel de agrupación mayor a la escuela
(distrito, municipio, Estado o nacional), hay muchas formas de impactar a las escuelas.
Entre ellas podemos señalar las siguientes:

„„ En primer lugar será muy importante explicitar que el diagnóstico que se hace es repre-
sentativo de todas las escuelas que se incluyen y que será más pertinente mientras más
cercana sea la agrupación. Es importante que las escuelas se sientan involucradas en los
resultados.
„„ Establecer una relación entre la forma estandarizada de evaluar y las posibles evalua-
ciones en el aula. De esta manera los docentes podrán comparar sus resultados con los de
las pruebas estandarizadas.
„„ Las pruebas muestrales tienen la gran ventaja de que pueden lograr mayor cobertura
curricular, ya que pueden aplicar más preguntas en un conjunto mayor de estudiantes. Esto
significa que se pueden entregar resultados con mayor detalle. Por ejemplo, se pueden
entregar resultados por sub-escalas y así saber si es más importante reforzar álgebra, nú-
meros o geometría. Será información valiosa que si es bien comunicada ayudará mucho a
los docentes.
„„ Otra herramienta que sirve a los profesores para determinar cuán avanzados están sus
estudiantes, son los estándares de desempeño o niveles de logro. Al especificar y describir
en detalle lo que los estudiantes de un determinado nivel saben y pueden hacer, los do-

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

37
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

centes pueden determinar qué les falta por lograr a sus estudiantes.
„„ Los ejemplos de preguntas es algo que ilustra muy bien el tipo de conocimientos que
los estudiantes deben manejar. El desafío es que las preguntas deben ser ejemplares en
cuanto a los objetivos que se miden y a su construcción. Ojalá los distractores indiquen
falencias específicas y características de la materia evaluada, lo que permite identificar las
acciones reparadoras que parecen necesitarse.
„„ Finalmente, ya nos hemos referido a que los resultados son más aplicables a la propia
realidad mientras más cercano es el agrupamiento al que se refieren. Así cuando se entre-
gan resultados de una comuna por nivel socioeconómico, las escuelas con características
semejantes se podrán identificar con esos resultados. Sin embargo, hay que ser cuidadosos
para que esas características no aparezcan como disculpas para desempeños bajos. Las di-
ferencias de rendimiento son indicadores de inequidad y deben incentivar a su reparación.
Es bueno que se sepa que hay estudiantes con más dificultad que otros, para destinarles
más tiempo y recursos, pero no para conformarse con rendimientos inferiores.

4.6. Necesidad de medir el impacto efectivamente logrado

Dada la importancia asignada a la comunicación, creemos de suma importancia que los


sistemas investiguen su capacidad y efectividad de comunicación.

Para ello sugerimos medir la información recibida por cada uno de los actores y los efec-
tos de la evaluación percibidos por ellos. Si hubiere efectos no deseados, será necesario
revisar si esto se asocia a la forma de comunicar resultados o a otras características de la
evaluación.

Algunos aspectos que será importante considerar en estas apreciaciones incluyen:

„„ Acceso. Dependiendo de cuál sea la forma de distribución, puede ser que los actores
relevantes no reciban los reportes. De ser así, no hay ninguna posibilidad de impactar con
los resultados.
„„ Uso de los informes. Una vez asegurado el acceso es importante determinar cuál es
el uso que se da a esos reportes. El uso debe estar acorde con el tipo de impacto que se
quiere lograr.
„„ Oportunidad. Para las escuelas esto significa al inicio del año escolar, cuando están en
proceso de planificación
„„ Comprensión. Es importante asegurarse de que se está comprendiendo exactamente lo
que se quiere comunicar. Especial atención hay que dar a la comprensión de los símbolos,
por ejemplo de significación, que son relevantes y si no se entienden no cumplen ningún
propósito. Una constatación frecuente es lo crípticos que resultan muchos términos utiliza-
dos en el campo de la evaluación. Incluir un Glosario en los informes puede ser una buena
medida. Los gráficos e indicadores estadísticos deben ser objeto de máximo cuidado.
„„ En el caso de los docentes, la comprensión de lo que se ha evaluado y de lo que indican

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

38
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

los resultados debería ser tal que les permitiera replicar y/o complementar la evaluación
al interior del aula.
„„ Importancia gráfica. La forma de presentar resultados también debe ser sometida a
juicio para asegurarse de que ayuda a la comprensión y que parece amigable.

„„
Bibliografía

Epígrafe 1. Rol de la evaluación en los sistemas educacionales

Obligatoria

Bolívar, A. (2006): Evaluación institucional: entre el rendimiento de cuentas y la mejora


interna, Gest. Ação, Salvador, v.9, n.1, p.37-60, jan./abr. 2006.
http://www.oei.es/evaluacioneducativa/evaluacion_institucional_bolivar.pdf

Ravela, P. y otros (2007): Las Evaluaciones Educativas que América Latina necesita, PREAL,
Documentos No 40.
http://www.oei.es/evaluacioneducativa/evaluaciones_educativas_AL_necesita_preal.pdf

Recomendada

Castillo Sánchez, M., comp. (2004): La Evaluación: Una Estrategia A Nivel Internacional Para
El Mejoramiento De La Calidad Educativa, Secretaría de Educación de Bogotá, Dirección de
Evaluación y acompañamiento, Subdirección de Evaluación y Análisis.
http://www.eduteka.org/EvaluacionBogota.php

Chay, K.Y.; McEwan, P.J. y Urquiola, M. (2005): The Central Role of Noise in Evaluating Inter-
ventions That Use Test Scores to rank Schools, The American Economic Review, Septiembre.
http://www.columbia.edu/~msu2101/ChayMcEwanUrquiola(2005).pdf

De Landsheere, G. (2001): Implicit Theories, Unexamined Assumptions and the Status Quo
of Educational Assesment, Assessment in Education, Vol. 8, No2.

Tiana Ferrer, A. (2002): Una mirada técnico-pedagógica acerca de las eva-


luaciones de la calidad de la educación: ¿Qué pretendemos evaluar,
qué evaluamos y qué conclusiones podemos extraer de la evaluación?,
Documento presentado en el Seminario Internacional: “La dimensión política de la eva-
luación de la calidad educativa en América Latina”. IIPE-MINEDUC. Chile, Diciembre 2002.

http://www.oei.org.ar/noticias/Que_pretendemos_evaluar.pdf

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

39
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valu ac ión, enc ue stas y e studios c ualit at ivos

Epígrafe 2. Tipos de evaluación de aprendizajes

Obligatoria

Wolfe, R. (2000): El dilema de la “Granularidad” en el Diseño del Sistema de Evaluación:


Cobertura curricular vs. Cobertura poblacional. En Ravela, P. y otros: Los Próximos Pasos:
¿Cómo avanzar en la Evaluación de Aprendizajes en América Latina? Documentos PREAL No
20. http://www.oei.es/calidad2/grade.PDF

Recomendada

Observatorio Regional de políticas de Evaluación Educativa del PREAL. Se recomienda espe-


cialmente el Boletín No 7.

Revista Iberoamericana de Educación

http://www.rieoei.org/numeros_anteriores.htm
OEI: http://www.oei.es/quipu/peru/index.html#eval

Ferrer, G. (2006): Sistemas de evaluación de aprendizajes en América Latina. Balances y


desafíos, PREAL. http://www.rinace.net/bliblio/Ferrer2006.pdf

Epígrafe 3. Instrumentos y Requerimientos Metodológicos de la Evaluación

Obligatoria

Valverde, G. (2000): La interpretación justificada y el uso apropiado de los resultados de la


evaluación. En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo avanzar en la Evaluación de
Aprendizajes en América Latina?, Documentos PREAL No 20.
http://www.oei.es/calidad2/grade.PDF

Recomendada

Allalouf, Avi (2007): Quality Control Procedures in the Scoring, Equating, and Reporting of
Test Scores, Educational Measurement: Issues and Practice, Spring 2007.
http://ncme.org/linkservid/4760E0DB-1320-5CAE-6E6B90BC299B5FE5/showMeta/0/

Esquivel, J.M. (20010): El diseño de las pruebas para medir logro académico: ¿Referencia a
normas o a Criterios?, En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo avanzar en la Eva-
luación de Aprendizajes en América Latina?, Documentos PREAL No 20.
http://www.oei.es/calidad2/grade.PDF

Ravela, P. (2000) La información respecto a los factores sociales e institucionales asociados


a los resultados. En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo avanzar en la Evaluación

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

40
U NIDA D 7 I n d i cadore s a par tir de e s tudios de e valuac ión, enc ue stas y e studios c ualit at ivos

de Aprendizajes en América Latina?, Documentos PREAL No 20.


http://www.oei.es/calidad2/grade.PDF

Toranzos, L. (s. f.): Los ámbitos de la evaluación educativa y algunas falacias frecuentes,
OEI. En: http://www.oei.es/calidad2/falacias.htm

Verhelst, N.D., (2004): Classical Test Theory. En en Reference Supplement to the Preliminary
Pilot version of the Manual for Relating Language examinations to the Common European
Framework of Reference for Languages: learning, teaching, assessment, Sección C , DGIV/
EDU/LANG (2004) 13, Council of Europe.
http://www.coe.int/t/dg4/linguistic/manuel1_en.asp

Epígrafe 4. Comunicación de indicadores de aprendizaje a partir de las evaluaciones

Obligatoria

Cariola, L.; Cares, G.; Rivero, R. (2008): “Sistemas de evaluación como herramientas de
políticas”,, En Revista Iberoamericana de Evaluación Educativa, 2008, Vol 1, N° 1,. Parte 3,
páginas 64-7812 y siguientes. http://rinace.net/riee/numeros/vol1-num1/art5.html

Ravela, P. (2001): ¿Cómo Presentan sus Resultados los Sistemas Nacionales de Evaluación
Educativa en América Latina?, Documentos PREAL, Agosto 2001.
http://www.oei.es/calidad2/ravela.pdf

Wolfe, R. (2001b): Alternativas técnicas en relación a las escalas de reporte de los resul-
tados de las pruebas de rendimiento, En Ravela, P. y otros: Los Próximos Pasos: ¿Cómo
avanzar en la Evaluación de Aprendizajes en América Latina?, Documentos PREAL No 20.
http://www.oei.es/calidad2/grade.PDF

Recomendada

Fullan, M. (1998): El significado del cambio educativo: un cuarto de siglo de aprendizaje,


En: Profesorado, revista de currículum y formación del profesorado, 6 (1–2), 2002, Traduc-
ción de Santiago Arencibia (Universidad de Las Palmas de Gran Canaria) y revisión técnica
de Antonio Bolívar. https://www.ugr.es/~recfpro/rev61ART1.pdf

Ferrer, G. (2009): Estándares de Aprendizaje Escolar. Procesos en curso en América Latina,


Documento PREAL No 44.
http://www.preal.org/Archivos/Preal%20Publicaciones/PREAL%20Documentos/Estan-
dares%20de%20aprendizaje%20escolar%2044.pdf

EXPERTO UNIVERSITARIO EN INDICADORES Y ESTADÍSTICAS EDUCATIVAS

41

También podría gustarte