Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AGOSTO 13
ÍNDICE
1. INTRODUCCIÓN 4
2. RESUMEN EJECUTIVO 6
3. MARCO TEÓRICO 10
3.1. Breve referencia histórica sobre el concepto de validez 10
3.2. Principales discusiones en torno al concepto de validez 12
3.3. Concepto de validez: principios generales, tipología y métodos a considerar 16
en este estudio
3.4. Validez en SIMCE: literatura disponible 25
4. METODOLOGÍA 31
4.1. Aproximación metodológica 31
4.2. Preguntas y objetivos de investigación 31
4.3. Revisión de la literatura disponible 32
4.4. Recolección de datos 34
4.5. Análisis de los datos 39
4.6. Limitaciones 41
5. RESULTADOS DE LA INVESTIGACIÓN: DESCRIPCIÓN DEL PROCEDIMIENTO 42
5.1. Información acerca del proceso SIMCE en base a documentos 45
5.2. Información acerca del proceso SIMCE en base a entrevistas 54
6. RESULTADOS DE LA INVESTIGACIÓN: ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SIMCE 58
6.1. Propósitos 58
6.2. Constructo y contenido 59
6.3. Criterio 78
6.4. Consecuencias 79
6.5. Aspectos de administración y procedimiento 86
6.6. Interpretación 90
7. INTERPRETACIÓN Y DISCUSIÓN 91
8. CONCLUSIONES 98
9. RECOMENDACIONES 100
REFERENCIAS Y BIBLIOGRAFÍA 103
ANEXO 1 108
ANEXO 2 111
ANEXO 3 117
4 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
1. INTRODUCCIÓN
Han transcurrido más de veinte años desde la creación por ley del Sistema de Medición de la
Calidad de la Educación (SIMCE), tiempo durante el cual esta evaluación ha llegado a ser parte
constitutiva del sistema educativo chileno y de su funcionamiento. Los estudios críticos acerca
de este sistema de evaluación son anteriores al año 2000 y aluden a aspectos asociados a la
comparabilidad de los datos (Schiefelbein, 1998) y a la necesidad de considerar los tiempos
necesarios para el logro de cambios participativos y significativos en educación (Himmel, 1992).
El único estudio sistemático existente sobre la validez del SIMCE es el de Eyzaguirre y Fontaine
(1999). En este las autoras analizan los documentos disponibles públicamente acerca de las
pruebas de Lenguaje y Comunicación y Educación Matemática, con el fin de examinar la validez
del SIMCE en sus dimensiones de constructo y contenido (ver sección 3.4). No obstante, este
análisis se realizó hace más de una década , en base a instrumentos antiguos y de transición
diferentes a los actuales, y las mismas autoras expresaron en ese entonces preocupaciones
acerca de las nuevas pruebas. Junto con ello, aspectos como la multiplicidad de propósitos y
usos del SIMCE, así como la dimensión consecuencial (Messick, 1989) o de impacto (Crooks et
al., 1996) de la prueba, no se consideraron en este análisis, lo que resulta incompleto desde la
perspectiva que hoy predomina acerca la validez como un concepto unitario. Pese a ello, se
reitera en la literatura, sin que se diga muy claramente de dónde proviene la evidencia, que
SIMCE es una prueba metodológicamente sólida y que goza de legitimidad y credibilidad
(Meckes y Carrasco, 2010; Comisión SIMCE, 2003).
Dada su importancia y la influencia que tiene sobre los actores y las decisiones del sistema
educativo nacional, resulta urgente realizar un estudio sistemático acerca de la validez del
SIMCE, considerando tanto sus propósitos como las dimensiones de constructo, contenido,
criterio y consecuencias que componen el concepto de validez. El presente informe da cuenta de
los resultados de un proyecto financiado por el Consejo Nacional de Educación cuyo propósito
central es precisamente cubrir esta brecha de investigación.
La investigadora quisiera agradecer al Consejo Nacional de Educación por apoyar este proyecto,
así como a cada uno de los participantes del estudio, tanto profesores como miembros del
equipo SIMCE, por su contribución al mejoramiento de la validez de este sistema de evaluación.
Además, quisiera agradecer a los académicos y expertos en evaluación que aportaron con su
opinión al mejoramiento del presente estudio: la Profesora Jo-Anne Baird, el Profesor David
Andrich y la Dra. Therese Hopfenbeck. Por último, se agradece también a las cuatro expertas
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 5
que contribuyeron a validar los juicios de la investigadora en el análisis crítico de las preguntas
del modelo de prueba de Lectura para 2º básico.
6 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
2. RESUMEN EJECUTIVO
General:
Específicos:
Metodología:
Principales resultados:
Propósitos:
Dimensión de criterio
Dimensión consecuencial:
Aspectos de procedimiento:
Algunos aspectos de procedimiento que pueden afectar la validez de los resultados son:
Condiciones laborales de los constructores externos de preguntas (p.ej. tiempo
insuficiente para elaborar buenas preguntas, trabajo adicional a su jornada laboral
regular).
Condiciones laborales de los correctores de pregunta abierta: precarización creciente
(poco descanso, mucha presión, bajos sueldos, etc.)
Actitud intransigente y autoritaria de algunos miembros del SIMCE que podría
impedir mejorar el proceso (p.ej. no se modifican las pautas pese a que se reciben
comentarios y sugerencias todos los años).
Interpretación:
Tanto los medios como los documentos del SIMCE presentan interpretaciones que,
de acuerdo con el presente análisis, no son válidas. Por ejemplo, no es válido
interpretar que los resultados del SIMCE reflejan el aprendizaje de todo un ciclo, o
que representan la calidad de la enseñanza en un establecimiento, o que los
docentes del nivel correspondiente son ‘buenos’ o ‘ malos’.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 9
Principales conclusiones:
Recomendaciones:
3. MARCO TEÓRICO
Según Newton (2012), el término validez comienza a utilizarse en el ámbito de las pruebas
estandarizadas desde las primeras décadas del siglo XX, aun cuando la preocupación por definir
este y otros conceptos ampliamente utilizados emerge solamente a partir de la década de los
años '20, con la proliferación del uso de este tipo de instrumentos en la sociedad
norteamericana. Desde su primera definición o su definición mas clásica, "por validez se
entiende el grado en que un test o examen mide lo que se propone medir" (Ruch, 1924: 13,
citado en Newton, 2012), la discusión ha sido extensa, aun cuando hoy predomina la visión
integrada del concepto desarrollada por Messick (1980), donde todas las dimensiones del
concepto se subsumen a la determinación de un constructo a medir (ver sección 3.2).
Ambos acercamientos a la validez de una prueba siguen operando hoy en día. Sin embargo, la
discusión actual está más claramente marcada por una tercera línea que emerge desde una
mayor preocupación por la teoría subyacente a un test, es decir, por el constructo que está
siendo evaluado. En su sentido original, definido por Cronbach y Meehl (1955), la validez de
constructo implica comprobar la cercanía entre los resultados de una medición y las
predicciones que acerca de estos se realizan en base a la teoría. Ello implica comprender que lo
que mide una prueba está fundamentado en una determinada teoría, la que se encuentra
implícita en el instrumento (Kane, 2008). Si bien esta conceptualización constituye la base de lo
que se entiende como validez de constructo, dichos autores solamente la desarrollaron para
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 11
casos específicos en que ciertos constructos teóricos no podían validarse ni por medio de
contenido ni de la definición de un criterio. Pese a ello, Kane (2008) distingue tres principios
centrales que Cronbach y Meehl desarrollan en su artículo, en términos de los caminos que
estos abrirían para el posterior desarrollo y entendimiento del concepto de validez:
Estas ideas llevan posteriormente a Messick (1980) a criticar la fragmentación del concepto de
validez en determinadas tipologías y a proponer un concepto unitario de validez. El
cuestionamiento de Messick (1980) se relaciona con que, al compartimentalizar el concepto, se
genera la creencia de que basta con tener en cuenta un solo tipo de validez en lugar de
concentrarse en la interpretación global de los puntajes.
Así se observa, por ejemplo, en la tipología que Cronbach (1984) establece en términos de
cuatro tipos de validación (predictiva, concurrente, de contenido y de constructo), cada uno de
los cuales resulta atingente dependiendo del propósito o uso que se espera dar a la prueba.
Newton (2012) explica que esto llegó a entenderse en la práctica en términos rígidos, es decir,
como si hubiese un solo tipo de validez a considerar para un uso determinado. De manera
similar, Lissitz y Samuelsen (2007) desarrollaron un modelo de validez basado principalmente en
el contenido 'interno' de una prueba, que excluye la evidencia basada en criterio, teoría y
consecuencias del instrumento, considerándola como aspectos 'externos' relacionados con la
utilidad de una prueba y no con su validez. Este modelo ha sido ampliamente criticado (ver por
ejemplo Sireci, 2007; Kane, 2008; Moss, 2007) por ignorar aspectos que hoy alcanzan amplio
consenso en la literatura, como el reconocimiento de que no es el test el que es válido, sino las
interpretaciones que de él se espera realizar en relación con determinados propósitos (ver
sección 3.3 para más detalles). Pese a las críticas, incluso hoy se siguen utilizando estas
tipologías. Newton llegó recientemente a rastrear aproximadamente 149 categorías en la
literatura sobre validez en medición psicológica y educacional (conf. Newton, 2013), que se
agregan a las 17 que Messick (1980) ya criticaba en su tiempo.
Basado en las ideas de autores como Tenopyr (1977) y Guion (1977), Messick (1980: 1015)
indica que:
“(...) la validez de constructo es, de hecho, el concepto unificador de la validez, que integra las
consideraciones de criterio y de contenido en un marco común para testear hipótesis racionales
sobre relaciones teóricamente relevantes. Este significado del constructo provee una base
racional tanto para hipotetizar relaciones predictivas como para juzgar la relevancia y
representatividad del contenido.”
Esto significa que es el constructo teórico de aquello que se busca evaluar lo que prima y da
sentido a todos los otros aspectos de la validez. Solamente sobre una base teórica clara y sólida
se puede luego establecer cuál es el contenido y/o el criterio a considerar y se puede proveer
evidencia que sustente las interpretaciones que se realizan acerca de los puntajes del
12 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
instrumento. Por ejemplo, si se trata de una prueba de comprensión lectora, según el concepto
unitario de Messick, lo primero que se debiera considerar es qué ideas o teorías sobre lo que
significa la comprensión de un texto se utilizarán como base para el constructo y qué
interpretaciones se espera desprender del instrumento a diseñar en base a esa teoría. Teniendo
en cuenta este primer paso, se puede posteriormente definir qué significa, por ejemplo, que
dicho constructo quede adecuadamente representado en una evaluación, y qué evidencia se
necesita para indicar que nuestra interpretación del puntaje se acerca a aquella que se
hipotetizó en base a la teoría. Existe actualmente un amplio consenso en la literatura en torno a
esta idea unitaria de la validez en evaluación (ver por ejemplo Crooks at al., 1996; Kane, 2008;
Newton, 2012; Sireci, 2007; Hubley y Zumbo, 2011).
Junto con el concepto unitario, Messick introduce otra dimensión de la validez cuya importancia
se reconoce en teoría, pero pocas veces se contempla en la práctica de la construcción de
instrumentos de evaluación. Se trata de la dimensión consecuencial de la validez, es decir,
aquella que se relaciona con ‘las consecuencias sociales del uso intencionado *de un test+’ y ‘las
consecuencias reales de su uso’ (Messick, 1980: 1023). Por lo tanto, no basta con proveer
evidencia acerca de la plausibilidad de las interpretaciones propuestas para un determinado
instrumento, sino que también se debe evaluar cuáles son las consecuencias para la sociedad
derivadas del uso de una medición (Hubley y Zumbo, 2011), en el sentido de si las consecuencias
que genera corresponden a un uso éticamente responsable del test (Messick, 1980).
Este ámbito de la validez sigue siendo discutido (conf. Mehrens, 1997 and Popham, 1997), aun
cuando autores como Koch y DeLuca (2012) aluden a la creciente literatura en torno al impacto
considerable que los instrumentos de evaluación tienen sobre el aprendizaje de los estudiantes,
la enseñanza, la cultura escolar y la política educativa. De allí que estos y otros autores se
encuentren explorando recientemente nuevos modelos para estudios de validez en los que se
contemple la complejidad de los múltiples propósitos e interpretaciones de una evaluación,
además de las posibles interacciones entre los diversos usos que se le dan (Koch y DeLuca,
2012).
En síntesis, las principales dimensiones del concepto de validez que se reconocen actualmente
se incorporaron a la discusión en momentos históricos específicos y de acuerdo a las
necesidades de la sociedad en relación con la evaluación estandarizada. Se transita inicialmente
desde la centralidad del contenido a evaluar, hacia la posibilidad de predecir comportamientos,
ámbitos en los que generalmente la validez se limita a ciertos procedimientos estadísticos como
la detección de coeficientes de correlación o al chequeo de la relación entre contenidos e ítems.
Una vez que la discusión en torno al tema de la validez se complejiza y se hace explícita, se
incorpora la dimensión más cualitativa y de juicio, a partir de la cual aspectos como la teoría
subyacente a un instrumento y sus usos y consecuencias se vuelven fundamentales para
considerar que las interpretaciones derivadas del puntaje de una evaluación son válidas.
Antes de indicar los aspectos de la validez sobre los cuales existe consenso en la literatura y que
se entenderán como el marco del presente estudio, es importante indicar también aquellos
acerca de los cuales existe todavía discusión y disenso. De esta manera se contextualiza el
análisis de SIMCE en relación con las contribuciones que éste puede realizar a la teoría general
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 13
sobre la validez a partir de evidencia empírica que responda a los problemas actuales de este
campo de investigación.
Las grandes discusiones en torno al tema de la validez se pueden resumir en dos grandes puntos
de desacuerdo: la concepción unitaria del concepto de validez y la inclusión de la dimensión
consecuencial como parte de la determinación de la validez de un proceso de evaluación. Es
necesario mencionar, no obstante, que los autores que cuestionan ambos aspectos son
minoritarios y que las concepciones predominantes son las descritas en la siguiente sección.
El concepto unitario de validez propuesto por Messick (1980; 1989), referido a la dimensión de
constructo como aquella que predomina y subsume a todas las demás, es ampliamente
aceptado tanto por los teóricos de la evaluación como por la comunidad profesional experta en
el tema a través de sus diversos estándares (ver por ejemplo Shepard, 1997; Crooks at al., 1996,
Linn, 1997; Moss, 2007; Kane, 2011). Pese a ello, hay autores como Mehrens (1997) y Lissitz y
Samuelsen (2007), que proponen básicamente el regreso a una idea más simple de validez en la
que las tipologías persisten y co-existen o en que una de ellas se deja como la única atingente a
la validez.
Mehrens (1997) indica añorar el pasado en que principalmente se hablaba de dos tipos de
validez, de contenido y de constructo, para las cuales se podía ofrecer evidencia basada en
contenido, en constructo o en criterio, dependiendo del tipo de inferencia que uno quisiera
realizar en base al test. La principal crítica de Mehrens (1997) se refiere a que considera
reduccionista supeditar todos los tipos de validez y de evidencia a una sola etiqueta abarcadora,
lo que borra los límites de las distinciones tradicionales entre diferentes tipos de inferencia.
Lissitz y Samuelsen (2007), por su parte, establecen una separación entre los aspectos internos y
externos de una evaluación, considerando entre estos últimos los usos dados a un instrumento,
y situando a la validez dentro de los aspectos internos de la prueba. En base a esta separación,
proponen un regreso al momento en el cual solamente bastaba con evaluar la relevancia y
cobertura del contenido de una prueba, independiente de los usos que se le den o de la teoría
que la sostenga.
Ello contradice, primero, toda la literatura que alude a que no es el test el que es válido en sí
mismo, sino las interpretaciones que de él se realizan. Además, la propuesta vuelve a una
concepción de la evaluación como centrada en el contenido, que tuvo su relevancia y su
momento histórico, pero que al parecer no encuentra mayor eco dentro de la discusión teórica
contemporánea. Como ya se ha dicho, esta aproximación a la validez ha sido ampliamente
criticada por autores como Kane (2008) y Sireci (2007).
Los críticos de esta idea de validez indican, por ejemplo, que una evaluación no puede basarse
solamente en el contenido, pues incluso cuando se indica que se trata de una prueba de
matemática para un grado específico, lo que se entiende por el dominio de las matemáticas en
ese nivel depende de cómo entendemos la matemática en general y la matemática para dicho
nivel, es decir, de un constructo y una interpretación específicos acerca de lo que se evalúa.
Junto con ello, Kane (2008) indica que en la práctica es usual que las pruebas se validen de esta
forma más rígida y restringida basada en el contenido, pero que es igualmente común que luego
14 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
se las interprete y utilice de maneras que van más allá de esta interpretación restringida inicial.
Por lo tanto, si bien la solución de Lissitz y Samuelsen pudiera parecer cómoda y más fácil, lo
que hace es simplemente desplazar la responsabilidad por la validez hacia los usuarios de una
prueba, dejando a los constructores solamente la responsabilidad por la cobertura del
contenido.
En ambas críticas lo que principalmente se vislumbra es cierta nostalgia por un pasado en que la
validez se entendía de manera más simple y, por lo tanto, el trabajo de validación de los
evaluadores resultaba, a su vez, más simple. Sin embargo, como ya se ha dicho, gran parte de
los teóricos sobre el tema están a favor de la concepción unitaria de Messick, que parece
responder de manera más clara a las necesidades y preocupaciones actuales en torno a la
evaluación en términos de sus interpretaciones y usos.
Un ámbito en torno al cual el disenso es mayor se relaciona con la inclusión que Messick (1980;
1989) realiza de las implicaciones valóricas y las consecuencias sociales de la evaluación como
parte de su modelo de validez. Para este autor, todo constructo teórico está ligado a
determinados supuestos valóricos, que van desde cómo se entiende la inteligencia en un
contexto particular hasta conexiones más sutiles con la ideología. Por ello, estos aspectos deben
considerarse dentro de la interpretación de una evaluación. Además, en el ámbito del uso de un
test no solamente se debe considerar la relevancia o utilidad y la validez de constructo, sino
también las consecuencias sociales que genera, entendidas como los posibles efectos
secundarios positivos y negativos de la prueba, y su relación de equilibrio con sus propósitos
explícitos. El modelo de validez de Messick (1980: 1023) se resume en la Figura 1, que aparece
frecuentemente aludida o citada en la literatura sobre el tema.
Base Consecuencial
Implicaciones valóricas Consecuencias Sociales
significado del constructo a evaluar, así como la evidencia de que el test mide tal constructo
pueden establecerse sin referencia a ningún uso en particular. Tenopyr (1996) ha llegado a
indicar que hablar de las consecuencias como una dimensión de la validez, incluyendo las
acciones de otros en base al test, pervierte los fundamentos científicos de la medición.
Shepard (1997) contesta a estas críticas indicando que se puede abordar la validez de la
interpretación de una prueba sin considerar el uso del test, ‘siempre y cuando no se pretenda
ningún uso’ (1997: 6). Sin embargo, esto rara vez ocurre, ya que las pruebas estandarizadas se
utilizan para la toma de decisiones. Para la autora, cada vez que esto sucede, el análisis de la
validez debe realizarse en relación con el uso específico que se busca dar al test, incluyendo sus
potenciales efectos y consecuencias. Da como ejemplo la existencia de incrementos en el
financiamiento de los distritos escolares relacionados a un aumento en los puntajes de las
pruebas estandarizadas, mecanismo que requeriría evaluar las consecuencias que pudiera
generar en el aprendizaje. Para ilustrar de mejor manera esta idea, se puede ejemplificar con el
caso de SIMCE, donde la estrategia mencionada por Shepard se observa a partir de la ley SEP,
que relaciona provisión de financiamiento con incrementos de puntaje, por lo que las
consecuencias de ello deberían evaluarse para asegurar la dimensión consecuencial de la validez
de esta prueba. Hay autores que sostienen que esto viene realizándose de manera indirecta
desde la instauración del SIMCE, puesto que la competencia por matrícula a la que las escuelas
chilenas están sometidas en el actual modelo educativo neo-liberal, implica que un puntaje alto
en SIMCE atrae más dinero a los establecimientos (Maureira et al., 2009). Para estos autores,
una de las consecuencias graves de esta práctica es perpetuar la inequidad del sistema, puesto
que las escuelas buscan quedarse con los ‘mejores’ alumnos, excluyendo y segregando a los de
rendimiento más bajo. Si se indica que uno de los propósitos del SIMCE es mejorar la calidad y
equidad de la educación en Chile (ver sección 6.1), entonces las consecuencias antes
mencionadas podrían ser parte de un problema de validez del sistema de evaluación y no
simplemente un efecto externo o un mal uso.
Principios generales
Más allá de las discusiones teóricas, se puede afirmar que hay ciertos aspectos de la validez de
una prueba acerca de los cuales hay amplio acuerdo en la literatura actual. Junto con ello, para
autores como Newton (2012) resulta fundamental que exista cierto nivel de consenso en cómo
se entiende este concepto, no solamente entre los expertos, sino también entre todos aquellos
que participan del proceso (los desarrolladores de las pruebas, los encargados de políticas, los
usuarios, la opinión pública y los evaluados). De ello depende que todos comprendan los
resultados adecuadamente y los utilicen de forma responsable. Junto con ello, autores como
Moss (2007) y Koch y DeLuca (2012) insisten en la necesidad de comprender los procesos de
validación en términos de una indagación permanente y continua, debido al carácter
contextualizado y temporal de estos procesos; ello significa que, en lo que denomina la
concepción generativa de la validez, esta debe ser cuestionada y re-estudiada
permanentemente con el fin de comprobar que un determinado proceso de evaluación sigue
siendo válido en el tiempo y con los cambios de contexto.
“La cualidad que más afecta el valor de un test (…) es su validez. La validez es alta si un test mide
lo que corresponde, es decir, si provee la información que aquel que toma las decisiones
necesita. No importa qué tan satisfactorio es en otros aspectos, un test que no mide lo que
corresponde no sirve para nada.”
Pese a que ningún autor contradice la centralidad de la validez como un aspecto que define la
calidad de una evaluación, Crooks et al. (1996) destacan la forma en que los procesos de
confiabilidad y generalización de una evaluación reciben más atención en la práctica que la
dimensión de validez del instrumento. Los autores indican que ello se debe a que el carácter
algorítmico de los procedimientos usualmente utilizados para determinar la confiabilidad y el
grado de generalización de una prueba los hacen ‘más fáciles de estandarizar, informar y
defender’ (1996: 266), mientras que los procedimientos asociados a la validez se basan mucho
más en el juicio humano, por lo que su determinación y defensa resultan más complejas. Ello
incluso influye en las formas más comunes de abordar la validez, que se centran en la
correlación de mediciones (dimensión concurrente y predictiva) y en aspectos psicométricos,
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 17
dejando de lado las dimensiones de constructo y las consecuencias, así como otros tipos de
evidencia (Crooks et al., 1996; Koch y DeLuca, 2012).
Newton (2012) agrega a lo anterior que la validez de la interpretación para una determinada
evaluación no se refiere solamente al instrumento que se utiliza, sino que compete al proceso
completo de medición, es decir, alude a aspectos de administración, de evaluación, a la forma
en que se entrega información acerca de los resultados, etc. De allí que el modelo de validez de
Koch y DeLuca (2012), tal como lo propone el presente estudio, incorpore a los diferentes
actores del proceso de evaluación y sus interpretaciones y usos particulares de la prueba.
Al concordar en que la validez se relaciona con las interpretaciones que se pueden realizar a
partir de un proceso de evaluación, la literatura asume un acuerdo en relación con el concepto
unitario de validez de Messick, a partir del cual todas las dimensiones de la validez se relacionan
o están supeditadas al constructo teórico que se busca evaluar. La siguiente definición de
Messick (1989: 13) es ampliamente referida en los textos sobre el tema:
“La validez es un juicio evaluativo integrado acerca del grado en el cual la evidencia empírica y
los fundamentos teóricos sustentan la adecuación y lo apropiado de las inferencias y acciones
basadas en los puntajes de un test u otros modos de medición.”
En base a esta definición, los autores en su mayoría concuerdan, en base a Kane (2008), que la
aproximación contemporánea al concepto de validez es la basada en argumento (argument-
based approach), esto es, consiste en proveer evidencia adecuada para evaluar la plausibilidad
de las inferencias y supuestos implícitos en una interpretación o uso de una prueba.
Finalmente, otro aspecto en torno al cual los autores en general parecen coincidir, es en que la
validez no puede establecerse de forma inequívoca y absoluta, es decir, que lo que se realiza al
validar un proceso de evaluación es hacer que este alcance el mayor grado de validez posible
para un propósito determinado. Koch y DeLuca (2012: 104), refiriéndose al enfoque basado en
argumento de Kane, explican:
“Kane especifica que los argumentos de validez son afirmaciones refutables que dependen de la
evidencia disponible y se sitúan dentro de contextos de práctica específicos. Por lo tanto, los
argumentos de validez pueden ser alterados a la luz de nueva evidencia o en contextos nuevos.
Kane también enfatiza que los argumentos de validez son siempre un asunto de grado más que
un juicio definitivo.”
18 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
De forma similar, Cronbach (1984) indica que la selección de un test siempre debe hacerse en
relación con el propósito particular para el cual se lo quiere utilizar y en relación con la situación
particular en la que se lo empleará, y por ello critica la posibilidad de realizar listados de buenas
pruebas, ya que la calidad dependerá de cuán válidas estas son para un propósito y un contexto
determinados. A ello alude también Newton (2012) cuando indica que la validez es siempre
contingente y condicional, que debe juzgarse en términos de la mejor construcción existente al
presente acerca del atributo a evaluar, que la especificación del constructo es tan buena como
puede serlo en este momento y que el procedimiento permite medirlo lo suficientemente bien.
En síntesis, los principios centrales acerca de los cuales existe mayor consenso en torno a la
validez en la literatura sobre el tema son: la importancia del concepto de validez para la calidad
de una prueba; la idea de que un test no es válido en sí mismo, sino que las interpretaciones
derivadas de su puntaje son válidas o no en relación con un propósito o uso determinado; el
principio de que la validez es un juicio integrativo acerca del proceso de evaluación como
totalidad y que, por lo tanto, requiere de la provisión permanente y creciente de evidencia para
dicho juicio; y la idea de validez como un tema de grados y no de afirmación o negación
absolutas.
Tipología y métodos
Junto con los acuerdos en torno a ciertos principios, hay determinadas dimensiones de la validez
que son reconocidas en gran parte de la literatura sobre el tema: de constructo, contenido,
predictiva, concurrente y consecuencial. Más allá de cuál es la que predomina o abarca a las
demás, parece existir consenso en relación con que estas son las formas fundamentales a
considerar a la hora de validar una prueba. Además, cada dimensión lleva asociados ciertos
métodos específicos de validación. A continuación se define cada una de estas dimensiones, de
la manera en que serán entendidas en la presente investigación, y se proveerá una descripción
de los métodos que la literatura reconoce más comúnmente para cada una de ellas.
Dimensión de constructo
Denominada en un inicio por Cronbach y Meehl (1955) como validez de constructo, esta idea se
introduce al campo de la evaluación por medio de la psicología, específicamente por el rol
asignado a la teoría psicológica en la construcción de pruebas, a partir de la cual la validación
incluía probar o refutar hipótesis formuladas en base a la teoría (Anastasi y Urbina, 1997). La
dimensión de constructo se refiere específicamente al constructo teórico o rasgo que se busca
medir y la evidencia que se provee acerca de que el test está efectivamente midiendo tal rasgo
(Anastasi y Urbina, 1997). Para Messick, desde su concepto unitario de validez, esta dimensión
se convierte en la más importante y la que abarca a todas las demás (Messick 1980, 1989). Así,
el autor define la dimensión de constructo como:
“(…) la base en evidencia para la interpretación del test. Implica tanto evidencia convergente
como discriminante que documente relaciones empíricas teóricamente relevantes (a) entre el
test y diferentes métodos para medir el mismo constructo, así como (b) entre mediciones del
constructo y ejemplos de diferentes constructos que se predijo que estarían relacionados
nomológicamente.” (Messick, 1980: 1019)
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 19
Sin embargo, esta dimensión de la validez no solamente implica la provisión de evidencia para la
interpretación del test, sino también para el uso de la prueba en relación con un determinado
propósito (Messick, 1980). Para ello se desarrollan hipótesis que relacionan el constructo con la
ejecución en un dominio práctico, y que determinan “la relevancia del constructo para el
propósito práctico y la utilidad de la medición en un contexto práctico” (1019).
Al ser una dimensión más abarcadora, los procedimientos asociados a ella son más complejos e
implican el trabajo con diversas fuentes de evidencia. Un procedimiento posible es la
correlación con otros test que miden un constructo similar, aun cuando se espera una
correlación más baja que en la dimensión de criterio, puesto que de lo contrario el nuevo test
resultaría innecesario (Anastasi y Urbina, 1997; Cronbach, 1984). La correlación con otros test
también se utiliza desde la lógica inversa, esto es, se confirma que el test no se correlaciona con
otros instrumentos cuyos constructos no son relevantes para la medición (por ejemplo, que una
prueba de habilidad matemática no se correlacione de manera muy alta con una prueba de
comprensión lectora, puesto que de lo contrario este segundo rasgo estaría teniendo una
influencia sobre los resultados, es decir, el desempeño de los estudiantes estaría variando por la
comprensión que tienen de los ejercicios y no necesariamente por su habilidad matemática).
El análisis factorial es otra fuente de información posible (Anastasi y Urbina, 1997; Cronbach,
1984). Se trata de “una técnica estadística refinada para analizar las interrelaciones de los datos
de comportamiento” (Anastasi y Urbina, 1997: 128). Esto quiere decir que, de una multiplicidad
de pruebas con factores considerados teóricamente afines (por ejemplo, vocabulario, gramática,
comprensión de textos), se determina cuáles están correlacionados en un nivel suficiente como
para llegar a constituir un constructo más abarcador (por ejemplo, comprensión verbal).
Realizado este análisis, se describe la composición factorial de la prueba, esto es, se caracteriza
en términos de los factores que determinan el puntaje y el peso de cada factor, y se determina
la correlación de la prueba con cada factor, correlación denominada validez factorial.
Campbell (Campbell, 1960; Campbell and Fiske, 1959) agrega a las posibles fuentes de evidencia
la validación convergente y discriminante. Ello significa que se debe demostrar la correlación de
la prueba con otras variables con las que debiera estar conectada teóricamente y también que
no se correlacione de manera significativa con variables de las que debiera distinguirse
teóricamente. Para efectuar este procedimiento de validación, los autores proponen el uso de
un diseño experimental sistemático que implica evaluar dos o más rasgos por medio de dos o
más métodos. Se hipotetizan en base a la teoría todas las correlaciones posibles entre los
diversos métodos y rasgos, y se establecen coeficientes de validez y confiabilidad, en los que se
espera una alta correlación entre las diferentes mediciones para un mismo rasgo. Para que la
prueba tenga una validez satisfactoria, se espera una menor correlación entre diferentes rasgos
medidos con métodos diferentes y entre diferentes rasgos medidos por el mismo método.
20 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Durante los años ’80 y ’90, se extendió el uso de modelos de ecuaciones estructurales como
método de validación de constructo (Anastasi y Urbina, 1997). Consiste en el establecimiento de
un modelo de relaciones causales hipotéticas en base a la teoría, relaciones que luego se
testean a través de ecuaciones de regresión lineal simultáneas. Los datos se comparan con los
modelos teóricos para evaluar el ajuste entre ambos. No obstante, pese a que exista ajuste, se
debe tener en cuenta que dicho ajuste puede ocurrir con muchos otros modelos, es decir, que
pueden existir muchas otras explicaciones alternativas para un determinado comportamiento,
cuya plausibilidad y significatividad debe ser evaluada por el investigador en base a su
conocimiento de la situación.
Dimensión de contenido
Se refiere a la cobertura del contenido necesario y adecuado para medir el constructo definido ,
es decir, alude a si el contenido del test es relevante para el contenido de un dominio particular ,
en términos del grado en que representa dicho dominio (Gipps, 2004). Ello implica examinar los
ítems y compararlos con el contenido que se desea evaluar en el instrumento, con el fin de
comprobar si el test provee una adecuada medición de desempeño en un conjunto de tareas
relevantes (Cronbach, 1984). Según Anastasi y Urbina (1997), una dificultad importante la
constituye determinar adecuadamente una muestra del universo de ítems, lo que implica un
análisis sistemático que garantice que los aspectos fundamentales del dominio estén cubiertos
en la proporción correcta dentro del instrumento. Para poder asegurar la cobertura, el dominio
a evaluar debe haber sido definido en detalle con anterioridad a la preparación de la prueba
(Anastasi y Urbina, 1997).
No obstante, no basta con analizar la prueba, sino que se debe también contemplar la
relevancia de las respuestas dadas por los estudiantes (Ibid.), con el fin de no basarse solamente
en el juicio del constructor acerca de la importancia del contenido del ítem, sino que se evalúe
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 21
también la consistencia del desempeño de los estudiantes con los dominios que se esperaba
evaluar (Messick, 1980). Junto con ello, es importante tomar precauciones en relación con
posibles sobre-generalizaciones en base a la prueba, es decir, que las interpretaciones vayan
más allá del dominio que la prueba representa (Ibid.).
Messick (1980) distingue dos ámbitos centrales de la dimensión de contenido para la validez de
una evaluación:
Para Messick (1980), el contenido no puede definirse como desvinculado de una construcción
teórica menos restringida de la dimensión de comportamiento a evaluar, y por ello entiende el
ámbito del contenido como subsumido al de constructo. En este sentido, junto con Kane (2008)
y Sireci (2007), insiste en que la validez de una prueba no puede determinarse solamente en
base a la dimensión de contenido.
Examen del programa de estudios, de los libros de textos y consulta a expertos, con el
fin de determinar con la mayor precisión posible cuáles son los contenidos relevantes a
evaluar. Sobre la base de esta información se definen las especificaciones del test, que
serán la base de trabajo para los constructores de ítems. En dichas especificaciones se
indican los contenidos o temas por cubrir, los objetivos o procesos a evaluar y la
importancia relativa de cada tema o proceso. Finalmente, las especificaciones deberían
establecer el número de ítems de cada tipo que se deben construir para cada tema
(Anastasi y Urbina, 1997).
Procedimientos empíricos en base a las respuestas de los evaluados, como una forma
de chequear la validez establecida en la construcción de la prueba (Messick, 1980;
Anastasi y Urbina, 1997). Para ello se considera tanto el puntaje total como el
desempeño en ítems individuales, con el fin de detectar si las respuestas a la prueba
efectivamente son consistentes con el comportamiento esperado en el dominio a
evaluar. Ello implica poder realizar generalizaciones desde un ítem a otros similares en
la muestra, a otras pruebas paralelas desarrolladas de forma similar, y así
sucesivamente (Messick, 1980). Otro procedimiento para validar la prueba a nivel de
contenido consiste en analizar errores típicos en un test y en la observación de los
métodos utilizados por los evaluados, por ejemplo, a través del método de pensamiento
en voz alta (Anastasi y Urbina, 1997), con el fin de confirmar que el comportamiento de
los evaluados obedece al dominio en consideración. Además, deben incluirse
procedimientos para examinar la varianza no relevante al contenido (content-irrelevant
variance), es decir, comprobar en la medida de lo posible que el desempeño de un
evaluado no se debe a otras variables no relacionadas con el comportamiento a evaluar
22 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Tanto Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los
usuarios con un manual que facilite el empleo adecuado del instrumento. En este material se
deben transparentar los procedimientos seguidos para asegurar la representatividad y
adecuación del contenido, indicando incluso la calificación profesional de aquellos que
participaron en la construcción del test, las indicaciones que recibieron para clasificar ítems, y la
fecha en que los expertos fueron consultados, considerando que el currículum se modifica en el
tiempo (Anastasi y Urbina, 1997). El manual debe proveer, de manera clara para que cualquier
usuario calificado lo pueda entender, información sobre la calidad técnica de la prueba, los
procedimientos de asignación de puntaje y las evidencias de investigación, así como
instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las
interpretaciones de los puntajes se ajusten a los límites de construcción del test y no se
generalicen a ámbitos o usos no pertinentes para los cuales el test no es válido.
Como se dijo anteriormente, el interés por el uso de las pruebas con fines de selección y
clasificación motiva la búsqueda y determinación de métodos basados en criterio. Si el criterio
definido, es decir, aquello que funciona como parámetro comparativo de la medición,
corresponde a otra medición realizada en el futuro, entonces hablamos de la dimensión
predictiva de la validez. Si, por el contrario, lo que se busca es corroborar la medición con un
criterio contemporáneo a esta, entonces hablamos de la dimensión concurrente de la validez
(conf. Messick, 1980; Cronbach, 1984; Anastasi y Urbina, 1997). Por ejemplo, si se comparan los
puntajes del próximo SIMCE con las notas asignadas por los docentes durante la misma época
de la medición, podríamos estar hablando de las notas como el criterio que se utiliza para medir
la dimensión concurrente de la validez del SIMCE.
Anastasi y Urbina (1997) indican que muchas veces se piensa en una validación concurrente
como reemplazo de una validación predictiva, en aquellos casos en que la validación en el
tiempo resulta impracticable por su extensión y costo. Por ello, se recurre a la evaluación de un
grupo sobre el cual ya existen datos que servirían como criterio (por ejemplo, la utilización de
las notas promedio de los estudiantes en la enseñanza media como criterio concurrente de la
PSU en lugar de las notas en la universidad como criterio predictivo).
Según Cronbach (1984), lo más difícil en este ámbito de la validez es encontrar un criterio
adecuado, que constituya una medición adecuada del comportamiento a evaluar en términos de
la comparación que puede establecerse entre este criterio y la medición a realizar. Junto con
ello, Anastasi y Urbina (1997) previenen contra la contaminación del criterio, es decir, que los
puntajes de la prueba no tengan influencia en el criterio. Por ejemplo, si se utilizara la
inspección de clases como criterio para evaluar la efectividad del SIMCE como medición de
calidad educativa, habría que resguardar que el inspector no conociera el puntaje del
establecimiento, ya que ello podría predeterminar su evaluación y hacer creer que es
consistente con la medición, creando una falsa impresión de validez en su dimensión
concurrente. Algunos de los criterios comúnmente utilizados son: contraste de grupos,
diagnósticos psiquiátricos (en el área de evaluación psicológica), rating asignado por alguna
autoridad o especialista, otros test elaborados previamente, aun cuando todos estos criterios
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 23
tienen sus ventajas y desventajas en términos del nivel de comparación que se puede realizar
(conf. Anastasi y Urbina, 1997).
Messick (1980), en su teoría unitaria de la validez, ve los aspectos predictivo y concurrente más
como la determinación de una relación de utilidad que de validez. Esto es, contrastar la
medición con un criterio contemporáneo o en el futuro sirve para establecer qué tan útil es la
prueba para los objetivos que persigue. Sin embargo, la sola demostración de esta correlación
no es suficiente para indicar que un instrumento es válido. Para que así sea, estas relaciones
deben enmarcarse en un razonamiento teórico que las justifique, es decir, estar en el contexto
de un constructo específico. De manera similar, Anastasi y Urbina (1997: 124) distinguen desde
fines de los ’90 una tendencia en la literatura hacia el análisis del criterio, es decir, investigación
acerca del criterio utilizado y de su relación con el constructo que se quiere evaluar.
Uno de los métodos más comunes para evaluar las dimensiones predictiva y concurrente de la
validez es el establecimiento de coeficientes de correlación (Cronbach, 1984; Anastasi y Urbina,
1997). Se trata de ‘un resumen estadístico de la relación entre dos variables’ (Cronbach, 1984:
110), la de medición y la de criterio, donde se espera una correlación positiva entre ambas para
poder indicar que el test es válido en esta dimensión. La correlación perfecta sería r=1.00,
resultado rara vez alcanzado. De hecho, según Cronbach (1984) es inusual que este índice suba
de .60, pero cualquier correlación positiva estaría aportando mayor precisión a la medición. Una
correlación baja se relaciona con errores aleatorios o factores causales que no funcionan de la
misma manera en ambas mediciones. Junto con ello, hay que recordar que correlación no
significa necesariamente causa, sino que la relación puede interpretarse de diversas maneras.
Inicialmente resultaba complejo generalizar la validez de estas pruebas más allá de la muestra
específica del programa particular en que el instrumento se aplicaría. Sin embargo, con la
introducción del meta-análisis desde los años ’70 en psicología, las posibilidades de
generalización aumentaron. Este tipo de estudios combina los resultados de diversas
investigaciones, en la medida de los posible, teniendo en cuenta los aspectos metodológicos y
las características de cada estudio. Así, las correlaciones establecidas en estudios particulares
pueden ampliarse a otras poblaciones, aumentando las posibilidades de generalización de la
medición.
Dimensión consecuencial
Como se indicó anteriormente, uno de los aspectos más controversiales en la discusión en torno
a la validez se relaciona con la inclusión que realiza Messick (1980) de la dimensión
consecuencial como parte de la validez de un test. Para este autor, la pregunta por el uso y
propósito de un test debe responderse tanto en base a evidencia como en base a imperativos
éticos, es decir, se debe evaluar no solamente si el test sirve para un propósito determinado,
sino también si la prueba debe o no utilizarse con dicho propósito. Esta dimensión, entonces,
implica una evaluación de las posibles consecuencias de una prueba, aun cuando se trata de una
tarea sumamente compleja, sobre todo en relación con sus efectos no intencionados.
En términos de procedimiento, Messick (1980) sugiere comparar las posibles consecuencias del
test con las que podrían tener otros procedimientos alternativos, incluso opuestos, incluyendo
también las consecuencias de eliminar la medición por completo. Junto con ello, destaca la
necesidad de incorporar como parte de la validez los supuestos de valor que subyacen a toda
prueba. Para Messick (1980: 1022), todo constructo se sostiene sobre:
24 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
“(…) connotaciones de valor provenientes de tres fuentes principales: en primer lugar están los
matices evaluativos de los nombres de los constructos mismos; luego están las connotaciones
de valor de las teorías o redes nomológicas más amplias en que se sitúan los constructos; y
finalmente están los presupuestos de las aun más amplias ideologías sobre la naturaleza de la
humanidad, la sociedad, y la ciencia que tiñen cómo procedemos.”
Junto con los valores subyacentes, Messick (1980) destaca la importancia de contemplar la
amplitud del constructo en términos de sus referentes teóricos y empíricos. La relevancia de
esta operación radica en que, si se es poco preciso al definir un constructo, se lo deja abierto a
todas las interpretaciones posibles en torno a él. Al delimitar adecuadamente el constructo a
evaluar, se evita la sobre-simplificación y la sobre-generalización en la interpretación de los
resultados.
Autores más recientes han propuesto nuevas aproximaciones a la validez, donde el uso y las
múltiples interpretaciones derivadas de un test se consideran como parte inherente del modelo.
Koch y DeLuca (2012), por ejemplo, proponen un modelo de validación como estudio de caso
narrativo, donde las perspectivas de los diferentes actores involucrados en el proceso de
evaluación y los múltiples usos atribuidos a un test se examinan y analizan con el fin de llegar a
una descripción de la coherencia de un sistema de evaluación. Para ello se contemplan cinco
aspectos:
“(1) los propósitos y usos explícitos de la evaluación; (2) los múltiples usos adicionales de la
evaluación; (3) los actores clave que reciben el impacto de los usos y propósitos de la
evaluación; (4) los contextos de práctica (p.ej. la escuela, el distrito, la provincia/estado); (5) los
constructos teóricos representados por los propósitos de la evaluación.” (Koch y DeLuca, 2012:
107)
Otros autores han criticado las interpretaciones erróneas que se han realizado del modelo de
Messick y han precisado o reinterpretado los principios propuestos por el autor. Hubley y
Zumbo (2011), por ejemplo, han realizado recientemente una modificación al modelo de
Messick, incorporando la dimensión consecuencial como parte de la base en evidencia que se
debe proveer para asegurar la validez de una prueba y no como un ámbito separado. Junto con
ello, incorporan los aspectos valóricos y teóricos como relevantes en todos los pasos del
procedimiento y enfatizan la distinción entre consecuencias intencionadas y efectos secundarios
no intencionados de una prueba. La Figura 2 muestra la matriz de Messick reconceptualizada
por Hubley y Zumbo (2011: 225):
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 25
Función
Inferencias a partir de, e Uso de, o decisiones hechas en base a,
interpretación de los puntajes de los puntajes de una prueba
una prueba
Base en evidencia Validez de constructo + relevancia Validez de constructo + relevancia y
+ presupuestos de valor + utilidad + presupuestos de valor +
consecuencias sociales consecuencias sociales
FIGURA 2. Matriz de Messick reconceptualizada por Hubley y Zumbo
La figura sintetiza el modelo inicial de Messick, indicando que tanto la interpretación como el
uso de una prueba, para ser válidos, requieren de evidencia en relación con sus consecuencias
sociales y presupuestos de valor, además de otros aspectos de constructo, relevancia y utilidad.
Pese a su reconocida importancia a nivel teórico, los autores que defienden la incorporación del
uso y las consecuencias de un test como parte del estudio sobre su validez critican la escasa
inclusión de estos aspectos en los actuales procesos de validación en la práctica (Kane, 2008;
Hubley y Zumbo, 2011). Es por ello que la presente investigación busca contribuir a la
generación de información empírica sobre el grado de relevancia que la consideración de los
usos y consecuencias sociales de un test, desde la perspectiva de los múltiples actores
involucrados, puede tener en relación con su validez. Junto con ello, se busca contribuir a la
teoría explorando posibles interacciones entre la dimensión consecuencial y otras dimensiones
de la validez.
Sobre la base de la discusión teórica anterior, en el contexto de un estudio sobre la validez del
SIMCE, resulta fundamental explorar, al menos, las siguientes preguntas:
¿Cuál es el o los propósitos de SIMCE? ¿Son válidas las interpretaciones que se realizan
de su puntaje en base a cada uno de dichos propósitos? ¿Qué evidencia se provee para
cada uno de los propósitos del SIMCE?
¿Cuál es el constructo que se evalúa en SIMCE, es decir, sobre qué teorías se sustentan
las interpretaciones del SIMCE?
¿Permite el procedimiento de SIMCE evaluar el constructo lo suficientemente bien?
¿Se entrega junto al SIMCE algo equivalente a un manual? ¿Hay información acerca de
los usos, instrucciones, puntaje y aseguramiento de la calidad del SIMCE? ¿Es
información entendible para todos? ¿Hay suficiente transparencia como la debería
haber en un manual?
¿Cuáles son las consecuencias del SIMCE? ¿Qué métodos alternativos podrían disminuir
las consecuencias negativas del SIMCE? ¿Qué pasaría si no existiera el SIMCE?
¿Qué decisiones se espera tomar en base a los resultados de la prueba? ¿La prueba
logra dar sustento a estas decisiones? ¿Son apropiadas las inferencias y las acciones que
se realizan en base a los puntajes del SIMCE? ¿Hay evidencia suficiente al presente que
sustente las interpretaciones dadas al SIMCE?
La evidencia disponible en relación con la validez del SIMCE entrega información principalmente
acerca de sus propósitos, sus usos y consecuencias, además de un único estudio crítico centrado
en las dimensiones de constructo y contenido de la prueba.
26 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Propósitos
Con la Prueba Nacional y el Programa de Evaluación del Rendimiento escolar (PER) como sus
antecedentes históricos (Schiefelbein, 1998), se crea en 1988 el Sistema de Medición de la
Calidad de la Educación (SIMCE). Según Bellei (2002), su función inicial tiene que ver con
informar la demanda en el mercado educativo, con el fin de apoyar las decisiones de los padres,
entendidos desde el modelo instalado durante los años ‘80 como consumidores. Meckes y
Carrasco (2010) agregan a este propósito inicial el de control de la calidad de la educación.
Se trata de lo que múltiples autores llaman hoy gobernar a través de datos o números (ver por
ejemplo Grek, 2009; Lawn and Ozga, 2009; Ozga, 2009), refiriéndose a la forma en que, pese a
su aparente descentralización y entrega de mayor autonomía a los establecimientos, los
modelos educativos neo-liberales mantienen un nivel de control central a través de diversos
mecanismos como las evaluaciones estandarizadas, la rendición de cuentas o las inspecciones.
En Chile, el funcionamiento del SIMCE en esta lógica solamente se hace efectivo desde 1995,
cuando el requerimiento de la LOCE de publicar los resultados se pone en práctica. Ello
introduce presión en el sistema, presión percibida como positiva por aquellos que defienden el
modelo (ver por ejemplo Comisión SIMCE, 2003; Meckes y Carrasco, 2010; Eyzaguirre y
Fontaine, 1999), pese a que sus potenciales efectos negativos son también reconocidos -aunque
no sistemáticamente explorados- en esta literatura.
Desde su creación, y a partir de las diversas modificaciones a las que ha sido sometida la prueba,
al propósito inicial se han ido agregando otros. Al revisar la literatura disponible se encuentran,
al menos, los siguientes:
Pese a la importancia de los propósitos de una evaluación para su validez, es solamente Bellei
(2002) quien advierte sobre el riesgo que implica esta simultaneidad de propósitos, donde
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 27
existen tensiones entre el SIMCE como política de presión y como política de apoyo, las cuales
pueden desembocar en perversiones como la estandarización por medio de adiestramiento,
reducción del currículum enseñado al currículum evaluado, discriminación de alumnos por bajo
rendimiento, etc. El informe de la Comisión SIMCE también alude a propósitos múltiples y en
competencia, y a sus posibles consecuencias no deseadas, pero responde a ello con una
propuesta bastante general acerca de la necesidad de hacer coherentes entre sí los diferentes
usos del SIMCE, y con sugerencias que mantienen la tensión a la que alude Bellei.
Consecuencias y usos
En relación con las consecuencias no deseadas del SIMCE, llama la atención la falta de
investigación sistemática sobre el uso que los docentes dan al SIMCE, pese a la evidencia
internacional sobre las consecuencias de la evaluación estandarizada en la enseñanza, el
aprendizaje y el currículum (ver por ejemplo Berryhill et al., 2009; Shepard, 1992; Gipps, 2004), y
a que diversos autores reconocen esta ausencia en la literatura nacional (Meckes y Carrasco,
2010; Bellei, 2002). Más llamativo todavía resulta observar que los estudios disponibles sobre el
SIMCE asumen una multiplicidad de ideas acerca de los docentes, cuya proveniencia no queda
del todo clara. Se dice que ellos no comprenden los resultados, que necesitan más formación
para comprenderlos, que cada vez los utilizan más, que tienen creencias específicas sobre la
evaluación que inciden en su comprensión de los resultados, que necesitan orientaciones más
específicas y directivas acerca de cómo modificar sus ‘técnicas de enseñanza’ (Schiefelbein,
1998) en función de utilizar metodologías más adecuadas, etc. La única base empírica que se
utiliza para indicar el uso que los docentes realizan del SIMCE se refiere a encuestas que ofrecen
información bastante general, y a partir de las cuales solamente sabemos que los docentes
declaran utilizar cada vez más los resultados de la prueba. Ello sin mencionar el rol que la
deseabilidad podría tener en estas respuestas.
Los únicos estudios que abordan los usos e interpretaciones que los docentes, directivos y
apoderados realizan del SIMCE, son los de los investigadores del CIDE (ver CIDE 2007, 2008a,
2008b; Sepúlveda, 2008) y de Taut et al. (2009). El primer estudio indaga estos temas sobre la
base de las jornadas de reflexión que el MINEDUC organiza en los establecimientos con el fin de
que se analicen los resultados de la prueba y se establezcan compromisos al respecto. Este
estudio concluye que se hace uso de los resultados en estas jornadas y que lo que más se valora
son las interpretaciones apoyadas en los Niveles de Logro, más que las comparaciones ofrecidas
en los informes. No obstante, hay un bajo uso de esta información como base para el
establecimiento de metas, compromisos y acciones a futuro, y un exceso de responsabilización
de los estudiantes, lo que impide asumir una mirada crítica que permita modificar las prácticas
pedagógicas. En relación con ello, se alude a una “actitud anti-SIMCE” por parte de los
profesores, la que se describe en los siguientes términos (Sepúlveda, 2008: 4-5):
“(…) existen centros educacionales donde prevalece una actitud pasiva o de rechazo al sistema
de medición porque se considera que este constituye una presión indebida a los esfuerzos por
mejorar el aprendizaje de los estudiantes.
Esta información resulta crucial desde el punto de vista de la validez, puesto que uno de los
actores relevantes del sistema de evaluación está indicando la existencia de consecuencias
negativas, plantea dudas en términos de la dimensión concurrente de la validez (lo observado
por los docentes no coincide con la realidad de los alumnos), e indica que los resultados no
reflejan aspectos contextuales relevantes. Pese a ello, el estudio asume una actitud crítica hacia
estos profesores, y se limita a sugerir que estos debieran mostrar mayor apertura a la
innovación y a reconocer errores. En ese sentido, hay cierto sesgo pro-SIMCE en la investigación,
que no considera la posibilidad de que la actitud de los profesores frente al SIMCE sea más que
simple falta de auto-crítica o pasividad. En ningún momento se parte por la pregunta acerca de
la calidad del SIMCE como instrumento de evaluación del sistema educativo, sino que se asume
su valor como si este estuviera sobrentendido.
Por su parte, el estudio de Taut et al. (2009) concluye que tanto profesores como padres
presentan problemas para recordar e interpretar correctamente información básica de los
informes de resultados. Esto resulta problemático si se espera que existan mejoras al interior de
los establecimientos en base a dichos resultados y que los padres los utilicen para actuar como
consumidores informados. Junto con ello, la investigación observa que en todos los
establecimientos existe preparación para la prueba, lo que podría entenderse como una
consecuencia no intencionada del SIMCE. Por otra parte, el estudio indica que la mayoría de los
docentes considera injusto e inadecuado juzgar a una escuela o a un docente en base a los
resultados del SIMCE, sobre todo si no se contemplan factores contextuales. Otra conclusión
importante del estudio en relación con la validez del SIMCE es que aquellos apoderados que sí
tienen acceso a los resultados de la prueba, no los valoran mayormente como base para tomar
decisiones de elección de escuela.
Las aproximaciones críticas sistemáticas al SIMCE han sido escasas a lo largo de su historia. Las
primeras surgen en el contexto de la implementación de la reforma educacional de los años
noventa, la que implicaba necesariamente una modificación a la forma de medir los logros en
torno al nuevo currículum.
En ese contexto surgen estudios como el de Schiefelbein (1998), centrado en la eficiencia del
sistema en relación con el mejoramiento de la calidad de la educación chilena. Parte de las
conclusiones de este estudio se relacionan con lo alto de la inversión que involucra el SIMCE, si
se la compara con los beneficios obtenidos a partir de dicho sistema, puesto que hasta la fecha
de publicación del estudio no se registraban aumentos significativos en el rendimiento de los
estudiantes. El autor interpreta esta persistencia de los resultados como una sub-utilización de
la información por parte del MINEDUC, que hasta ese entonces externalizaba el SIMCE a través
de la Universidad Católica de Chile, y como debida a las creencias de los docentes con respecto a
los niveles de logro de los estudiantes y las causas de su bajo rendimiento.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 29
Himmel (1992) comenta la primera versión del texto de Schiefelbein, con el fin de precisar
ciertos puntos con los cuales ella disiente. Si bien Schiefelbein incorpora gran parte de las
observaciones en la versión aquí referida, resulta necesario rescatar el punto que Himmel indica
acerca de la idea de impacto que se maneja en relación con el SIMCE. Frente a la perspectiva
que espera modificaciones a corto plazo por medio de una evaluación estandarizada, ella
propone una visión alternativa, donde los efectos pueden variar desde el no uso hasta la
utilización plena y, a su vez, los usos pueden ser de diverso tipo, desde simbólicos o persuasivos
(despidos o cierre de escuelas), pasando por reflexiones más detenidas asociadas a cambios a
largo plazo, hasta un uso instrumental, donde la toma de decisiones se base directamente en la
información evaluativa. Se trata de una advertencia importante en contra del uso efectista y
político de los resultados, y a favor de los tiempos que se necesitan para obtener cambios
reales, participativos y significativos en educación.
Por último, contemporáneo al cambio del SIMCE a fines de los noventa, hay un tercer estudio
relevante realizado por Eyzaguirre y Fontaine (1999). Junto con reiterar algunas de las
observaciones realizadas por Schiefelbein, como la necesidad de resolver metodológicamente la
comparabilidad de los resultados en el tiempo, las autoras efectúan un análisis detallado de los
instrumentos antiguos y de transición, aprovechando la disponibilidad pública de información
acerca de las preguntas del SIMCE, inédita hasta ese entonces. Se trata de un estudio valioso en
el sentido del detalle con que se analizan las preguntas y, en base a ellas, las dimensiones de
constructo y de contenido en relación con la validez de la prueba.
Sobre los instrumentos anteriores a 1997, tanto de Lenguaje como de Matemática, critican la
ambigüedad de las preguntas, la baja cobertura curricular, el bajo nivel de dificultad de las
pruebas y la falta de equilibrio en las habilidades y contenidos evaluados. Gran parte de estos
aspectos, según las autoras, se corrigen en las pruebas diseñadas desde 1998, denominadas por
ellas de segunda generación, ya que se rigen todavía por el decreto anterior, pero contemplan
solamente aquellos contenidos que son pertinentes a la reforma curricular. No obstante, en la
nueva prueba de Lenguaje critican la dificultad potencial de la corrección de preguntas abiertas,
la ausencia de contenidos de ortografía y gramática, la brevedad de los textos utilizados y la
validez de contenido de la muestra de ítems, indicando que existiría cierta desalineación entre
los objetivos que se declara evaluar, y las preguntas que se formulan. En Matemática critican la
presencia de un vuelco demasiado brusco desde una prueba muy básica hacia una que se
desequilibra hacia lo complejo, junto con la incoherencia entre las preguntas ofrecidas como
ejemplo y el nivel de complejidad definido en las orientaciones SIMCE. Además, en términos de
contenido observan que estos siguen siendo restringidos en comparación con evaluaciones
internacionales como TIMSS.
Pese a lo valioso de este estudio, es importante mencionar que las autoras se sitúan claramente
a favor de un modelo educativo donde la presión sobre escuelas, profesores y alumnos a través
30 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Los estudios hasta aquí mencionados sin duda tuvieron efectos importantes sobre algunos
aspectos técnicos de la prueba, ya que desde 1998 se reemplaza el método de Porcentaje Medio
de Respuestas Correctas por la Teoría de Respuesta la Ítem, se introducen métodos de equating
para favorecer la comparabilidad de los datos en el tiempo, y se busca un cambio paulatino
desde un modelo con referencia a norma hacia un modelo con referencia a criterio (Bellei,
2002).
En síntesis, son pocos los estudios en torno a SIMCE y menos todavía los que se refieren a las
diferentes dimensiones de la validez de este proceso de evaluación. Lo que se encuentra
disponible sobre el tema corresponde principalmente al período anterior a 1998, antes del
cambio asociado a la reforma, y se refiere a aspectos más bien técnicos explicados de forma
general. Solamente Eyzaguirre y Fontaine (1999) han realizado un análisis en términos de validez
de constructo y contenido, análisis que debe volver a realizarse más de diez años después y con
nuevos instrumentos. Bellei (2002), por su parte, ha indicado los riesgos que para la calidad de la
prueba implica la multiplicidad de propósitos y usos. Un escenario de investigación como el aquí
descrito requiere de un estudio acucioso, sistemático y en profundidad sobre la validez del
SIMCE en todas sus dimensiones, transparentando los procesos de elaboración e
implementación de la prueba y las percepciones de los diferentes actores del sistema acerca de
su validez.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 31
4. METODOLOGÍA
Existe una crítica generalizada en la literatura hacia la forma en que la teoría sobre validez suele
ser puesta en práctica por las agencias evaluadoras, ya que en ellas la validez se tiende a
abordar de una forma más mecánica, empiricista, poco holística y centrada en el aspecto
estadístico (Haertel, 1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Hay,
como se indicó en el marco teórico, toda una dimensión cualitativa que constituye parte
fundamental de la validez de un proceso de evaluación, pero que rara vez se explora. Esta tiene
que ver con las teorías implícitas en los constructos; con el juicio experto de aquellos que
intervienen en la creación y corrección de las pruebas; con las diferentes interpretaciones que
se realizan de los puntajes; con los propósitos atribuidos al instrumento a nivel de políticas de
evaluación; con los usos que diversifican los propósitos de un test; con las creencias de los
constructores de ítems; con las consecuencias de la prueba y su relación con el constructo
evaluado, entre otros aspectos. Se ignora, así, evidencia externa al test que podría estar
afectando su validez.
De la misma manera, cuando se habla de los usos del SIMCE se suele aludir a encuestas que
solamente dan cuenta de mayores o menores usos de la información proveniente de este
sistema de evaluación, pero que no abordan de forma profunda y detallada la perspectiva que
los usuarios del SIMCE tienen con respecto a este instrumento (conf. Meckes y Carrasco, 2010;
CIDE, 2008a y 2008b; Taut et al., 2009, aun cuando los dos últimos equilibran sus resultados a
partir de recogida de datos cualitativos, principalmente relacionados con el uso de los
resultados SIMCE).
Dada esta ausencia en la investigación y lo inexplorado del campo, el proyecto asume una
perspectiva cualitativa, de carácter exploratorio, que analiza críticamente la validez del SIMCE,
con el fin de dar un primer paso que motive futuros estudios que profundicen o amplíen los
resultados aquí obtenidos.
Sobre la base de la teoría y los fundamentos antes expuestos, se formulan las siguientes
preguntas de investigación:
Pregunta general:
¿Es el SIMCE una evaluación válida, considerando las diferentes dimensiones del concepto de
validez?
Sub-preguntas:
¿Puede el SIMCE ser válido para todos los propósitos y usos que hoy se le asignan? ¿Son
válidas las interpretaciones propuestas en base a sus resultados?
¿Existe entre los actores una visión similar acerca de la validez del SIMCE?
32 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
¿Cuáles son los constructos evaluados por el SIMCE? ¿Existe una visión coherente en el
sistema acerca de dichos constructos?
¿Qué contenidos evalúa el SIMCE y qué tan representa tivo es dicho contenido del
constructo a evaluar?
¿Qué piensan los actores del proceso acerca de la validez predictiva y concurrente del
SIMCE?
¿Se mantiene la validez de los instrumentos del SIMCE a lo largo de su proceso de
producción, distribución, corrección y uso?
Las preguntas antes señaladas se traducen en los siguientes objetivos generales y específicos:
General:
Específicos:
Con el fin de contar con una base teórica e investigativa fuerte, que informara los procesos de
recolección y análisis de datos, se realizó una revisión de literatura considerando tanto el
concepto de validez en evaluación, como la investigación disponible sobre el SIMCE. Sobre la
base de dicha revisión se construyó el marco teórico antes expuesto y se indagó el estado del
arte en relación con la investigación sobre la validez de SIMCE.
Las preguntas centrales que guiaron la búsqueda de literatura sobre validez son:
Las preguntas centrales que guiaron la búsqueda de literatura sobre SIMCE son:
Una vez seleccionados los textos para ambas revisiones, se procedió a realizar nuevas rondas de
exclusión considerando la relevancia de las fuentes para la investigación, en base a una lectura
más detenida de ellas. Junto con ello, algunas exclusiones se debieron a problemas para acceder
a ciertas fuentes, en cuyo caso se buscaron textos adicionales del mismo autor acerca del tema.
El listado final se puede consultar en la sección “Referencias y bibliografía” del presente
informe.
Entrevistas
disciplinas (cuando corresponde). Los años no se indican, pues ello podría ir en contra de los
compromisos éticos de anonimidad de la investigación. Por el mismo motivo, todos los nombres
utilizados corresponden a seudónimos.
Es importante mencionar que el acceso resultó menos complejo con aquellos actores que
habían estado involucrados en procesos anteriores, algunos de los cuales, de hecho, se
mostraron altamente motivados por participar y poder contribuir a una visión crítica sobre la
prueba. Los miembros actuales de SIMCE mostraron mayor resistencia y, en algunos casos,
cierto temor o desconfianza de participar en el proyecto. Esta actitud refuerza la percepción
expresada por varios de los participantes en las entrevistas con respecto a una actitud
verticalista y poco dialógica por parte de la administración actual, que busca controlar todos los
procesos y a todos los actores (ver sección 6.5). No obstante, se logró finalmente realizar
entrevistas con algunos de ellos.
Junto con ello, se utilizaron como fuente de información las entrevistas que la investigadora
realizó durante 2011 a profesores en el contexto de su proyecto de doctorado, con el fin de
analizar su perspectiva con respecto al SIMCE y su validez, y de contrastarla con la de las
personas a cargo de la prueba. Se trata de 20 entrevistas semi-estructuradas a docentes de
diferentes disciplinas, tipos de establecimiento (dependencia y rural/urbano), género, rango
etario y tipo de formación inicial. Esta variedad de perfil se busca no por un afán de
representatividad de tipo cuantitativo, sino con el fin de contar con la mayor amplitud posible
de perspectivas. Pese a ello, la mirada de los docentes acerca del SIMCE resulta bastante
consistente según los resultados del análisis. La Tabla 4 entrega el detalle del perfil de los
participantes, nuevamente bajo seudónimos debido a los compromisos éticos de la
investigación.
Al igual que con los participantes del proceso SIMCE, en el caso de los docentes se trató de una
muestra intencionada que involucró también muestreo a través de snowballing.
Perfil egreso Seudónimo Nivel Género Dependencia Locación Disciplina (si aplica)
Egresados Rosaura Media F PSUBV Urbana Inglés
recientemente Catalina Básica F MUN Urbana Inglés
Saúl Básica M PSUBV Urbana Historia, Geografía y Ciencias
Sociales
Ernesto Básica M MUN Rural No aplica
Criterios de selección
En el siguiente listado se presenta la selección de documentos oficiales del SIMCE que fueron
analizados en este estudio:
Secciones:
1. “¿Qué es el SIMCE?”
2. “¿Para qué sirve el SIMCE?”
3. “¿Cómo se elaboran las pruebas SIMCE?”
4. “Evaluaciones nacionales”
5. “¿Por qué es importante que los alumnos rindan las pruebas SIMCE?”
6. “¿Qué se espera de los alumnos en el SIMCE?”
7. “¿Cómo consultar los resultados de un establecimiento educacional?”
Secciones:
8. “¿Qué es el SIMCE?”
9. “¿Qué evalúa el SIMCE?”
10. “Preguntas frecuentes”
Orientaciones:
Modelos de prueba:
Resultados:
Niveles de Logro:
Documentos técnicos:
Las entrevistas de los participantes del proceso SIMCE fueron transcritas por el personal de
apoyo técnico del proyecto, que firmó el correspondiente compromiso de confidencialidad en
relación con los datos. Luego, las transcripciones fueron revisadas por la investigadora, tanto en
términos de posibles correcciones como de la eliminación de nombres y datos que pudieran
llevar a identificar a los participantes. Las transcripciones fueron posteriormente ingresadas a
NVivo para su codificación. En una primera ronda de codificación se trabajó con códigos según
los principales temas de las preguntas, los que se detallan a continuación:
Procedimiento: alude a la descripción detallada de todos los pasos del proceso del
SIMCE, de acuerdo con el conocimiento del entrevistado/a.
Dificultades generales: se refiere a todas aquellas dificultades no asociadas a la
construcción o corrección de ítems.
Dificultades en la construcción de preguntas: incluye todos los aspectos problemáticos
y desafíos en relación con esta etapa del proceso.
Dificultades en la corrección de preguntas: incluye todos los aspectos problemáticos y
desafíos en relación con esta etapa del proceso.
Relación entre dificultades y validez: incluye la opinión de los participantes con
respecto a la incidencia de las dificultades mencionadas en la validez de la evaluación.
Interpretaciones: concentra las respuestas en torno a la pregunta por aquello que se
puede y no se puede inferir a partir de los resultados del SIMCE.
Usos no intencionados: alude al conocimiento, directo o indirecto, de los participantes
acerca de usos o interpretaciones no intencionados del SIMCE, y su opinión acerca de la
forma en que estos podrían o no afectar la validez de la interpretación de los resultados.
Preguntas específicas: contiene las respuestas a las preguntas específicas realizadas
según el perfil de los entrevistados.
Comentarios finales: reúne los comentarios finales para los que la entrevistadora dio un
espacio antes de terminar la entrevista.
Con ayuda del software NVivo, se generaron documentos con las respuestas de todos los
entrevistados para cada código y, en base a ello, se realizó una sub-codificación de carácter más
inductivo.
En el caso de las entrevistas a profesores, también con apoyo de NVivo, se codificaron primero
aquellas secciones de las entrevistas en las que se aludía a SIMCE. Estas, a su vez, se pusieron en
un mismo documento, que posteriormente se analizó y sub-codificó.
En ambos casos se consideró una aproximación inductiva e iterativa de análisis, teniendo las
preguntas de investigación como referente constante para observar la interacción entre los
datos y aquello se buscaba saber (Srivastava y Hopwood, 2009).
En el caso de los documentos, los más breves (secciones de sitios y Folletos de Orientaciones)
fueron primero codificados en NVivo, también desde una aproximación iterativa e inductiva
(Ibid.). Los 373 códigos iniciales fueron luego clasificados en una cantidad menor de categorías.
Este análisis es el que sirvió de base para el diseño de las entrevistas. En una segunda fase, los
documentos más extensos (informes de resultados, niveles de logro, etc.) se codificaron con
lápiz y papel, teniendo la codificación de los documentos breves como base.
Durante el proceso se consultó a diversos especialistas cuando fue necesario. Al analizar las
preguntas de Matemática, que no es el área de especialidad de la investigadora, se consultó a
uno de los entrevistados con formación disciplinaria en el área acerca de algunos de los
problemas observados. En base a ello, se descartaron algunas preguntas inicialmente
detectadas como problemáticas.
para argumentar la validez de un proceso de evaluación (Anastasi y Urbina, 1997; Shawn et al.,
2012). Las especialistas consultadas poseen formación de postgrado en el área, tienen
experiencia docente o en formación docente, y tres de ellas han trabajado en la formulación de
ítems. Se les solicitó que respondieran una breve encuesta (ver Anexo 3). En ella se les pedía
clasificar las preguntas que generaban dudas en una de las tres habilidades indicadas como
parte del constructo a evaluar. La consulta fue completamente independiente, es decir, se pidió
a cada especialista responder por separado, sin compartir su juicio con las demás. Los resultados
de la consulta se entregan en la sección correspondiente.
Finalmente, frente a algunas dudas que emergieron del análisis tanto de las entrevistas como de
los documentos, referidas básicamente a ciertas preocupaciones con respecto a la validez de
SIMCE, se consultó al Profesor David Andrich, quien posee una amplia trayectoria como
psicometrista. Los resultados de esta consulta se presentan en la sección correspondiente.
4.6. Limitaciones
Como toda investigación, el presente estudio posee ciertas limitaciones que es necesario tener
en cuenta para su interpretación. Por una parte, el tamaño de la selección de participantes
podría presentar limitaciones en términos de la generalización de los resultados, al menos en el
sentido cuantitativo del término. No obstante, hay que señalar que este tipo de generalización
no constituye uno de los presupuestos del presente estudio, pues es de carácter exploratorio y
cualitativo. Con respecto a los participantes del proceso SIMCE, se siguen aquí los principios de
investigación asociados al estudio de las elites sociales y políticas, donde debido a su tamaño
pequeño, estos grupos no son investigados considerando representatividad ni significancia
estadística, sino desde la generación de datos que permitan comprender mejor su discurso y
modo de funcionamiento (Savage and Williams, 2008). Los participantes del grupo SIMCE
constituyen un conjunto de actores clave, varios de los cuales han tenido más de un rol en el
proceso, por lo que constituyen una fuente privilegiada de información. Por otra parte, los
entrevistados reconocen que los mismos nombres se van repitiendo en los diferentes roles de
SIMCE, por lo que la selección contemplada en este estudio no debiera estar tan distante de la
población total de involucrados en el proceso SIMCE.
El caso de los docentes es distinto. Evidentemente se trata de una selección muy pequeña con
respecto a la población. Sin embargo, una ventaja en este punto es la alta consistencia en su
discurso sobre el SIMCE, pese a provenir de contextos educacionales diversos. A ello se agrega
que, a diferencia de lo que ha ocurrido con estudios sobre la base de encuestas (por ejemplo
encuestas del MINEDUC citadas por Meckes y Carrasco, 2010), se obtiene aquí un relato en
profundidad y sin mayores riesgos de deseabilidad en las respuestas.
Una segunda limitación, similar a lo que ocurre con el estudio de Eyzaguirre y Fontaine (1999),
se relaciona con que resulta complejo aludir a la cobertura del contenido ligado al constructo
cuando la mayoría de las preguntas que se encuentran disponibles públicamente son ejemplos
aislados, que no forman parte de instrumentos completos. No obstante, una ventaja de la
presente investigación con respecto a estudios anteriores es la liberación de un modelo de
prueba para 2º básico, lo que permite efectuar este tipo de análisis al menos en un instrumento.
Para un análisis más completo de este aspecto de la prueba sería un aporte que el SIMCE
considerara liberar más instrumentos completos, junto con los marcos de evaluación, al menos
cuando se los quiera utilizar con fines investigativos y de mejora de este proceso de evaluación.
42 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Por otra parte, al estar a cargo de una única investigadora, uno de los potenciales riesgos de
este proyecto lo constituye la posibilidad de sesgo en el análisis. Sin embargo, dicho riesgo se
mitiga a través de la consulta a expertos de diverso tipo referida en la sección anterior. Ello
permite triangular los datos y corroborar determinadas hipótesis interpretativas de la
investigadora.
La importancia de los hallazgos de este estudio, sin embargo, contrapesa las posibles
limitaciones antes enunciadas. Estos hallazgos actualizan el concepto de validez que se maneja
al presente en relación con el SIMCE; arrojan información relevante acerca de la validez en
SIMCE y sus problemáticas; y contribuyen a mejorar la calidad de los procesos del SIMCE en
beneficio de todos los actores involucrados, especialmente aquellos con menos poder dentro
del sistema.
Uno de los factores fundamentales para asegurar la validez de un proceso de evaluación tiene
que ver con el nivel de claridad y de detalle con que se explican sus características. Tanto
Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los
usuarios con un manual que facilite el empleo adecuado del una prueba estandarizada. Como ya
se indicó en el marco teórico (ver sección 3.3), en este material se deben transparentar los
procedimientos seguidos para asegurar la representatividad y adecuación del contenido,
detallando la calificación profesional de aquellos que participaron en la construcción del test,
además de las indicaciones que recibieron para clasificar ítems, y la fecha en que los expertos
fueron consultados (Anastasi y Urbina, 1997).
El manual debe proveer de manera clara información sobre la calidad técnica de la prueba, los
procedimientos de asignación de puntaje y las evidencias de investigación, así como
instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las
interpretaciones de los puntajes se ajusten los límites de construcción del test y no se sobre-
generalicen.
encuentran disponibles públicamente (conf. OECD, 2009a; Mullis et al., 2009a; Mullis et al.,
2009b), al igual que los manuales de análisis de datos asociados a estas pruebas (conf. OECD,
2009b; TIMSS, 2007). En el caso de SIMCE, no existe un documento único que explique en
detalle la información acerca de sus características, procesos y etapas. Los marcos de evaluación
tampoco se han publicado. Cuando se pregunta a los integrantes del equipo SIMCE por qué no
se han liberado, se obtienen dos tipos de respuesta. Las personas que continúan trabajando en
SIMCE al momento de la entrevista indican que con ello se evita que los docentes reduzcan el
currículum a aquello que se indica en las especificaciones. Así, por ejemplo, indica Rebeca:
“(…) la prueba es curricular y en la medida que nosotros demos la señal al sistema educativo de
que, para tener un buen SIMCE, lo que usted tiene que hacer, señor profesor, es cubrir el
currículum, me entiendes, eso es cierto, no es mentira, y nos movemos dentro de ese marco; si
somos enfáticos en decir que de todo el currículum, en verdad, nosotros estamos pensando en
evaluar, este año, esta parte en específico, por decirte, creo que le hacemos un daño al sistema;
es que el riesgo que se corre de que los profesores digan “ah, entonces esto otro no lo voy a ver,
porque el SIMCE no lo va a evaluar” es alto y es innecesario. Eso pienso yo; ahora, finalmente yo
no sé si por Ley de Transparencia o estas cosas que hoy día nos hacen ser cada vez más como
desnudarnos más ante el sistema llegue el momento en que lo tengamos que publicar y estaría
bien también, no hay ningún oscurantismo ahí (…).”
Los integrantes internos al SIMCE en general manifiestan estar de acuerdo con la idea de liberar
las especificaciones, aunque algunos, como Josefina, entienden el argumento de fondo para no
hacerlo. Otros participantes, tanto internos como externos al SIMCE, aluden como motivo para
la falta de transparencia a una tendencia hacia el secretismo que se incrementa en la institución,
según ellos, tras un cambio de administración en 2008. Varios entrevistados indican que, antes
de eso, se estaba preparando la publicación de los marcos, la cual quedó suspendida por la
nueva jefatura. Así explica, por ejemplo, Sofía:
“Para transparentar; todas las pruebas internacionales tienen sus marcos de evaluación, tienen
matrices, tablas de especificaciones, menos SIMCE. Entonces se dice que es una prueba curricular
y una prueba censal de esa magnitud no va a ser nunca curricular, es imposible medir todo el
currículum. Entonces nosotros construimos marcos de evaluación que supuestamente se iban a
publicar y en algún minuto también el coordinador del SIMCE, que es un coordinador que era el
encargado nacional del SIMCE, vetó la publicación de los marcos de evaluación (…).”
De manera similar, para Pedro, como un actor que debió mediar entre SIMCE y su institución,
existe una tendencia al secreto que no se justifica:
“(…) hay una cuestión, como te digo yo, de querer parecer, en los primeros años que yo estuve,
una agencia seria, (…) como esto *+ tenía esta posibilidad como de *que+ (…) se abriera, se
conociera públicamente, entonces ahí le ponían todos los miedos del mundo a los profesores
[elaboradores de preguntas], a uno mismo, que nada de esto puede salir ni del proceso ni del
procedimiento ni la forma ni los ítems ni nada, decir SIMCE es tabú, entonces hay ahí una
cuestión que yo creo (…) de autoafirmación no más, nada más, de saber que las cosas no se
estaban haciendo como se debieran hacer, entonces hagámoslas, pongámosles secretismo para
que, por lo menos, parezca serio, sí, yo creo que por ahí va la cuestión. Pero cuando tú conversas
con gente que trabaja dentro del Ministerio y dices “esta cuestión de tanto secreto, ¿para qué?”,
“mira, son leseras de arriba no más”, dicen, nadie creía en eso tampoco.”
44 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
La confidencialidad del material propio de la prueba se justifica, pues es importante que los
estudiantes no tengan acceso a las preguntas antes de la aplicación del instrumento. No
obstante, la extensión del secreto a los procedimientos de elaboración, aplicación y corrección
de SIMCE no tiene mayor fundamento, al menos no desde la teoría sobre validez en evaluación.
En primer lugar, en el manual debe haber una explicitación de los propósitos intencionados de la
prueba, esto es, un propósito intencionado debe ser siempre un propósito declarado si la
agencia evaluadora quiere poder defenderse posteriormente contra posibles usos e
interpretaciones incoherentes con dicho propósito (Newton, 2012).
“La validación efectiva (…) depende de una indicación explícita y clara acerca de las
interpretaciones y usos intencionados, incluyendo en la indicación una especificación de la
población y del rango de contextos en los cuales ocurrirán las interpretaciones y los usos. Los
supuestos inherentes a las interpretaciones y usos intencionados de los puntajes de la prueba
pueden explicitarse en forma de un argumento interpretativo que despliegue los detalles del
razonamiento que lleva desde el desempeño en la prueba a las conclusiones que se incluyen en
la interpretación y a cualquier decisión basada en la interpretación.”
Por lo tanto, junto con los aspectos técnicos antes indicados, el manual debiera ser explícito
acerca de los propósitos, las interpretaciones y los usos de la prueba, así como de los
argumentos y la teoría que sustenta las conclusiones que se obtienen en base a su puntaje. Para
Moss (2007: 474) resulta fundamental, como parte de una práctica responsable (accountable
practice) en el contexto de evaluaciones estandarizadas de altas consecuencias, “La
disponibilidad, para revisión pública y profesional, del plan, la evidencia producida, la evidencia
considerada innecesaria o poco práctica, el fundamento, y las conclusiones” que se derivan de
los procesos de validación a los que una evaluación debiera someterse desde la perspectiva del
enfoque basado en argumento. De forma similar, para Shaw et al. (2012: 160) dentro de las
responsabilidades de las agencias que desarrollan programas de evaluación, y por las cuales se
les puede pedir rendir cuentas, está “informar a los que se someten a la evaluación acerca del
proceso de evaluación y lo que sus puntajes significan”, especialmente si se trata de
evaluaciones de alto impacto. Junto con ello, y como miembros de una agencia evaluadora
(Cambridge Assessment), los autores reconocen la responsabilidad por “explicar al usuario del
test qué inferencias pueden y no pueden realizarse” en base a los puntajes.
Moss et al. (2006) indican los cinco aspectos que en los Testing Standards se consideran como
aquellos que se debieran consignar en los manuales técnicos y de usuario: evidencia basada en
el contenido, en los procesos de respuesta, en la estructura interna, en las relaciones con otras
variables, y en las consecuencias de la prueba (2006: 119). Si no se informa claramente a los
usuarios sobre estos puntos y, por lo tanto, estos no comprenden la información que emerge de
la prueba ni sus limitaciones, “la validez puede verse seriamente socavada” al “conducir a juicios
inapropiados” (Crooks et al., 1996: 276).
hay una serie de aspectos que no se indican en ninguna fuente y que debieron ser consultados a
los entrevistados. Aquellos participantes externos al SIMCE, además, indican desconocer algunas
etapas del proceso: los constructores de preguntas no saben qué sucede con estas una vez que
se entregan al SIMCE y los correctores tampoco saben cuáles son las fases que siguen a su
trabajo.
Arturo aseguró que a fines de 2013 se publicará un informe técnico acerca del proceso 2012,
documento en el cual se indicará con mayor precisión y en un solo lugar el procedimiento de
evaluación del SIMCE. Mientras eso sucede, el presente informe contribuye a mejorar la validez
de esta evaluación indicando a continuación los detalles de cada una de las etapas de SIMCE,
primero en base a los documentos y luego considerando las entrevistas.
En base a los documentos de dominio público que se encuentran sobre el SIMCE, se puede
indicar lo siguiente acerca de las diferentes etapas del proceso que conforma este sistema de
evaluación.
“El supuesto de esta estrategia es que la medición nacional estimula a los establecimientos a
concentrar sus esfuerzos en las generaciones y áreas curriculares que son objeto de la medición,
por lo que ampliar este foco llevaría a ampliar también el impacto positivo de las evaluaciones.”
(2003: 58).
Hay en este razonamiento una suposición sobre la cual no existe evidencia concluyente: que el
impacto del SIMCE en las escuelas es positivo. De manera consistente con la presente
investigación (ver sección 6.4), tanto el Informe (2003) como la investigación de Taut et al.
(2009) y el análisis crítico de Maureira et al. (2009), distinguen una serie de consecuencias
negativas o no deseadas de la prueba, como por ejemplo: estigmatización o juicio acerca de los
profesores por los resultados del curso correspondiente al año que se da SIMCE; estigmatización
de establecimientos como ‘buenos’ o ‘malos’; la realización de rankings a partir de los resultados
SIMCE (motivada incluso por el mismo MINEDUC en el Informe de Resultados por escuela del
año 2007); la concentración de los recursos del establecimiento en aquellas áreas y niveles que
son evaluados y, dentro de cada disciplina, en los contenidos evaluados por la prueba;
46 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
En relación con las áreas evaluadas, la Tabla 5 muestra las modificaciones experimentadas
desde el año 2004, en base a los documentos analizados.
Como se puede observar, existen cambios de denominaciones en las áreas evaluadas de un año
a otro. Los documentos de dominio público del SIMCE, nuevamente, no indican las razones para
dichas modificaciones ni las implicaciones que ello podría acarrear en términos del constructo y
el contenido a evaluar y, por lo tanto, de comparabilidad de resultados (ver sección 6.2). Estos
cambios simplemente se informan.
En términos de la época del año en que se rinde la prueba, siempre se indican fechas en torno a
octubre y noviembre. Se indica en la mayoría de los documentos también que se trata de una
prueba que mide a la población total de un mismo curso a nivel nacional y que consta de
preguntas cerradas y abiertas, aun cuando no se indica la cantidad de cada una en los
instrumentos ni su ponderación dentro del puntaje. Sí se indica que los estudiantes tienen
alrededor de 90 minutos para contestar.
TABLA 5. Subsectores y niveles evaluados por año según los documentos del SIMCE
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 47
Además, en gran parte de los documentos (sitio SIMCE, sitio Agencia y todos los Informes de
Resultados) se alude a la aplicación de cuestionarios que permiten dar una mayor
contextualización a los resultados. Estos cuestionarios recogen información acerca de docentes,
estudiantes, y padres y apoderados. En los sitios web no se indica dónde encontrar los
cuestionarios, quién los contesta ni en qué consisten más específicamente. Solamente en los
informes se indica en ocasiones ejemplos de los aspectos contenidos en estos cuestionarios (a
los docentes se les pregunta sobre las materias que han enseñado, a los padres por su nivel
educacional y a los estudiantes sobre sus hábitos de estudio, ver Informes de Resultados 2006 y
2007) y desde 2008 se agrega una nota al pie que indica que el cuestionario se puede encontrar
en el sitio del SIMCE.
“Para cada uno de los subsectores de aprendizaje evaluados, se diseñaron dos cuadernillos
diferentes, complementarios entre si ́ , por lo que el promedio de los resultados individuales
entrega información sobre los logros de aprendizaje del grupo en su conjunto. Así,́ el puntaje
promedio de un establecimiento es indicador de lo que sabe o puede hacer el conjunto de los
alumnos del nivel evaluado. Por tratarse de un promedio, los resultados agrupan el rendimiento
de estudiantes que suelen tener puntajes individuales muy dispares.”
De allí que el SIMCE no entregue resultados por alumno, puesto que para lograr cubrir el
conjunto de contenidos y habilidades que busca evaluar en un tiempo razonable, debe hacerlo a
través de formas distintas. En 2006 y 2007 solamente se menciona que hay un número variable
de formas por área y que de ello depende el número total de preguntas por cuadernillo, pero no
se explica por qué sucede esto. Desde 2008 en adelante no se indica nada al respecto, con
excepción de la explicación ya indicada en el sitio de la Agencia.
2. Elaboración de las preguntas: estas preguntas son elaboradas por “profesores de aula,
especialistas de cada una de las áreas evaluadas y especialistas en evaluación” (sitio
SIMCE), además de “sicólogos educacionales” (Orientaciones 2005). En el proceso de
elaboración de las pruebas como totalidad se indica que participan “profesores,
evaluadores, curriculistas, especialistas de cada sector o subsector de aprendizaje,
sicólogos y estadísticos, entre otros” (Orientaciones 2004). Estas preguntas se
construyen sobre la base del marco de evaluación.
Esta es la única información que se encuentra en los documentos publicados por el SIMCE
acerca de la construcción de las preguntas de la prueba.
Procedimientos de validación
Una vez elaboradas, las preguntas “siguen un riguroso proceso de revisión para asegurar que
sean pertinentes y relevantes al área y curso evaluado, estén correctas en su planteamiento, y
evalúen realmente los contenidos y habilidades que pretenden medir” (sitio SIMCE). Como
criterios de revisión de las preguntas cerradas, se indica que se resguarda la existencia de una
sola opción correcta y “las opciones incorrectas reflejen errores conceptuales o de
razonamiento típicos de los estudiantes” (sitio SIMCE). En el caso de las preguntas abiertas se
explica que se elaboran pautas de corrección que indican las características de una respuesta
correcta, una parcialmente correcta y una incorrecta.
Luego la prueba es sometida a una serie de procesos de validación, entre ellos: “(a) revisión por
parte de profesionales del equipo SIMCE, de expertos en currículum de la Unidad de Currículum
del MINEDUC y de profesores que se desempeñan en establecimientos municipales y
particulares; (b) aplicación en muestras de alumnos y análisis de los resultados; (c) entrevistas
personales con alumnos, en las que se les pide verbalizar el razonamiento utilizado para
responder cada pregunta y (d) aplicación en pruebas experimentales” (Orientaciones
2005).
Según el sitio del SIMCE, una vez aprobadas por los expertos, las preguntas se prueban con una
muestra representativa a nivel nacional un año antes de la prueba definitiva. Por medio de este
proceso se evalúa la calidad de las preguntas en relación con: el rango de dificultad de las
preguntas incluidas en la prueba y su capacidad de reflejar el desempeño de los estudiantes en
relación con la dificultad de las preguntas. Además, se juzga si las preguntas abiertas generan las
respuestas esperadas, si las pautas de corrección recogen las respuestas típicas de los
estudiantes y si categorizan adecuadamente el desempeño de los estudiantes. También se
corrobora la aplicación consistente de las pautas por parte de los correctores.
Esta fase de validación se cierra con la selección de preguntas para la prueba definitiva por parte
de “los profesionales del SIMCE” (sitio SIMCE). Se decide el número de preguntas que cada
alumno contestará, la cantidad de cuadernillos o formas a utilizar, y la secuencia con que se
organizarán las preguntas en cada forma. Finalmente, en el Informe de Resultados 2004,
aludiendo a las conclusiones de la Comisión SIMCE, se indica que en ella “se determinó que el
SIMCE posee instrumentos metodológicamente sólidos”, sin que se indiquen las bases sobre las
que se sostiene tal juicio.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 49
Antes de la aplicación, los docentes y directivos son informados cada año acerca de las “fechas
de aplicación, la forma de contestar, los distintos tipos de preguntas y los conocimientos y las
habilidades que se evaluarán, procedimientos de la aplicación, entre otros aspectos” (sitio
Agencia), por medio de los Folletos de Orientaciones.
En el sitio del SIMCE se indica que los Departamentos Provinciales de Educación junto con
universidades se encargan del proceso de aplicación de las pruebas. Son estas instituciones las
que seleccionan y capacitan a los examinadores en base a lineamientos del SIMCE. El rol de los
examinadores es el “de asegurar que todos y cada uno de los procedimientos de estandarización
se cumplan” (sitio SIMCE). Ello significa que deben asegurarse de que todos tengan 90 minutos
para responder, que se les lean las instrucciones, que estén en un ambiente adecuado para la
concentración, entre otros. Se indica que la uniformidad de la aplicación asegura la validez de la
prueba. Una vez que se da inicio a la prueba, se prohíbe el ingreso de miembros del
establecimiento y de cualquier persona ajena al proceso. Todo el operativo dura entre uno y dos
días por curso. En el proceso de aplicación participan aproximadamente 12.000 personas,
quienes deben evaluar a más de 500.000 estudiantes.
En gran parte de los Folletos de Orientaciones, además del sitio SIMCE y del actual sitio de la
Agencia, se insiste, en algunos años con bastante detalle, en la importancia de enseñar a los
niños a responder la prueba por medio de las hojas de respuesta disponibles. Se entregan en
algunos casos facsímiles de las hojas de respuesta y se advierte sobre la posibilidad de
obtención de resultados bajos solamente por el hecho de los alumnos no saber cómo contestar
la evaluación. Además, en algunos folletos se agrega que es importante decir a los estudiantes
que deben intentar contestar todas las preguntas, incluso aquellas frente a las cuales se sienten
inseguros, pues las respuestas incorrectas no se consideran en el puntaje final. En relación con
los Folletos de Orientaciones, hay una tendencia de un año a otro a la disminución de
información acerca del contenido y las preguntas de la prueba y un mayor énfasis en aspectos
de administración.
También se indica en múltiples documentos la importancia de que en lo posible asistan todos los
estudiantes el día de la prueba, de modo que no se vea afectada la representatividad de los
resultados y, por lo tanto, su validez. En las Orientaciones de 2008 para 2º medio se indica,
además, que el establecimiento podría quedarse sin resultados en caso de faltar una cantidad
significativa de estudiantes. En el sitio web de la Agencia se indica que si el establecimiento pide
a un alumno no asistir a la prueba, se trata de una falta grave que puede denunciarse al
Departamento Provincial y a la misma Agencia de Calidad y que puede desembocar en que no se
publiquen los resultados del establecimiento.
Como comportamientos deseables, además, se indica que los estudiantes respondan la prueba
seriamente y sin hacer trampa (sitio SIMCE). En el sitio de la Agencia, por otra parte, se indica
qué hacer en casos de inasistencia del los alumnos y del examinador.
50 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Hasta el año 2005, los Folletos de Orientaciones del SIMCE incorporaban ejemplos de preguntas
abiertas y respuestas tipo, con los correspondientes criterios de corrección o un comentario
acerca de las razones por las cuales una determinada respuesta se clasificaba en un nivel de
desempeño particular. Posterior a ese año, con excepción de las orientaciones de 4º básico
2009, se encuentran escasos modelos de preguntas abiertas, y cuando esto sucede es
principalmente para orientar el uso de las hojas de respuesta y no para facilitar la comprensión
acerca de cómo se corrigen estas respuestas.
Esta es la única información que se encuentra acerca del proceso de corrección de las
preguntas. En relación con el cálculo de puntajes, se explica que “la escala de puntajes no varía
entre límites mínimos y máximos preestablecidos” (sitio Agencia). El Informe de Resultados
2004 entrega un poco más de detalle al respecto:
“En el modelo IRT, no existen valores mínimos o máximos establecidos de antemano: el cálculo
se inicia asignando un puntaje al resultado promedio de todos los alumnos del país que dieron la
prueba. En el caso de 8° Básico, se asignó el valor 250, al resultado promedio obtenido en 2000,
que fue el año en que se usó la escala por primera vez en este nivel.
Tanto en el año 2000, como en 2004, se utilizó la misma escala, por lo que cualquier aumento de
puntaje estadísticamente significativo entre 2000 y 2004, indica que los alumnos alcanzaron
mayores logros de aprendizaje en 2004 que en 2000. A la inversa, una disminución significativa
de puntaje entre 2000 y 2004, indica un menor nivel de logro en los aprendizajes.”
Nada más se indica acerca del cálculo de los puntajes de la prueba. No obstante, se agrega un
mecanismo más a partir de la inclusión de los Niveles de Logro desde 2006, ya que ello implicó la
determinación de puntajes de corte. Hay un documento específico que explica en detalle el
procedimiento de Bookmark empleado para este efecto, el cual se llevó a cabo con el apoyo de
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 51
Los pasos del proceso se explican con claridad: organización de un cuadernillo de preguntas
según orden de dificultad; separación de los paneles en grupos de 5 a 7 integrantes;
determinación de consenso respecto al nivel de desempeño mínimo de un estudiante;
colocación de los separadores o bookmarks en los lugares que marcan límites entre un
desempeño y otro, según el juicio experto de los participantes; discusión y determinación de la
mediana por mesa y del total de las mesas; y fijación del puntaje de corte. Sin embargo, cuando
se pasa de la determinación del juicio profesional a la transformación en un puntaje de corte
definido para cada prueba, lo único que se indica es lo siguiente:
“Una vez obtenido el Puntaje de Corte para el grupo total, se construye un intervalo de
confianza, que se presenta a un Comité Técnico que tiene la tarea de definir el Puntaje de Corte
para cada prueba, ubicándolo dentro del rango recomendado por los especialistas.”
No se sabe quién integra el comité ni bajo qué procedimientos se definieron los puntajes de
corte. Ello resulta complejo si se contrasta con el siguiente relato de Jaime:
“(…) lo que ocurrió en Octavo en Matemáticas, y yo creo que esa es la razón por la cual no se van
a hacer niveles de logro de Enseñanza Media, es que se hacía evidente que los alumnos que
estaban en nivel avanzado hacían lo mínimo del currículum y lo que estaban en nivel intermedio
no hacían ni lo mínimo, entonces era impresentable al país decir eso, y los políticos en ese
momento nos pidieron decir eso de una manera que no se notara tanto, y por otro lado, el
proceso de validación que se hace... bueno, se asignan unos puntos de corte, donde tú dices “ya,
mira, esta descripción corresponde más o menos a este puntaje”, entonces los puntos de corte
que se pusieron arrojaban que había un montón de colegios, no sé, cientos de colegios que
tenían a todos sus alumnos en nivel inicial, es decir, que nadie alcanzaba ni siquiera el nivel
intermedio. Entonces ahí ya entramos en un terreno político y el jefe del SIMCE nos dice en esos
momentos “oye, es que no le podemos decir al país que hay gente... hay colegios, esos colegios
se van a deprimir, van a pensar que están muy mal”, entonces *+, desde nuestro punto de vista,
había que decirlo no más, nosotros no estamos cuidando que... disimular el fracaso de un
proyecto político. Entonces nos dijeron “oye, ¿pero por qué no hacemos otra metodología para
que salgan distintos los resultados?”, y ahí, afortunadamente, la gente que está a cargo de
medición se puso firme y dijo “no poh, está bien que ustedes sean políticos y que igual manipulen
un poco esto, pero nunca tanto”.”
Entrega de resultados
Se indica en el sitio SIMCE que los resultados de todos los establecimientos son públicos por ley.
Diversas fuentes analizadas señalan que lo que se entrega son los puntajes promedio de cada
establecimiento, así como el de diversas agrupaciones (p.ej. municipios, regiones) y el promedio
nacional. Se aclara, además, que desde 2006 se entregan resultados con Niveles de Logro,
primero para 4º básico y posteriormente también para 8º básico. En múltiples documentos se
explica también los medios a través de los cuales se entregan los resultados. Estos son:
Los informes nacionales de resultados generalmente incluyen: una introducción acerca de las
características generales del SIMCE; los promedios nacionales y su variación con respecto a la
aplicación anterior para el mismo nivel y curso; promedios regionales, sus variaciones y
diferencias con el promedio nacional; una serie de comparaciones de resultados por género,
estrato socioeconómico y tipo de dependencia; y, hasta 2010, una sección en que se
investigaban factores asociados a un buen desempeño en SIMCE, según factores de éxito
abordados en la literatura internacional. En lo que más varían estos informes es en la cantidad
de información que entregan sobre SIMCE en la introducción y en los niveles de reflexión
pedagógica que promueven en base a los resultados.
La información que se encuentra en los documentos públicos del SIMCE es bastante general y
escasa y deja lagunas importantes acerca del proceso. Esto se observa en el hecho que la
información detallada en las páginas precedentes acerca del proceso SIMCE debió ser
reconstruida y puesta en un mismo lugar a partir de información dispersa en diversas fuentes. Al
respecto, cabe recordar que todos los constructores y correctores entrevistados manifiestan
que hay partes del proceso en las que ellos pierden el rastro de lo que sucede con los ítems que
elaboran o las respuestas que revisan. En ese sentido, incluso para los actores directamente
involucrados en el proceso hay aspectos que constituyen una ‘caja negra’ acerca de la cual no
saben mucho, pero en cuyos filtros, sin embargo, varios de ellos confían.
A continuación se indica la información acerca del procedimiento del SIMCE obtenida a través
de las entrevistas, específicamente aquellos aspectos que complementan los datos ya expuestos
en base a los documentos. No se consignan, excepto cuando es pertinente, los nombres de los
participantes en este caso, puesto que el relato acerca del procedimiento fue altamente
consistente entre los diferentes entrevistados.
El primer paso en el proceso consiste en una lectura del marco curricular vigente, en base a la
cual se realiza una operacionalización de los Objetivos Fundamentales y Contenidos Mínimos
con el fin de hacerlos evaluables. Ello implica, por ejemplo, ver qué aspectos son posibles de
evaluar en una prueba de papel y lápiz y de qué manera se puede transformar ciertos aspectos
para que se puedan preguntar por medio de un test. Estos marcos se consideran confidenciales
y son de acceso exclusivo del SIMCE. En la medida en que un determinado currículum se
estabiliza en el tiempo, esta fase del proceso implica menos trabajo.
2. Elaboración de preguntas:
La elaboración de preguntas puede seguir tres modalidades. Pueden ser elaboradas de forma
interna por los profesionales del SIMCE, puede contratarse a elaboradores que quedan bajo la
dirección del SIMCE, o puede externalizarse, ya sea a través del encargo de preguntas al
extranjero (principalmente para Ciencias y Matemática cuando hay ciertas habilidades no
cubiertas por los constructores nacionales) o de la licitación del proceso abierta a la
participación de instituciones académicas nacionales.
En este último caso, la institución a cargo del proceso y el SIMCE componen de manera conjunta
un equipo de constructores, en su mayoría profesores de aula del área correspondiente. En el
caso de Lenguaje y Comunicación, por ejemplo, dicho equipo se conforma por cuatro
constructores, un supervisor del proceso (generalmente de perfil más académico), y un
coordinador institucional, cuya función consiste principalmente en mediar entre ambas
instituciones. Una vez conformado el equipo, hay una reunión de la universidad con SIMCE
donde se dan indicaciones acerca de aquellos contenidos y habilidades que se espera evaluar
y/o de las tareas asociadas a las preguntas que se deben construir, se explican ciertos criterios
de construcción de las preguntas y se establecen acuerdos acerca del proceso en general. Se
inicia el proceso de elaboración de preguntas, que en total contempla alrededor de 8 a 10
semanas. Hay una secuencia de trabajo que se reitera cada semana: los constructores crean
alrededor de 10 preguntas semanales, el supervisor las revisa, luego se realiza una reunión del
equipo constructor donde se revisan y modifican nuevamente las preguntas, y finalmente hay
una reunión entre el equipo y los profesionales del SIMCE, donde se realiza un nuevo proceso de
corrección y selección de preguntas.
Antes de la prueba definitiva, las pruebas son piloteadas con una muestra representativa de
estudiantes. Se construyen diversos cuadernillos teniendo en cuenta que se mantenga la
cobertura y el grado de dificultad de las preguntas del año anterior, con el fin de resguardar que
los resultados sean comparables en el tiempo. Una vez que se tienen los resultados de esta
prueba, se realiza un análisis psicométrico que contempla detectar los índices de discriminación,
dificultad y azar de los ítems, así como la posibilidad de sesgo urbano/rural y de género. Así, se
determina la calidad métrica de los ítems, se descartan aquellos que no funcionan, otros se
dejan en el banco de preguntas para modificarlos y volver a experimentarlos en el futuro y, en
casos excepcionales, se modifican o se agregan ítems si existe riesgo en relación con la
cobertura de la prueba.
Sobre la base del análisis psicométrico, se construyen las pruebas definitivas. Como ya se indicó
en base a los documentos, los estudiantes responden varias formas, es decir, no todas las
pruebas son iguales y por ello no resulta factible entregar resultados individuales, puesto que no
todos son evaluados en los mismos contenidos y habilidades. Esto es, solamente a través de
varios cuadernillos diferentes se logra cubrir el marco de evaluación y entregar los resultados
del establecimiento completo para un área en específico. Evaluar todo el marco por alumno
implicaría una prueba extremadamente extensa y, por lo tanto, impracticable.
5. Aplicación de la prueba:
Este proceso también se externaliza a través de licitación. En este caso, prima el criterio
logístico, es decir, que la institución sea capaz de hacerse cargo de un proceso de alcance
nacional. Ellos se encargan de contratar a los examinadores y capacitarlos, de aplicar las pruebas
y de hacerlas llegar de regreso al SIMCE. El MINEDUC solamente se encarga del material de
apoyo para la capacitación.
Junto con las pruebas, en esta fase se aplican los cuestionarios para padres y apoderados,
docentes y estudiantes, con el fin de obtener información adicional que posibilite otros análisis
de los resultados.
La captura de datos y la corrección de las pruebas también son externas. El SIMCE solamente
realiza chequeos para asegurar la precisión de los datos recibidos.
Las preguntas abiertas son corregidas también por medio de una licitación. La institución a cargo
del proceso recibe del SIMCE las pautas de corrección de las preguntas, las que contienen una
serie de indicadores de presencia/ausencia o que requieren puntuación. Estas pautas han sido
elaboradas por los profesionales del SIMCE. Tras la aplicación de la prueba, son revisadas a la luz
de la evidencia obtenida y pasan por un nuevo proceso de revisión en conjunto con los
supervisores de corrección de la institución que se adjudicó el proceso.
56 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
La corrección propiamente tal se inicia con la selección de los correctores, quienes reciben una
capacitación en la pauta por parte de los supervisores de corrección y, al parecer, de miembros
del equipo SIMCE, aunque su participación fue reconocida solamente por algunos entrevistados.
Dicha capacitación contempla, en algunas aplicaciones, una explicación más general del SIMCE y
su importancia y propósitos, seguida por una explicación de la pauta a utilizar y, en todos los
casos, por un ejercicio de aplicación práctica de la pauta donde es posible resolver dudas. En el
caso de Lenguaje y Comunicación hay, además, un momento de marcha blanca que asegura la
calibración del juicio de todos los correctores y los ayuda a adquirir agilidad en el proceso. Los
entrevistados del área Matemática declararon no haber pasado por una marcha blanca, sino
haber comenzado inmediatamente a corregir. Luego, se inicia la corrección propiamente tal, por
medio de un software con las preguntas escaneadas, que permite revisar en pantalla,
controlando a través de correcciones dobles por ítem la calibración de los correctores, así como
su productividad.
Existe, en general, bastante confusión en los actores del proceso acerca de la forma en que las
preguntas abiertas se incluyen en la corrección total de la prueba y en el puntaje final. Los
entrevistados que tenían más claridad al respecto (Rebeca y Josefina) indicaron que el grado de
dificultad se asigna de la misma manera que las preguntas cerradas, por lo que no depende del
tipo de pregunta, sino de su grado de dificultad. Junto con ello, otra entrevistada aclara que no
todos los años se incluyen en el puntaje final. Hay ocasiones en que se decide dejar las
preguntas abiertas fuera del puntaje o incluir solamente algunas.
Con todos los datos de regreso en el SIMCE, estos se limpian y verifican, se realiza un nuevo
análisis psicométrico, se calculan los puntajes y se realizan los análisis correspondientes
(resultados por género, dependencia, nivel socioeconómico, tendencia).
7. Publicación de resultados:
Estos son, a grandes rasgos, los pasos y procedimientos que contempla el proceso de evaluación
de SIMCE, al menos en su ideal teórico (ver síntesis en Figura 4). Hay una serie de detalles en la
forma en que se lleva a cabo cada fase que merecen una mirada más detenida desde el punto
de vista de la validez. No obstante, estos aspectos se incluyen en la siguiente sección, como
parte del análisis crítico de esta evaluación.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 57
6.1. Propósitos
En el presente estudio se realizó una síntesis de todos los propósitos asignados a la prueba tanto
en los documentos como en las entrevistas, intentando agrupar, dentro de lo posible, aquellos
que fuesen afines. Bajo ese criterio amplio y flexible, se detectaron 17 propósitos diferentes,
que se indican a continuación:
Cuatro entrevistados, todos en roles internos de coordinación en el SIMCE por varios años,
coinciden en agrupar los múltiples propósitos del SIMCE en dos grandes ‘macro-propósitos’: la
rendición de cuentas y el apoyo a las prácticas pedagógicas. Dos de ellos ven estos propósitos
en tensión permanente e indican que se han tomado medidas para cumplir con ambos. Para
Arturo, no obstante, es el propósito de rendición de cuentas el que ha predominado en general,
mientras que para Josefina el énfasis varía según la orientación de la política. Frente a la
pregunta por la posibilidad de reconciliar ambos propósitos, Jaime indica:
“Yo, cuando entré al SIMCE, creía que sí. Francamente ahora creo que un propósito se come al
otro, porque es tan fuerte el peso que tiene [] el hecho de que te vayan a cerrar el colegio o que
los profesores [] los ponen a hacer ensayos SIMCE en todas las clases, que algunos colegios
reducen las clases de Arte, Educación Física, lo que sea, para tener más Matemáticas y
Castellano, y [] no tener así en general, sino que tener preparación para el SIMCE para eso, que
yo creo que ese efecto social que tiene el SIMCE anula el otro; o sea, yo no he conocido a nadie
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 59
en todos estos años que use los resultados del SIMCE y que diferencie ambos aspectos, o sea, el
SIMCE se ha teñido de ese manto, el cual para los colegios es como algo negativo y cuesta
desmantelarlo, entonces yo creo que ya no son separables.”
“Me parece que son compatibles de todas maneras (…), porque creo que, en la medida que
entreguemos más información de en qué nivel de desarrollo están los estudiantes respecto de
cada habilidad o contenido disciplinar, y en la medida que los profesores, los directivos puedan
hacerse cargo de eso y considerar esa información en su planificación anual docente [] y
pedagógica, vamos a ir mejorando, yo estoy convencida de eso, estoy convencida (…).”
Desde su perspectiva, al entregar mayor información sobre el aprendizaje de los estudiantes, los
profesores tienen mayores opciones de incorporar información al mejoramiento de su práctica.
Señala a continuación, sin embargo, que se necesitan otros indicadores de calidad educativa
más allá del SIMCE para, por ejemplo, realizar la actual ordenación de colegios requerida por
ley, en la cual el SIMCE tiene un porcentaje de importancia excesivamente alto, según la
entrevistada.
En base a los documentos disponibles sobre SIMCE, un primer aspecto que emerge como
relevante se relaciona con los límites del constructo que se evalúa en SIMCE y, en base a ello,
qué es lo que finalmente se puede interpretar o no a partir de sus resultados. El primer rótulo
que se ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de
la educación en Chile. Ninguno de los documentos del SIMCE ofrece una definición concreta de
este constructo. El intento de modificación realizado en los últimos años, donde la sigla SIMCE
se desglosa como Sistema Nacional de Evaluación de Logros de Aprendizaje (sitio Agencia y
Orientaciones 2012) no contribuye a aclarar el constructo y contiene el riesgo de generar
interpretaciones basadas en equivalencias no válidas.
Los entrevistados involucrados en el proceso de SIMCE, por su parte, concuerdan en que lo que
evalúa el SIMCE no es calidad de la educación, al menos no de la forma en que su nombre
pareciera sugerirlo, sino más bien un espectro limitado de contenidos y habilidades de una
disciplina específica. Todos los entrevistados que mencionan el propósito de mejorar la calidad y
equidad de la educación, lo hacen para indicar que se trata de un propósito declarado, pero no
logrado del SIMCE. Alejandra, por ejemplo, percibe que el efecto ha sido el inverso:
“Entonces, ¿cuál es… qué entendemos por calidad? Habría que definir eso, ¿qué es la calidad de
la educación? Si tú estás entendiendo calidad como números, bueno, sí, mucha calidad, en
realidad, pero si la entiendes como algo más valórico, que también son habilidades, y también
son aprendizajes valóricos, actitudinales, que aquí no se están midiendo, aparte, no se están
midiendo. Entonces estamos mal (…). SIMCE no está colaborando con eso, todo lo contrario, está
contribuyendo a seguir segregando a la sociedad chilena, a seguir estableciendo esta
militarización de la educación, que no sirve… no se educa en valores de convivencia, en valores
de vínculos con el medio. Lo que importa es rendir una prueba (…) eso es lo que importa, eso es
60 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
lo que importa. No es lo que está pasando en el aula, no el esfuerzo que está haciendo el pobre
profesor para poder hacer que no le… que los niños se motiven. Entonces, en definitiva, creo que
el concepto SIMCE está fallando en términos de procedimiento, de cómo se hace, cómo se lleva a
cabo, y en términos de efectos también, porque ¿qué produce el SIMCE? Todo lo que provoca
alrededor, pero, sobre todo, tiene un error conceptual ahí… no un error conceptual, tiene una
indefinición: ¿qué es lo que es la calidad? Y si no sabes tú, no tienes definido lo que es la calidad,
no puedes estar midiendo la calidad, no puedes tener un sistema para medir la calidad. Me
parece que eso es una contradicción.”
La percepción de los docentes entrevistados coincide con esta apreciación. Todos ellos indican
que el SIMCE distorsiona la práctica de las escuelas al centrar la atención y el uso del tiempo en
las asignaturas evaluadas por el SIMCE; al modificar las prácticas de evaluación en función de lo
que ellos consideran es el modelo SIMCE; y al reducir el currículum a las áreas evaluadas por la
prueba y a aquellas habilidades y contenidos evaluables por medio de una prueba de lápiz y
papel (ver sección 6.4). La distorsión de la práctica sucede por la exposición pública de los
resultados y su uso para establecer comparaciones y rankings entre escuelas, lo que provoca
que las escuelas se vean presionadas a mejorar el puntaje SIMCE por cualquier medio. Ello
podría ir en contra del propósito intencionado de mejorar la calidad y equidad del sistema.
Los que sí consideran que el SIMCE evalúa calidad, aclaran que lo hace en términos de una
dimensión de la calidad entre muchas posibles, ligada en este caso a los resultados de
aprendizaje.
Junto con el concepto de calidad, todos los documentos del SIMCE indican que se trata de una
evaluación del currículum vigente para diversas áreas de aprendizaje. El primer punto a
considerar al respecto es si se puede establecer una equivalencia entre calidad de la educación Y
nivel de aprendizaje del currículum vigente y, en ese sentido, si se trata de una delimitación
adecuada o no del concepto de calidad.
“(…) yo creo que, finalmente, el SIMCE *+ evalúa un nivel muy muy muy básico de escritura y de
comprensión de lectura, pero muy básico. (…) yo creo que... o sea, habilidades de todo tipo,
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 61
habilidades complejas y todo lo demás yo creo que no lo evalúa bien y tampoco evalúa bien la
lectura comprensiva. Si lo hace, lo hace a un nivel muy muy básico, y muy mínimo.”
“SIMCE termina evaluando, se termina parando desde la posición más tradicional en medición,
que es evaluar lo que existe, lo que, básicamente, lo que se puede medir []. Entonces, lo que se
puede medir son reacciones, y las reacciones a lectura, las reacciones a las preguntas, las
reacciones... y lo que se puede obtener en reacción en un plazo breve, cuestiones muy
observables, por ejemplo, la presencia de determinados elementos en una pregunta, que
permitan obtener rápidamente una inferencia o una conclusión unívoca, respuestas... respuestas
únicas, en un contexto curricular... (…) donde, por ejemplo, se propicia la creación, creación que
no se puede medir en SIMCE.”
“Esa era una de las peleas que teníamos nosotros también adentro [del SIMCE], que decíamos
que las pruebas de selección múltiple no estaban considerando todos los desempeños que los
estudiantes debieran mostrar en una prueba de esta envergadura. Entonces, en ese sentido, yo
diría que sí es válido, con la estructura que tiene para indicadores o para objetivos de evaluación,
no para (…) objetivos de aprendizaje que no son evaluables con pruebas de selección múltiple
(…). En la misma página del SIMCE dice que la misión [] del SIMCE es evaluar la calidad de la
educación, y era como cuestionable qué es la calidad de la educación si estamos evaluando solo
aquello que se puede preguntar en preguntas de selección múltiple, o sea, que dónde quedaba el
argumentar, por ejemplo, dónde quedaba el demostrar en Matemáticas, dónde quedaba el uso
de la calculadora que no la usamos en una prueba de SIMCE, dónde quedaba el cálculo mental
(…) entonces decir que calidad es solo aquello que se puede evaluar en una prueba de selección
múltiple es como cuestionable.”
Los fragmentos anteriores ilustran la opinión de gran parte de los entrevistados, quienes
perciben que, por una parte, no corresponde hablar del SIMCE como evaluación de calidad y,
por otra, que lo que logra evaluar del currículum no es lo más complejo ni lo más relevante de
cada disciplina.
Además, de acuerdo con el testimonio de algunos participantes, las preguntas que tienden a
comportarse mejor en el proceso de validación psicométrica son aquellas de formulación más
simple y que están ligadas a habilidades más básicas (ver sección 6.5), lo que refuerza la
existencia de un filtro hacia lo más elemental de cada área. En la misma línea, algunos observan
que, tras el análisis psicométrico, hay contenidos completos que quedan sin cubrir debido a que
ninguna pregunta asociada a dicho contenido logra pasar el pilotaje, como sucede con el
Teorema de Pitágoras, según Alicia. Al ser consultado por este aspecto, el Profesor David
Andrich indica que no le parece correcto simplemente excluir el contenido de la prueba, y
entrega las siguientes razones:
“Pareciera que son los ítems que evalúan el contenido los que no están pasando el análisis
psicométrico. Quizás necesitan revisarse. Si comienzas con sets de ítems que debieran ir juntos y
evaluar algo importante, y algunos sub-conjuntos de ítems no están funcionando, entonces es
necesario tener una explicación. Las estadísticas pueden decirte dónde está el problema, pero no
62 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
pueden explicar el problema. Puede estar en los ítems, puede estar en lo que se asume que se
enseña, y así sucesivamente.”
Junto con la exclusión de contenidos, se incluye dentro de un mismo constructo rasgos que no
se comportan de manera similar al aplicarse la prueba, como es el caso de geometría, que no se
correlaciona con el desempeño de los alumnos en números y álgebra, según Jaime. Anastasi y
Urbina (1997) explican que para que diferentes factores (p. ej. números, álgebra, geometría)
puedan formar parte de un mismo factor más amplio (p. ej. evaluación de razonamiento
matemático), debe existir un alto nivel de correlación en el comportamiento de dichos factores
(lo que denominan validez factorial). Ello significa que geometría no debería formar parte del
mismo constructo que números y álgebra, sino ser evaluados aparte, como dos rasgos
diferentes. De lo contrario, se puede llegar a concluir que un alto puntaje SIMCE en Matemática
implica que los estudiantes tienen buen desempeño en todos los ejes del área, cuando en
realidad esto estaría excluyendo los aprendizajes de geometría. El Profesor David Andrich, al
preguntársele por este aspecto, concuerda en señalar que:
“Pareciera que cada uno debiera ser un test diferente. Sin embargo, nuevamente ello depende
del currículum y de la intención. No obstante, si hay baja correlación, entonces no es solamente
un poco extraño, sino que significa que un puntaje no puede resumir el conocimiento de un
estudiante. El principio conceptual fundamental de utilizar un único test y, por consiguiente, un
mismo puntaje es si el puntaje único resume el perfil de la mayoría de los estudiantes. Si no lo
hace, entonces se necesita más de un test. Sin embargo, la correlación se ve afectada por las
prácticas de enseñanza al igual que por el test.”
Sobre la base de estos datos, entonces, es posible indicar que los límites del constructo se
reducen aun más tras el proceso de validación. Si a ello se agregan los ejemplos de preguntas en
las que se asigna una habilidad más compleja que la que la pregunta realmente evalúa (ver
análisis de preguntas infra), entonces nos encontramos con una prueba que tiende a evaluar las
habilidades más básicas del currículum de ciertas áreas. La siguiente figura ilustra la creciente
reducción del constructo evaluado por el SIMCE en base a la evidencia de investigación.
FIGURA 5. Reducción de los límites del constructo a evaluar en SIMCE en base a evidencia
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 63
Uno de los propósitos del SIMCE consiste en establecer comparaciones en el desempeño de las
escuelas y del país de un año a otro. Ello requiere necesariamente que cada año se evalúe un
mismo constructo, es decir, que la definición teórica de aquello que se evalúa sea la misma y
que sus límites se mantengan. No obstante, a partir de los documentos analizados, surgen una
serie de aspectos problemáticos que podrían poner en cuestión la estabilidad del constructo en
el tiempo.
Un primer aspecto se relaciona con los cambios curriculares. El SIMCE evalúa los aprendizajes
logrados en torno al currículum vigente. Si el currículum se entiende como susceptible de
modificación, entonces no existe seguridad acerca de la estabilidad del constructo a evaluar a lo
largo del tiempo. En los documentos se registran dos cambios de este tipo durante los últimos
años. Las Orientaciones para 4º básico 2004 indican:
“Las pruebas SIMCE 8° Básico 2004 marcan un hito importante, puesto que es la primera vez
que se evaluarán los Objetivos Fundamentales y Contenidos Mínimos Obligatorios (OF-CMO)
establecidos en la Reforma Curricular de este nivel.”
Ello significa que durante los años previos a 2004 lo que se estaba evaluando correspondía a un
currículum anterior. Si bien en el Informe de Resultados correspondiente a ese año se realiza
una pequeña advertencia al respecto, no se considera la posibilidad de que establecer
comparaciones entre las evaluaciones anteriores y posteriores a 2004 sea inadecuado, pues los
constructos a evaluar son diferentes. Las comparaciones se establecen como en cualquier otro
período. De forma similar, desde 2009 se comienza a evaluar solamente aquellos OF y CMO que
se mantendrían en el Ajuste Curricular publicado ese año, primero para 8º básico y desde 2011
también para 4º básico. Habría que preguntar, entonces, qué tan equivalentes son el Marco
Curricular y su Ajuste, qué pasa con aquellos ámbitos que no se evalúan desde 2009 y si la
comparabilidad de los resultados no se ve afectada por un nuevo cambio de constructo. Los
Informes de Resultados, en este caso, informan acerca de la modificación, sin indicar nada con
respecto a las consecuencias que ello puede tener para la comparabilidad y la interpretación de
los resultados. A estos cambios detectados en los documentos hay que agregar las Bases
Curriculares publicadas en 2012 y, además, los Niveles de Logro, que se incorporan desde 2006
como un referente más que, según Josefina, lleva a realizar cambios como la inclusión de
habilidades más complejas que no se evaluaban en aplicaciones anteriores.
Al preguntar a los miembros del equipo SIMCE por estos cambios curriculares, todos coinciden
en indicar que la solución es el establecimiento de un período de transición en el cual se trabaja
con las intersecciones entre ambos currículos, es decir, con aquellos elementos comunes entre
ambos marcos. No obstante, difieren en su grado de convencimiento respecto de este
procedimiento. Para la mayoría se trata de un medio adecuado de asegurar la comparabilidad
de contenido en el tiempo, sin embargo, Josefina y Sofía coinciden en señalar que este proceso
resultó mucho más complejo en las áreas de Ciencias, Ciencias Sociales y Matemática, puesto
que hubo contenidos que, por ejemplo, cambiaron de un ciclo a otro, por lo que ya no podían
evaluarse en el SIMCE correspondiente al ciclo al que anteriormente pertenecían. Consultado
sobre los cambios curriculares y cómo ello incide en la comparabilidad, el Profesor Andrich
indica:
64 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
“Por supuesto que los cambios en el currículum nacional (…) afectarán la comparabilidad de los
resultados de un año a otro. Una forma de enfrentarlo es (…) evaluar lo que es común. Sin
embargo, lo que es común puede tener diferentes ubicaciones en el tiempo (…) en los diferentes
currículos, por lo que esto debe tomarse en cuenta. Si la ubicación en el tiempo es la misma (…),
entonces es posible en principio utilizar esta evaluación de aspectos comunes para colocar las
evaluaciones completas de cada currículum en la misma escala. Esto debe realizarse con
cuidado.”
Por lo tanto, si existen contenidos que cambian de ciclo, entonces la solución de las
intersecciones podría considerarse cuestionable, pero se requiere un análisis más detenido para
llegar a conclusiones más definitivas. Junto con lo anterior, hay divergencias en relación con la
comparabilidad del currículum pre-2012 y las Bases Curriculares. Para algunos, como Rebeca, las
diferencias de enfoque son mínimas, mientras que para Alicia se trata de un cambio
paradigmático en la disciplina.
En segundo lugar, además de los cambios curriculares, es importante revisar las diferencias de
constructo por subsector que se encuentran de un año a otro en la sección de los documentos
de Orientaciones y los Informes de Resultados referida a los conocimientos y habilidades a
evaluar en cada área. Esto resulta fundamental en términos de validez de constructo, puesto
que se trata de una de las escasas secciones de los documentos del SIMCE donde se puede
detectar la teoría disciplinaria subyacente a cada prueba. En las tablas 6 y 7 se transcribe, a
modo de ejemplo, esta sección para las diferentes aplicaciones de la prueba SIMCE en 8º básico,
tanto en Lenguaje y Comunicación como en Matemática (ver Tablas 6 y 7).
Algo similar ocurre con Educación Matemática para el mismo nivel, aun cuando las discrepancias
de un año a otro son menores que en el caso de Lenguaje y Comunicación. La descripción de los
contenidos a evaluar en 2004 es exactamente igual a la publicada en 2007. No obstante, en
2009 se observa, por una parte, un cambio en la denominación de los ejes a evaluar. Por
ejemplo, tratamiento de la información se reemplaza por datos y azar, denominaciones que no
necesariamente sugieren los mismos contenidos. Pese a ello, los contenidos de 2007 se
mantienen en este nuevo eje de 2009, agregándose algunos aspectos nuevos. Además, por
primera vez en 2009 se establece una división entre el conocimiento conceptual de cada eje y su
aplicación, lo que sugiere que pueden haber existido en esa aplicación preguntas de contenido
puro. Junto con ello, resolución de problemas deja de presentarse como un eje transversal y se
lo integra en cada uno de los ejes, quizás con la idea de explicar cómo se integra en cada área.
Finalmente, en 2011 hay contenidos específicos que se agregan y que no estaban en años
anteriores: potencias de base natural y exponente entero; calcular la longitud de la
circunferencia y el área del círculo; el teorema de Pitágoras. Por último, se amplía el uso de
tablas y gráficos más allá de los medios de comunicación masiva, que era el énfasis que se había
dado en años anteriores. La situación en 4º básico y 2º medio no es muy diferente a la ya
descrita para 8º, de manera que los resultados aquí expuestos pueden extrapolarse a dichos
niveles.
párrafos y textos completos. evaluados considerando dos requieren reflexionar acerca distintos tipos de relaciones
En ambos niveles se evaluará, niveles de aplicación: local y del contenido y de la forma en el texto (causa, efecto,
entre otros aspectos, la global. El nivel de aplicación del texto, por ejemplo, finalidad, concesión);
capacidad de los alumnos para local implica el trabajo con reconocer la relación entre las interpretar acontecimientos y
identificar información palabras y oraciones, y el imágenes presentadas y la acciones de personajes a
explícita, inferir significados y nivel de aplicación global, con información verbal. Para partir del sentido global del
sintetizar información. En párrafos y textos completos. evaluar cada una de estas texto; interpretar lenguaje
cuanto a la aplicación de En comprensión de habilidades se incluirán figurado en textos en que
contenidos curriculares, se contenidos textuales, se preguntas de diversos grados predomina ese tipo de
evaluará la capacidad de plantearán tareas específicas de dificultad. lenguaje.
reconocer las partes de la como identificar información Las habilidades de Reflexionar sobre el texto:
oración; identificar la función explícita, sintetizar comprensión de lectura serán reconocer la relación entre las
gramatical de las palabras; información o realizar evaluadas mediante imágenes o recursos gráficos y
reconocer elementos básicos inferencias a partir de ella, en preguntas referidas a diversos la información verbal; emitir
de la teoría de la diferentes tipos de texto; tipos de textos, tanto juicios o evaluaciones acerca
comunicación (como emisor, además de la realización de literarios como no literarios. de la lectura; aplicar la lectura
receptor o mensaje); y tener tareas de interpretación en Entre los primeros se incluirán a situaciones reales; opinar
conocimientos sobre las textos literarios. En aplicación cuentos, poemas y textos sobre los contenidos de los
características de los géneros de contenidos curriculares, se dramáticos. Entre los textos leídos.
literarios y de los distintos plantearán tareas como segundos, se incluirán Las habilidades de
tipos de textos. reconocer funciones noticias, instrucciones, comprensión lectora se
La comprensión de lectura se gramaticales de las palabras, artículos de opinión, afiches, evaluarán a partir de la lectura
evaluará mediante preguntas identificar algunos elementos entre otros. Los textos no de diversos tipos de textos
de selección múltiple, básicos de la teoría de la literarios generalmente literarios y no literarios. Entre
referidas a diversos tipos de comunicación (como el incorporarán elementos los textos literarios, se
textos, literarios y no concepto de “emisor” y sus complementarios como utilizarán cuentos, poemas y
literarios. Entre los textos características) y reconocer cuadros, gráficos, tablas, textos dramáticos. Los textos
literarios se seleccionarán características de los grandes notas al pie o ilustraciones. no literarios incluirán
principalmente textos géneros literarios y de Los textos podrán ser noticias, textos
narrativos, y entre los no diversos tipos de textos. completos o fragmentos, y instruccionales, artículos de
literarios, se seleccionarán Estas tareas de comprensión referirse a situaciones reales opinión y afiches, entre otros.
textos informativos, de lectura serán evaluadas o imaginarias. Asimismo, sus Los textos no literarios
instruccionales y persuasivos. mediante preguntas referidas contenidos serán variados en generalmente incorporarán
La producción de textos, por a distintos tipos de textos, temas y complejidad, y harán elementos complementarios,
su parte, se evaluará tanto literarios como no referencia a diversos como cuadros, gráficos,
mediante preguntas abiertas o literarios. Entre los primeros, entornos culturales. tablas, notas al pie o
de desarrollo que se deben se seleccionarán textos ilustraciones.
contestar por escrito, narrativos y líricos; entre los Los textos de la prueba
generadas a partir de segundos, textos pueden corresponder a
estímulos que situarán a los informativos, instruccionales versiones completas o
alumnos frente a y persuasivos o que expresan fragmentos de textos más
determinadas situaciones puntos de vista. extensos, y referirse a
comunicativas. situaciones reales o
Adicionalmente, se evaluará el imaginarias. Los contenidos
dominio de las normas de serán variados en temas y
ortografía, en sus aspectos complejidad, y harán
literal y acentual. referencia a diversos
entornos culturales.
* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran
las mayores diferencias.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 67
* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran
las mayores diferencias.
“(…) cuando tú me propusiste ser tu entrevistada en este estudio, yo te dije por fin alguien me va
a preguntar algo del SIMCE, porque creo que en cada uno de los procesos cuando existe esta
preconcepción de que todo esto está correcto, de verdad que nosotros en algún minuto hemos
sentido que somos como un proceso con el que hay que cumplir para que esto se valide, pero si
no toman en consideración nuestras respuestas y lo que como equipo en alguna oportunidad
nos ha tocado enfrentar y elaborar, ahí me parece que la discusión es nula y finalmente no
tiene validez, o sea, hay ítems de pregunta cerrada que también se iban con distractores que no
nos parecían, con cosas que tenían parcialidades, entonces, a pesar de que esté declarado que
mide comprensión de lectura, si el ítem no está bien hecho o la pauta de corrección de pregunta
abierta no está bien elaborada, ¿qué mide?, yo no puedo asegurar que esté midiendo lo que dice
medir, para nada.”
“Tú llegas a construir... te hacen una pequeña (enfático), no diré que nada, pero pequeña
capacitación y ya, anda a construir preguntas y tú gastas muchísimo tiempo haciendo, no sé
cuántas serán ahora, pero, ponte tú, que diez por semana, vas a una reunión con cuatro o cinco
personas más, que las miran en un data show y las leen, y las otras personas, que tienen la
misma o menos capacidad o conocimiento del asunto que uno, te dicen “mira, yo creo que
deberías quitarle acá”; la otra “yo creo que no, que deberías quitarle allá”, y es, entre todos (…)
arreglando o bajando una pregunta, y muchas veces ha quedado en términos autoritarios.”
Como parte de los problemas de construcción se menciona también la selección de textos por
parte del MINEDUC, ya que algunos son excesivamente complejos para abordarlos por medio de
una pregunta cerrada o en el nivel evaluado, mientras que otros son pobres en términos de la
cantidad de preguntas que se pueden realizar a partir de ellos.
Varios entrevistados, tanto involucrados en la construcción como miembros del equipo SIMCE,
frente a estas dudas sobre la calidad de las preguntas, indican confiar en los procedimientos de
validación psicométrica que se realizan en base a la prueba experimental. No obstante, como ya
se indicó, este proceso también genera problemas de constructo y contenido (tendencia a la
selección de preguntas más básicas y rutinarias, exclusión de contenidos completos de la
prueba, inclusión de ejes que se comportan de forma diferente en un mismo constructo y una
misma prueba).
Para algunos entrevistados, la modificación de los equipos internos del SIMCE a partir del
traspaso de la prueba a la Agencia de Calidad incrementa la baja claridad de los criterios del
MINEDUC, puesto que ahora no hay equipos disciplinarios, sino que un único equipo
multidisciplinario a cargo de todo el proceso de elaboración de preguntas. Para Guion (1977: 7),
si bien el conocimiento de un psicólogo puede aportar desde su experticia en evaluación, resulta
fundamental que las decisiones y juicios en relación con los dominios a evaluar estén a cargo de
70 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
expertos en dicho dominio, en este caso, en los contenidos y habilidades de una disciplina
específica. A ello se agrega la salida masiva de los trabajadores más antiguos del SIMCE tras el
cambio de administración en 2008, debido principalmente a desacuerdos con respecto al
enfoque que se comenzó a dar a la prueba (más orientado a la rendición de cuentas) y al
carácter impositivo de la nueva administración. Esta salida es negada por los actuales miembros
de SIMCE en las entrevistas, pero es corroborada por todos los ex trabajadores del SIMCE que
fueron entrevistados. Esta salida, indican algunos participantes, hace que la competencia y el
criterio común que se hubiera podido generar con los años se pierdan, especialmente porque
varios explican que se trata de competencias con las que no se cuenta al entrar a trabajar en la
prueba y que se desarrollan y afinan con los años de práctica. Explica Jaime:
“(…) era bien artesanal, *+ eran muy pocas personas y básicamente tú aprendías ahí como, no sé
poh, como de maestro a discípulo, o del taller que le enseña a los nuevos aprendices, entonces
vas aprendiendo y haciendo de todo (…).”
“(…) mi jefe venía recién llegado, así que no sabía mucho como era la cosa. Él es matemático, así
nada que ver con sistemas de evaluación ni nada, entonces él también iba aprendiendo,
entonces estábamos todos como aprendiendo ahí. Solo había una persona que tenía mucha
experiencia, que era [nombre de miembro equipo SIMCE], que era una persona (...) que tenía
muchos años en el SIMCE, o sea, conocía desde que se armó. Ella sabía como más. (…) ahí me
dijeron “mira, mira a *nombre de miembro equipo SIMCE] un poquito como es la cosa y ahí...
este es *nivel de la prueba asignado a la entrevistada+, ármalo”. Y ya (…), ahí me puse a leer, me
entregaron unos libros (…).”
Por otra parte, todos los correctores manifestaron problemas en el uso de las pautas de
evaluación creadas por el SIMCE para la evaluación de las preguntas abiertas. La mayoría
cuestiona la calidad de las pautas, y aquellos que han estado en roles de supervisión indican que
en diferentes instancias y procesos han entregado retroalimentación al SIMCE en función de
mejorar estos instrumentos. No obstante, todos los años se experimentan los mismos
problemas y los cambios sugeridos no se implementan. Así indica Emilio, corrector de
Matemática:
“Entrevistadora: Y a ti, que te tocó trabajar varios años, los problemas que pudieron haber
detectado como en las pautas, como ponerse de acuerdo para clasificar las cosas, ¿te parece que
esas problemáticas se han ido corrigiendo de un año a otro o las problemáticas se repetían de un
año a otro?
Entrevistado: Uy, yo creo que era lo mismo todos los años.
Entrevistadora: Las mismas pautas.
Entrevistado: Eran distintas preguntas, pero los problemas... los tres años que trabajé fueron
igual de problemáticos, no quiero decir que muy problemáticos...
Entrevistadora: Pero los problemas se repetían, digamos.
Entrevistado: Pero sí, siempre había problemas, ningún año fue mejor que otro en ese sentido.”
De forma similar, Sandra, que trabajó tanto en validación de pautas como en supervisión de
corrección y en corrección de preguntas abiertas de Lenguaje, indica:
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 71
“Esas pautas están... se supone que cada año se van modificando y todos los años también se
revisan []. Pero en la práctica, en la práctica, cuando a uno le toca tanto corregir como
supervisar se da cuenta que las observaciones que se llegan a concretar como cambios en las
pautas son mínimas en realidad, lo que se cambia, en realidad, son los ejemplos para adecuarlos
a la prueba que se va a revisar [] durante ese año.”
“Entrevistada: Lo que sucede es que siempre te dan mucha información al contratarte, como
que parece que está súper, hiperorganizado, y después resulta que estás viendo tú que está lleno
de pifias en la medida en que la pautas de evaluación (…) se levantaban, se levantaban, a partir
de la evidencia, una pauta para evaluar. Eh... la tienes que levantar tú mismo, se corrigen entre
ellos y resulta que tú dices las falencias que tienen y, al año siguiente, después de haber hecho
un tremendo informe, que sin el cual no te pagan, etc., haces el informe de todas las falencias y
resulta que, al año siguiente, es exactamente lo mismo, no hicieron...
Entrevistadora: Es la misma pauta.
Entrevistada: La misma, idéntica, con todas las fallas. Entonces uno decía, pucha, la cantidad de
recursos gastados ahí... es súper heavy.”
Estos problemas provocan, según los entrevistados, que la corrección se realice en base a una
versión acordada de la pauta creada in situ, versión que el equipo SIMCE no maneja.
La percepción de los entrevistados con respecto a las preguntas se confirma en el análisis de los
documentos. De ellos se logró rescatar 152 ejemplos de preguntas, 43 de los cuales presentaban
algún tipo de problema (ver detalles en Tabla 8). El análisis de las preguntas se realizó como
parte de la codificación inductiva de los documentos. En ese contexto, una vez que se
establecieron los 373 códigos, se generó una categoría denominada “Preguntas” en la cual se
clasificaron varios de los códigos, uno de los cuales correspondía a “problemas”. En este sub-
código se agruparon las preguntas en diferentes categorías, según los problemas observados. A
partir de ello, se observa que un 28% de las preguntas analizadas contiene alguno de los
siguientes aspectos:
fáciles porque piensan que debe haber algo más, que la respuesta no puede ser tan
evidente.
Redacción confusa de un problema matemático, haciendo que los estudiantes puedan
equivocarse por problemas de lectura y no de la disciplina.
Algunas de las explicaciones que se ofrecen para las respuestas erróneas no resultan del
todo convincentes.
OBJETIVO FUNDAMENTAL
“Descubrir y proponer sentidos en torno a los temas planteados en las obras literarias (...)”.
¿Cuántas horas de diferencia hubo entre las preemergencias de los añ os 2003 y 2005?
A. 54
B. 60
C. 63
D. 72
La falta de una mayor contextualización podría hacer que aquellos niños cuyos padres tienen un
automóvil y viven en Santiago, y por lo tanto necesitan saber cuándo hay preemergencia y alerta
ambiental, tengan una ventaja por sobre los niños que viven en regiones sin contaminación o
que viven en Santiago y no poseen un vehículo. Se indicó que el análisis psicométrico controla
por sesgo urbano/rural, por lo que el aspecto regional podría subsanarse de esta manera. No
obstante, no existe control por posible sesgo socioeconómico, lo que, dado los resultados de
74 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
SIMCE cada año, podría resultar fundamental. Jaime, en su descripción de los criterios de
análisis psicométrico de la prueba, confirma esta preocupación:
“Ahora, lo que no se estudia son diferencias por nivel socioeconómico, porque como en el SIMCE
hay resultados muy distintos por nivel socioeconómico, nunca ha quedado claro si a veces hay
sesgo socioeconómico, o sea si hay alumnos que... o sea, por ejemplo, si la prueba toca temas
que son más de una clase social y no de otra, si eso mismo no hará que les vaya a unos mejor
que a otros, o sea, eso no es muy claro.”
Pese a que se clasifican en un mismo nivel, se trata de tres preguntas de dificultad diversa. La
segunda requiere más procesos mentales, además del trabajo con fuentes de información
variadas. A su vez, el tipo de operación a realizar en la tercera es mucho más sencillo que el que
se requiere en la primera, donde se exige la comprensión del concepto de fracción. No obstante,
las tres aparecen clasificadas como ejemplos de nivel avanzado. Jaime alude a las posibles raíces
de esta problemática:
“Por un lado, con la gente que está en un rol más político, a veces ahí entra un poco el criterio de
que hay cosas... a ver, cómo decir, como que tienes que decirlas de una manera no
necesariamente tan realista o tan clara, por un lado, para que sea más entendible para todo
público y, por otro lado, para que tenga el efecto político que ellos desean, es decir, tú no puedes
decir que el país está muy mal. Por ejemplo, para ponerles nombres a los niveles de logro, tú
tienes que decir que algo [] avanzado, intermedio, ahora dicen que es adecuado y elemental,
pero en realidad... o sea, esos tecnicismos se los dejamos más bien a ellos; ahora, para hablar de
aprendizajes, es un acuerdo re complejo, porque el Ministerio de Educación, a mi modo de ver,
nunca ha tenido una discusión [] ni un mínimo consenso respecto a lo que es el aprendizaje y a
cómo hablar de él.”
Una posible razón, entonces, se relaciona con la necesidad de mostrar como avanzado un nivel
que en realidad sería adecuado, o como intermedio un nivel que en realidad sería elemental,
por motivos de índole política.
Es importante señalar que en el análisis de los ítems los problemas se encuentran con mayor
frecuencia en el área de Lenguaje y Comunicación que en Matemática. Ello puede deberse a que
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 77
resulta más fácil formular preguntas cerradas en el contexto de una ciencia exacta; a la mayor
experticia de los elaboradores (aun cuando esto no es corroborado por los profesionales del
área en el equipo SIMCE); o simplemente a que la experticia de la investigadora en esta área es
menor y, por lo tanto, su capacidad de detectar sutilezas en las preguntas de esta disciplina es
menos alta que en Lenguaje.
Tal como se indicó en la sección sobre metodología, con el fin de corroborar la validez de los
juicios de la investigadora, se pidió a cuatro especialistas del área que respondieran una breve
encuesta en que se les pedía clasificar las preguntas que generaban dudas en una de las tres
habilidades indicadas como parte del constructo a evaluar en el Manual del Profesor asociado al
instrumento. Las preguntas 5, 9 y 16 de este instrumento se clasifican en el Manual como
preguntas que requieren Relacionar e interpretar información. No obstante, las cuatro
especialistas coinciden con la investigadora en indicar que las preguntas 5 y 16 evalúan la
localización de información literal en el texto. La pregunta 9 no obtuvo el mismo consenso, con
dos especialistas optando por la detección de información literal, al igual que la investigadora,
mientras otra de ellas coincidió con la habilidad asignada por el SIMCE y la cuarta prefirió optar
por la alternativa “Otros”, indicando que en realidad la pregunta evaluaba varias habilidades
simultáneamente, siendo una de ellas la detección de información literal y otra la relación e
interpretación de información. Por lo tanto, al menos dos preguntas, desde la perspectiva de la
validación a través de la consulta a expertos (Anastasi y Urbina, 1997; Shawn et al., 2012),
estarían mal clasificadas dentro del instrumento, generando así problemas de cobertura, de
comparabilidad y de interpretación de los resultados. Las preguntas pueden consultarse en el
Anexo 3, donde se adjunta la encuesta realizada.
Como puede observarse a partir de este análisis, los problemas detectados por Eyzaguirre y
Fontaine (1999) hace más de diez años en las pruebas SIMCE se reiteran en los instrumentos
actuales (ver sección 3.4).
Hay una confianza excesiva en el proceso de pilotaje y análisis psicométrico, pese a que
este provoca la exclusión de contenidos completos, arroja que no existe correlación
entre los resultados de los ejes de una misma prueba, y estimula la producción de ítems
más básicos y rutinarios, a veces clasificados como si evaluaran habilidades y contenidos
más complejos.
En términos de cobertura, la clasificación dudosa de ciertas preguntas en habilidades
más complejas que las que en realidad se evalúan genera dudas en relación con la
amplitud con que se abarca el currículum.
6.3. Criterio
“Son unas pruebas, la verdad es que son unas pruebas muy sencillas, porque nosotros también
en un momento como fundación las diseñamos. Y es más, no es por falta de modestia, pero yo
creo que los instrumentos que nosotros preparamos eran un poquito más exhaustivos. Ahora,
mirando los instrumentos, son unas pruebas muy sencillas, pero sin embargo, las mediciones
que, mmm, no han sido del todo buenas y de alguna manera han sido realmente predictivas en
términos de los logros en la, en, en los SIMCE cuarto básico y sép, y octavo.”
Evidencia similar ofrece el caso de Laura, quien reconoce su bajo dominio del área de Lenguaje,
y en su discurso evidencia una perspectiva más bien tradicional de la disciplina, donde, por
ejemplo, cree que en los niveles inferiores de enseñanza solamente se debe enseñar
comprensión a nivel explícito. Sin embargo, declara haber sacado el mejor puntaje SIMCE de la
comuna.
Ambos casos son un primer indicio -muy preliminar por cierto-, desde las dimensiones
concurrente y predictiva, de que el SIMCE podría estar evaluando un nivel extremadamente
bajo de aprendizaje. Por lo tanto, se hace necesario generar evidencia que avale las
generalizaciones y extrapolaciones (Crooks et al., 1996) que actualmente se realizan desde la
muestra de tareas del SIMCE al dominio, por ejemplo, de la comprensión lectora.
Hay profesores también que, como Leila, no observan mayor correlación entre los puntajes del
SIMCE y su apreciación con respecto al aprendizaje de los estudiantes:
“Cuando el año pasado tanto, tanta vanagloria, y que habíamos subido 30 puntos en
matemática y aplausos van y vienen, y yo tomo a los niños en primero medio… y, ¿y dónde están
los 30 puntos de más que tuvieron? O sea, no, no me, no hay una correlación [se ríe], no le veo
correlación directa, fíjate, en el aprendizaje con el alumno. A lo mejor se preparó, lo prepararon
bien para el SIMCE y después, llegaron en marzo en pañales otra vez.”
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 79
Nuevamente hay evidencia preliminar aquí de que, desde la dimensión predictiva, podría
cuestionarse la validez de los resultados del SIMCE. Evidentemente, se trata en este estudio de
una primera aproximación cualitativa de tipo exploratorio, que requeriría estudios más
profundos del grado en que SIMCE se correlaciona con otras evaluaciones y predice
comportamientos futuros.
En base a lo anterior, se puede indicar que el SIMCE se beneficiaría con la realización de estudios
de validez concurrente y predictiva, que confirmen que aquello que dice medir es lo que
finalmente mide. Los documentos analizados aluden a la participación de Chile en una serie de
evaluaciones internacionales (sitio SIMCE), sin embargo, la información que se entrega se
relaciona solamente con las diferencias de administración y publicación de resultados de los
instrumentos nacionales e internacionales. Esta participación presenta una oportunidad para
realizar estudios de concurrencia entre los resultados de evaluaciones de constructos similares,
lo que permitiría eventualmente mejorar la validez del SIMCE, ya sea por la confirmación de que
mide el constructo adecuado o por la constatación de que dicho constructo necesita ajustarse.
Finalmente, estudios como aquel al que alude Josefina, en que se examina la concurrencia entre
las evaluaciones de los docentes y los puntajes del SIMCE, podrían ser beneficiosos para mejorar
la validez de este proceso de evaluación. Por ahora, según la entrevistada, solamente se ha
indicado que existe correlación. No obstante, esta podría estar determinada, por ejemplo, por la
forma en que el SIMCE ha modelado las prácticas de los docentes. Se requiere continuar en la
dirección de examinar los constructos y contenidos evaluados, la variedad de tareas
involucradas y, desde allí, la coincidencia de SIMCE con el juicio profesional de los docentes, ya
sea en el mismo instante en que se toma el SIMCE o desde su capacidad de predecir
comportamiento futuro.
6.4. Consecuencias
En diversos Folletos de Orientaciones se indica que “es aconsejable que los profesores
familiaricen a sus alumnos con las preguntas de selección múltiple y de desarrollo”
(Orientaciones 2003; ver también 2004, 2005, 2008 y 2012), con el fin de evitar que el día de la
prueba se equivoquen por no estar acostumbrados al tipo de preguntas que predomina en la
prueba. Podría haber un conflicto en términos de validez consecuencial si esta indicación
modifica las prácticas de evaluación de los profesores, volviéndolas menos variadas y más
apegadas al modelo del SIMCE.
Por otra parte, parece existir conciencia en la unidad ministerial del SIMCE acerca de la
posibilidad de reducir el currículum debido a la restricción que la utilización de ciertas preguntas
y el formato de papel y lápiz impone sobre la cobertura del contenido. Esta preocupación se
refleja en los documentos hasta el año 2006, pues en ellos se indica que, pese a estas
restricciones, es importante que el docente emplee métodos alternativos de evaluación e
incluya todas las habilidades relevantes del subsector. Desde 2007 se agrega un incentivo a esta
advertencia, sugiriendo que el desarrollo de las habilidades no contempladas directamente en el
SIMCE podría contribuir de forma indirecta a un buen desempeño en la prueba.
práctica a través de ensayos tipo SIMCE no tiene impacto en los resultados. La investigadora
buscó el o los documentos correspondientes a los análisis mencionados, pero no fue posible
encontrarlos. Luego se afirma que cubrir todo el currículum y tener altas expectativas acerca del
aprendizaje de los estudiantes sí se relacionan con un buen puntaje. Para estos últimos rasgos
se encuentra evidencia en el Informe de Resultados 2006. Finalmente se afirma:
“En este sentido, prepararse para el SIMCE familiarizando a los estudiantes con el modo de
responder y reforzando los objetivos que deben alcanzar, no es contradictorio con alcanzar
aprendizajes de calidad. No existen normas que impidan a los establecimientos educacionales
implementar actividades de preparación. Sin embargo, es importante que ellas no sobreexijan a
los estudiantes, y que no le quiten tiempo a otras asignaturas. Sería adecuado además contar
con la aprobación de los padres para realizar actividades especiales de preparación, sobre todo
si interfieren con otras actividades escolares.”
A nivel de documentos, entonces, se encuentran más bien orientaciones generales que apuntan
a evitar determinadas consecuencias y a reforzar aquellas consecuencias que pudieran tener un
impacto positivo. ¿Qué es lo que pasa en la práctica con la dimensión consecuencial de SIMCE?
Las consecuencias de este proceso de evaluación son conocidas a nivel anecdótico, pero no
existe evidencia al respecto ni un estudio sistemático acerca de la forma en que esta evaluación
afecta la práctica diaria de las escuelas y los docentes. En ese sentido, las entrevistas aquí
analizadas constituyen una primera exploración que incorpora la voz de los profesores en
relación con los propósitos, las interpretaciones y los usos del SIMCE.
Todos los profesores entrevistados reconocen en el SIMCE un instrumento que ejerce presión
sobre los establecimientos, independiente de su dependencia administrativa. Los siguientes
fragmentos son ilustrativos de la perspectiva sostenida por todos los docentes entrevistados
acerca de la prueba:
“(…) el SIMCE, es algo que nos, nos afecta bastante, especialmente a mí, porque yo hago séptimo
y octavo, entonces, es una presión horrible en, encima, ¿ya?, que uno está preparando a los
niños, tiene, uno tiene que estar pasando los contenidos, la materia, pero a la vez tiene que estar
repasando lo anterior. Entonces, yo creo que es mucha presión y eso a mí me tiene muy, ya
agobiada, ya llega a ser una, una cosa agobiante. Y, y que todo el colegio, porque después
empieza a girar todo en torno al SIMCE, es tanta la presión que, que lo que te, lo único que te
interesa son los contenidos, contenidos y eso desvirtúa un poco lo que es la, lo que debiera ser el
enseñanza integral de los niños.” (Luisa, con experiencia, Historia y Geografía, Municipal)
“Odiamos el SIMCE. En general, odiamos el SIMCE. Yo lo veo en los distintos contextos, creo que
es una forma de estrés colectiva, [] una forma distante de entender [] el proceso educativo, eh…
con argumentos tan cuantitativos, que tienden a, a distanciarse también de las propias
prácticas, porque no podemos tener, eh, por decirte, el SIMCE nos marca de tal manera, que, eh,
se transforma en parte integral del proyecto educativo y del proyecto pedagógico.” (Saúl,
egresado reciente, Historia y Geografía y Jefe UTP, Particular Subvencionado)
“(…) bueno, el particular pagado en que estoy ahora le da harta importancia al SIMCE y además
que, por ejemplo, ellos tienen excelencia académica si mal no recuerdo; y el colegio de donde
venía yo, ellos habían tenido por mucho tiempo excelencia académica y lo perdieron, entonces le
dieron mucha importancia al SIMCE, *+ y este otro colegio, (…) yo no tengo esa presión, pero, por
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 81
ejemplo, lo que yo veía en el otro colegio era que había como una presión implícita en los profes,
sobre todo en los de básica. Me parece mucho que ese año, ¿o este año?, bueno, no sé, se iba a
tomar en Cuarto Básico. Y sobre todo la profe jefe de Cuarto Básico tuvo algunos problemas con
respecto a eso que presionaba a los niños y todo el cuento. Entonces, un par de apoderados le
reclamaron que presionaba a los niños. Entonces, yo sí veía al menos en el otro colegio veía
como una presión fuerte en eso. En este no lo veo tanto, pero sí está el cuento del SIMCE, ronda
en el establecimiento y no es una cosa de “ya, el SIMCE (…) no importa”.” (Raquel, egreso
reciente, Filosofía, Particular Pagado)
“Yo, tú sabes que yo hago Ciencias; gran parte de la enseñanza de las Ciencias y lo que a mí me
hizo cambiar mi vida, de enseñar Ciencias, mi vida profesional, fue justamente hacer que los
niños toquen, hagan cosas, entonces, antes de esto, yo hacía puras clases expositivas, mucho
papel, mucha pizarra. Después de eso, todas mis clases partieron con indagación, con
actividades de experimentación, dentro de la sala si tienes laboratorio, (…) con salir al patio, con
ir a río [nombre del río] y de ahí partir la clase, era otro cuento. Hoy día, tengo que hacer…
congeniar esa, que es la modalidad de enseñanza que a mí me gusta, que a mí me encanta y yo
he comprobado que los niños son otros cuando trabajan así, pero he tenido que ir congeniando
eso con la exigencia de ya viene SIMCE (…) o sea, ya no hago lo mismo… pero preparo guías,
busco lecturas más entretenidas en que a ellos se les introduzca algún contenido, pero ya no es
lo mismo, o sea, es un poco más de papel, un poco más la rapidez, “no escriban, aquí está
escrito”, y analizamos, leemos, conversamos, pero no ocurre lo que debería ocurrir que es al
revés, que el niño lo descubra, porque para que el niño descubra en Ciencias las cosas, requiere
pasar un tiempo; y cuando al niño le hace clic, a algunos les hace clic, a otros les hace clic
mañana y al otro le hizo antes de ayer, y es una cosa dinámica y variada. Llega un momento
donde tú quieres homogeneizar todo. Una sabe conscientemente que eso no resulta, pero lo
hace igual.”
De forma similar, Luisa considera que el trabajo concreto con fuentes es fundamental en
Historia, pero ha tenido que adaptarse a utilizar estos materiales en relación con preguntas de
82 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
selección múltiple. En Educación Física, Susana, quien tuvo acceso al piloto del SIMCE para esta
área, considera:
“Mira, yo estuve viendo la información sobre el SIMCE para Educación Física, eh, me parece muy
bien que se realice un SIMCE, porque también nos evalúa a nosotros como profesores, pero hay
un problema en, en este SIMCE, según mi punto de vista, eh, encuentro que están enfocados []
en el aspecto antiguo. (…) Si el niño encestó siete veces, está bien, entonces el niño realmente ahí
es cuando aprendió, y ese es el problema que tiene este SIMCE, evalúa ese tipo de cosas, y
lamentablemente en Educación Física nosotros tenemos muchos colegios dos horas a la semana,
con suerte cuatro horas en algunos colegios, y hay otro colegios, que (esos) son los particulares,
que tienen seis horas, más los talleres extra-programáticos, y tú con, en la realidad de todos los
colegios, con dos horas o cuatro horas no tienes un gran avance. (…) Y el SIMCE se fija en eso. En
el rendimiento. Y no puede ser. En cambio, si cambiaran yo creo la, la perspectiva, el ámbito de
qué evalúa realmente, sería diferente. (…) hay que darle un sentido a la Educación Física y un
sentido de, eh, principalmente de a los niños inculcarles la calidad de vida.”
Frente a estos dilemas, algunos optan por soluciones híbridas, otros se resisten a adaptar sus
prácticas a la lógica de la prueba, y otros se resignan sin dejar de experimentar culpa por sentir
traicionada su ética. También se observan en algunos casos distorsiones en la auto-percepción
profesional (dos profesoras, por ejemplo, demuestran orgullo indicando “me gané el SIMCE”) y
confusiones en términos de qué es lo que demanda el SIMCE, el currículum y la escuela.
Por su parte, los docentes de áreas no evaluadas por el SIMCE indican sentirse desplazados por
lo que Néstor denomina “las asignaturas estrella: Lenguaje y Matemática”. Las formas en que
esto se da en la práctica son diversas: se utilizan las horas de estas áreas para ensayos o
reforzamiento SIMCE, se impulsa a los docentes a diseñar sus disciplinas como apoyo a las áreas
evaluadas (principalmente Lenguaje), y los recursos humanos y materiales del establecimiento
se concentran en los niveles y áreas que se evalúan en el SIMCE del año correspondiente.
Junto con lo anterior, todos los entrevistados reconocen que existe en sus contextos de trabajo
algún tipo de preparación SIMCE, ya sea través de ensayos y pruebas que ellos deben elaborar,
o de ensayos periódicos por parte de sus sostenedores, o por medio del aumento de las horas
de Lenguaje y Matemática, o la contratación de consultoras que implementan programas de
apoyo especiales en aquellos niveles que se evalúan en el año correspondiente.
Varios docentes aluden también a una serie de malas prácticas asociadas al SIMCE, tales como:
Dar gift cards a los profesores cuyos cursos obtuvieron buenos resultados.
Entregar bonos por puntaje SIMCE a los docentes del nivel correspondiente.
Prometer computadores a los niños si se obtiene un buen SIMCE.
Prometer un 7 a todo el curso si se sube cierta cantidad de puntaje.
Colocar notas por ensayos SIMCE e indicar a los estudiantes que el SIMCE también
tendrá una nota asociada.
Sacar a los estudiantes destacados de sus clases normales para potenciarlos en las
áreas a evaluar en SIMCE, pensando que ello subirá el puntaje del establecimiento.
Reemplazo de las horas de taller en las tardes por entrenamiento o reforzamiento
SIMCE.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 83
Estas prácticas se consideran aquí como negativas, puesto que algunas de ellas privan a los
estudiantes de ciertos ámbitos y formas de aprendizaje, mientras que otras ejercen presiones
indebidas que pueden motivar distorsiones orientadas a mejorar los puntajes del SIMCE de
manera artificial. La necesidad de prometer incentivos a los estudiantes revela, por otra parte,
una posible desmotivación frente a la prueba, desmotivación confirmada por los siguientes
testimonios:
“Entrevistada: (…) Si los que se aterran *con el SIMCE+ son los adultos yo creo *se ríe+. Los adultos
son los, los que lo ponen toda esa carga y se complican.
Entrevistadora: Los niños en básica a lo mejor no, no, no lo pescan mucho, no les interesa
mucho.
Entrevistada: No cachan [se ríe]. No, preguntan si es con nota. Y punto, ese sería todo el tema.
Entrevistadora: ¿Y afecta cuando les dicen que no es con nota? ¿O les dicen que es con nota
igual?
Entrevistada: Les dicen que es con nota. Hasta los ensayos. Lo que pasa, eso es otra cosa, que
ellos funcionan solamente si hay nota. O sea, es como con nota formativa, como que no existe,
de hecho uno ahí tienes como que mentir un poco. Es parte de la nota [se ríe].” (Catalina, egreso
reciente, Inglés, Municipal)
“¡Ah!, y otra cosa, para el SIMCE, que, no sé si será correcto o no, una vez empezamos, en el
departamento dijimos, ya, ¿por qué no le ponemos nota al alumno? Si logran un, como son tres
cursos por nivel, si suben, qué sé yo, sobre 15 puntos, sobre 15 puntos, les regalamos un 7 de
arriba pa’ abajo. Entonces, porque así el alumno sabe, pero como es una prueba que no le
significa nada a él, y fíjate que lo hemos hecho, entonces el profes, y los alumnos “profe, ¿nos va
a poner el próximo año un 7?”, sí, lo vamos a poner, lo vamos a quedar en el departamento y lo
hacemos, entonces es también un poco cumplirle al alumno lo que se, se les promete.” (Leila, con
experiencia, Matemática, Municipal)
[Aludiendo al uso de las horas de taller en las tardes para entrenamiento SIMCE+ “Encuentro que
es cruel para los niños, porque la verdad es que ellos en la tarde debieran de tener talleres, como
lo hacíamos antes. Yo hacía básquetbol siempre, me iba a la cancha de la Unidad Vecinal y ahí
estábamos desde las dos y media o desde las dos de la tarde hasta las cuatro, y los chiquillos lo
pasaban bien (…).[Ahora] Se aburren, algunos se escapan, no se quedan simplemente, no se
quedan. En cambio, si tú tienes taller de música, de tejido, los chicos se quedan, porque eso les
gustó y ellos se van inscribiendo de forma voluntaria en esos talleres, porque es una
entretención.” (Óscar, egreso reciente, Lenguaje, Municipal)
Por parte del MINEDUC, Jaime también manifiesta preocupación por una potencial
desmotivación de los estudiantes al responder el SIMCE, especialmente en 8º básico y 2º medio.
Indica que esta actitud podría afectar la validez de los resultados, ya que los estudiantes no
estarían realizando su mejor esfuerzo al contestar la prueba. Explica:
“(…) otro aspecto de la validez de la prueba es que a mí me consta, lo he visto cuando se toma la
prueba, [] y hay mucha gente que lo comenta, que los alumnos de Octavo y Segundo Medio no
tienen ninguna intención de responder la prueba, entonces para mí los resultados de Octavo y
84 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Segundo Medio nunca los he tomado en cuenta porque sé que los alumnos ni siquiera quieren
responder. Entonces, no sé, en algunos colegios tengo la impresión que es más sí y en otros no,
entonces ese es un factor tremendo que no está estudiado y tampoco se va a estudiar (…). Es que
no tienes ninguna motivación para responder si estás en Octavo o Segundo Medio, ¿por qué vas
a responder?, de hecho hay alumnos que responden intencionadamente mal para perjudicar al
colegio [] o sea, hay contextos en los cuales los cabros son más disciplinados y más dóciles y
responden todo lo que les pongan porque tienen que hacerlo, pero en otros contextos tú no
puedes ni hacer clases, entonces todo eso tampoco se investiga y no se va a investigar.”
Con respecto a los propósitos de regular la demanda de la educación y de informar a los padres,
algunos docentes indican que para los apoderados los resultados del SIMCE tienen poca
importancia, lo que es consistente con los resultados de investigación de Taut et al. (2009). Saúl,
por ejemplo, que también es jefe de UTP de su escuela, indica:
“(…) nosotros tenemos un prestigio en la zona y que no roza por los resultados SIMCE, roza por el
tipo de persona que nosotros estamos generando, por el trabajo con afecto, por el respaldo, []
por la contención [], eso es nuestro fuerte y, y siento que el equipo de gestión de la escuela y el
perfil de la escuela (lo ha entendido así) (…).”
Raquel, por su parte, indica que los padres y apoderados del establecimiento particular pagado
en que trabaja se oponen al SIMCE. Explica al respecto:
“(…) dicen incluso que hay como los apoderados (…) dicen “no, no al SIMCE, porque es un medio
de evaluación que no sirve y funciona, evalúa otras cosas que no debiera evaluar”. Entonces, yo
he sabido por profes, y esto es como una especie no sé si decirlo... infidencia, por profes, que han
habido cursos que no han querido dar el SIMCE y que a veces no llegan o, si llegan, llegan
poquitos. Entonces, igual por ahí (…) es como una resistencia, pero es más que nada por el
contexto en el que está el colegio, no es... yo diría que a nivel de más de la plana directiva y los
profesores sí se preocupan bastante del SIMCE, existe como una presión con respecto a eso, y
más o menos parecida a lo que yo veía en el otro colegio.”
La resistencia de los docentes frente al SIMCE dista, por lo tanto, de la pasividad y la falta de
auto-crítica a la que se alude en otras investigaciones (Sepúlveda, 2008) y se relaciona mucho
más con una crítica fundamentada hacia un modelo de educación con el cual no están de
acuerdo, un modelo en que las escuelas deben competir entre sí por la matrícula y hacerse
publicidad a través de resultados, y que perciben se promueve a través del SIMCE. De hecho,
ninguno de los docentes indica estar en contra del hecho de ser evaluados, sino en contra de la
forma en que se presentan los resultados del SIMCE (publicación, rankings, competencia entre
escuelas), la manera en que la prueba evalúa realidades extremadamente diferentes a través de
un mecanismo homogeneizador, y la forma en que empobrece la experiencia educativa de los
estudiantes por las presiones asociadas al instrumento. Los siguientes fragmentos ilustran esta
perspectiva:
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 85
[Dando sus últimos comentarios con respecto a lo que esperaría de las políticas de evaluación a
nivel nacional+ “(…) que no se hiciera mal uso, por ejemplo, eso del SIMCE, ya, pero no, que no
sean como, eh, para poner en rankings a los colegios, eso, eso lo encuentro muy malo y la, y la
PSU también. Los rankings ahí, entonces, todo el colegio está pendiente ay, ya, y que el ranking
del tanto, buscando en qué número quedamos [se ríe].” (Leila, con experiencia, Matemática,
Municipal)
“(…) a final de cuentas, cuando estás en un colegio que supuestamente no le preocupa como
este, finalmente aquí también se hacen ensayos SIMCE. (…) ¿Y sabes por qué?, porque tiene que
ver con el mercado, porque si el mercado te cae de los 290 o de los, no sé, no anda cerca de los
300 puntos, entran menos alumnos acá. Entonces por eso te digo que tiene que ver, todo está
cruzado por el mercado, la estandarización es un instrumento de mercado en Chile, y SIMCE, que
intentó ser originalmente otra cosa, es un instrumento de mercado, o sea, no es un instrumento
pedagógico. Sin embargo, los profesores lo consideramos pedagógico (…). Que exista el SIMCE es
bueno, porque es un nivel, el problema es cómo se usa, pero todo el esfuerzo, tener una unidad
completa del Ministerio de Educación dedicada a hacer SIMCE para que sea un ranking, para
construir un ranking de mercado, me parece que es totalmente... y que esto que se publique es
exclusivamente para el mercado. Si no se publicara, si se llevara en secreto esta evaluación como
un instrumento evaluativo para que se promovieran cambios en esos colegios, sería fantástico,
pero que se saque, se prohíba publicar SIMCE. Te aseguro que los que les va bien lo publicarían.”
(Hernán, con experiencia, Historia y Geografía, Particular Pagado)
Varios de los docentes con experiencia dentro de los entrevistados indican que antes que se
comenzaran a publicar los resultados, la prueba se tomaba como una actividad más dentro de la
escuela y no se le daba tanta importancia. Tanto profesores con experiencia como de egreso
reciente observan, además, una sobrevaloración de este prueba.
La evidencia anterior es confirmada por algunos del los entrevistados del proceso SIMCE,
quienes poseen experiencias concretas al respecto, ya sea porque han trabajado como
profesores, porque tienen hijos en escuelas donde estas prácticas se observan o porque han
trabajado con profesores en desarrollo profesional docente o en investigaciones en curso que
arrojan la misma evidencia. A partir de estas experiencias, las consecuencias que se confirman
con respecto al SIMCE son: cursos que entrenan para construir preguntas tipo SIMCE, enseñanza
para la prueba en aula, exclusión de estudiantes el día de la prueba para tener mejores
resultados, reducción del currículum e incentivos económicos por buenos resultados. Además se
agregan: estigmatización de cursos por malos resultados, distorsión del rol profesional docente,
estudiantes que egresan de enseñanza media con un nivel muy básico de lectura y sin mayor
manejo de escritura y comunicación oral. Además, desde el mismo SIMCE se reconoce, a partir
de los procesos de supervisión de la prueba en terreno, la observación de prácticas como:
potenciar exclusivamente a los mejores alumnos para subir el puntaje, inasistencia de
estudiantes de bajo rendimiento el día de la prueba, entrenamiento para la prueba, premios a
los estudiantes y los profesores por los puntajes y despido de profesores por mal rendimiento
en la prueba.
86 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Los participantes en roles de coordinación dentro del SIMCE coinciden en afirmar que piensan
que estos casos son lo suficientemente aislados como para no afectar la validez de los
resultados nacionales, aun cuando reconocen que podrían poner en riesgo la validez de los
resultados a nivel de establecimiento. Junto con ello, afirman que el entrenamiento para la
prueba no necesariamente afecta la validez de los resultados.
La primera parte del reporte de resultados (ver sección 5) se centró en las fases del proceso
SIMCE en base a los documentos y las entrevistas. No obstante, se trata de una descripción
general y teórica de cómo se conceptualiza el proceso. Junto con los problemas descritos en
páginas previas, las entrevistas dan cuenta de algunos aspectos de administración y
procedimiento que podrían también tener una incidencia en la validez de las interpretaciones
realizadas con respecto a los resultados de la prueba.
Tanto los participantes involucrados en los procesos de construcción de ítems como aquellos
que participan en los de corrección de pregunta abierta indican, con excepción de Augusto,
problemas relacionados con las condiciones en las que deben realizar su trabajo. Los
supervisores de construcción y los constructores de ítems indican que no existe tiempo
suficiente para elaborar preguntas de buena calidad, especialmente porque las personas que se
contrata para este efecto son profesores de aula que deben combinar su horario laboral regular
con esta actividad adicional. Roberta, como supervisora, indica que las reuniones de revisión y
corrección de preguntas se realizan tras la jornada laboral normal y su duración no es suficiente
para abordar el total de los ítems (se intenta revisar alrededor de 60 preguntas en dos o tres
horas). Explica:
En otra sección de la entrevista agrega que, dado que se trata de un trabajo adicional al empleo
normal de los constructores, los ítems no siempre llegan en el día acordado, lo que hace que la
supervisora tenga menos tiempo del esperado para su revisión y corrección.
Los actores involucrados coinciden en señalar que esto perjudica la validez de la prueba, ya que
se motiva la producción de preguntas de baja calidad; se promueve la elaboración formulista de
preguntas en el sentido de saber cuáles son las que se aprueban sin mayores problemas
(generalmente a aquellas que evalúan habilidades más básicas); los elaboradores no tienen la
concentración necesaria para la revisión, por lo que a veces aceptan el rechazo de un ítem por
simple cansancio y no porque les parezca inadecuado.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 87
A ello se agrega que en algunos procesos se pagó a los constructores por ítem aprobado, lo que
generaba presiones adicionales que tendían hacia la elaboración formulista y, por parte de
Alejandra, a una actitud más flexible hacia la aceptación de preguntas que no eran del todo
satisfactorias según su criterio, con el fin de no dejar a esa persona sin un pago asociado a su
trabajo.
Estas apreciaciones acerca de la calidad del trabajo de elaboración de ítems es confirmada por
algunos de los profesionales del SIMCE entrevistados, tanto de Lenguaje como de Matemática,
quienes indican que el aspecto más complejo de esta etapa del proceso es obtener buenas
preguntas.
“(…) cuando se detectaba que había muchos casos o muchas dudas sobre... o muy parecidos
sobre lo mismo, paraba la corrección, y entrábamos a un proceso que se llama calibrar la
pauta, y ahí llegábamos a acuerdos de cómo íbamos a interpretar lo que estaba pasando;
entonces, pero... una vez que tomábamos la decisión de calibrar estos criterios, era porque ya
había pasado un par de veces o muchas veces, entonces no sé qué habrá pasado con esas que
pasaron y que yo las corregí de una forma y otro las corrigió de otra forma; o que ambos las
corregimos de una forma y luego, en el proceso de calibración, acordamos que era de otra
forma, entonces creo que puede haber una implicancia en los resultados, pero no sé las
magnitudes de esta situación, no sé en qué magnitud afectaba los resultados.”
Otro aspecto irregular del procedimiento de corrección es recordado por los dos actores
involucrados en el proceso de corrección de Matemática que fueron entrevistados en este
estudio. Tanto Augusto como Emilio recuerdan haber visto una respuesta en lo que a ambos les
pareció una lengua indígena nacional. Se trató de un caso en que ambos experimentaron
confusión con respecto a qué hacer. Mientras Augusto no recuerda qué sucedió finalmente con
esa repuesta, Emilio indica:
“(…) o sea, no se hizo ningún proceso de investigación de qué podía estar pasando ahí, sino que
“no, eso es ilegible, malo”, y eso no me pareció. Eso me pasó a mí, y escuché casos parecidos un
par de veces, y eso me pareció como extraño, por último lo hubiese dejado aparte y hubiese
investigado un poquito (…).”
Hay aquí un problema de procedimiento que podría, si se trata de una práctica generalizada,
presentar problemas de validez consecuencial en términos de cómo se consideran las
respuestas de los establecimientos con una mayor población indígena. Este problema contradice
nuevamente el propósito de mejorar la equidad del sistema educativo a través del SIMCE.
Un aspecto de tipo material que afecta también el proceso de corrección es la mala visibilidad
de las respuestas escaneadas que algunos correctores de Lenguaje indican. Ello les impide en
88 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
No obstante, el aspecto de procedimiento que emerge como el más problemático en los datos
en relación con la validez de la corrección de estas preguntas, corresponde a las condiciones
laborales de los participantes del proceso. Tanto supervisores como correctores lo consideran
un trabajo intenso y a presión, en el cual se evalúa constantemente la productividad, aun
cuando varían en su percepción acerca de lo adecuado del tiempo asignado a la tarea. Daniela lo
describe de la siguiente manera:
En lo que todos coinciden (con excepción de Augusto, que en diversos aspectos es un caso
atípico dentro de los datos1) es en el paulatino empeoramiento de las condiciones laborales en
que esta actividad se realiza. El pago que se ofrece ha ido disminuyendo (Ximena indica que
desde 2009 lo máximo que se paga es $30.000 por una jornada de 8 horas de trabajo), lo que ha
alejado a aquellos correctores que tienen más años de experiencia y que podrían, por lo tanto,
realizar el trabajo con mayor rapidez y con un criterio más uniforme. También se han ido
acortando los intermedios en los que los correctores descansan tras estar dos horas corrigiendo
en pantalla, lo que aumenta los niveles de cansancio, que para varios ya eran altos antes de la
reciente precarización. Cuatro de los participantes involucrados en la corrección recuerdan
especialmente un caso extremo en el cual la empresa INGEMAS los hizo trabajar en una suerte
de búnker o bodega sin mayor ventilación, en medio de cajas almacenadas, con más de 30
grados de calor, sin autorización de beber agua durante el proceso y, en general, en condiciones
que los participantes consideran inadecuadas. Rodolfo describe la experiencia en los siguientes
términos:
“Yo recuerdo una vez haber trabajado en la corrección en una bodega, pero te digo que era una
bodega, no te estoy diciendo que era algo (parecido)... era una bodega y con todo lo inhóspito
que era trabajar en una bodega; era una factoría, una factoría de estos países asiáticos donde
hacen las prendas, así... y era eso. [En] Verano, claro, era muy incómodo trabajar, era muy... era
un poco indigno [], porque en realidad las condiciones no eran las adecuadas. Bueno, yo te estoy
hablando de algo que ocurría hace años atrás, (…) yo ya no corrijo, tengo entendido que ya no es
tan así ya, pero trabajábamos en una bodega, o sea, habían cajas, las cajas con las pruebas y,
claro, era asfixiante, no había... había muy poco aire, porque no estaba hecho para eso, en
1
Dentro de los entrevistados del proceso SIMCE, Augusto presentó un comportamiento atípico en el sentido de
mostrarse muy temeroso de contestar las preguntas y, por ello, reacio a asumir una perspectiva crítica frente a la
evaluación.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 89
realidad, no es un lugar para que trabaje gente haciendo ese tipo de función; era un lugar para
almacenar objetos, y trabajábamos ahí.”
Los entrevistados lo reconocen como un caso excepcional y extremo, pero que ilustra el
empeoramiento paulatino de las condiciones laborales del proceso de corrección.
A ello hay que agregar lo que declara Sofía, quien indica que el contraste entre las sumas de
dinero que la empresa gana en el proceso y las condiciones deplorables en las que trabajan los
correctores constituye una de las razones por las que parte del equipo SIMCE renuncia a sus
cargos a partir de 20102. Explica Sofía:
“En esa licitación, por lo general, participa muy poca gente, y en los últimos años lo ha hecho
una consultora (1:12:48-1:12:57 sin audio)… millonaria en términos de lo que sale el proceso a lo
que se paga []; eso también fue un motivo de molestia al interior de los equipos disciplinarios
porque finalmente es plata de todos los chilenos y es increíble los excedentes que resultan para
los dueños de esta empresa licitar una corrección SIMCE, es increíble. (…) te cuento que esas
personas yo las conocí como en una consultora de una universidad y después llegaban así en
unos autos pero… (…) yo trabajé hasta diciembre de 2010. Ese año los equipos disciplinarios nos
enteramos de cuánto ganaban y fue un comentario así pero increíble, hubo mucho enojo en los
equipos disciplinarios porque sacamos incluso con Matemáticas la cuenta de cuánto sale, en
función de lo que les pagan a los correctores, lo que podría salir el arriendo de los equipos, el
arriendo del local, la luz, o sea, el excedente es increíble.”
Finalmente, aquellos actores que han asumido roles de mediación o interacción directa con el
SIMCE, como ya se ha reflejado en diferentes secciones del presente informe, se refieren a la
actitud autoritaria e intransigente de algunos de los miembros de esta unidad ministerial, lo que
impide el desarrollo adecuado de algunos procesos. Puede parecer un aspecto irrelevante en
relación con la validez del proceso de evaluación, pero varios actores atribuyen a esta actitud,
por ejemplo, la repetición constante de los mismos errores o problemas en las pautas de
corrección de pregunta abierta, pese a recibir observaciones y sugerencias tanto de los
supervisores de corrección como de los encargados de la validación de las pautas en base a las
respuestas de los estudiantes. También se atribuye a esta actitud ciertos juicios acerca de las
2
Según resolución N° 0016 del 02.01.2012 del Ministerio de Educación disponible en el sitio de Mercado Público,
donde se detalla la adjudicación de la corrección de la prueba experimental y censal por parte de INGEMAS en 2011,
el monto total adjudicado asciende a $816.855.000. Si se calcula el monto diario indicado por Ximena de $30.000 por
un mes, tiempo máximo de trabajo según los correctores entrevistados, y con los 50 correctores exigidos como
mínimo en el proceso de adjudicación, la empresa solamente invierte $30.000.000 en el personal de corrección.
Incluso si se multiplica este monto por todos los niveles y áreas evaluadas (7 áreas en dos niveles), el monto sigue
lejos del total adjudicado. Este ejercicio de triangulación confirma la apreciación de la entrevistada.
90 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
preguntas que los elaboradores no consideraban correctos. Algunos de los miembros del SIMCE
entrevistados, específicamente aquellos que presentaron su renuncia en 2010, reconocen esta
actitud y observan que se acentúa tras el cambio de administración ocurrido en 2008.
6.6. Interpretación
“(…) el puntaje de la generación que rindió SIMCE 4º básico representa el logro de ese
grupo de estudiantes al finalizar el primer ciclo básico” (sitio Agencia).
“el resultado obtenido en las pruebas SIMCE refleja los aprendizajes alcanzados por los
estudiantes durante todo el primer ciclo básico en las áreas evaluadas” (Orientaciones
2007, 2009, 2010).
“Cuando dos establecimientos con similares características socioeconómicas obtienen
puntajes promedios significativamente distintos, es más probable que estas diferencias
se deban a que una escuela ofrece una educación de mejor calidad que la otra.” (sitio
SIMCE).
“(…) el rendimiento alcanzado en las pruebas SIMCE refleja los aprendizajes logrados
por los estudiantes durante todo el primer ciclo básico en las áreas evaluadas:
Lenguaje y Comunicación, Educación Matemática y Comprensión del Medio Natural,
Social y Cultural.” (Orientaciones 2007)
Conclusiones de este tipo realizan extrapolaciones desde el contenido cubierto por la prueba a
ciclos y áreas completas de aprendizaje, sin que se provea evidencia suficiente para realizar este
salto inferencial. Los participantes asociados al SIMCE desde una mirada disciplinaria
(correctores, constructores e integrantes de equipos disciplinarios dentro del SIMCE) tienden
también a subrayar la necesidad de entender las limitaciones de la prueba y de comprender que
lo que muestra es solamente una aproximación bastante básica y gruesa al aprendizaje de
algunos aspectos de una disciplina.
Otras interpretaciones no válidas sobre las que advierten los entrevistados, y que coinciden con
el presente análisis crítico, se indican a continuación.
Por el contrario, lo que sí es válido inferir del SIMCE, de acuerdo a los entrevistados, es:
El SIMCE permite…
tener una imagen muy general y gruesa de los aprendizajes de los estudiantes en
algunos aspectos de algunas disciplinas del currículum escolar, siempre que haya una
validación psicométrica adecuada y se evite el entrenamiento mecánico y a corto plazo
de los aprendizajes;
contar con un indicador de calidad entre muchos otros posibles, siempre y cuando se
tengan en cuenta sus limitaciones y se analice que lo que sus resultados significan en
términos de aprendizaje;
concluir que el sistema educativo chileno es sumamente segregado socialmente;
comparar resultados con los de otros establecimientos de características similares;
observar tendencias de aprendizaje en el tiempo a nivel nacional, entendiendo el
aprendizaje en el sentido limitado que se indica en el primer punto.
7. INTERPRETACIÓN Y DISCUSIÓN
Un primer aspecto que se desprende del análisis anterior se relaciona con la necesidad de
mayor transparencia en relación con el SIMCE y sus procedimientos. Ello porque se trata de un
requerimiento de validez para cualquier sistema de evaluación estandarizada, si lo que se
espera es generar lecturas correctas y mesuradas de los resultados, en las que se contemplen
los límites de lo evaluado. Para Kane (2011), mientras más ambiciosas son las interpretaciones
que se busca realizar a partir de una prueba estandarizada, más evidencia se debe proveer para
las inferencias realizadas y el ejercicio de validación se vuelve más complejo. Por el contrario, las
interpretaciones más sencillas son menos costosas y más fáciles de justificar, aunque ello
también las hace menos interesantes y útiles. Si no se da información clara, coherente y
concentrada en un documento general que funcione como manual, se corre el riesgo de motivar
interpretaciones que se alejan del propósito inicial de la prueba o que no resultan válidas si se
consideran las características del test. Una mayor transparencia y la publicación de los marcos
de evaluación, práctica bastante extendida en las evaluaciones estandarizadas internacionales,
contribuiría al mejoramiento de la validez del SIMCE al asegurar que las interpretaciones que se
realicen de sus resultados sean las adecuadas.
92 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Shaw et al. (2012: 171) indican que “el punto de partida lógico para cualquier ejercicio de
validación es establecer los propósitos e interpretaciones intencionados” del test. Si la validez
consiste en la adecuación de las interpretaciones que se realizan en base a un puntaje en
relación con un propósito determinado (Cureton, 1951; Cronbach, 1984; Anastasi y Urbina,
1997; Kane, 2011; Newton, 2012; Hubley y Zumbo, 2011, entre otros), entonces un aspecto
fundamental y básico antes de cualquier lectura de los resultados del SIMCE sería definir su
propósito. La excesiva variedad de propósitos que cumple el SIMCE ha sido reconocida en la
literatura y señalada como un aspecto problemático en términos de su validez (Bellei, 2002;
Informe Comisión SIMCE, 2003; Taut et al., 2009). Los resultados de la presente investigación
confirman esta preocupación, puesto que se detectan 17 propósitos diferentes para el sistema
de evaluación en estudio.
Cada uno de estos propósitos, con sus respectivas interpretaciones, requiere de un análisis de
validez que provea evidencia suficiente para indicar de qué manera este instrumento logra
cumplir con dichos propósitos y qué significado se puede o no se puede asignar a sus resultados.
Por ejemplo, si el SIMCE tiene como uno de sus propósitos intencionados orientar y evaluar
políticas educativas (que, de hecho, son en realidad dos propósitos), primero habría que
explicitar los saltos inferenciales que nos llevan desde una prueba mayoritariamente de opción
múltiple, que cubre solamente algunos aspectos de algunas áreas del currículum, a decir que un
buen resultado en ella indica que una política ha sido efectiva. De forma similar, si otro
propósito es monitorear la calidad de la educación, habría que explicar cómo se llega a concluir
que la educación chilena ha mejorado o empeorado sobre la base de una prueba como la antes
descrita, especialmente si el concepto de calidad no ha sido definido de manera explícita (ver
sección 6.2).
Por lo tanto, un segundo punto que se agrega al de transparencia, es la necesidad de una re-
evaluación y redefinición de los propósitos del SIMCE si se espera que constituya una
evaluación válida. Ello tanto porque cumple demasiados propósitos de manera simultánea, para
cada uno de los cuales se requiere evidencia que justifique las interpretaciones de los
resultados, como porque sus dos macro-propósitos (rendición de cuentas y uso pedagógico)
parecen estar en contradicción o, al menos, compitiendo entre sí.
Una vez resuelta la problemática de los propósitos, un tercer aspecto relevante lo constituye la
necesidad de definir el constructo a evaluar. Para Anastasi (1986), el punto de partida en
cualquier ejercicio de validación tiene que ver con la delimitación clara del constructo a evaluar.
Según esta autora, una definición más precisa del constructo facilita la lectura de los resultados,
pues se sabe con exactitud qué es lo evaluado por medio del test y, por lo tanto, qué es lo que
los puntajes significan. Para diversos autores las etiquetas o denominaciones utilizadas en las
evaluaciones estandarizadas son relevantes, pues son una primera aproximación a los límites de
un constructo (ver por ejemplo Messick, 1980; Kane, 2008). En ese sentido, el primer rótulo que
se nos ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de
la educación en Chile. No obstante, pese a tratarse de un concepto amplio y posible de ser
entendido de múltiples formas (conf. Harvey and Green, 1993; Aguerrondo, 1993), no se ofrece
en ninguna parte una definición de este concepto ni de cómo el SIMCE estaría evaluándolo a
través de sus preguntas. En base a los resultados de este estudio, habría que partir por
modificar el nombre del SIMCE, una vez que su propósito y su constructo estén claros. Si la
evaluación de los resultados de aprendizaje en torno al currículum vigente no se considera
equivalente a calidad, entonces la prueba debe cambiar su denominación, con el fin de impedir
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 93
No explicitar los reales límites del constructo y no modificar los rótulos correspondientes puede
llevar a hacer equivaler calidad en la educación al desarrollo de las habilidades más básicas de
algunos ámbitos de 4 áreas del currículum nacional, que es lo que en realidad logra evaluar el
SIMCE. En términos de Crooks et al. (1996), se genera aquí un problema de extrapolación y
generalización, dos de los ocho eslabones en la cadena de análisis de la validez de un proceso de
evaluación. Al no explicarse con mayor detalle lo que finalmente se está evaluando, se puede
cometer el error de extrapolar los resultados del SIMCE a la totalidad del currículum del área o
del currículum nacional, generando interpretaciones erróneas, tal como se observa en varios
Folletos de Orientaciones e Informes de Resultados (ver sección 6.6).
“Bajo reglas de ensamblaje apropiadas, las formas nuevas y antiguas son mediciones igualmente
confiables del mismo constructo, que se construyen sobre el mismo conjunto de
especificaciones estadísticas y de contenido bien detalladas.”
De acuerdo con los resultados de la sección 6.4, las posibles consecuencias que el SIMCE teme y
por las cuales indica que no publica los marcos de evaluación ya se observan en las aulas del
país. En ese sentido, la publicación de los marcos de evaluación solamente haría explícita una
reducción del currículum que, al parecer, ya ocurre. Disminuir el riesgo de la prueba para las
escuelas y los docentes, en lugar de ocultar aquello que evalúa, sería quizás una forma más
adecuada de disminuir su efecto negativo sobre la práctica pedagógica, mejorando la validez de
este sistema de evaluación en el eslabón asociado a su impacto (Crooks et al., 1996).
determinados niveles de logro, donde se muestra como avanzado un nivel que en realidad sería
adecuado, o como intermedio un nivel que en realidad sería elemental, por motivos de índole
política. Al haber problemas de clasificación, el uso pedagógico que todos los actores que aluden
a los Niveles de Logro les atribuyen como intención fundamental, queda en cuestión, dado que
las clasificaciones resultan dudosas y la retroalimentación al profesor es potencialmente
inadecuada. Ello por ilustrar solamente algunos de los problemas detectados. En relación con las
pautas, la mayoría de sus usuarios indican que son inadecuadas y que requieren adaptaciones,
problemas que se reiteran de un año a otro pese a que SIMCE recibe retroalimentación de
diversas fuentes al respecto. En este sentido, la corrección finalmente se realiza en base a una
versión acordada de la pauta creada in situ, versión que el equipo SIMCE no conoce. La validez
de la corrección y de las pautas como parte del constructo y el contenido a evaluar se ve así
cuestionada, ya que el juicio experto de los profesionales que participan del proceso no se toma
en cuenta y la pauta intencionada por el SIMCE no es finalmente la que se aplica.
Como orientaciones acerca del camino a seguir, hay que mencionar que para los especialistas de
Lenguaje el proceso del piloto de Escritura en 2008 fue ejemplar en todo sentido, y que para los
expertos del área Matemática las preguntas abiertas son ejemplos de ítems que les gustaría ver
en mayor cantidad dentro de la prueba. Estas constituyen sugerencias que proveen modelos y
formas concretas de mejorar la calidad y representatividad de las preguntas, por lo que sería
relevante tenerlas en cuenta. No obstante, varios entrevistados indican que ello encarecería el
costo del SIMCE y de allí que se insista en el uso de preguntas cerradas.
En el ámbito criterial, dadas las dudas que el análisis de constructo y contenido arroja en
relación con qué es lo que realmente mide el SIMCE y hasta qué punto sus resultados pueden
interpretarse en términos de los constructos intencionados, la realización de estudios de las
dimensiones concurrente y predictiva podría ser provechosa para el mejoramiento de este
sistema de evaluación. Solamente en los últimos años ha comenzado a aprovecharse esta
información a través de estudios sobre TIMSS y PISA (ver por ejemplo MINEDUC, 2013). No
obstante, las iniciativas recientes se concentran en el establecimiento de concordancias de
puntaje entre ambas pruebas. Dada la poca claridad que los documentos públicos ofrecen
acerca del constructo y el contenido evaluado por SIMCE, podría ser de mayor interés
considerar en primer lugar las diferencias y similitudes de los constructos, la forma en que estos
se cubren en cada prueba, el tipo de tareas a través de las cuales se los mide y desde allí
obtener información acerca del grado de concordancia entre los resultados de SIMCE y otras
pruebas, al menos en aquellos ámbitos en que el constructo sea similar.
Para Koch y DeLuca (2012: 106), un estudio de validez requiere “explorar concepciones
congruentes e incongruentes dentro y a través de los grupos de actores más relevantes del
proceso en un esfuerzo por llegar a una descripción de la coherencia de la evaluación”, aspecto
que para Haertel (1999) constituye una brecha de investigación en evaluación posible de cubrir
a través de entrevistas y grupos focales con docentes y estudiantes. En la presente investigación
se buscó dar un primer paso en esta dirección al incorporar la voz de los profesores y lo que
ellos dicen sobre otros actores, como padres y estudiantes, en relación con el SIMCE. A
diferencia de otros estudios, su testimonio se incorpora aquí ausente del sesgo confirmatorio
(Haertel, 1999) en relación con la prueba, esto es, sin asumir la buena calidad de la evaluación
como un hecho dado ni atribuir a los usuarios la responsabilidad por los malos usos y las
interpretaciones erróneas.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 95
Los resultados de las entrevistas a los docentes, confirmados por varios de los entrevistados de
SIMCE, son especialmente relevantes para la dimensión consecuencial. Tanto al interior de cada
disciplina como en el currículum de la escuela en general, el SIMCE provoca modificaciones en
términos de la cobertura curricular, pues se prioriza aquello que se piensa que la prueba
evalúa. Los docentes tienen una percepción crítica del SIMCE, ya que modifica sus prácticas,
reduce el currículum que enseñan, motiva una forma de trabajo en aula que dista de lo que ellos
consideran como adecuado en el aprendizaje de su área, homogeneíza aquello que es diverso y
pone presiones indebidas a su trabajo a partir del uso de los resultados para generar rankings y
motivar la competencia entre escuelas. En ese sentido, la demanda parece ser por una
evaluación más representativa, más sensible a las diferencias, y sin publicación de resultados.
Las consecuencias indicadas por los profesores aparecían ya en el Informe de la Comisión SIMCE
(2003). Sin embargo, estas entrevistas realizadas en 2011 no parecen reflejar mayores cambios
en la práctica.
Es probable que las advertencias de los documentos analizados con respecto a la importancia de
evaluar aquellas habilidades no contempladas en el SIMCE, o las indicaciones acerca de la
necesidad de compararse solamente con establecimientos similares, no resulten suficientes
para evitar las consecuencias indicadas en este informe. Resulta crucial profundizar en la
dimensión consecuencial del SIMCE, ya que emerge como uno de los eslabones más débiles en
términos de las amenazas a la validez de la prueba (Crooks et al., 1996). Se debe evaluar qué tan
expandidas están las consecuencias indicadas, puesto que de ser prácticas extendidas, el
propósito de mejorar la calidad y equidad de la educación no se estaría cumpliendo, y la prueba
podría estar favoreciendo el propósito contrario.
Para Shepard (1997: 7), la enseñanza o entrenamiento para la prueba, presente en todos los
contextos de los docentes entrevistados, no solamente amenaza la validez de la prueba en el
sentido de que el uso de los resultados no tiene el efecto esperado en el aprendizaje, sino que
refleja “también una falla en la conceptualización del test [que] lo hizo susceptible a ganancias
de puntaje inválidas que convierten su uso en inválido”. En este sentido, es necesario examinar
hasta qué punto la preparación mecánica para el SIMCE podría estar distorsionando el
constructo que se busca evaluar, impidiendo la extrapolación de sus resultados a otras
situaciones en que el mismo constructo se esté poniendo en práctica. Si el estudiante no
muestra un desempeño similar en otras tareas ligadas al mismo constructo, entonces se podría
dudar que este instrumento esté realmente evaluando los constructos declarados y los
resultados podrían estar más ligados al entrenamiento que al aprendizaje significativo.
Para sintetizar la discusión aquí presentada, se indican en la siguiente tabla los ocho eslabones
de la cadena de validez de Crooks et al. (1996) y los problemas y ventajas que el SIMCE presenta
en relación con cada uno.
Extrapolación Extrapolación de los Se puede hablar de cierta Los constructos a evaluar no se definen
resultados desde el posibilidad de claramente, por lo que el ejercicio de
dominio evaluado al extrapolación, aunque extrapolación es complejo desde un
dominio objetivo (target desde una mirada muy principio.
domain). limitada del dominio Las preguntas no logran representar
objetivo. todo el espectro relevante del
constructo a considerar. Hay
habilidades y contenidos relevantes
que están sub-representados o
ausentes.
Dudas acerca de la concurrencia entre
SIMCE y otras tareas que evalúan el
mismo constructo.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 97
Evaluación Es el paso desde los Presentación de las Poca transparencia y claridad acerca de
puntajes en el dominio interpretaciones de los los propósitos, constructo, contenido,
objetivo hacia un juicio resultados asociadas a procedimiento e interpretaciones
acerca del mérito del grupos de características intencionadas del SIMCE, lo que
desempeño del similares. Búsqueda de provoca falta de comprensión por parte
estudiante. factores asociados al de los usuarios acerca de sus resultados
buen desempeño, con e involucra el riesgo de juicios no
independencia del nivel válidos.
socioeconómico. Interpretaciones erróneas por parte de
diversos actores en base al
desconocimiento de los límites de la
prueba.
Falta de evidencia para los múltiples
saltos inferenciales que se realizan en
las interpretaciones de los resultados
del SIMCE.
Decisión La toma de decisiones en Dado el constructo real No hay evidencia suficiente para
base a los juicios. en contraposición con el ninguna de las decisiones que se basan
constructo declarado en en los resultados de SIMCE. Las
SIMCE, no se observan decisiones que se toman no son
mayores ventajas en este coherentes con lo que la prueba logra
aspecto, ya que no hay evaluar y no siempre generan un
base suficiente para impacto positivo en los actores.
ninguna de las decisiones Los estándares están construidos sobre
que se toman en base a la base de clasificaciones inadecuadas
SIMCE. (Niveles de Logro).
En conclusión, lo que se puede decir de los resultados del SIMCE es bastante limitado y las
interpretaciones en base a ellos debieran ser más moderadas que las actuales. Por otro lado,
sabiendo lo que se puede concluir de los resultados de SIMCE, habría que preguntarse si, dado
todo el trabajo que implica, realmente se necesita esta información y, de ser así, para qué se la
necesita; qué información adicional se requiere para tener una imagen más global del sistema
educativo nacional y su calidad; qué acciones orientadas a consecuencias positivas para el
sistema se deben tomar en base a estos datos; cómo se garantizan las condiciones indicadas
para cada interpretación posible; y cómo se evita que las interpretaciones que no son válidas se
generen, haciendo daño al sistema en el sentido de la dimensión ética asociada a la evaluación.
98 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
8. CONCLUSIONES
En base al análisis realizado, entonces, se puede concluir que existen diversas razones para
cuestionar la validez de las interpretaciones de los resultados del SIMCE. En primer lugar, esta
evaluación presenta múltiples propósitos, algunos contradictorios entre sí. Además, su
constructo no se define claramente, su comparabilidad de un año a otro es cuestionable, y su
cobertura no está asegurada, de manera que no existe una base clara sobre la cual sustentar las
interpretaciones que se realizan de los puntajes. A ello se agrega que el análisis de los ítems
liberados genera dudas en relación con la relevancia, calidad y cobertura de las preguntas de la
prueba. La evidencia obtenida con respecto al procedimiento de construcción y corrección de
las preguntas, y la percepción de los docentes con respecto a lo que el SIMCE logra evaluar,
refuerzan las conclusiones de dicho análisis. Hay múltiples consecuencias asociadas al SIMCE
que también podrían incidir en su validez, entre ellas, distorsión de las prácticas pedagógicas y
de evaluación, malas prácticas y presiones indebidas. Por lo tanto, se puede al menos decir que
existe evidencia suficiente para plantear una duda razonable en relación con la validez del
SIMCE.
A partir de este análisis empírico, por lo tanto, se contribuye a la teoría sobre validez en
evaluación. Por una parte, se evidencia la forma en que el concepto unitario de validez (Messick,
1980 y 1989) y el enfoque basado en argumentos (Kane, 2008) contribuyen a iluminar áreas de
la calidad de un proceso de evaluación que una aproximación mecanisista, contenidista y
centrada en el aspecto estadístico no lograría dilucidar. Junto con ello, los datos implican al
menos una primera aproximación hacia la importancia de incluir la dimensión consecuencial en
el análisis de la validez de un procedimiento de evaluación, puesto que la evidencia empírica
arroja dudas razonables en este ámbito, que se interconecta posiblemente con la validez de
constructo, si se comprueba que las distorsiones de la práctica son extendidas y sistemáticas.
requeriría, junto con solucionar los problemas de constructo y cobertura del contenido,
incorporar medidas de valor agregado en las que se asegure que la variación en puntaje no está
determinada por características de la cohorte, y estudiar qué tan extendidas están las prácticas
que pudieran distorsionar estos resultados.
Al existir evidencia en contra y no haber evidencia suficiente para interpretar mayor calidad o
equidad ni resultados o progreso en el aprendizaje de los estudiantes chilenos, la base para
muchos otros propósitos se cae, entre ellos: orientar y evaluar políticas educativas; apoyar la
reflexión y las decisiones pedagógicas; informar a los padres y al sistema acerca del aprendizaje
de los estudiantes; comparar establecimientos; establecer rankings; evaluar iniciativas del
establecimiento; y probablemente todos los que se enunciaron en la sección correspondiente
del presente informe. Si no se sabe qué se está evaluando, difícilmente se pueden tomar
decisiones en base a esta información y menos evaluar si una escuela, una comuna, un gobierno
o un país poseen aprendizajes o una educación de calidad.
No obstante, hay que recordar la ya mencionada crítica en la literatura sobre validez hacia la
forma en que la teoría sobre este concepto suele ser puesta en práctica por las agencias
evaluadoras: mecánica, empiricista, poco holística y centrada en el aspecto estadístico (Haertel,
1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Al parecer, lo que se busca
es evitar la complejidad de lo que un verdadero análisis de la validez de un proceso de
evaluación implicaría, complejidad que, sin embargo, no justifica la ausencia de dicho análisis
(Kane, 2010). Autores como Haertel (1999) sospechan que existe en la insistencia en el uso
acrítico de los tests un fin más bien económico y político. En los modelos educativos neo-
liberales, de hecho, la evaluación estandarizada se convierte en un medio para mantener un
control a distancia, esto es, permite gobernar a través de los datos y los números (conf. Grek,
2009; Lawn and Ozga, 2009; Ozga, 2009). Lo mínimo que se puede y se debe hacer, entonces, si
no se modifica este modelo, es al menos asegurar que dichos datos y números se construyan e
interpreten de manera adecuada y justa para todos los actores del sistema. Si se aprovecha esta
oportunidad, quizás el SIMCE podría convertirse en una evaluación pionera en este sentido.
100 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
9. RECOMENDACIONES
Uno de los propósitos del presente estudio es proveer recomendaciones y orientaciones para
mejorar la validez del SIMCE como proceso de evaluación. Dada la evidencia obtenida, una
primera medida tiene que ver con un replanteamiento radical del SIMCE, en el sentido de re-
evaluar su sentido y dirección en el sistema educativo chileno. Los diferentes actores deberían
establecer un diálogo en el cual se reflexione, primero, sobre la necesidad de SIMCE y sobre sus
propósitos y, en base a ello, se propongan procedimientos y condiciones que sean coherentes
con aquello que se defina que se quiere del SIMCE.
En directa relación con lo anterior, es importante reconsiderar los propósitos del SIMCE, puesto
que la multiplicidad actualmente existente no resulta sostenible técnicamente. Ello implica, por
una parte, tomar decisiones en relación con los macro-propósitos de rendición de cuentas y uso
pedagógico, priorizando aquel que se considere más relevante y menos perjudicial para el
sistema. Además, sobre la base de esta decisión, se debe acotar la lista de 17 propósitos a una
serie más realista y mejor justificada que la actual.
Para una buena comprensión de los propósitos y de las interpretaciones derivadas del SIMCE,
resulta fundamental definir, delimitar y transparentar para los usuarios el constructo y el
contenido evaluado en las pruebas. Ello implica, por ejemplo, utilizar las etiquetas adecuadas a
la hora de dar nombre a cada prueba y al sistema de evaluación en su totalidad,
denominaciones que actualmente deben modificarse a la luz del análisis aquí realizado,
considerando otras que reflejen de forma más adecuada el constructo a evaluar. También
implica incluir definiciones teóricas de aquello que se evalúa, ejemplos de cómo se lo evalúa, y
publicar los marcos de evaluación con la cobertura curricular implicada. Ello debiera
acompañarse de un manual detallado que ayude a los usuarios a realizar interpretaciones
mesuradas y adecuadas de los resultados, y a comprender las limitaciones a considerar en
relación con los instrumentos.
Junto con lo anterior, sería conveniente realizar un estudio curricular que asegure la
comparabilidad de resultados en el tiempo en relación con un mismo constructo. Ello porque,
dada la evidencia inicial de este estudio, existen razones para creer que las interpretaciones
entregadas hasta ahora no serían válidas en términos de progresión de aprendizajes, puesto que
el constructo evaluado se ha ido modificando. Si a ello se agrega que no se realizan medidas de
valor agregado, la interpretación en términos de mejora en los aprendizajes a nivel de
establecimiento resulta poco plausible.
La calidad y cobertura de las preguntas debe mejorarse. Quizás sea importante incorporar
preguntas más desafiantes y más preguntas abiertas cuyo costo podría asumirse si se convierte
el SIMCE en una prueba muestral y no censal. Ello daría al sistema un mensaje más claro acerca
del tipo de habilidades que se espera que los estudiantes desarrollen en relación con el
currículum, y quizás modificaría las prácticas docentes en un sentido más positivo, aun cuando
el mensaje debiera finalmente ser que el SIMCE no se debe preparar y que basta con trabajar en
aquello que el marco curricular exige.
Otro aspecto que permitiría mejorar la calidad de las preguntas se relaciona con una mayor
apertura al juicio externo en términos de modificar enunciados y pautas si un grupo de expertos
disciplinarios así lo sugiere. Quizás se insista en la estabilidad de las preguntas e instrumentos
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 101
Resulta crucial investigar con mayor detención y amplitud las consecuencias generadas por el
SIMCE en su forma actual, puesto que no se sabe hasta qué punto la distorsión de las prácticas
pedagógicas y evaluativas se ha generalizado, al igual que las malas prácticas que podrían
distorsionar los resultados de los establecimientos. Si se trata de consecuencias extendidas,
entonces se deben tomar medidas acordes, como por ejemplo, bajar el impacto de los
resultados y prohibir su publicación. De lo contrario, puede ser que lo que finalmente se evalúe
sea el grado de entrenamiento para la prueba en un establecimiento, lo que se aleja
considerablemente de los constructos intencionados por el SIMCE. Junto con ello, el sistema de
evaluación completo entraría en contradicción, puesto que en lugar de evaluar y mejorar la
calidad de la educación, estaría realizando todo lo contrario.
Finalmente, resulta claro que los miembros del equipo SIMCE necesitan asumir un concepto más
amplio de validez, que vaya más allá de los procedimientos de validación de contenido que
predominaron en la primera mitad del siglo XX. La discusión teórica en torno al concepto ha
avanzado mucho en las últimas décadas, y la literatura reciente ofrece métodos concretos para
realizar estudios de validez basados en una concepción más actualizada del término. La validez
no puede limitarse a los procesos de consulta a expertos y de análisis psicométrico, en los cuales
parece existir una confianza ciega, sino que debe permear todo el proceso, desde la definición
de los propósitos y constructos hasta la publicación de resultados y su uso. El presente estudio,
de hecho, revela el riesgo de este exceso de confianza, puesto que queda en evidencia la
debilidad del SIMCE en gran parte de los eslabones de la cadena de validez de Crooks et al.
(1996).
Dada la evidencia que arroja la presente investigación, se abren dos caminos a futuro para el
SIMCE. En el entendido que se sigan las recomendaciones anteriormente indicadas, una
posibilidad es convertir el SIMCE en una evaluación menos ambiciosa o más razonable en sus
propósitos, de tipo muestral, de bajas consecuencias, con medidas de valor agregado, que
controle quizás por grupo socioeconómico para observar las diferencias de aprendizaje no
debidas a este factor, y con reporte directo a los establecimientos. La ‘foto’ que se podría
obtener con respecto a los aprendizajes del currículum podría ser mucho más exacta y la
interpretación de sus resultados mucho más válida.
El segundo camino es más complejo. Si se opta por continuar con la forma actual de SIMCE, se
requiere proveer evidencia para cada uno de los saltos inferenciales que actualmente se realizan
102 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
en base a sus resultados, tomando en cuenta cada uno de sus 17 propósitos. Dados los
resultados presentados en este informe, dicha tarea parece inviable. Insistir en esta vía
solamente estaría confirmando la siguiente apreciación de Jaime acerca de las razones por las
que no se publica mucha información sobre SIMCE:
“(…) este objeto de poder, que es tan preciado y que es tan delicado, porque va a permitir
estructurar todas las políticas públicas, controlar a los colegios, etc., sobre él se van a fundar las
promesas de mejoramiento de la calidad de la educación; ese instrumento es bien discutible, y si
se hace público, es muy criticable. Entonces, de ahí en adelante, empieza una época en la cual
como que la emoción como fundante del trabajo del SIMCE es el miedo, en el sentido de que
mientras menos gente lo conozca, mejor; porque cualquiera que lo conoce va a tener un punto
de vista, entonces a lo mejor ya no va a decir que las preguntas están malas, pero va a decir que
discrepa, y si discrepa, ya no podemos decir... darle tanta importancia a este instrumento.”
Sea cual sea la opción que se tome a futuro, el SIMCE no debería continuar en sus condiciones
actuales. De ser así, sus usuarios tienen el derecho de desestimar las interpretaciones pasadas y
futuras de los resultados de esta evaluación, y continuar realizando lo que ellos consideren ética
y pedagógicamente correcto.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 103
REFERENCIAS Y BIBLIOGRAFÍA
Anastasi, A. (1986). Evolving concepts of test validation. Annual Review of Psychology, 37, 1-15.
Bellei, C. (2002). Apuntes para debatir el aporte del SIMCE al mejoramiento de la educación
chilena. Documento no publicado.
Berryhill, J.; Linney, J.A.; Fromewick, J. (2009). The Effects of Education Accountability on
Teachers: Are Policies Too-Stress Provoking for Their Own Good? International Journal of
Education Policy and Leadership, 4(5), 1-14.
Campbell, D.T. (1960). Recommendations for APA test standards regarding construct, trait or
discriminant validity. American Psychologist, 15, 546-553.
Campbell, D.T. y Fiske, D.W. (1959). Convergent and discriminant validation by the multitrait-
multimethod matrix. Psychological Bulletin, 56, 81-105.
CIDE (2007). Informe Final “Estudio Exploratorio Entrega de Resultados SIMCE con Niveles de
Logro a Establecimientos Educacionales Durante el año 2007”. Santiago: Publicación CIDE,
Facultad de Educación Universidad Alberto Hurtado.
Comisión SIMCE (2003). Evaluación de Aprendizajes para una Educación de Calidad. Santiago:
MINEDUC.
Crooks, T. J., Kane, M. T., & Cohen, A. S. (1996). Threats to the valid use of assessments.
Assessment in Education: Principles, Policy & Practice, 3, 265-286.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological
Bulletin, 52, 281-302.
Cronbach, L. J. (1984). Essentials of psychological testing (4th ed.). New York: Harper & Row.
Dorans, N.; Moses, T.; Eignor, D. (2010). Principles and Practices of Test Score Equating.
Educational Testing Service.
Eyzaguirre, B. y Fontaine, L. (1999). ¿Qué mide realmente el SIMCE? Estudios Públicos, 75.
García-Huidobro, J.E. (2002). Usos y abusos del Simce. Santiago: Publicación CIDE, Facultad de
Educación Universidad Alberto Hurtado.
Grek, S. (2009). Governing by numbers: the PISA 'effect' in Europe. Journal of Education Policy,
24(1), 23-37.
Haertel, E. H. (1999). Validity arguments for high-stakes testing: In search of the evidence.
Educational Measurement: Issues and Practice, 18(4), 5-9.
Harvey, L. y Green, D. (1993). Defining Quality. Assessment & Evaluation in Higher Education,
18(1), 9-34.
Himmel, Erika (1992). “Comentario a “Análisis del SIMCE y sugerencias para mejorar su impacto
en la calidad”, de E. Schiefelbein”. En: La realidad en cifras. Santiago: FLACSO, pp. 281-289.
Hubley, A y Zumbo, B. (2011). Validity and the Consequences of Test Interpretation and Use.
Social Indicators Research, 103(2), 219-230.
Kane, M. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher, 37(2),
76-82.
Kane, M. (2011). Validating score interpretations: Messick Lecture, Language Testing Research
Colloquium, Cambridge, April 2010. Language Testing, 29(1), 3-17.
Lawn, M. y Ozga, J. (2009). The sleep of reason breeds monsters: data and education
governance in England. Edinburgh: Centre for Educational Sociology.
Linn, R. L. (1997). Evaluating the validity of assessments: The consequences of use. Educational
Measurement: Issues and Practice, 16(2), 14-16.
Lissitz, R. W., & Samuelsen, K. (2007). A suggested change in terminology and emphasis
regarding validity and education. Educational Researcher, 36, 437-448.
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 105
Manzi, J; San Martín, E.; Van Bellegem, S. (2010). School system evaluation by value-added
analysis under endogeneity. Belgium: Centre for Operations Research and Econometrics.
Meckes, L. y Carrasco, R. (2010). Two decades of SIMCE: an overview of the National Assessment
System in Chile. Assessment in Education: Principles, Policy & Practice. 17 (2), 233- 248.
Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-
1027.
Messick, S. (1989). “Validity”. En: R. L. Linn (ed.). Educational Measurement (3rd ed.). New York:
American Council on Education/Macmillan, 13-103.
Moss, P. A., Girard, B. J., & Haniford, L. C. (2006). Validity in educational assessment. Review of
Research in Education, 30, 109-162.
Mullis, V.S.; Martin, M.O.; Ruddock, G.J.; O'Sullivan, C.Y.; Preuschoff. C. (2009a). TIMSS 2011
Assessment Frameworks. TIMSS & PIRLS International Study Center Lynch School of Education,
Boston College. En:
http://timssandpirls.bc.edu/timss2011/downloads/TIMSS2011_Frameworks.pdf
Mullis, V.S.; Martin, M.O.; Kennedy, A.M.; Trong, K.L.; Sainsbury, M. (2009b). PIRLS 2011
Assessment Framework. TIMSS & PIRLS International Study Center Lynch School of Education,
Boston College. En:
http://timssandpirls.bc.edu/pirls2011/downloads/PIRLS2011_Framework.pdf
OECD (2009a). PISA 2009 Assessment Framework – Key Competencies in Reading, Mathematics
and Science. París: OECD. En:
http://www.oecd.org/pisa/pisaproducts/44455820.pdf
106 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Ortiz, I. (2010). 25 años del SIMCE. Santiago: Publicación CIDE, Facultad de Educación
Universidad Alberto Hurtado.
Ozga, J. (2009). Governing education through data in England: from regulation to self-
evaluation. Journal of Education Policy, 24(2), 149-162.
Román, M. (1999). Usos Alternativos del SIMCE: Padres, Directores y Docentes. Santiago:
Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado.
San Martín, E.; del Pino, G.; De Boeck, P. (2006). IRT Models for Ability-Based Guessing. Applied
Psychological Measurement. 30 (3), 183-203.
Shaw, S.; Crisp, V.; Johnson, N. (2012). A framework for evidencing assessment validity in large-
scale, high-stakes international examinations. Assessment in Education: Principles, Policy and
Practice, 19(2), 159-176.
Schiefelbein, E. (1998). “Análisis del SIMCE y sugerencias para mejorar su impacto en la calidad”.
En: La realidad en cifras. Santiago: FLACSO, pp. 241-280.
Shepard, L. (1992). Will national tests improve student learning?, CSE Technical report 342,
CRESST, University of Colorado, Boulder.
Shepard, L. A. (1997). The centrality of test use and consequences for test validity. Educational
Measurement: Issues and Practice, 16(2), 5-8.
Sireci, S. (2007). On Validity Theory and Test Validation. Educational Researcher, 36(8), 477-481.
Srivastava, P. y Hopwood, N. (2009). A practical iterative framework for qualitative data analysis.
International Journal of Qualitative Methods, 8(1), 76-84.
Taut, S.; Cortés, F.; Sebastian, C.; Preiss, D. (2009). Evaluating school and parent reports of the
national student achievement testing system (SIMCE) in Chile: Access, comprehension, and use.
Evaluation and Program Planning, 32, 129–137.
TIMSS (2007). TIMSS 2007: User Guide for the International Database. TIMSS & PIRLS
International Study Center Lynch School of Education, Boston College. En:
http://timss.bc.edu/timss2007/PDF/TIMSS2007_UserGuide.pdf
108 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
Preguntas principales:
Preguntas principales:
9) Para Lenguaje: ¿Cómo eligen los textos, en base a qué? ¿Cómo evitan el sesgo en los
textos?
10) ¿Qué porcentaje o ponderación tienen en la prueba las preguntas abiertas? ¿Cómo se
incluyen en la corrección?
11) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y
qué interpretaciones serían inválidas?
12) ¿Han realizado algún estudio que conecte las calificaciones asignadas por los docentes
de aula y los puntajes del SIMCE? ¿Hay algún estudio que correlacione los resultados del
SIMCE con los resultados provenientes de otras fuentes?
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 113
6) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba?
7) ¿Hubo algún cambio con la introducción del Ajuste y luego de las Bases? (dependiendo
del año del entrevistado trabajando en SIMCE)
8) ¿Sabes en qué consiste la revisión de las preguntas y quién la realiza? ¿Sabes quién
aprueba finalmente las preguntas del SIMCE?
9) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y
qué interpretaciones serían inválidas?
10) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar
su validez? ¿Por qué? ¿De qué manera?
114 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
7) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba?
8) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y
qué interpretaciones serían inválidas?
9) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar
su validez? ¿Por qué? ¿De qué manera?
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 115