Validez Del SIMCE PDF

OXFORD
AGOSTO 13
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE

MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN
(SIMCE)
María Teresa Flórez Petour
INFORME FINAL
Oxford University Centre for Educational Assessment

2 ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE)
ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE MEDICIÓN DE LA CALIDAD DE LA EDUCACIÓN (SIMCE) 3
ÍNDICE
1. INTRODUCCIÓN 4
2. RESUMEN EJECUTIVO 6
3. MARCO TEÓRICO 10
3.1. Breve referencia histórica sobre el concepto de validez 10
3.2. Principales discusiones en torno al concepto de validez 12
3.3. Concepto de validez: principios generales, tipología y métodos a considerar 16
en este estudio
3.4. Validez en SIMCE: literatura disponible 25
4. METODOLOGÍA 31
4.1. Aproximación metodológica 31
4.2. Preguntas y objetivos de investigación 31
4.3. Revisión de la literatura disponible 32
4.4. Recolección de datos 34
4.5. Análisis de los datos 39
4.6. Limitaciones 41
5. RESULTADOS DE LA INVESTIGACIÓN: DESCRIPCIÓN DEL PROCEDIMIENTO 42
5.1. Información acerca del proceso SIMCE en base a documentos 45
5.2. Información acerca del proceso SIMCE en base a entrevistas 54
6. RESULTADOS DE LA INVESTIGACIÓN: ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SIMCE 58
6.1. Propósitos 58
6.2. Constructo y contenido 59
6.3. Criterio 78
6.4. Consecuencias 79
6.5. Aspectos de administración y procedimiento 86
6.6. Interpretación 90
7. INTERPRETACIÓN Y DISCUSIÓN 91
8. CONCLUSIONES 98
9. RECOMENDACIONES 100
REFERENCIAS Y BIBLIOGRAFÍA 103
ANEXO 1 108
ANEXO 2 111
ANEXO 3 117
1. INTRODUCCIÓN
Han transcurrido más de veinte años desde la creación por ley del Sistema de Medición de la
Calidad de la Educación (SIMCE), tiempo durante el cual esta evaluación ha llegado a ser parte
constitutiva del sistema educativo chileno y de su funcionamiento. Los estudios críticos acerca
de este sistema de evaluación son anteriores al año 2000 y aluden a aspectos asociados a la
comparabilidad de los datos (Schiefelbein, 1998) y a la necesidad de considerar los tiempos
necesarios para el logro de cambios participativos y significativos en educación (Himmel, 1992).
El único estudio sistemático existente sobre la validez del SIMCE es el de Eyzaguirre y Fontaine
(1999). En este las autoras analizan los documentos disponibles públicamente acerca de las
pruebas de Lenguaje y Comunicación y Educación Matemática, con el fin de examinar la validez
del SIMCE en sus dimensiones de constructo y contenido (ver sección 3.4). No obstante, este
análisis se realizó hace más de una década , en base a instrumentos antiguos y de transición
diferentes a los actuales, y las mismas autoras expresaron en ese entonces preocupaciones
acerca de las nuevas pruebas. Junto con ello, aspectos como la multiplicidad de propósitos y
usos del SIMCE, así como la dimensión consecuencial (Messick, 1989) o de impacto (Crooks et
al., 1996) de la prueba, no se consideraron en este análisis, lo que resulta incompleto desde la
perspectiva que hoy predomina acerca la validez como un concepto unitario. Pese a ello, se
reitera en la literatura, sin que se diga muy claramente de dónde proviene la evidencia, que
SIMCE es una prueba metodológicamente sólida y que goza de legitimidad y credibilidad
(Meckes y Carrasco, 2010; Comisión SIMCE, 2003).
Dada su importancia y la influencia que tiene sobre los actores y las decisiones del sistema
educativo nacional, resulta urgente realizar un estudio sistemático acerca de la validez del
SIMCE, considerando tanto sus propósitos como las dimensiones de constructo, contenido,
criterio y consecuencias que componen el concepto de validez. El presente informe da cuenta de
los resultados de un proyecto financiado por el Consejo Nacional de Educación cuyo propósito
central es precisamente cubrir esta brecha de investigación.
El informe contiene, primero, un resumen ejecutivo con las principales características y

resultados del estudio. A continuación se presenta un marco teórico en que se indican los
aspectos y discusiones centrales en torno al concepto de validez, de acuerdo a los principales
autores sobre el tema y a las perspectivas más recientes en esta área de investigación. Luego, se
expone la metodología considerada para el estudio, seguida de los resultados principales. La
sección de resultados se divide en dos partes: descripción del procedimiento y análisis crítico. La
primera apunta a transparentar en detalle los procesos de creación, aplicación y corrección de la
prueba SIMCE, algunos de ellos desconocidos para los usuarios del proceso de evaluación. La
segunda expone el análisis crítico de la validez del SIMCE en cada una de las dimensiones del
concepto. La siguiente sección alude a la interpretación y discusión de los resultados, teniendo
en cuenta la teoría sobre validez. Finalmente, se ofrecen algunas conclusiones y
recomendaciones en base a los resultados obtenidos.
La investigadora quisiera agradecer al Consejo Nacional de Educación por apoyar este proyecto,
así como a cada uno de los participantes del estudio, tanto profesores como miembros del
equipo SIMCE, por su contribución al mejoramiento de la validez de este sistema de evaluación.
Además, quisiera agradecer a los académicos y expertos en evaluación que aportaron con su
opinión al mejoramiento del presente estudio: la Profesora Jo-Anne Baird, el Profesor David
Andrich y la Dra. Therese Hopfenbeck. Por último, se agradece también a las cuatro expertas
que contribuyeron a validar los juicios de la investigadora en el análisis crítico de las preguntas
del modelo de prueba de Lectura para 2º básico.
2. RESUMEN EJECUTIVO
Objetivos del estudio:
General:
 Analizar críticamente el Sistema de Medición de la Calidad de la Educación

(SIMCE) desde las diferentes dimensiones del concepto de validez en evaluación.
Específicos:
 Explorar y describir el concepto de validez y sus diferentes dimensiones en el

SIMCE, considerando la perspectiva de los diferentes actores del proceso y las
características del instrumento de evaluación.
 Analizar críticamente, en base a la teoría sobre el concepto de validez, los
procesos de construcción, implementación, corrección y uso del SIMCE.
 Sugerir y proponer orientaciones para el mejoramiento de la validez del Sistema
de Medición de la Calidad de la Educación en Chile.
Metodología:
 Análisis de 41 documentos públicos del SIMCE: información ofrecida en el sitio

oficial, folletos de orientaciones, informes de resultados, entre otros.
 Entrevistas con 15 actores clave del proceso SIMCE (coordinadores,
elaboradores de preguntas, correctores, profesionales SIMCE, entre otros).
 Entrevistas con 20 profesores de perfiles variados (p. ej. diversos en
dependencia, rural/urbano, género, disciplina, nivel, tipo de formación inicial,
entre otros).
Principales resultados:
Propósitos:
 Se detectaron 17 propósitos diferentes para el SIMCE en documentos y

entrevistas.
 Se indica la existencia de dos ‘macro-propósitos’ en tensión: rendición de
cuentas y apoyo a las prácticas pedagógicas.
 De acuerdo con la teoría sobre validez, los propósitos del SIMCE resultan
excesivos para un único instrumento, y no se encuentran adecuadamente
balanceados.
Dimensiones de constructo y contenido:
 Hay una distancia entre el constructo declarado en los documentos y lo que la

prueba finalmente mide. No se provee evidencia que justifique los saltos
inferenciales (extrapolaciones) que se observan en las interpretaciones de los
resultados del SIMCE.
 Pese a que se indica que el SIMCE lo evalúa, no se define el constructo calidad de la
educación.
 Los participantes, en general, no creen que el SIMCE mida calidad.
 Podría considerarse un indicador de calidad entre muchos.
 Se declara también en los documentos que evalúa el currículum vigente. La
evidencia muestra que evalúa principalmente las habilidades más básicas y las tareas
más rutinarias de algunas áreas del currículum.
 Los cambios curriculares modifican el constructo y contenido a evaluar, lo que pone
en riesgo la comparabilidad de los resultados de una aplicación a otra.
 Aun cuando se trabaja con las intersecciones curriculares, el riesgo para la
comparabilidad persiste si los contenidos cambian en su ubicación en el tiempo.
 Los documentos analizados confirman diferencias entre un año y otro en los
constructos y contenidos descritos.
 Los actores involucrados en la construcción de ítems y los profesionales del SIMCE
con experticia disciplinaria tienen reparos frente a la calidad de las preguntas.
 De 152 preguntas analizadas, 43 presentan problemas de diverso tipo.
 El modelo de prueba de 2º básico para Lectura presenta preguntas clasificadas como
más complejas de lo que son, lo que genera problemas de cobertura, comparabilidad
e interpretación.
 Los actores externos al SIMCE involucrados en el uso de pautas de corrección indican
problemas en su uso y calidad.
Dimensión de criterio
 Algunos de los profesores entrevistados declaran que, desde su perspectiva, no existe

coincidencia entre los aprendizajes que ellos observan y los resultados del SIMCE.
 Dos profesoras proveen evidencia de que el SIMCE podría estar evaluando un nivel
extremadamente básico de aprendizaje.
 Necesidad de realizar estudios de validez concurrente y predictiva para mejorar la
validez del SIMCE (p.ej. con evaluaciones internacionales o de los docentes).
Dimensión consecuencial:
 Todos los profesores perciben al SIMCE como un instrumento de presión, que

distorsiona sus prácticas pedagógicas y/o evaluativas.
 Se contrapone con su idea del aprendizaje y de la disciplina que enseñan.
 Genera malas prácticas (p.ej. incentivos económicos a los profesores por los
resultados, incentivos en notas a los estudiantes, uso de horas de taller en
entrenamiento, entre otros).
 En todos los casos se reconoce algún tipo de práctica de preparación del SIMCE.
 Los docentes no están en contra de la evaluación como tal, sino de su uso público y
orientado a la educación de mercado (competencia entre escuelas, rankings, etc.).
 Hay evidencia que indica que los estudiantes podrían no sentirse motivados hacia la
prueba, lo que significa un riesgo para la validez de los resultados.
 Existe por parte de los profesores una demanda por una evaluación más
representativa, más sensible a las diferencias, y sin publicación de resultados.
 Se hace necesario indagar sobre la extensión de las consecuencias detectadas y, en
base a ello, evaluar su posible incidencia en la validez de los resultados.
Aspectos de procedimiento:
Algunos aspectos de procedimiento que pueden afectar la validez de los resultados son:
 Condiciones laborales de los constructores externos de preguntas (p.ej. tiempo
insuficiente para elaborar buenas preguntas, trabajo adicional a su jornada laboral
regular).
 Condiciones laborales de los correctores de pregunta abierta: precarización creciente
(poco descanso, mucha presión, bajos sueldos, etc.)
 Actitud intransigente y autoritaria de algunos miembros del SIMCE que podría
impedir mejorar el proceso (p.ej. no se modifican las pautas pese a que se reciben
comentarios y sugerencias todos los años).
Interpretación:
 Tanto los medios como los documentos del SIMCE presentan interpretaciones que,
de acuerdo con el presente análisis, no son válidas. Por ejemplo, no es válido
interpretar que los resultados del SIMCE reflejan el aprendizaje de todo un ciclo, o
que representan la calidad de la enseñanza en un establecimiento, o que los
docentes del nivel correspondiente son ‘buenos’ o ‘ malos’.
Principales conclusiones:
 No existe evidencia suficiente para considerar válidas las interpretaciones que se

realizan en base a los resultados SIMCE en relación con dos de sus propósitos
declarados:
o Monitorear y mejorar la calidad y equidad del sistema educativo chileno (de
hecho, hay evidencia de que realizaría lo contrario).
o Evaluar los aprendizajes del currículum nacional.
 No contar con evidencia suficiente para estos dos propósitos invalida a la vez los
demás propósitos asignados a la prueba.
Recomendaciones:
 Reconsiderar los propósitos del SIMCE (acotar y realizar opciones).

 Definir, delimitar y transparentar para los usuarios el constructo y contenido
evaluados por el SIMCE.
 Mejorar la calidad y cobertura de las preguntas, mejorar las pautas, incorporar
preguntas menos rutinarias y más desafiantes, quizás más preguntas abiertas.
 Resguardar las condiciones laborales en que se crean y corrigen los ítems.
 Aprovechar la competencia generada en aquellos que han participado de procesos
previos, incluso considerando la conformación de un equipo estable.
 Necesidad de generar más competencias teóricas y prácticas en evaluación en Chile
en todos los niveles, para facilitar la elaboración de pruebas de buena calidad.
 Realizar un estudio curricular y de los marcos de evaluación para la asegurar
comparabilidad de constructo y contenido de un año a otro.
 Asumir un concepto más amplio de validez. Actualmente se confía excesivamente en
el proceso de validación psicométrica de la prueba experimental como única garantía
de calidad.
 Desarrollar mayor investigación en torno las consecuencias del SIMCE, su alcance y
su potencial impacto en la validez de la prueba.
 Dos opciones para el SIMCE a futuro:
o Convertir el SIMCE en una evaluación muestral, de bajas consecuencias, con
medidas de valor agregado, sin publicación de resultados y con reporte
directo al establecimiento.
O
o Proveer evidencia para justificar todos los saltos inferenciales que se realizan
actualmente en base a los puntajes de SIMCE.
3. MARCO TEÓRICO
3.1. Breve referencia histórica sobre el concepto de validez
Según Newton (2012), el término validez comienza a utilizarse en el ámbito de las pruebas
estandarizadas desde las primeras décadas del siglo XX, aun cuando la preocupación por definir
este y otros conceptos ampliamente utilizados emerge solamente a partir de la década de los
años '20, con la proliferación del uso de este tipo de instrumentos en la sociedad
norteamericana. Desde su primera definición o su definición mas clásica, "por validez se
entiende el grado en que un test o examen mide lo que se propone medir" (Ruch, 1924: 13,
citado en Newton, 2012), la discusión ha sido extensa, aun cuando hoy predomina la visión
integrada del concepto desarrollada por Messick (1980), donde todas las dimensiones del
concepto se subsumen a la determinación de un constructo a medir (ver sección 3.2).
Parte de la complejidad del concepto de validez en evaluación se relaciona con su historia. En la

medida en que el concepto se ha ido desarrollando y diferentes disciplinas han ido
contribuyendo a su construcción, nuevos aspectos se han incorporado a su conceptualización.
Según Anastasi y Urbina (1997), uno de los primeros usos de las pruebas se relaciona con la
evaluación de lo que las personas habían aprendido acerca de una determinada área del
conocimiento. En ese sentido, el aspecto más relevante de la validez durante esta fase de la
historia de la evaluación se relaciona con el contenido a evaluar y el grado de representatividad
que la prueba tiene con respecto a un dominio específico del conocimiento.
Posteriormente, la capacidad de estos instrumentos para poder predecir un determinado

comportamiento comienza a cobrar relevancia (Anastasi y Urbina, 1997), debido a la
preocupación por utilizar las pruebas estandarizadas con fines de selección o para la asignación
de determinados tratamientos. Para Kane (2008), es este tipo de evaluación el que se desarrolla
primero en la historia, seguido de aquella que se centra en el contenido. En términos de validez,
esta nueva incorporación implica demostrar la predicción de un comportamiento futuro, lo que
en algunos casos puede resultar particularmente complejo y extenderse excesivamente en el
tiempo. Por ello, el procedimiento diseñado para estos fines generalmente contempla un
coeficiente de correlación entre el puntaje de la prueba y otra medición independiente del
criterio, es decir, un registro del resultado esperado (Cronbach, 1984). En el caso de Chile, por
ejemplo, si se compara el puntaje obtenido en la Prueba de Selección Universitaria (PSU) con las
calificaciones que el estudiante posteriormente obtiene en su vida académica (que constituirían
el criterio en este caso), se esperaría encontrar cierta correlación entre ambas mediciones para
considerar que la PSU es válida en relación con el comportamiento que busca predecir, esto es,
un buen desempeño académico.
Ambos acercamientos a la validez de una prueba siguen operando hoy en día. Sin embargo, la
discusión actual está más claramente marcada por una tercera línea que emerge desde una
mayor preocupación por la teoría subyacente a un test, es decir, por el constructo que está
siendo evaluado. En su sentido original, definido por Cronbach y Meehl (1955), la validez de
constructo implica comprobar la cercanía entre los resultados de una medición y las
predicciones que acerca de estos se realizan en base a la teoría. Ello implica comprender que lo
que mide una prueba está fundamentado en una determinada teoría, la que se encuentra
implícita en el instrumento (Kane, 2008). Si bien esta conceptualización constituye la base de lo
que se entiende como validez de constructo, dichos autores solamente la desarrollaron para
casos específicos en que ciertos constructos teóricos no podían validarse ni por medio de
contenido ni de la definición de un criterio. Pese a ello, Kane (2008) distingue tres principios
centrales que Cronbach y Meehl desarrollan en su artículo, en términos de los caminos que
estos abrirían para el posterior desarrollo y entendimiento del concepto de validez:
 Es necesario especificar o explicitar la interpretación que se busca realizar antes de

evaluar su validez.
 No basta con un estudio de correlación o de criterio, sino que debe haber un programa
de investigación en relación con el constructo.
 Los supuestos que sustentan las interpretaciones y usos de los puntajes deben probarse
por medio de evidencia.
Estas ideas llevan posteriormente a Messick (1980) a criticar la fragmentación del concepto de
validez en determinadas tipologías y a proponer un concepto unitario de validez. El
cuestionamiento de Messick (1980) se relaciona con que, al compartimentalizar el concepto, se
genera la creencia de que basta con tener en cuenta un solo tipo de validez en lugar de
concentrarse en la interpretación global de los puntajes.
Así se observa, por ejemplo, en la tipología que Cronbach (1984) establece en términos de
cuatro tipos de validación (predictiva, concurrente, de contenido y de constructo), cada uno de
los cuales resulta atingente dependiendo del propósito o uso que se espera dar a la prueba.
Newton (2012) explica que esto llegó a entenderse en la práctica en términos rígidos, es decir,
como si hubiese un solo tipo de validez a considerar para un uso determinado. De manera
similar, Lissitz y Samuelsen (2007) desarrollaron un modelo de validez basado principalmente en
el contenido 'interno' de una prueba, que excluye la evidencia basada en criterio, teoría y
consecuencias del instrumento, considerándola como aspectos 'externos' relacionados con la
utilidad de una prueba y no con su validez. Este modelo ha sido ampliamente criticado (ver por
ejemplo Sireci, 2007; Kane, 2008; Moss, 2007) por ignorar aspectos que hoy alcanzan amplio
consenso en la literatura, como el reconocimiento de que no es el test el que es válido, sino las
interpretaciones que de él se espera realizar en relación con determinados propósitos (ver
sección 3.3 para más detalles). Pese a las críticas, incluso hoy se siguen utilizando estas
tipologías. Newton llegó recientemente a rastrear aproximadamente 149 categorías en la
literatura sobre validez en medición psicológica y educacional (conf. Newton, 2013), que se
agregan a las 17 que Messick (1980) ya criticaba en su tiempo.
Basado en las ideas de autores como Tenopyr (1977) y Guion (1977), Messick (1980: 1015)
indica que:
“(...) la validez de constructo es, de hecho, el concepto unificador de la validez, que integra las
consideraciones de criterio y de contenido en un marco común para testear hipótesis racionales
sobre relaciones teóricamente relevantes. Este significado del constructo provee una base
racional tanto para hipotetizar relaciones predictivas como para juzgar la relevancia y
representatividad del contenido.”
Esto significa que es el constructo teórico de aquello que se busca evaluar lo que prima y da
sentido a todos los otros aspectos de la validez. Solamente sobre una base teórica clara y sólida
se puede luego establecer cuál es el contenido y/o el criterio a considerar y se puede proveer
evidencia que sustente las interpretaciones que se realizan acerca de los puntajes del
instrumento. Por ejemplo, si se trata de una prueba de comprensión lectora, según el concepto
unitario de Messick, lo primero que se debiera considerar es qué ideas o teorías sobre lo que
significa la comprensión de un texto se utilizarán como base para el constructo y qué
interpretaciones se espera desprender del instrumento a diseñar en base a esa teoría. Teniendo
en cuenta este primer paso, se puede posteriormente definir qué significa, por ejemplo, que
dicho constructo quede adecuadamente representado en una evaluación, y qué evidencia se
necesita para indicar que nuestra interpretación del puntaje se acerca a aquella que se
hipotetizó en base a la teoría. Existe actualmente un amplio consenso en la literatura en torno a
esta idea unitaria de la validez en evaluación (ver por ejemplo Crooks at al., 1996; Kane, 2008;
Newton, 2012; Sireci, 2007; Hubley y Zumbo, 2011).
Junto con el concepto unitario, Messick introduce otra dimensión de la validez cuya importancia
se reconoce en teoría, pero pocas veces se contempla en la práctica de la construcción de
instrumentos de evaluación. Se trata de la dimensión consecuencial de la validez, es decir,
aquella que se relaciona con ‘las consecuencias sociales del uso intencionado *de un test+’ y ‘las
consecuencias reales de su uso’ (Messick, 1980: 1023). Por lo tanto, no basta con proveer
evidencia acerca de la plausibilidad de las interpretaciones propuestas para un determinado
instrumento, sino que también se debe evaluar cuáles son las consecuencias para la sociedad
derivadas del uso de una medición (Hubley y Zumbo, 2011), en el sentido de si las consecuencias
que genera corresponden a un uso éticamente responsable del test (Messick, 1980).
Este ámbito de la validez sigue siendo discutido (conf. Mehrens, 1997 and Popham, 1997), aun
cuando autores como Koch y DeLuca (2012) aluden a la creciente literatura en torno al impacto
considerable que los instrumentos de evaluación tienen sobre el aprendizaje de los estudiantes,
la enseñanza, la cultura escolar y la política educativa. De allí que estos y otros autores se
encuentren explorando recientemente nuevos modelos para estudios de validez en los que se
contemple la complejidad de los múltiples propósitos e interpretaciones de una evaluación,
además de las posibles interacciones entre los diversos usos que se le dan (Koch y DeLuca,
2012).
En síntesis, las principales dimensiones del concepto de validez que se reconocen actualmente
se incorporaron a la discusión en momentos históricos específicos y de acuerdo a las
necesidades de la sociedad en relación con la evaluación estandarizada. Se transita inicialmente
desde la centralidad del contenido a evaluar, hacia la posibilidad de predecir comportamientos,
ámbitos en los que generalmente la validez se limita a ciertos procedimientos estadísticos como
la detección de coeficientes de correlación o al chequeo de la relación entre contenidos e ítems.
Una vez que la discusión en torno al tema de la validez se complejiza y se hace explícita, se
incorpora la dimensión más cualitativa y de juicio, a partir de la cual aspectos como la teoría
subyacente a un instrumento y sus usos y consecuencias se vuelven fundamentales para
considerar que las interpretaciones derivadas del puntaje de una evaluación son válidas.
3.2. Principales discusiones en torno al concepto de validez
Antes de indicar los aspectos de la validez sobre los cuales existe consenso en la literatura y que
se entenderán como el marco del presente estudio, es importante indicar también aquellos
acerca de los cuales existe todavía discusión y disenso. De esta manera se contextualiza el
análisis de SIMCE en relación con las contribuciones que éste puede realizar a la teoría general
sobre la validez a partir de evidencia empírica que responda a los problemas actuales de este
campo de investigación.
Las grandes discusiones en torno al tema de la validez se pueden resumir en dos grandes puntos
de desacuerdo: la concepción unitaria del concepto de validez y la inclusión de la dimensión
consecuencial como parte de la determinación de la validez de un proceso de evaluación. Es
necesario mencionar, no obstante, que los autores que cuestionan ambos aspectos son
minoritarios y que las concepciones predominantes son las descritas en la siguiente sección.
 Concepto unitario de la validez
El concepto unitario de validez propuesto por Messick (1980; 1989), referido a la dimensión de
constructo como aquella que predomina y subsume a todas las demás, es ampliamente
aceptado tanto por los teóricos de la evaluación como por la comunidad profesional experta en
el tema a través de sus diversos estándares (ver por ejemplo Shepard, 1997; Crooks at al., 1996,
Linn, 1997; Moss, 2007; Kane, 2011). Pese a ello, hay autores como Mehrens (1997) y Lissitz y
Samuelsen (2007), que proponen básicamente el regreso a una idea más simple de validez en la
que las tipologías persisten y co-existen o en que una de ellas se deja como la única atingente a
la validez.
Mehrens (1997) indica añorar el pasado en que principalmente se hablaba de dos tipos de
validez, de contenido y de constructo, para las cuales se podía ofrecer evidencia basada en
contenido, en constructo o en criterio, dependiendo del tipo de inferencia que uno quisiera
realizar en base al test. La principal crítica de Mehrens (1997) se refiere a que considera
reduccionista supeditar todos los tipos de validez y de evidencia a una sola etiqueta abarcadora,
lo que borra los límites de las distinciones tradicionales entre diferentes tipos de inferencia.
Lissitz y Samuelsen (2007), por su parte, establecen una separación entre los aspectos internos y
externos de una evaluación, considerando entre estos últimos los usos dados a un instrumento,
y situando a la validez dentro de los aspectos internos de la prueba. En base a esta separación,
proponen un regreso al momento en el cual solamente bastaba con evaluar la relevancia y
cobertura del contenido de una prueba, independiente de los usos que se le den o de la teoría
que la sostenga.
Ello contradice, primero, toda la literatura que alude a que no es el test el que es válido en sí
mismo, sino las interpretaciones que de él se realizan. Además, la propuesta vuelve a una
concepción de la evaluación como centrada en el contenido, que tuvo su relevancia y su
momento histórico, pero que al parecer no encuentra mayor eco dentro de la discusión teórica
contemporánea. Como ya se ha dicho, esta aproximación a la validez ha sido ampliamente
criticada por autores como Kane (2008) y Sireci (2007).
Los críticos de esta idea de validez indican, por ejemplo, que una evaluación no puede basarse
solamente en el contenido, pues incluso cuando se indica que se trata de una prueba de
matemática para un grado específico, lo que se entiende por el dominio de las matemáticas en
ese nivel depende de cómo entendemos la matemática en general y la matemática para dicho
nivel, es decir, de un constructo y una interpretación específicos acerca de lo que se evalúa.
Junto con ello, Kane (2008) indica que en la práctica es usual que las pruebas se validen de esta
forma más rígida y restringida basada en el contenido, pero que es igualmente común que luego
se las interprete y utilice de maneras que van más allá de esta interpretación restringida inicial.
Por lo tanto, si bien la solución de Lissitz y Samuelsen pudiera parecer cómoda y más fácil, lo
que hace es simplemente desplazar la responsabilidad por la validez hacia los usuarios de una
prueba, dejando a los constructores solamente la responsabilidad por la cobertura del
contenido.
En ambas críticas lo que principalmente se vislumbra es cierta nostalgia por un pasado en que la
validez se entendía de manera más simple y, por lo tanto, el trabajo de validación de los
evaluadores resultaba, a su vez, más simple. Sin embargo, como ya se ha dicho, gran parte de
los teóricos sobre el tema están a favor de la concepción unitaria de Messick, que parece
responder de manera más clara a las necesidades y preocupaciones actuales en torno a la
evaluación en términos de sus interpretaciones y usos.
 La dimensión consecuencial como parte de la validez
Un ámbito en torno al cual el disenso es mayor se relaciona con la inclusión que Messick (1980;
1989) realiza de las implicaciones valóricas y las consecuencias sociales de la evaluación como
parte de su modelo de validez. Para este autor, todo constructo teórico está ligado a
determinados supuestos valóricos, que van desde cómo se entiende la inteligencia en un
contexto particular hasta conexiones más sutiles con la ideología. Por ello, estos aspectos deben
considerarse dentro de la interpretación de una evaluación. Además, en el ámbito del uso de un
test no solamente se debe considerar la relevancia o utilidad y la validez de constructo, sino
también las consecuencias sociales que genera, entendidas como los posibles efectos
secundarios positivos y negativos de la prueba, y su relación de equilibrio con sus propósitos
explícitos. El modelo de validez de Messick (1980: 1023) se resume en la Figura 1, que aparece
frecuentemente aludida o citada en la literatura sobre el tema.
Interpretación del Test Uso del Test

Base en Evidencia Validez de Constructo+
Validez de Constructo Relevancia/Utilidad
Base Consecuencial
Implicaciones valóricas Consecuencias Sociales
FIGURA 1. Facetas de la validez de un test según Messick (1980)
El centro de la discusión no contempla el cuestionamiento de la importancia de considerar las

consecuencias y efectos secundarios de una evaluación. Existe consenso en la literatura con
respecto a la relevancia de estos aspectos. Lo que genera disenso es si tales efectos y
consecuencias deben o no considerarse parte del concepto de validez (Popham, 1997; Mehrens,
1997; Shepard, 1997; Linn, 1997).
Aquellos que se oponen a la inclusión de la dimensión consencuencial en el ámbito de la validez,

arguyen que ampliar el concepto de esta manera solamente contribuye a confundir a los
usuarios de las pruebas, y que por el bien de la claridad el significado de la validez debería
limitarse a la ‘precisión de las inferencias basadas en un test’ (Popham, 1997: 9). Otros, como
Mehrens (1997), apelan a la necesidad de separar la validación de los usos, indicando que el
significado del constructo a evaluar, así como la evidencia de que el test mide tal constructo
pueden establecerse sin referencia a ningún uso en particular. Tenopyr (1996) ha llegado a
indicar que hablar de las consecuencias como una dimensión de la validez, incluyendo las
acciones de otros en base al test, pervierte los fundamentos científicos de la medición.
Shepard (1997) contesta a estas críticas indicando que se puede abordar la validez de la
interpretación de una prueba sin considerar el uso del test, ‘siempre y cuando no se pretenda
ningún uso’ (1997: 6). Sin embargo, esto rara vez ocurre, ya que las pruebas estandarizadas se
utilizan para la toma de decisiones. Para la autora, cada vez que esto sucede, el análisis de la
validez debe realizarse en relación con el uso específico que se busca dar al test, incluyendo sus
potenciales efectos y consecuencias. Da como ejemplo la existencia de incrementos en el
financiamiento de los distritos escolares relacionados a un aumento en los puntajes de las
pruebas estandarizadas, mecanismo que requeriría evaluar las consecuencias que pudiera
generar en el aprendizaje. Para ilustrar de mejor manera esta idea, se puede ejemplificar con el
caso de SIMCE, donde la estrategia mencionada por Shepard se observa a partir de la ley SEP,
que relaciona provisión de financiamiento con incrementos de puntaje, por lo que las
consecuencias de ello deberían evaluarse para asegurar la dimensión consecuencial de la validez
de esta prueba. Hay autores que sostienen que esto viene realizándose de manera indirecta
desde la instauración del SIMCE, puesto que la competencia por matrícula a la que las escuelas
chilenas están sometidas en el actual modelo educativo neo-liberal, implica que un puntaje alto
en SIMCE atrae más dinero a los establecimientos (Maureira et al., 2009). Para estos autores,
una de las consecuencias graves de esta práctica es perpetuar la inequidad del sistema, puesto
que las escuelas buscan quedarse con los ‘mejores’ alumnos, excluyendo y segregando a los de
rendimiento más bajo. Si se indica que uno de los propósitos del SIMCE es mejorar la calidad y
equidad de la educación en Chile (ver sección 6.1), entonces las consecuencias antes
mencionadas podrían ser parte de un problema de validez del sistema de evaluación y no
simplemente un efecto externo o un mal uso.
Según Linn (1997), excluir la dimensión consecuencial de la validez reduciría su prioridad, y la

haría pasar a un segundo plano, pese a al carácter crucial que este ámbito tiene para evaluar la
pertinencia de los usos e interpretaciones de un test.
Otros autores que promueven la inclusión de la dimensión consecuencial de la validez intentan

restringir su significado, con el fin de hacer más viable su uso. Linn (1997), por ejemplo, indica
que el concepto no se refiere a la evaluación de todas las consecuencias posibles, sino de ‘las
principales consecuencias intencionadas y las posibles consecuencias negativas no
intencionadas’ (1997: 14). De manera similar, Hubley y Zumbo (2011) observan que es la falta de
entendimiento y las malas interpretaciones en torno al concepto de Messick lo que ha llevado al
cuestionamiento de la dimensión consecuencial de la validez, y a la evasión de su inclusión por
parte de los creadores y usuarios de las pruebas. Para Hubley y Zumbo (2011: 222), la base
consecuencial para la interpretación y uso de un test no tiene que ver con malas prácticas de
evaluación, sino con ‘consecuencias no anticipadas o no intencionadas de interpretaciones y
usos legítimos del test’.
De todas formas, incluso los críticos de la inclusión de las consecuencias de la evaluación en el

ámbito de la validez entienden que van contra el consenso de la mayoría de los autores del
campo. Popham (1997: 9) indica que está consciente de que su posición no es compartida por
algunas de las voces más importantes del área. Ello coincide con los hallazgos de esta revisión de
literatura, donde la mayoría de los autores revisados reconoce la importancia de las

consecuencias de una evaluación como parte del análisis de su validez (Shepard, 1997; Linn,
1997; Kane 2008, 2011 y 2010; Crooks et al., 1996; Hubley y Zumbo, 2011, entre otros).
3.3. Concepto de validez: principios generales, tipología y métodos a considerar en este

estudio
 Principios generales
Más allá de las discusiones teóricas, se puede afirmar que hay ciertos aspectos de la validez de
una prueba acerca de los cuales hay amplio acuerdo en la literatura actual. Junto con ello, para
autores como Newton (2012) resulta fundamental que exista cierto nivel de consenso en cómo
se entiende este concepto, no solamente entre los expertos, sino también entre todos aquellos
que participan del proceso (los desarrolladores de las pruebas, los encargados de políticas, los
usuarios, la opinión pública y los evaluados). De ello depende que todos comprendan los
resultados adecuadamente y los utilicen de forma responsable. Junto con ello, autores como
Moss (2007) y Koch y DeLuca (2012) insisten en la necesidad de comprender los procesos de
validación en términos de una indagación permanente y continua, debido al carácter
contextualizado y temporal de estos procesos; ello significa que, en lo que denomina la
concepción generativa de la validez, esta debe ser cuestionada y re-estudiada
permanentemente con el fin de comprobar que un determinado proceso de evaluación sigue
siendo válido en el tiempo y con los cambios de contexto.
El primer aspecto sobre el cual existe acuerdo en la literatura se refiere a la importancia de la

validez para asegurar la calidad de un proceso de evaluación. Desde las primeras reflexiones en
torno a la evaluación se indica que los principales problemas a resolver en relación con una
medición tienen que ver con su validez y su confiabilidad (ver por ejemplo Buckingham et al.,
1921, citado en Newton, 2012). De manera similar, para Crooks et al. (1996: 265) ‘La validez es
la consideración más importante en el uso de procedimientos de evaluación’, relevancia que los
estándares diseñados por las asociaciones profesionales de evaluación han confirmado.
Cronbach (1984: 103) también afirma que:
“La cualidad que más afecta el valor de un test (…) es su validez. La validez es alta si un test mide
lo que corresponde, es decir, si provee la información que aquel que toma las decisiones
necesita. No importa qué tan satisfactorio es en otros aspectos, un test que no mide lo que
corresponde no sirve para nada.”
Pese a que ningún autor contradice la centralidad de la validez como un aspecto que define la
calidad de una evaluación, Crooks et al. (1996) destacan la forma en que los procesos de
confiabilidad y generalización de una evaluación reciben más atención en la práctica que la
dimensión de validez del instrumento. Los autores indican que ello se debe a que el carácter
algorítmico de los procedimientos usualmente utilizados para determinar la confiabilidad y el
grado de generalización de una prueba los hacen ‘más fáciles de estandarizar, informar y
defender’ (1996: 266), mientras que los procedimientos asociados a la validez se basan mucho
más en el juicio humano, por lo que su determinación y defensa resultan más complejas. Ello
incluso influye en las formas más comunes de abordar la validez, que se centran en la
correlación de mediciones (dimensión concurrente y predictiva) y en aspectos psicométricos,
dejando de lado las dimensiones de constructo y las consecuencias, así como otros tipos de
evidencia (Crooks et al., 1996; Koch y DeLuca, 2012).
Además de su relevancia, otro aspecto que recibe amplio consenso en la literatura es la

afirmación de que un test no es válido en sí mismo. No es la prueba la que es válida, sino las
inferencias que se realizan a partir de ella en base a un determinado propósito o uso (Cureton,
1951; Cronbach, 1984; Anastasi y Urbina, 1997; Kane, 2011; Newton, 2012; Hubley y Zumbo,
2011, entre otros). Cronbach (1984), por ejemplo, indica que la pregunta correcta no es qué tan
válida es esta evaluación, sino para qué decisiones es válida esta evaluación. Anastasi y Urbina
(1997: 113), por su parte, indican que no se puede aludir a la validez de un instrumento en
términos generales como alta o baja en un sentido abstracto, sino que ‘la validez debe
establecerse con referencia al uso particular para el cual un test está siendo considerado’.
Newton (2012) agrega a lo anterior que la validez de la interpretación para una determinada
evaluación no se refiere solamente al instrumento que se utiliza, sino que compete al proceso
completo de medición, es decir, alude a aspectos de administración, de evaluación, a la forma
en que se entrega información acerca de los resultados, etc. De allí que el modelo de validez de
Koch y DeLuca (2012), tal como lo propone el presente estudio, incorpore a los diferentes
actores del proceso de evaluación y sus interpretaciones y usos particulares de la prueba.
Al concordar en que la validez se relaciona con las interpretaciones que se pueden realizar a
partir de un proceso de evaluación, la literatura asume un acuerdo en relación con el concepto
unitario de validez de Messick, a partir del cual todas las dimensiones de la validez se relacionan
o están supeditadas al constructo teórico que se busca evaluar. La siguiente definición de
Messick (1989: 13) es ampliamente referida en los textos sobre el tema:
“La validez es un juicio evaluativo integrado acerca del grado en el cual la evidencia empírica y
los fundamentos teóricos sustentan la adecuación y lo apropiado de las inferencias y acciones
basadas en los puntajes de un test u otros modos de medición.”
En base a esta definición, los autores en su mayoría concuerdan, en base a Kane (2008), que la
aproximación contemporánea al concepto de validez es la basada en argumento (argument-
based approach), esto es, consiste en proveer evidencia adecuada para evaluar la plausibilidad
de las inferencias y supuestos implícitos en una interpretación o uso de una prueba.
Finalmente, otro aspecto en torno al cual los autores en general parecen coincidir, es en que la
validez no puede establecerse de forma inequívoca y absoluta, es decir, que lo que se realiza al
validar un proceso de evaluación es hacer que este alcance el mayor grado de validez posible
para un propósito determinado. Koch y DeLuca (2012: 104), refiriéndose al enfoque basado en
argumento de Kane, explican:
“Kane especifica que los argumentos de validez son afirmaciones refutables que dependen de la
evidencia disponible y se sitúan dentro de contextos de práctica específicos. Por lo tanto, los
argumentos de validez pueden ser alterados a la luz de nueva evidencia o en contextos nuevos.
Kane también enfatiza que los argumentos de validez son siempre un asunto de grado más que
un juicio definitivo.”
De forma similar, Cronbach (1984) indica que la selección de un test siempre debe hacerse en
relación con el propósito particular para el cual se lo quiere utilizar y en relación con la situación
particular en la que se lo empleará, y por ello critica la posibilidad de realizar listados de buenas
pruebas, ya que la calidad dependerá de cuán válidas estas son para un propósito y un contexto
determinados. A ello alude también Newton (2012) cuando indica que la validez es siempre
contingente y condicional, que debe juzgarse en términos de la mejor construcción existente al
presente acerca del atributo a evaluar, que la especificación del constructo es tan buena como
puede serlo en este momento y que el procedimiento permite medirlo lo suficientemente bien.
En síntesis, los principios centrales acerca de los cuales existe mayor consenso en torno a la
validez en la literatura sobre el tema son: la importancia del concepto de validez para la calidad
de una prueba; la idea de que un test no es válido en sí mismo, sino que las interpretaciones
derivadas de su puntaje son válidas o no en relación con un propósito o uso determinado; el
principio de que la validez es un juicio integrativo acerca del proceso de evaluación como
totalidad y que, por lo tanto, requiere de la provisión permanente y creciente de evidencia para
dicho juicio; y la idea de validez como un tema de grados y no de afirmación o negación
absolutas.
 Tipología y métodos
Junto con los acuerdos en torno a ciertos principios, hay determinadas dimensiones de la validez
que son reconocidas en gran parte de la literatura sobre el tema: de constructo, contenido,
predictiva, concurrente y consecuencial. Más allá de cuál es la que predomina o abarca a las
demás, parece existir consenso en relación con que estas son las formas fundamentales a
considerar a la hora de validar una prueba. Además, cada dimensión lleva asociados ciertos
métodos específicos de validación. A continuación se define cada una de estas dimensiones, de
la manera en que serán entendidas en la presente investigación, y se proveerá una descripción
de los métodos que la literatura reconoce más comúnmente para cada una de ellas.
Dimensión de constructo
Denominada en un inicio por Cronbach y Meehl (1955) como validez de constructo, esta idea se
introduce al campo de la evaluación por medio de la psicología, específicamente por el rol
asignado a la teoría psicológica en la construcción de pruebas, a partir de la cual la validación
incluía probar o refutar hipótesis formuladas en base a la teoría (Anastasi y Urbina, 1997). La
dimensión de constructo se refiere específicamente al constructo teórico o rasgo que se busca
medir y la evidencia que se provee acerca de que el test está efectivamente midiendo tal rasgo
(Anastasi y Urbina, 1997). Para Messick, desde su concepto unitario de validez, esta dimensión
se convierte en la más importante y la que abarca a todas las demás (Messick 1980, 1989). Así,
el autor define la dimensión de constructo como:
“(…) la base en evidencia para la interpretación del test. Implica tanto evidencia convergente
como discriminante que documente relaciones empíricas teóricamente relevantes (a) entre el
test y diferentes métodos para medir el mismo constructo, así como (b) entre mediciones del
constructo y ejemplos de diferentes constructos que se predijo que estarían relacionados
nomológicamente.” (Messick, 1980: 1019)
Sin embargo, esta dimensión de la validez no solamente implica la provisión de evidencia para la
interpretación del test, sino también para el uso de la prueba en relación con un determinado
propósito (Messick, 1980). Para ello se desarrollan hipótesis que relacionan el constructo con la
ejecución en un dominio práctico, y que determinan “la relevancia del constructo para el
propósito práctico y la utilidad de la medición en un contexto práctico” (1019).
Al ser una dimensión más abarcadora, los procedimientos asociados a ella son más complejos e
implican el trabajo con diversas fuentes de evidencia. Un procedimiento posible es la
correlación con otros test que miden un constructo similar, aun cuando se espera una
correlación más baja que en la dimensión de criterio, puesto que de lo contrario el nuevo test
resultaría innecesario (Anastasi y Urbina, 1997; Cronbach, 1984). La correlación con otros test
también se utiliza desde la lógica inversa, esto es, se confirma que el test no se correlaciona con
otros instrumentos cuyos constructos no son relevantes para la medición (por ejemplo, que una
prueba de habilidad matemática no se correlacione de manera muy alta con una prueba de
comprensión lectora, puesto que de lo contrario este segundo rasgo estaría teniendo una
influencia sobre los resultados, es decir, el desempeño de los estudiantes estaría variando por la
comprensión que tienen de los ejercicios y no necesariamente por su habilidad matemática).
El análisis factorial es otra fuente de información posible (Anastasi y Urbina, 1997; Cronbach,
1984). Se trata de “una técnica estadística refinada para analizar las interrelaciones de los datos
de comportamiento” (Anastasi y Urbina, 1997: 128). Esto quiere decir que, de una multiplicidad
de pruebas con factores considerados teóricamente afines (por ejemplo, vocabulario, gramática,
comprensión de textos), se determina cuáles están correlacionados en un nivel suficiente como
para llegar a constituir un constructo más abarcador (por ejemplo, comprensión verbal).
Realizado este análisis, se describe la composición factorial de la prueba, esto es, se caracteriza
en términos de los factores que determinan el puntaje y el peso de cada factor, y se determina
la correlación de la prueba con cada factor, correlación denominada validez factorial.
Otra fuente de evidencia consiste en el análisis de la consistencia interna de un instrumento de

evaluación (Cronbach, 1984). Se trata de comprobar que cada ítem del test funciona de manera
similar a la prueba como un todo en términos de diferenciar a los individuos que la responden.
Sin embargo, Anastasi y Urbina (1997: 129) aclaran que “la contribución de los datos de
consistencia interna a la validación de una prueba es limitada”, puesto que se requieren datos
externos al test para saber qué es lo que este mide realmente.
Campbell (Campbell, 1960; Campbell and Fiske, 1959) agrega a las posibles fuentes de evidencia
la validación convergente y discriminante. Ello significa que se debe demostrar la correlación de
la prueba con otras variables con las que debiera estar conectada teóricamente y también que
no se correlacione de manera significativa con variables de las que debiera distinguirse
teóricamente. Para efectuar este procedimiento de validación, los autores proponen el uso de
un diseño experimental sistemático que implica evaluar dos o más rasgos por medio de dos o
más métodos. Se hipotetizan en base a la teoría todas las correlaciones posibles entre los
diversos métodos y rasgos, y se establecen coeficientes de validez y confiabilidad, en los que se
espera una alta correlación entre las diferentes mediciones para un mismo rasgo. Para que la
prueba tenga una validez satisfactoria, se espera una menor correlación entre diferentes rasgos
medidos con métodos diferentes y entre diferentes rasgos medidos por el mismo método.
Las intervenciones experimentales constituyen otro método de validación de constructo

(Anastasi y Urbina, 1997). Un ejemplo clásico de este método es la realización de pre-test y post-
test, donde se esperan resultados más bajos en el primero y más altos en el segundo, dada una
instancia de instrucción significativa entre ambos momentos. En términos de ítems, es posible
examinar si, idealmente, la mayoría de ellos son reprobados por los individuos en la primera
prueba y aprobados en la segunda. Si hay reprobación en ambas, es probable que el ítem sea
muy difícil y, en el caso contrario, que el ítem sea demasiado fácil para el propósito del test.
Durante los años ’80 y ’90, se extendió el uso de modelos de ecuaciones estructurales como
método de validación de constructo (Anastasi y Urbina, 1997). Consiste en el establecimiento de
un modelo de relaciones causales hipotéticas en base a la teoría, relaciones que luego se
testean a través de ecuaciones de regresión lineal simultáneas. Los datos se comparan con los
modelos teóricos para evaluar el ajuste entre ambos. No obstante, pese a que exista ajuste, se
debe tener en cuenta que dicho ajuste puede ocurrir con muchos otros modelos, es decir, que
pueden existir muchas otras explicaciones alternativas para un determinado comportamiento,
cuya plausibilidad y significatividad debe ser evaluada por el investigador en base a su
conocimiento de la situación.
Existen múltiples métodos para la validación de la dimensión de constructo de una prueba y

sería muy largo describirlos todos aquí. Lo que es común a todos ellos, y en lo que parece existir
acuerdo entre los autores, es que la validación de constructo es un proceso continuo, que no
termina, sino que simplemente se va perfeccionando a través de la generación de más y mejor
evidencia acerca de la interpretación y el uso de un test (ver por ejemplo Messick, 1980;
Cronbach, 1984; Anastasi, 1986).
Para Messick (1980), la validación de un constructo no solamente implica evaluar las

interpretaciones propuestas en base a la teoría, sino también proveer evidencia del uso del test
en relación con su propósito. Los procedimientos asociados a este ámbito de la dimensión de
constructo se explican en la sección relacionada con la dimensión consecuencial de la validez
(ver infra, sección “Dimensión consecuencial”).
Dimensión de contenido
Se refiere a la cobertura del contenido necesario y adecuado para medir el constructo definido ,
es decir, alude a si el contenido del test es relevante para el contenido de un dominio particular ,
en términos del grado en que representa dicho dominio (Gipps, 2004). Ello implica examinar los
ítems y compararlos con el contenido que se desea evaluar en el instrumento, con el fin de
comprobar si el test provee una adecuada medición de desempeño en un conjunto de tareas
relevantes (Cronbach, 1984). Según Anastasi y Urbina (1997), una dificultad importante la
constituye determinar adecuadamente una muestra del universo de ítems, lo que implica un
análisis sistemático que garantice que los aspectos fundamentales del dominio estén cubiertos
en la proporción correcta dentro del instrumento. Para poder asegurar la cobertura, el dominio
a evaluar debe haber sido definido en detalle con anterioridad a la preparación de la prueba
(Anastasi y Urbina, 1997).
No obstante, no basta con analizar la prueba, sino que se debe también contemplar la
relevancia de las respuestas dadas por los estudiantes (Ibid.), con el fin de no basarse solamente
en el juicio del constructor acerca de la importancia del contenido del ítem, sino que se evalúe
también la consistencia del desempeño de los estudiantes con los dominios que se esperaba
evaluar (Messick, 1980). Junto con ello, es importante tomar precauciones en relación con
posibles sobre-generalizaciones en base a la prueba, es decir, que las interpretaciones vayan
más allá del dominio que la prueba representa (Ibid.).
Messick (1980) distingue dos ámbitos centrales de la dimensión de contenido para la validez de
una evaluación:
 Relevancia del contenido: consiste en la especificación del dominio de comportamiento

a evaluar y las tareas correspondientes a dicho dominio. Este aspecto implica delimitar
claramente el dominio desde una definición operacional que permita evaluar qué tareas
son pertinentes.
 Cobertura del contenido: se refiere a la especificación de los procedimientos para
seleccionar una muestra de ítems que logre representar los diferentes aspectos que
caracterizan el dominio.
Para Messick (1980), el contenido no puede definirse como desvinculado de una construcción
teórica menos restringida de la dimensión de comportamiento a evaluar, y por ello entiende el
ámbito del contenido como subsumido al de constructo. En este sentido, junto con Kane (2008)
y Sireci (2007), insiste en que la validez de una prueba no puede determinarse solamente en
base a la dimensión de contenido.
Los métodos específicos en relación con la dimensión de contenido son:
 Examen del programa de estudios, de los libros de textos y consulta a expertos, con el
fin de determinar con la mayor precisión posible cuáles son los contenidos relevantes a
evaluar. Sobre la base de esta información se definen las especificaciones del test, que
serán la base de trabajo para los constructores de ítems. En dichas especificaciones se
indican los contenidos o temas por cubrir, los objetivos o procesos a evaluar y la
importancia relativa de cada tema o proceso. Finalmente, las especificaciones deberían
establecer el número de ítems de cada tipo que se deben construir para cada tema
(Anastasi y Urbina, 1997).
 Procedimientos empíricos en base a las respuestas de los evaluados, como una forma
de chequear la validez establecida en la construcción de la prueba (Messick, 1980;
Anastasi y Urbina, 1997). Para ello se considera tanto el puntaje total como el
desempeño en ítems individuales, con el fin de detectar si las respuestas a la prueba
efectivamente son consistentes con el comportamiento esperado en el dominio a
evaluar. Ello implica poder realizar generalizaciones desde un ítem a otros similares en
la muestra, a otras pruebas paralelas desarrolladas de forma similar, y así
sucesivamente (Messick, 1980). Otro procedimiento para validar la prueba a nivel de
contenido consiste en analizar errores típicos en un test y en la observación de los
métodos utilizados por los evaluados, por ejemplo, a través del método de pensamiento
en voz alta (Anastasi y Urbina, 1997), con el fin de confirmar que el comportamiento de
los evaluados obedece al dominio en consideración. Además, deben incluirse
procedimientos para examinar la varianza no relevante al contenido (content-irrelevant
variance), es decir, comprobar en la medida de lo posible que el desempeño de un
evaluado no se debe a otras variables no relacionadas con el comportamiento a evaluar
(ansiedad, falta de motivación, falta de atención, azar, sesgo), ni a otras posible

hipótesis rivales que podrían explicar dicho comportamiento (Messick, 1980).
Tanto Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los
usuarios con un manual que facilite el empleo adecuado del instrumento. En este material se
deben transparentar los procedimientos seguidos para asegurar la representatividad y
adecuación del contenido, indicando incluso la calificación profesional de aquellos que
participaron en la construcción del test, las indicaciones que recibieron para clasificar ítems, y la
fecha en que los expertos fueron consultados, considerando que el currículum se modifica en el
tiempo (Anastasi y Urbina, 1997). El manual debe proveer, de manera clara para que cualquier
usuario calificado lo pueda entender, información sobre la calidad técnica de la prueba, los
procedimientos de asignación de puntaje y las evidencias de investigación, así como
instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las
interpretaciones de los puntajes se ajusten a los límites de construcción del test y no se
generalicen a ámbitos o usos no pertinentes para los cuales el test no es válido.
Dimensión de criterio (predictiva y concurrente)
Como se dijo anteriormente, el interés por el uso de las pruebas con fines de selección y
clasificación motiva la búsqueda y determinación de métodos basados en criterio. Si el criterio
definido, es decir, aquello que funciona como parámetro comparativo de la medición,
corresponde a otra medición realizada en el futuro, entonces hablamos de la dimensión
predictiva de la validez. Si, por el contrario, lo que se busca es corroborar la medición con un
criterio contemporáneo a esta, entonces hablamos de la dimensión concurrente de la validez
(conf. Messick, 1980; Cronbach, 1984; Anastasi y Urbina, 1997). Por ejemplo, si se comparan los
puntajes del próximo SIMCE con las notas asignadas por los docentes durante la misma época
de la medición, podríamos estar hablando de las notas como el criterio que se utiliza para medir
la dimensión concurrente de la validez del SIMCE.
Anastasi y Urbina (1997) indican que muchas veces se piensa en una validación concurrente
como reemplazo de una validación predictiva, en aquellos casos en que la validación en el
tiempo resulta impracticable por su extensión y costo. Por ello, se recurre a la evaluación de un
grupo sobre el cual ya existen datos que servirían como criterio (por ejemplo, la utilización de
las notas promedio de los estudiantes en la enseñanza media como criterio concurrente de la
PSU en lugar de las notas en la universidad como criterio predictivo).
Según Cronbach (1984), lo más difícil en este ámbito de la validez es encontrar un criterio
adecuado, que constituya una medición adecuada del comportamiento a evaluar en términos de
la comparación que puede establecerse entre este criterio y la medición a realizar. Junto con
ello, Anastasi y Urbina (1997) previenen contra la contaminación del criterio, es decir, que los
puntajes de la prueba no tengan influencia en el criterio. Por ejemplo, si se utilizara la
inspección de clases como criterio para evaluar la efectividad del SIMCE como medición de
calidad educativa, habría que resguardar que el inspector no conociera el puntaje del
establecimiento, ya que ello podría predeterminar su evaluación y hacer creer que es
consistente con la medición, creando una falsa impresión de validez en su dimensión
concurrente. Algunos de los criterios comúnmente utilizados son: contraste de grupos,
diagnósticos psiquiátricos (en el área de evaluación psicológica), rating asignado por alguna
autoridad o especialista, otros test elaborados previamente, aun cuando todos estos criterios
tienen sus ventajas y desventajas en términos del nivel de comparación que se puede realizar
(conf. Anastasi y Urbina, 1997).
Messick (1980), en su teoría unitaria de la validez, ve los aspectos predictivo y concurrente más
como la determinación de una relación de utilidad que de validez. Esto es, contrastar la
medición con un criterio contemporáneo o en el futuro sirve para establecer qué tan útil es la
prueba para los objetivos que persigue. Sin embargo, la sola demostración de esta correlación
no es suficiente para indicar que un instrumento es válido. Para que así sea, estas relaciones
deben enmarcarse en un razonamiento teórico que las justifique, es decir, estar en el contexto
de un constructo específico. De manera similar, Anastasi y Urbina (1997: 124) distinguen desde
fines de los ’90 una tendencia en la literatura hacia el análisis del criterio, es decir, investigación
acerca del criterio utilizado y de su relación con el constructo que se quiere evaluar.
Uno de los métodos más comunes para evaluar las dimensiones predictiva y concurrente de la
validez es el establecimiento de coeficientes de correlación (Cronbach, 1984; Anastasi y Urbina,
1997). Se trata de ‘un resumen estadístico de la relación entre dos variables’ (Cronbach, 1984:
110), la de medición y la de criterio, donde se espera una correlación positiva entre ambas para
poder indicar que el test es válido en esta dimensión. La correlación perfecta sería r=1.00,
resultado rara vez alcanzado. De hecho, según Cronbach (1984) es inusual que este índice suba
de .60, pero cualquier correlación positiva estaría aportando mayor precisión a la medición. Una
correlación baja se relaciona con errores aleatorios o factores causales que no funcionan de la
misma manera en ambas mediciones. Junto con ello, hay que recordar que correlación no
significa necesariamente causa, sino que la relación puede interpretarse de diversas maneras.
Inicialmente resultaba complejo generalizar la validez de estas pruebas más allá de la muestra
específica del programa particular en que el instrumento se aplicaría. Sin embargo, con la
introducción del meta-análisis desde los años ’70 en psicología, las posibilidades de
generalización aumentaron. Este tipo de estudios combina los resultados de diversas
investigaciones, en la medida de los posible, teniendo en cuenta los aspectos metodológicos y
las características de cada estudio. Así, las correlaciones establecidas en estudios particulares
pueden ampliarse a otras poblaciones, aumentando las posibilidades de generalización de la
medición.
Dimensión consecuencial
Como se indicó anteriormente, uno de los aspectos más controversiales en la discusión en torno
a la validez se relaciona con la inclusión que realiza Messick (1980) de la dimensión
consecuencial como parte de la validez de un test. Para este autor, la pregunta por el uso y
propósito de un test debe responderse tanto en base a evidencia como en base a imperativos
éticos, es decir, se debe evaluar no solamente si el test sirve para un propósito determinado,
sino también si la prueba debe o no utilizarse con dicho propósito. Esta dimensión, entonces,
implica una evaluación de las posibles consecuencias de una prueba, aun cuando se trata de una
tarea sumamente compleja, sobre todo en relación con sus efectos no intencionados.
En términos de procedimiento, Messick (1980) sugiere comparar las posibles consecuencias del
test con las que podrían tener otros procedimientos alternativos, incluso opuestos, incluyendo
también las consecuencias de eliminar la medición por completo. Junto con ello, destaca la
necesidad de incorporar como parte de la validez los supuestos de valor que subyacen a toda
prueba. Para Messick (1980: 1022), todo constructo se sostiene sobre:
“(…) connotaciones de valor provenientes de tres fuentes principales: en primer lugar están los
matices evaluativos de los nombres de los constructos mismos; luego están las connotaciones
de valor de las teorías o redes nomológicas más amplias en que se sitúan los constructos; y
finalmente están los presupuestos de las aun más amplias ideologías sobre la naturaleza de la
humanidad, la sociedad, y la ciencia que tiñen cómo procedemos.”
Evidentemente, encontrar un procedimiento para evaluar estos aspectos de la validez de una

prueba resulta muy complejo. Messick (1980) propone realizar contrastes entre la teoría del
constructo y perspectivas alternativas de interpretación del constructo o con perspectivas
antitéticas plausibles. Ello facilitaría alcanzar, si no convergencia, al menos claridad acerca de los
conflictos valóricos implícitos en las opciones tomadas en la construcción e interpretación de
una prueba.
Junto con los valores subyacentes, Messick (1980) destaca la importancia de contemplar la
amplitud del constructo en términos de sus referentes teóricos y empíricos. La relevancia de
esta operación radica en que, si se es poco preciso al definir un constructo, se lo deja abierto a
todas las interpretaciones posibles en torno a él. Al delimitar adecuadamente el constructo a
evaluar, se evita la sobre-simplificación y la sobre-generalización en la interpretación de los
resultados.
Autores más recientes han propuesto nuevas aproximaciones a la validez, donde el uso y las
múltiples interpretaciones derivadas de un test se consideran como parte inherente del modelo.
Koch y DeLuca (2012), por ejemplo, proponen un modelo de validación como estudio de caso
narrativo, donde las perspectivas de los diferentes actores involucrados en el proceso de
evaluación y los múltiples usos atribuidos a un test se examinan y analizan con el fin de llegar a
una descripción de la coherencia de un sistema de evaluación. Para ello se contemplan cinco
aspectos:
“(1) los propósitos y usos explícitos de la evaluación; (2) los múltiples usos adicionales de la
evaluación; (3) los actores clave que reciben el impacto de los usos y propósitos de la
evaluación; (4) los contextos de práctica (p.ej. la escuela, el distrito, la provincia/estado); (5) los
constructos teóricos representados por los propósitos de la evaluación.” (Koch y DeLuca, 2012:
107)
Otros autores han criticado las interpretaciones erróneas que se han realizado del modelo de
Messick y han precisado o reinterpretado los principios propuestos por el autor. Hubley y
Zumbo (2011), por ejemplo, han realizado recientemente una modificación al modelo de
Messick, incorporando la dimensión consecuencial como parte de la base en evidencia que se
debe proveer para asegurar la validez de una prueba y no como un ámbito separado. Junto con
ello, incorporan los aspectos valóricos y teóricos como relevantes en todos los pasos del
procedimiento y enfatizan la distinción entre consecuencias intencionadas y efectos secundarios
no intencionados de una prueba. La Figura 2 muestra la matriz de Messick reconceptualizada
por Hubley y Zumbo (2011: 225):
Función
Inferencias a partir de, e Uso de, o decisiones hechas en base a,
interpretación de los puntajes de los puntajes de una prueba
una prueba
Base en evidencia Validez de constructo + relevancia Validez de constructo + relevancia y
+ presupuestos de valor + utilidad + presupuestos de valor +
consecuencias sociales consecuencias sociales
FIGURA 2. Matriz de Messick reconceptualizada por Hubley y Zumbo
La figura sintetiza el modelo inicial de Messick, indicando que tanto la interpretación como el
uso de una prueba, para ser válidos, requieren de evidencia en relación con sus consecuencias
sociales y presupuestos de valor, además de otros aspectos de constructo, relevancia y utilidad.
Pese a su reconocida importancia a nivel teórico, los autores que defienden la incorporación del
uso y las consecuencias de un test como parte del estudio sobre su validez critican la escasa
inclusión de estos aspectos en los actuales procesos de validación en la práctica (Kane, 2008;
Hubley y Zumbo, 2011). Es por ello que la presente investigación busca contribuir a la
generación de información empírica sobre el grado de relevancia que la consideración de los
usos y consecuencias sociales de un test, desde la perspectiva de los múltiples actores
involucrados, puede tener en relación con su validez. Junto con ello, se busca contribuir a la
teoría explorando posibles interacciones entre la dimensión consecuencial y otras dimensiones
de la validez.
3.4. Validez en SIMCE: literatura disponible
Sobre la base de la discusión teórica anterior, en el contexto de un estudio sobre la validez del
SIMCE, resulta fundamental explorar, al menos, las siguientes preguntas:
 ¿Cuál es el o los propósitos de SIMCE? ¿Son válidas las interpretaciones que se realizan
de su puntaje en base a cada uno de dichos propósitos? ¿Qué evidencia se provee para
cada uno de los propósitos del SIMCE?
 ¿Cuál es el constructo que se evalúa en SIMCE, es decir, sobre qué teorías se sustentan
las interpretaciones del SIMCE?
 ¿Permite el procedimiento de SIMCE evaluar el constructo lo suficientemente bien?
 ¿Se entrega junto al SIMCE algo equivalente a un manual? ¿Hay información acerca de
los usos, instrucciones, puntaje y aseguramiento de la calidad del SIMCE? ¿Es
información entendible para todos? ¿Hay suficiente transparencia como la debería
haber en un manual?
 ¿Cuáles son las consecuencias del SIMCE? ¿Qué métodos alternativos podrían disminuir
las consecuencias negativas del SIMCE? ¿Qué pasaría si no existiera el SIMCE?
 ¿Qué decisiones se espera tomar en base a los resultados de la prueba? ¿La prueba
logra dar sustento a estas decisiones? ¿Son apropiadas las inferencias y las acciones que
se realizan en base a los puntajes del SIMCE? ¿Hay evidencia suficiente al presente que
sustente las interpretaciones dadas al SIMCE?
La evidencia disponible en relación con la validez del SIMCE entrega información principalmente
acerca de sus propósitos, sus usos y consecuencias, además de un único estudio crítico centrado
en las dimensiones de constructo y contenido de la prueba.
 Propósitos
Con la Prueba Nacional y el Programa de Evaluación del Rendimiento escolar (PER) como sus
antecedentes históricos (Schiefelbein, 1998), se crea en 1988 el Sistema de Medición de la
Calidad de la Educación (SIMCE). Según Bellei (2002), su función inicial tiene que ver con
informar la demanda en el mercado educativo, con el fin de apoyar las decisiones de los padres,
entendidos desde el modelo instalado durante los años ‘80 como consumidores. Meckes y
Carrasco (2010) agregan a este propósito inicial el de control de la calidad de la educación.
Se trata de lo que múltiples autores llaman hoy gobernar a través de datos o números (ver por
ejemplo Grek, 2009; Lawn and Ozga, 2009; Ozga, 2009), refiriéndose a la forma en que, pese a
su aparente descentralización y entrega de mayor autonomía a los establecimientos, los
modelos educativos neo-liberales mantienen un nivel de control central a través de diversos
mecanismos como las evaluaciones estandarizadas, la rendición de cuentas o las inspecciones.
En Chile, el funcionamiento del SIMCE en esta lógica solamente se hace efectivo desde 1995,
cuando el requerimiento de la LOCE de publicar los resultados se pone en práctica. Ello
introduce presión en el sistema, presión percibida como positiva por aquellos que defienden el
modelo (ver por ejemplo Comisión SIMCE, 2003; Meckes y Carrasco, 2010; Eyzaguirre y
Fontaine, 1999), pese a que sus potenciales efectos negativos son también reconocidos -aunque
no sistemáticamente explorados- en esta literatura.
Desde su creación, y a partir de las diversas modificaciones a las que ha sido sometida la prueba,
al propósito inicial se han ido agregando otros. Al revisar la literatura disponible se encuentran,
al menos, los siguientes:
 Seguir el desempeño de una escuela en el tiempo (Eyzaguirre y Fontaine, 1999; Bellei,

2002; Schiefelbein, 1998).
 Tomar decisiones acerca de programas de apoyo a las escuelas más vulnerables (Bellei,
2002; Meckes y Carrasco, 2010).
 Evaluar el éxito o fracaso de una determinada política en base a los resultados del
SIMCE (Meckes y Carrasco, 2010), lo que incluye también el uso para ejercer presión
política y mediática sobre un gobierno (Bellei, 2002).
 Mejorar las prácticas pedagógicas de los docentes por medio de la información acerca
de los resultados (Meckes y Carrasco, 2010; Bellei, 2002; Schiefelbein, 1998).
 Asociar “incentivos o consecuencias a los resultados y avances alcanzados por los
establecimientos” (Comisión SIMCE, 2003: 13).
 Informar las decisiones de los padres en torno a la educación de sus hijos (Meckes y
Carrasco, 2010; Comisión SIMCE, 2003; Eyzaguirre y Fontaine, 1999).
 Comprender las diferencias de resultados en base a aspectos contextuales más amplios
que controlen por factores como el nivel socioeconómico de los estudiantes (Bellei,
2002; Comisión SIMCE, 2003).
 Enviar mensajes al sistema acerca de lo que debe y no debe enseñarse en las aulas
chilenas (Eyzaguirre y Fontaine, 1999).
 Establecer rankings entre escuelas (Manzi et al., 2010).
Pese a la importancia de los propósitos de una evaluación para su validez, es solamente Bellei
(2002) quien advierte sobre el riesgo que implica esta simultaneidad de propósitos, donde
existen tensiones entre el SIMCE como política de presión y como política de apoyo, las cuales
pueden desembocar en perversiones como la estandarización por medio de adiestramiento,
reducción del currículum enseñado al currículum evaluado, discriminación de alumnos por bajo
rendimiento, etc. El informe de la Comisión SIMCE también alude a propósitos múltiples y en
competencia, y a sus posibles consecuencias no deseadas, pero responde a ello con una
propuesta bastante general acerca de la necesidad de hacer coherentes entre sí los diferentes
usos del SIMCE, y con sugerencias que mantienen la tensión a la que alude Bellei.
 Consecuencias y usos
En relación con las consecuencias no deseadas del SIMCE, llama la atención la falta de
investigación sistemática sobre el uso que los docentes dan al SIMCE, pese a la evidencia
internacional sobre las consecuencias de la evaluación estandarizada en la enseñanza, el
aprendizaje y el currículum (ver por ejemplo Berryhill et al., 2009; Shepard, 1992; Gipps, 2004), y
a que diversos autores reconocen esta ausencia en la literatura nacional (Meckes y Carrasco,
2010; Bellei, 2002). Más llamativo todavía resulta observar que los estudios disponibles sobre el
SIMCE asumen una multiplicidad de ideas acerca de los docentes, cuya proveniencia no queda
del todo clara. Se dice que ellos no comprenden los resultados, que necesitan más formación
para comprenderlos, que cada vez los utilizan más, que tienen creencias específicas sobre la
evaluación que inciden en su comprensión de los resultados, que necesitan orientaciones más
específicas y directivas acerca de cómo modificar sus ‘técnicas de enseñanza’ (Schiefelbein,
1998) en función de utilizar metodologías más adecuadas, etc. La única base empírica que se
utiliza para indicar el uso que los docentes realizan del SIMCE se refiere a encuestas que ofrecen
información bastante general, y a partir de las cuales solamente sabemos que los docentes
declaran utilizar cada vez más los resultados de la prueba. Ello sin mencionar el rol que la
deseabilidad podría tener en estas respuestas.
Los únicos estudios que abordan los usos e interpretaciones que los docentes, directivos y
apoderados realizan del SIMCE, son los de los investigadores del CIDE (ver CIDE 2007, 2008a,
2008b; Sepúlveda, 2008) y de Taut et al. (2009). El primer estudio indaga estos temas sobre la
base de las jornadas de reflexión que el MINEDUC organiza en los establecimientos con el fin de
que se analicen los resultados de la prueba y se establezcan compromisos al respecto. Este
estudio concluye que se hace uso de los resultados en estas jornadas y que lo que más se valora
son las interpretaciones apoyadas en los Niveles de Logro, más que las comparaciones ofrecidas
en los informes. No obstante, hay un bajo uso de esta información como base para el
establecimiento de metas, compromisos y acciones a futuro, y un exceso de responsabilización
de los estudiantes, lo que impide asumir una mirada crítica que permita modificar las prácticas
pedagógicas. En relación con ello, se alude a una “actitud anti-SIMCE” por parte de los
profesores, la que se describe en los siguientes términos (Sepúlveda, 2008: 4-5):
“(…) existen centros educacionales donde prevalece una actitud pasiva o de rechazo al sistema
de medición porque se considera que este constituye una presión indebida a los esfuerzos por
mejorar el aprendizaje de los estudiantes.
Algunos consideran que la información no mide exactamente la realidad de los alumnos, y

aducen que el sistema no reconoce situaciones de mayor vulnerabilidad de la población
escolar.”
Esta información resulta crucial desde el punto de vista de la validez, puesto que uno de los
actores relevantes del sistema de evaluación está indicando la existencia de consecuencias
negativas, plantea dudas en términos de la dimensión concurrente de la validez (lo observado
por los docentes no coincide con la realidad de los alumnos), e indica que los resultados no
reflejan aspectos contextuales relevantes. Pese a ello, el estudio asume una actitud crítica hacia
estos profesores, y se limita a sugerir que estos debieran mostrar mayor apertura a la
innovación y a reconocer errores. En ese sentido, hay cierto sesgo pro-SIMCE en la investigación,
que no considera la posibilidad de que la actitud de los profesores frente al SIMCE sea más que
simple falta de auto-crítica o pasividad. En ningún momento se parte por la pregunta acerca de
la calidad del SIMCE como instrumento de evaluación del sistema educativo, sino que se asume
su valor como si este estuviera sobrentendido.
Por su parte, el estudio de Taut et al. (2009) concluye que tanto profesores como padres
presentan problemas para recordar e interpretar correctamente información básica de los
informes de resultados. Esto resulta problemático si se espera que existan mejoras al interior de
los establecimientos en base a dichos resultados y que los padres los utilicen para actuar como
consumidores informados. Junto con ello, la investigación observa que en todos los
establecimientos existe preparación para la prueba, lo que podría entenderse como una
consecuencia no intencionada del SIMCE. Por otra parte, el estudio indica que la mayoría de los
docentes considera injusto e inadecuado juzgar a una escuela o a un docente en base a los
resultados del SIMCE, sobre todo si no se contemplan factores contextuales. Otra conclusión
importante del estudio en relación con la validez del SIMCE es que aquellos apoderados que sí
tienen acceso a los resultados de la prueba, no los valoran mayormente como base para tomar
decisiones de elección de escuela.
Dada esta evidencia de múltiples propósitos, de interpretaciones erróneas, de usos y

consecuencias no intencionados, y de ausencia de un uso profundo de la información, resulta
sorprendente que en la última década no se haya realizado un estudio crítico sobre la validez del
SIMCE.
 Estudios críticos en torno al SIMCE
Las aproximaciones críticas sistemáticas al SIMCE han sido escasas a lo largo de su historia. Las
primeras surgen en el contexto de la implementación de la reforma educacional de los años
noventa, la que implicaba necesariamente una modificación a la forma de medir los logros en
torno al nuevo currículum.
En ese contexto surgen estudios como el de Schiefelbein (1998), centrado en la eficiencia del
sistema en relación con el mejoramiento de la calidad de la educación chilena. Parte de las
conclusiones de este estudio se relacionan con lo alto de la inversión que involucra el SIMCE, si
se la compara con los beneficios obtenidos a partir de dicho sistema, puesto que hasta la fecha
de publicación del estudio no se registraban aumentos significativos en el rendimiento de los
estudiantes. El autor interpreta esta persistencia de los resultados como una sub-utilización de
la información por parte del MINEDUC, que hasta ese entonces externalizaba el SIMCE a través
de la Universidad Católica de Chile, y como debida a las creencias de los docentes con respecto a
los niveles de logro de los estudiantes y las causas de su bajo rendimiento.
La calidad técnica y la validez del instrumento no se cuestionan mayormente en este estudio, al

menos en lo que concierne a su elaboración por parte de la Universidad Católica hasta ese año.
Solamente se advierte acerca de la necesidad de resguardar el mismo nivel de calidad técnica
una vez que la responsabilidad por todo el proceso pase al MINEDUC y, en esa dirección, se
sugiere la mantención de vínculos con entidades académicas para el diseño y análisis de las
pruebas. Junto con ello, el autor indica la necesidad de realizar mejoras de tipo metodológico
que permitan comparar los datos del SIMCE en el tiempo.
Himmel (1992) comenta la primera versión del texto de Schiefelbein, con el fin de precisar
ciertos puntos con los cuales ella disiente. Si bien Schiefelbein incorpora gran parte de las
observaciones en la versión aquí referida, resulta necesario rescatar el punto que Himmel indica
acerca de la idea de impacto que se maneja en relación con el SIMCE. Frente a la perspectiva
que espera modificaciones a corto plazo por medio de una evaluación estandarizada, ella
propone una visión alternativa, donde los efectos pueden variar desde el no uso hasta la
utilización plena y, a su vez, los usos pueden ser de diverso tipo, desde simbólicos o persuasivos
(despidos o cierre de escuelas), pasando por reflexiones más detenidas asociadas a cambios a
largo plazo, hasta un uso instrumental, donde la toma de decisiones se base directamente en la
información evaluativa. Se trata de una advertencia importante en contra del uso efectista y
político de los resultados, y a favor de los tiempos que se necesitan para obtener cambios
reales, participativos y significativos en educación.
Por último, contemporáneo al cambio del SIMCE a fines de los noventa, hay un tercer estudio
relevante realizado por Eyzaguirre y Fontaine (1999). Junto con reiterar algunas de las
observaciones realizadas por Schiefelbein, como la necesidad de resolver metodológicamente la
comparabilidad de los resultados en el tiempo, las autoras efectúan un análisis detallado de los
instrumentos antiguos y de transición, aprovechando la disponibilidad pública de información
acerca de las preguntas del SIMCE, inédita hasta ese entonces. Se trata de un estudio valioso en
el sentido del detalle con que se analizan las preguntas y, en base a ellas, las dimensiones de
constructo y de contenido en relación con la validez de la prueba.
Sobre los instrumentos anteriores a 1997, tanto de Lenguaje como de Matemática, critican la
ambigüedad de las preguntas, la baja cobertura curricular, el bajo nivel de dificultad de las
pruebas y la falta de equilibrio en las habilidades y contenidos evaluados. Gran parte de estos
aspectos, según las autoras, se corrigen en las pruebas diseñadas desde 1998, denominadas por
ellas de segunda generación, ya que se rigen todavía por el decreto anterior, pero contemplan
solamente aquellos contenidos que son pertinentes a la reforma curricular. No obstante, en la
nueva prueba de Lenguaje critican la dificultad potencial de la corrección de preguntas abiertas,
la ausencia de contenidos de ortografía y gramática, la brevedad de los textos utilizados y la
validez de contenido de la muestra de ítems, indicando que existiría cierta desalineación entre
los objetivos que se declara evaluar, y las preguntas que se formulan. En Matemática critican la
presencia de un vuelco demasiado brusco desde una prueba muy básica hacia una que se
desequilibra hacia lo complejo, junto con la incoherencia entre las preguntas ofrecidas como
ejemplo y el nivel de complejidad definido en las orientaciones SIMCE. Además, en términos de
contenido observan que estos siguen siendo restringidos en comparación con evaluaciones
internacionales como TIMSS.
Pese a lo valioso de este estudio, es importante mencionar que las autoras se sitúan claramente
a favor de un modelo educativo donde la presión sobre escuelas, profesores y alumnos a través
de sistemas de accountability, incentivos/consecuencias y competencia se considera positiva y

adecuada. En ese sentido, no existe en el citado estudio una consideración de aspectos
relacionados, por ejemplo, con la dimensión consecuencial de la validez de la prueba, ya que ello
implicaría cuestionar el modelo en que el SIMCE se inserta dentro de nuestro sistema.
Desde entonces no se ha realizado un nuevo análisis de los instrumentos que se vienen

utilizando hace más de una década en nuestro país, y se sigue citando el estudio Eyzaguirre y
Fontaine (1999) como si este probara de manera definitiva mejoras en la calidad técnica del
SIMCE (ver por ejemplo Comisión SIMCE, 2003), pese a que las autoras advierten que se trata de
una muestra incompleta de ítems e indican una serie de preocupaciones acerca de los nuevos
instrumentos, que requerirían un nuevo examen hoy.
Los estudios hasta aquí mencionados sin duda tuvieron efectos importantes sobre algunos
aspectos técnicos de la prueba, ya que desde 1998 se reemplaza el método de Porcentaje Medio
de Respuestas Correctas por la Teoría de Respuesta la Ítem, se introducen métodos de equating
para favorecer la comparabilidad de los datos en el tiempo, y se busca un cambio paulatino
desde un modelo con referencia a norma hacia un modelo con referencia a criterio (Bellei,
2002).
Lo que se encuentra posteriormente en la literatura en relación con los aspectos técnicos y la

validez de la prueba, carece de crítica y especificidad cuando proviene de estudios cercanos a la
unidad del SIMCE del Ministerio de Educación. Se alude a este sistema como prestigioso,
legítimo, creíble, transparente y metodológicamente sólido (Comisión SIMCE, 2003; Meckes y
Carrasco, 2010), sin que se entreguen mayores argumentos ni se aluda a investigaciones
específicas para dar sustento a estas afirmaciones.
En síntesis, son pocos los estudios en torno a SIMCE y menos todavía los que se refieren a las
diferentes dimensiones de la validez de este proceso de evaluación. Lo que se encuentra
disponible sobre el tema corresponde principalmente al período anterior a 1998, antes del
cambio asociado a la reforma, y se refiere a aspectos más bien técnicos explicados de forma
general. Solamente Eyzaguirre y Fontaine (1999) han realizado un análisis en términos de validez
de constructo y contenido, análisis que debe volver a realizarse más de diez años después y con
nuevos instrumentos. Bellei (2002), por su parte, ha indicado los riesgos que para la calidad de la
prueba implica la multiplicidad de propósitos y usos. Un escenario de investigación como el aquí
descrito requiere de un estudio acucioso, sistemático y en profundidad sobre la validez del
SIMCE en todas sus dimensiones, transparentando los procesos de elaboración e
implementación de la prueba y las percepciones de los diferentes actores del sistema acerca de
su validez.
4. METODOLOGÍA
4.1. Aproximación metodológica
Existe una crítica generalizada en la literatura hacia la forma en que la teoría sobre validez suele
ser puesta en práctica por las agencias evaluadoras, ya que en ellas la validez se tiende a
abordar de una forma más mecánica, empiricista, poco holística y centrada en el aspecto
estadístico (Haertel, 1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Hay,
como se indicó en el marco teórico, toda una dimensión cualitativa que constituye parte
fundamental de la validez de un proceso de evaluación, pero que rara vez se explora. Esta tiene
que ver con las teorías implícitas en los constructos; con el juicio experto de aquellos que
intervienen en la creación y corrección de las pruebas; con las diferentes interpretaciones que
se realizan de los puntajes; con los propósitos atribuidos al instrumento a nivel de políticas de
evaluación; con los usos que diversifican los propósitos de un test; con las creencias de los
constructores de ítems; con las consecuencias de la prueba y su relación con el constructo
evaluado, entre otros aspectos. Se ignora, así, evidencia externa al test que podría estar
afectando su validez.
De la misma manera, cuando se habla de los usos del SIMCE se suele aludir a encuestas que
solamente dan cuenta de mayores o menores usos de la información proveniente de este
sistema de evaluación, pero que no abordan de forma profunda y detallada la perspectiva que
los usuarios del SIMCE tienen con respecto a este instrumento (conf. Meckes y Carrasco, 2010;
CIDE, 2008a y 2008b; Taut et al., 2009, aun cuando los dos últimos equilibran sus resultados a
partir de recogida de datos cualitativos, principalmente relacionados con el uso de los
resultados SIMCE).
Dada esta ausencia en la investigación y lo inexplorado del campo, el proyecto asume una
perspectiva cualitativa, de carácter exploratorio, que analiza críticamente la validez del SIMCE,
con el fin de dar un primer paso que motive futuros estudios que profundicen o amplíen los
resultados aquí obtenidos.
4.2. Preguntas y objetivos de investigación
Sobre la base de la teoría y los fundamentos antes expuestos, se formulan las siguientes
preguntas de investigación:
Pregunta general:
¿Es el SIMCE una evaluación válida, considerando las diferentes dimensiones del concepto de
validez?
Sub-preguntas:
En base a los documentos disponibles y la perspectiva de los participantes del proceso:
 ¿Puede el SIMCE ser válido para todos los propósitos y usos que hoy se le asignan? ¿Son
válidas las interpretaciones propuestas en base a sus resultados?
 ¿Existe entre los actores una visión similar acerca de la validez del SIMCE?
 ¿Cuáles son los constructos evaluados por el SIMCE? ¿Existe una visión coherente en el
sistema acerca de dichos constructos?
 ¿Qué contenidos evalúa el SIMCE y qué tan representa tivo es dicho contenido del
constructo a evaluar?
 ¿Qué piensan los actores del proceso acerca de la validez predictiva y concurrente del
SIMCE?
 ¿Se mantiene la validez de los instrumentos del SIMCE a lo largo de su proceso de
producción, distribución, corrección y uso?
Las preguntas antes señaladas se traducen en los siguientes objetivos generales y específicos:
General:
 Analizar críticamente el Sistema de Medición de la Calidad de la Educación (SIMCE)

desde las diferentes dimensiones del concepto de validez en evaluación.
Específicos:
 Explorar y describir el concepto de validez y sus diferentes dimensiones en el SIMCE,

considerando la perspectiva de los diferentes actores del proceso y las características
del instrumento de evaluación.
 Analizar críticamente, en base a la teoría sobre el concepto de validez, los procesos de
construcción, implementación, corrección y uso del SIMCE.
 Sugerir y proponer orientaciones para el mejoramiento de la validez del Sistema de
Medición de la Calidad de la Educación en Chile.
4.3. Revisión de la literatura disponible:
Con el fin de contar con una base teórica e investigativa fuerte, que informara los procesos de
recolección y análisis de datos, se realizó una revisión de literatura considerando tanto el
concepto de validez en evaluación, como la investigación disponible sobre el SIMCE. Sobre la
base de dicha revisión se construyó el marco teórico antes expuesto y se indagó el estado del
arte en relación con la investigación sobre la validez de SIMCE.
Las preguntas centrales que guiaron la búsqueda de literatura sobre validez son:
1) ¿Cómo se ha definido el concepto de validez en el ámbito de la evaluación educativa?

2) ¿Cuáles son (y han sido históricamente) las principales discusiones de este campo de
estudio?
Para la búsqueda de literatura se consideraron las siguientes estrategias:
1) Búsquedas en bases de datos: considerando diferentes palabras clave (validez,

evaluación, evaluación educativa, entre otras) en castellano y en inglés se realizó una
búsqueda en bases de datos integradas, considerando tanto fuentes anglosajonas como
iberoamericanas. Para ello, se trabajó con ProQuest y se examinaron el British Education
Index, el Australian Education Index, ASSIA, Scielo y Redalyc.
2) Snowball sampling: también se examinaron las referencias contenidas en diferentes

documentos en los que el concepto de validez se discute de manera sistemática y, una
vez encontradas las fuentes indicadas en estos documentos, dichas fuentes fueron a su
vez exploradas en relación con sus referencias. Así, se construyó un listado final de
referencias donde las principales voces en la discusión teórica en torno al concepto de
validez quedaron representadas.
3) Búsqueda de publicaciones en sitios de investigación: con el fin de incluir investigación
relevante que pudiera no encontrarse en las bases de datos examinadas, se buscó
también en las publicaciones de sitios web asociados a centros de investigación
relevantes en Chile e Iberoamérica (OEI, UNESCO, MideUC, CIAE, CIDE, entre otros).
Los criterios de inclusión y exclusión se detallan en la siguiente tabla:
Criterio Inclusión Exclusión

Tipo de publicación Revistas académicas con revisión Tesis, informes de política
de pares; informes de educativa, revistas sin revisión de
investigación de instituciones con pares.
reconocimiento académico;
libros.
Tema Discusión teórica en torno al Uso del concepto de validez en
concepto de validez en relación con un instrumento
evaluación. concreto o un caso específico.
Año de publicación No hay restricción, debido a que
se busca seguir el desarrollo -
histórico de esta discusión
teórica.
Idioma Inglés, castellano. Otros idiomas.
TABLA 1. Criterios de inclusión y exclusión literatura sobre validez
Las preguntas centrales que guiaron la búsqueda de literatura sobre SIMCE son:
1) ¿Cuáles son las principales líneas de investigación en torno al SIMCE?

2) En base a la literatura general sobre validez, ¿qué evidencia empírica existe acerca de la
validez del SIMCE?
3) Teniendo en cuenta la investigación existente, ¿qué vacíos o interrogantes emergen en
torno a la validez del SIMCE?
Para la búsqueda de literatura se consideraron las siguientes estrategias:
1) Búsquedas en bases de datos: considerando diferentes palabras clave (SIMCE, validez,

evaluación, entre otras) en castellano y en inglés, se realizó una búsqueda en bases de
datos integradas, considerando tanto fuentes anglosajonas como iberoamericanas. Para
ello, se trabajó con ProQuest y se examinaron el British Education Index, el Australian
Education Index, ASSIA, Scielo y Redalyc.
2) Búsqueda de publicaciones en sitios de investigación: con el fin de incluir investigación
relevante que pudiera no encontrarse en las bases de datos examinadas, se buscó
también en las publicaciones de sitios web asociados a centros de investigación
relevantes en Chile e Iberoamérica (OEI, UNESCO, MideUC, CIAE, CIDE, entre otros).
Los criterios de inclusión y exclusión se detallan en la Tabla 2.
Una vez seleccionados los textos para ambas revisiones, se procedió a realizar nuevas rondas de
exclusión considerando la relevancia de las fuentes para la investigación, en base a una lectura
más detenida de ellas. Junto con ello, algunas exclusiones se debieron a problemas para acceder
a ciertas fuentes, en cuyo caso se buscaron textos adicionales del mismo autor acerca del tema.
El listado final se puede consultar en la sección “Referencias y bibliografía” del presente
informe.
Criterio Inclusión Exclusión

Tipo de publicación Revistas académicas con revisión Tesis, revistas sin revisión de
de pares; informes de pares.
investigación de instituciones con
reconocimiento académico;
libros; informes de política
educativa.
Tema SIMCE: características, usos, No relacionados con SIMCE.
historia, validez, análisis crítico.
Año de publicación 1997 a 2012, para considerar Anteriores a 1997. De existir
literatura contemporánea o literatura anterior a este año, se
posterior a los últimos cambios la incluye solamente como
realizados al SIMCE. fuente de contextualización.
Idioma Inglés, castellano. Otros idiomas.
TABLA 2. Criterios de inclusión y exclusión literatura sobre SIMCE.
4.4. Recolección de datos
La recolección de los datos necesarios para responder, desde la perspectiva de un estudio

cualitativo exploratorio, a las preguntas antes enunciadas se realizó a través de dos
modalidades:
Entrevistas
Debido a contactos personales o laborales de la investigadora, se contó con acceso a actores

que han participado del proceso asociado al SIMCE en diferentes roles. Junto con ello, se obtuvo
acceso a otros actores a través de las personas con que la investigadora ya tenía contacto, con lo
que se alcanzó una mayor amplitud de perfiles. En síntesis, se trató de una muestra
intencionada que involucró también muestreo a través de snowballing. Como se trata de un
grupo de elite en política educativa (especialmente en el caso de los participantes internos al
SIMCE) en términos de su acceso privilegiado a la prueba y sus procedimientos, el valor de estos
datos radica no en el número de participantes, sino en el hecho de que portan un conocimiento
hasta ahora restringido a este grupo exclusivo.
En total, se contactó a 15 actores involucrados en los ámbitos de coordinación, elaboración de

ítems y corrección de ítems, lo que permitió reconstruir el proceso completo del SIMCE desde la
formulación de los marcos de evaluación, hasta la publicación de resultados. La selección de
participantes incluyó tanto a profesionales del área Lenguaje y Comunicación como del área
Matemática, y a actores de procesos previos y actuales, lo que asegura una visión del proceso
en más de una disciplina y a través del tiempo. La Tabla 3 detalla los participantes, sus roles y
disciplinas (cuando corresponde). Los años no se indican, pues ello podría ir en contra de los
compromisos éticos de anonimidad de la investigación. Por el mismo motivo, todos los nombres
utilizados corresponden a seudónimos.
Es importante mencionar que el acceso resultó menos complejo con aquellos actores que
habían estado involucrados en procesos anteriores, algunos de los cuales, de hecho, se
mostraron altamente motivados por participar y poder contribuir a una visión crítica sobre la
prueba. Los miembros actuales de SIMCE mostraron mayor resistencia y, en algunos casos,
cierto temor o desconfianza de participar en el proyecto. Esta actitud refuerza la percepción
expresada por varios de los participantes en las entrevistas con respecto a una actitud
verticalista y poco dialógica por parte de la administración actual, que busca controlar todos los
procesos y a todos los actores (ver sección 6.5). No obstante, se logró finalmente realizar
entrevistas con algunos de ellos.
SEUDÓNIMO ROL(ES) EN SIMCE DISCIPLINA (SI APLICA)

1 Alicia Profesional SIMCE/Rol coordinación Matemática
2 Alejandra Supervisora elaboración preguntas Lenguaje
Supervisora corrección preguntas
3 Arturo Profesional SIMCE/Rol coordinación No aplica
4 Augusto Corrector preguntas SIMCE Matemática
5 Daniela Elaboradora de preguntas SIMCE Lenguaje
Correctora de preguntas SIMCE
Validadora pautas SIMCE
6 Emilio Corrector preguntas SIMCE Matemática
7 Jaime Profesional SIMCE/Rol coordinación Matemática
8 Josefina Profesional SIMCE/Rol coordinación No aplica
9 Pedro Coordinador institucional elaboración de Lenguaje
preguntas
10 Rebeca Profesional SIMCE/Rol coordinación Lenguaje
11 Roberta Supervisora elaboración preguntas SIMCE Lenguaje
12 Rodolfo Corrector preguntas SIMCE Lenguaje
13 Sandra Supervisora corrección SIMCE Lenguaje
Correctora preguntas SIMCE
14 Sofía Profesional SIMCE/Rol coordinación Lenguaje
15 Ximena Supervisora corrección preguntas SIMCE Lenguaje
Correctora preguntas SIMCE
TABLA 3. Participantes en proceso SIMCE seleccionados para entrevistas
Las entrevistas fueron semi-estructuradas y se basaron en la revisión de literatura sobre el

concepto de validez, además de una primera lectura de los documentos seleccionados para el
análisis (ver sección siguiente). Antes de la realización de las entrevistas, se pidió a la Profesora
Jo-Anne Baird y a la Dra. Therese Hopfenbeck del OUCEA que revisaran las preguntas y
realizaran sugerencias para mejorar su diseño. Sobre la base de estos comentarios, se
corrigieron y jerarquizaron las preguntas, tras lo cual se dio curso a las entrevistas propiamente
tales (las preguntas se indican en el Anexo 2). Todos los participantes firmaron un
consentimiento informado en línea antes de la entrevista (ver formato en Anexo 1), en el cual
les fueron indicados los objetivos y contenidos de la investigación y se les garantizó el
anonimato. Además, se les dio la oportunidad de resolver sus dudas con respecto al proyecto.
Cuando surgió como pregunta, se les explicó que, de proveerse durante la entrevista ejemplos
específicos de ítems o textos utilizados en la prueba, estos no se mencionarían, con el fin de
respetar los compromisos de confidencialidad firmados por ellos. En relación con los procesos
de elaboración del SIMCE, estos no se consideran confidenciales y se exponen en este informe,

pues desde el punto de vista de la validez estos deben transparentarse y no existe daño alguno
al instrumento al darlos a conocer (Cronbach, 1984; Anastasi y Urbina, 1997).
Junto con ello, se utilizaron como fuente de información las entrevistas que la investigadora
realizó durante 2011 a profesores en el contexto de su proyecto de doctorado, con el fin de
analizar su perspectiva con respecto al SIMCE y su validez, y de contrastarla con la de las
personas a cargo de la prueba. Se trata de 20 entrevistas semi-estructuradas a docentes de
diferentes disciplinas, tipos de establecimiento (dependencia y rural/urbano), género, rango
etario y tipo de formación inicial. Esta variedad de perfil se busca no por un afán de
representatividad de tipo cuantitativo, sino con el fin de contar con la mayor amplitud posible
de perspectivas. Pese a ello, la mirada de los docentes acerca del SIMCE resulta bastante
consistente según los resultados del análisis. La Tabla 4 entrega el detalle del perfil de los
participantes, nuevamente bajo seudónimos debido a los compromisos éticos de la
investigación.
Al igual que con los participantes del proceso SIMCE, en el caso de los docentes se trató de una
muestra intencionada que involucró también muestreo a través de snowballing.
Perfil egreso Seudónimo Nivel Género Dependencia Locación Disciplina (si aplica)
Egresados Rosaura Media F PSUBV Urbana Inglés
recientemente Catalina Básica F MUN Urbana Inglés
Saúl Básica M PSUBV Urbana Historia, Geografía y Ciencias
Sociales
Ernesto Básica M MUN Rural No aplica
Susana Media F PSUBV Rural Educación Física
Raquel Media F PPAG Urbana Filosofía
Ana Media F MUN Urbana Biología
Óscar Básica M MUN Urbana Lenguaje
Felipe Media M MUN Urbana Historia, Geografía y Ciencias

Sociales
Patricia Media F MUN Urbana Biología
Con Leila Media F MUN Urbana Matemática

experiencia
Néstor Media M MUN Urbana Filosofía
Rosa Básica F PSUBV Urbana Lenguaje
Hernán Media M PPAG Urbana Historia, Geografía y Ciencias

Sociales
Amelia Básica F MUN Rural Lenguaje
Fabiana Básica F MUN Urbana Ciencias Naturales
Luisa Básica F MUN Urbana Historia, Geografía y Ciencias

Sociales
Marcos Básica M PSUBV Urbana Educación Musical
María Media F MUN Urbana Lenguaje
Laura Básica F MUN Urbana Educación Tecnológica
TABLA 4. Características de los profesores participantes
Documentos del SIMCE
La segunda fuente de información, al igual que en el estudio de Eyzaguirre y Fontaine (1999),

corresponde a los documentos divulgados por el SIMCE acerca de las características de la
prueba y sus preguntas. Esto con una doble finalidad: a) observar cómo se definen oficialmente
los propósitos, usos e interpretaciones de los puntajes en el SIMCE, aspecto esencial para
analizar su validez; y b) analizar el constructo y el contenido evaluados por el SIMCE,
determinando la validez de la prueba en estos aspectos. Para hacer la información más
manejable, se priorizaron las áreas de Lenguaje y Matemática.
 Criterios de selección
Los documentos institucionales publicados por el SIMCE se seleccionaron considerando cuatro

ámbitos o criterios:
- Documentos para determinar propósitos y usos del SIMCE: se trata de documentos

donde se explica a diferentes audiencias qué es el SIMCE, qué evalúa y para qué. En este
ámbito se seleccionaron documentos del antiguo sitio SIMCE y del actual sitio de la
Agencia de Calidad en sus secciones generales “¿Qué es el SIMCE?” y “¿Para qué sirve el
SIMCE?” o las dirigidas a padres y apoderados (“¿Por qué es importante que los
alumnos rindan las pruebas SIMCE?”, “¿Qué se espera de los alumnos en el SIMCE?”,
“¿Cómo consultar los resultados de un establecimiento educacional?”). Estos
documentos permiten conocer cuáles son los propósitos que se definen para la prueba a
nivel oficial, con el fin de observar posteriormente si las pruebas son válidas para dichos
propósitos y si los usos no esperados del SIMCE alteran de alguna manera sus
propósitos intencionados.
- Documentos sobre el proceso de construcción y aspectos técnicos-estadísticos del
SIMCE: resulta fundamental para determinar la validez del SIMCE comprender los
procesos de elaboración de las pruebas y la determinación de sus puntajes. Es por ello
que se incluyen los escasos documentos proporcionados en el sitio del SIMCE al
respecto, información que se espera complementar posteriormente por medio de las
entrevistas. Aquí se incluyeron documentos como la sección “¿Cómo se elaboran las
pruebas SIMCE?” y “Metodología Puntajes de Corte Pruebas SIMCE 4° Básico”.
- Documentos para determinar la validez de constructo y contenido del SIMCE: en este
ámbito, de manera similar al trabajo de Eyzaguirre y Fontaine (1999), se seleccionan
todos aquellos documentos que contienen, por una parte, definiciones de los
constructos teóricos sobre los cuales se sustenta el SIMCE y, por otra parte, ejemplos de
preguntas para las áreas de Educación Matemática y Lenguaje y Comunicación. Bajo
este criterio se incluyen documentos como: los folletos de orientaciones ofrecidos con
posterioridad a 1999, los informes de resultados SIMCE y el modelo de prueba de
Lectura para 2º básico publicado recientemente.
- Documentos para determinar la interpretación que se hace de los puntajes SIMCE:

considerando que la validez se refiere no a los puntajes de una prueba, sino a las
inferencias que se hacen a partir de estos (Messick, 1980; 1989), se seleccionaron
documentos donde se observa la interpretación oficial que el Ministerio de Educación
realiza sobre los resultados del SIMCE para diferentes audiencias. Así, es posible analizar
si las interpretaciones son válidas a la luz de las diferentes dimensiones de la validez
consideradas en el presente estudio. En este ámbito se consideraron fuentes como los
informes de resultados nacionales y de escuelas individuales.
 Listado de documentos seleccionados
En el siguiente listado se presenta la selección de documentos oficiales del SIMCE que fueron
analizados en este estudio:
Sitio SIMCE (pre-Agencia):
Secciones:
1. “¿Qué es el SIMCE?”
2. “¿Para qué sirve el SIMCE?”
3. “¿Cómo se elaboran las pruebas SIMCE?”
4. “Evaluaciones nacionales”
5. “¿Por qué es importante que los alumnos rindan las pruebas SIMCE?”
6. “¿Qué se espera de los alumnos en el SIMCE?”
7. “¿Cómo consultar los resultados de un establecimiento educacional?”
Sitio Agencia de Calidad:
Secciones:
8. “¿Qué es el SIMCE?”
9. “¿Qué evalúa el SIMCE?”
10. “Preguntas frecuentes”
Orientaciones:
11. Folleto de Orientaciones SIMCE 2012 / 2° Medio para Docentes

12. Folleto de Orientaciones SIMCE 2012 / Educación Básica para Docentes
13. Folleto de Orientaciones SIMCE 2011 / 4° Básico
16. Folleto de Orientaciones SIMCE 2010 / 2° Medio

Modelos de prueba:
27. Modelo de Prueba Comprensión de Lectura SIMCE 2° Básico

28. Manual del Profesor SIMCE 2° básico
Resultados:
29. Informe Nacional de Resultados SIMCE 2010

34. Informe Resultados para Docentes y Directivos Colegio Los Reyes / 4° básico 2007
35. Informe Resultados para Docentes y Directivos Instituto Hans Christian Andersen / 4°
básico 2010
Niveles de Logro:
36. Niveles de Logro de Lectura / 4° básico

37. Niveles de Logro de Matemática / 4° básico
38. Niveles de Logro de Lectura / 8° básico
39. Niveles de Logro de Matemática / 8° básico
Documentos técnicos:
40. Metodología Puntajes de Corte Pruebas SIMCE 4° Básico

41. Cálculo de Significancia Estadística
4.5. Análisis de los datos
Las entrevistas de los participantes del proceso SIMCE fueron transcritas por el personal de
apoyo técnico del proyecto, que firmó el correspondiente compromiso de confidencialidad en
relación con los datos. Luego, las transcripciones fueron revisadas por la investigadora, tanto en
términos de posibles correcciones como de la eliminación de nombres y datos que pudieran
llevar a identificar a los participantes. Las transcripciones fueron posteriormente ingresadas a
NVivo para su codificación. En una primera ronda de codificación se trabajó con códigos según
los principales temas de las preguntas, los que se detallan a continuación:
 Rol(es) entrevistado/a: incluye la mención y descripción del/de los rol(es) de los

entrevistados en el SIMCE.
 Constructo y contenido: se refiere a todas las respuestas en que se indica qué evalúa y
qué no evalúa el SIMCE.
 Propósitos: contiene todas las respuestas en relación con cuáles son los propósitos del
SIMCE según los entrevistados.
 Procedimiento: alude a la descripción detallada de todos los pasos del proceso del
SIMCE, de acuerdo con el conocimiento del entrevistado/a.
 Dificultades generales: se refiere a todas aquellas dificultades no asociadas a la
construcción o corrección de ítems.
 Dificultades en la construcción de preguntas: incluye todos los aspectos problemáticos
y desafíos en relación con esta etapa del proceso.
 Dificultades en la corrección de preguntas: incluye todos los aspectos problemáticos y
desafíos en relación con esta etapa del proceso.
 Relación entre dificultades y validez: incluye la opinión de los participantes con
respecto a la incidencia de las dificultades mencionadas en la validez de la evaluación.
 Interpretaciones: concentra las respuestas en torno a la pregunta por aquello que se
puede y no se puede inferir a partir de los resultados del SIMCE.
 Usos no intencionados: alude al conocimiento, directo o indirecto, de los participantes
acerca de usos o interpretaciones no intencionados del SIMCE, y su opinión acerca de la
forma en que estos podrían o no afectar la validez de la interpretación de los resultados.
 Preguntas específicas: contiene las respuestas a las preguntas específicas realizadas
según el perfil de los entrevistados.
 Comentarios finales: reúne los comentarios finales para los que la entrevistadora dio un
espacio antes de terminar la entrevista.
Con ayuda del software NVivo, se generaron documentos con las respuestas de todos los
entrevistados para cada código y, en base a ello, se realizó una sub-codificación de carácter más
inductivo.
En el caso de las entrevistas a profesores, también con apoyo de NVivo, se codificaron primero
aquellas secciones de las entrevistas en las que se aludía a SIMCE. Estas, a su vez, se pusieron en
un mismo documento, que posteriormente se analizó y sub-codificó.
En ambos casos se consideró una aproximación inductiva e iterativa de análisis, teniendo las
preguntas de investigación como referente constante para observar la interacción entre los
datos y aquello se buscaba saber (Srivastava y Hopwood, 2009).
En el caso de los documentos, los más breves (secciones de sitios y Folletos de Orientaciones)
fueron primero codificados en NVivo, también desde una aproximación iterativa e inductiva
(Ibid.). Los 373 códigos iniciales fueron luego clasificados en una cantidad menor de categorías.
Este análisis es el que sirvió de base para el diseño de las entrevistas. En una segunda fase, los
documentos más extensos (informes de resultados, niveles de logro, etc.) se codificaron con
lápiz y papel, teniendo la codificación de los documentos breves como base.
Durante el proceso se consultó a diversos especialistas cuando fue necesario. Al analizar las
preguntas de Matemática, que no es el área de especialidad de la investigadora, se consultó a
uno de los entrevistados con formación disciplinaria en el área acerca de algunos de los
problemas observados. En base a ello, se descartaron algunas preguntas inicialmente
detectadas como problemáticas.
En el área de Lenguaje, además, con el fin de corroborar la validez de los juicios de la

investigadora, pues su se trata de su área de experticia, se realizó una consulta a expertos con
respecto al modelo de prueba de 2º básico, método que se considera como una fuente posible
para argumentar la validez de un proceso de evaluación (Anastasi y Urbina, 1997; Shawn et al.,
2012). Las especialistas consultadas poseen formación de postgrado en el área, tienen
experiencia docente o en formación docente, y tres de ellas han trabajado en la formulación de
ítems. Se les solicitó que respondieran una breve encuesta (ver Anexo 3). En ella se les pedía
clasificar las preguntas que generaban dudas en una de las tres habilidades indicadas como
parte del constructo a evaluar. La consulta fue completamente independiente, es decir, se pidió
a cada especialista responder por separado, sin compartir su juicio con las demás. Los resultados
de la consulta se entregan en la sección correspondiente.
Finalmente, frente a algunas dudas que emergieron del análisis tanto de las entrevistas como de
los documentos, referidas básicamente a ciertas preocupaciones con respecto a la validez de
SIMCE, se consultó al Profesor David Andrich, quien posee una amplia trayectoria como
psicometrista. Los resultados de esta consulta se presentan en la sección correspondiente.
4.6. Limitaciones
Como toda investigación, el presente estudio posee ciertas limitaciones que es necesario tener
en cuenta para su interpretación. Por una parte, el tamaño de la selección de participantes
podría presentar limitaciones en términos de la generalización de los resultados, al menos en el
sentido cuantitativo del término. No obstante, hay que señalar que este tipo de generalización
no constituye uno de los presupuestos del presente estudio, pues es de carácter exploratorio y
cualitativo. Con respecto a los participantes del proceso SIMCE, se siguen aquí los principios de
investigación asociados al estudio de las elites sociales y políticas, donde debido a su tamaño
pequeño, estos grupos no son investigados considerando representatividad ni significancia
estadística, sino desde la generación de datos que permitan comprender mejor su discurso y
modo de funcionamiento (Savage and Williams, 2008). Los participantes del grupo SIMCE
constituyen un conjunto de actores clave, varios de los cuales han tenido más de un rol en el
proceso, por lo que constituyen una fuente privilegiada de información. Por otra parte, los
entrevistados reconocen que los mismos nombres se van repitiendo en los diferentes roles de
SIMCE, por lo que la selección contemplada en este estudio no debiera estar tan distante de la
población total de involucrados en el proceso SIMCE.
El caso de los docentes es distinto. Evidentemente se trata de una selección muy pequeña con
respecto a la población. Sin embargo, una ventaja en este punto es la alta consistencia en su
discurso sobre el SIMCE, pese a provenir de contextos educacionales diversos. A ello se agrega
que, a diferencia de lo que ha ocurrido con estudios sobre la base de encuestas (por ejemplo
encuestas del MINEDUC citadas por Meckes y Carrasco, 2010), se obtiene aquí un relato en
profundidad y sin mayores riesgos de deseabilidad en las respuestas.
Una segunda limitación, similar a lo que ocurre con el estudio de Eyzaguirre y Fontaine (1999),
se relaciona con que resulta complejo aludir a la cobertura del contenido ligado al constructo
cuando la mayoría de las preguntas que se encuentran disponibles públicamente son ejemplos
aislados, que no forman parte de instrumentos completos. No obstante, una ventaja de la
presente investigación con respecto a estudios anteriores es la liberación de un modelo de
prueba para 2º básico, lo que permite efectuar este tipo de análisis al menos en un instrumento.
Para un análisis más completo de este aspecto de la prueba sería un aporte que el SIMCE
considerara liberar más instrumentos completos, junto con los marcos de evaluación, al menos
cuando se los quiera utilizar con fines investigativos y de mejora de este proceso de evaluación.
Por otra parte, al estar a cargo de una única investigadora, uno de los potenciales riesgos de
este proyecto lo constituye la posibilidad de sesgo en el análisis. Sin embargo, dicho riesgo se
mitiga a través de la consulta a expertos de diverso tipo referida en la sección anterior. Ello
permite triangular los datos y corroborar determinadas hipótesis interpretativas de la
investigadora.
Como una posible línea de investigación a futuro se considera la inclusión de la perspectiva de

padres y apoderados, y de los estudiantes con respecto a la prueba. No fue posible considerarlo
en esta investigación debido a limitaciones de tiempo, pese a que se reconoce que se trata de
actores clave en relación con los propósitos, las condiciones de aplicación y las consecuencias
del SIMCE. De la misma manera, queda pendiente un estudio de naturaleza similar en torno a
las áreas de Ciencias e Historia, pues los resultados aquí expuestos no son extrapolables a
dichas disciplinas.
La importancia de los hallazgos de este estudio, sin embargo, contrapesa las posibles
limitaciones antes enunciadas. Estos hallazgos actualizan el concepto de validez que se maneja
al presente en relación con el SIMCE; arrojan información relevante acerca de la validez en
SIMCE y sus problemáticas; y contribuyen a mejorar la calidad de los procesos del SIMCE en
beneficio de todos los actores involucrados, especialmente aquellos con menos poder dentro
del sistema.
5. RESULTADOS DE LA INVESTIGACIÓN: DESCRIPCIÓN DEL PROCEDIMIENTO
La primera parte de la presentación de resultados se centra en una descripción detallada de los

procedimientos involucrados en cada una de las etapas del SIMCE, en base a los documentos y
las entrevistas. Las razones para dedicar parte importante del reporte de resultados a explicar el
proceso y sus características se relaciona directamente con la necesidad de mejorar la validez
del SIMCE.
Uno de los factores fundamentales para asegurar la validez de un proceso de evaluación tiene
que ver con el nivel de claridad y de detalle con que se explican sus características. Tanto
Cronbach (1984) como Anastasi y Urbina (1997) aluden a la importancia de proveer a los
usuarios con un manual que facilite el empleo adecuado del una prueba estandarizada. Como ya
se indicó en el marco teórico (ver sección 3.3), en este material se deben transparentar los
procedimientos seguidos para asegurar la representatividad y adecuación del contenido,
detallando la calificación profesional de aquellos que participaron en la construcción del test,
además de las indicaciones que recibieron para clasificar ítems, y la fecha en que los expertos
fueron consultados (Anastasi y Urbina, 1997).
El manual debe proveer de manera clara información sobre la calidad técnica de la prueba, los
procedimientos de asignación de puntaje y las evidencias de investigación, así como
instrucciones detalladas sobre el uso del test (Cronbach, 1984). Solamente así se asegura que las
interpretaciones de los puntajes se ajusten los límites de construcción del test y no se sobre-
generalicen.
Este requerimiento de transparencia como un aspecto que favorece la validez de un proceso de

evaluación constituye una práctica común en el desarrollo de evaluaciones estandarizadas. Por
ejemplo, los marcos de evaluación de pruebas internacionales como PISA, TIMSS o PIRLS se
encuentran disponibles públicamente (conf. OECD, 2009a; Mullis et al., 2009a; Mullis et al.,
2009b), al igual que los manuales de análisis de datos asociados a estas pruebas (conf. OECD,
2009b; TIMSS, 2007). En el caso de SIMCE, no existe un documento único que explique en
detalle la información acerca de sus características, procesos y etapas. Los marcos de evaluación
tampoco se han publicado. Cuando se pregunta a los integrantes del equipo SIMCE por qué no
se han liberado, se obtienen dos tipos de respuesta. Las personas que continúan trabajando en
SIMCE al momento de la entrevista indican que con ello se evita que los docentes reduzcan el
currículum a aquello que se indica en las especificaciones. Así, por ejemplo, indica Rebeca:
“(…) la prueba es curricular y en la medida que nosotros demos la señal al sistema educativo de
que, para tener un buen SIMCE, lo que usted tiene que hacer, señor profesor, es cubrir el
currículum, me entiendes, eso es cierto, no es mentira, y nos movemos dentro de ese marco; si
somos enfáticos en decir que de todo el currículum, en verdad, nosotros estamos pensando en
evaluar, este año, esta parte en específico, por decirte, creo que le hacemos un daño al sistema;
es que el riesgo que se corre de que los profesores digan “ah, entonces esto otro no lo voy a ver,
porque el SIMCE no lo va a evaluar” es alto y es innecesario. Eso pienso yo; ahora, finalmente yo
no sé si por Ley de Transparencia o estas cosas que hoy día nos hacen ser cada vez más como
desnudarnos más ante el sistema llegue el momento en que lo tengamos que publicar y estaría
bien también, no hay ningún oscurantismo ahí (…).”
Los integrantes internos al SIMCE en general manifiestan estar de acuerdo con la idea de liberar
las especificaciones, aunque algunos, como Josefina, entienden el argumento de fondo para no
hacerlo. Otros participantes, tanto internos como externos al SIMCE, aluden como motivo para
la falta de transparencia a una tendencia hacia el secretismo que se incrementa en la institución,
según ellos, tras un cambio de administración en 2008. Varios entrevistados indican que, antes
de eso, se estaba preparando la publicación de los marcos, la cual quedó suspendida por la
nueva jefatura. Así explica, por ejemplo, Sofía:
“Para transparentar; todas las pruebas internacionales tienen sus marcos de evaluación, tienen
matrices, tablas de especificaciones, menos SIMCE. Entonces se dice que es una prueba curricular
y una prueba censal de esa magnitud no va a ser nunca curricular, es imposible medir todo el
currículum. Entonces nosotros construimos marcos de evaluación que supuestamente se iban a
publicar y en algún minuto también el coordinador del SIMCE, que es un coordinador que era el
encargado nacional del SIMCE, vetó la publicación de los marcos de evaluación (…).”
De manera similar, para Pedro, como un actor que debió mediar entre SIMCE y su institución,
existe una tendencia al secreto que no se justifica:
“(…) hay una cuestión, como te digo yo, de querer parecer, en los primeros años que yo estuve,
una agencia seria, (…) como esto *+ tenía esta posibilidad como de *que+ (…) se abriera, se
conociera públicamente, entonces ahí le ponían todos los miedos del mundo a los profesores
[elaboradores de preguntas], a uno mismo, que nada de esto puede salir ni del proceso ni del
procedimiento ni la forma ni los ítems ni nada, decir SIMCE es tabú, entonces hay ahí una
cuestión que yo creo (…) de autoafirmación no más, nada más, de saber que las cosas no se
estaban haciendo como se debieran hacer, entonces hagámoslas, pongámosles secretismo para
que, por lo menos, parezca serio, sí, yo creo que por ahí va la cuestión. Pero cuando tú conversas
con gente que trabaja dentro del Ministerio y dices “esta cuestión de tanto secreto, ¿para qué?”,
“mira, son leseras de arriba no más”, dicen, nadie creía en eso tampoco.”
La confidencialidad del material propio de la prueba se justifica, pues es importante que los
estudiantes no tengan acceso a las preguntas antes de la aplicación del instrumento. No
obstante, la extensión del secreto a los procedimientos de elaboración, aplicación y corrección
de SIMCE no tiene mayor fundamento, al menos no desde la teoría sobre validez en evaluación.
En primer lugar, en el manual debe haber una explicitación de los propósitos intencionados de la
prueba, esto es, un propósito intencionado debe ser siempre un propósito declarado si la
agencia evaluadora quiere poder defenderse posteriormente contra posibles usos e
interpretaciones incoherentes con dicho propósito (Newton, 2012).
Además, para autores como Kane (2010: 180):
“La validación efectiva (…) depende de una indicación explícita y clara acerca de las
interpretaciones y usos intencionados, incluyendo en la indicación una especificación de la
población y del rango de contextos en los cuales ocurrirán las interpretaciones y los usos. Los
supuestos inherentes a las interpretaciones y usos intencionados de los puntajes de la prueba
pueden explicitarse en forma de un argumento interpretativo que despliegue los detalles del
razonamiento que lleva desde el desempeño en la prueba a las conclusiones que se incluyen en
la interpretación y a cualquier decisión basada en la interpretación.”
Por lo tanto, junto con los aspectos técnicos antes indicados, el manual debiera ser explícito
acerca de los propósitos, las interpretaciones y los usos de la prueba, así como de los
argumentos y la teoría que sustenta las conclusiones que se obtienen en base a su puntaje. Para
Moss (2007: 474) resulta fundamental, como parte de una práctica responsable (accountable
practice) en el contexto de evaluaciones estandarizadas de altas consecuencias, “La
disponibilidad, para revisión pública y profesional, del plan, la evidencia producida, la evidencia
considerada innecesaria o poco práctica, el fundamento, y las conclusiones” que se derivan de
los procesos de validación a los que una evaluación debiera someterse desde la perspectiva del
enfoque basado en argumento. De forma similar, para Shaw et al. (2012: 160) dentro de las
responsabilidades de las agencias que desarrollan programas de evaluación, y por las cuales se
les puede pedir rendir cuentas, está “informar a los que se someten a la evaluación acerca del
proceso de evaluación y lo que sus puntajes significan”, especialmente si se trata de
evaluaciones de alto impacto. Junto con ello, y como miembros de una agencia evaluadora
(Cambridge Assessment), los autores reconocen la responsabilidad por “explicar al usuario del
test qué inferencias pueden y no pueden realizarse” en base a los puntajes.
Moss et al. (2006) indican los cinco aspectos que en los Testing Standards se consideran como
aquellos que se debieran consignar en los manuales técnicos y de usuario: evidencia basada en
el contenido, en los procesos de respuesta, en la estructura interna, en las relaciones con otras
variables, y en las consecuencias de la prueba (2006: 119). Si no se informa claramente a los
usuarios sobre estos puntos y, por lo tanto, estos no comprenden la información que emerge de
la prueba ni sus limitaciones, “la validez puede verse seriamente socavada” al “conducir a juicios
inapropiados” (Crooks et al., 1996: 276).
Pese a estos requerimientos para la validez de un proceso de evaluación, la información

disponible públicamente acerca del SIMCE en relación con los aspectos antes mencionados se
encuentra dispersa en documentos de diversos años y de distinto tipo. Fue necesario para la
presente investigación reconstruir el proceso a partir de estas múltiples fuentes. Junto con ello,
hay una serie de aspectos que no se indican en ninguna fuente y que debieron ser consultados a
los entrevistados. Aquellos participantes externos al SIMCE, además, indican desconocer algunas
etapas del proceso: los constructores de preguntas no saben qué sucede con estas una vez que
se entregan al SIMCE y los correctores tampoco saben cuáles son las fases que siguen a su
trabajo.
Arturo aseguró que a fines de 2013 se publicará un informe técnico acerca del proceso 2012,
documento en el cual se indicará con mayor precisión y en un solo lugar el procedimiento de
evaluación del SIMCE. Mientras eso sucede, el presente informe contribuye a mejorar la validez
de esta evaluación indicando a continuación los detalles de cada una de las etapas de SIMCE,
primero en base a los documentos y luego considerando las entrevistas.
5.1. Información acerca del proceso SIMCE en base a documentos
En base a los documentos de dominio público que se encuentran sobre el SIMCE, se puede
indicar lo siguiente acerca de las diferentes etapas del proceso que conforma este sistema de
evaluación.
 Características generales de las pruebas
En múltiples documentos se encuentra información acerca de las características generales de la

prueba (sitio SIMCE, sitio Agencia, todos los Folletos de Orientaciones e Informes de Resultados
analizados). En ellos se encuentran datos acerca de las áreas y niveles en que se aplica la
prueba, en qué momento del año se toma, quiénes la responden y qué tipos de pregunta
incluye. Inicialmente el SIMCE se aplicaba alternadamente en términos de nivel: un año 4º
básico, otro año 8º y luego 2º medio. Desde 2006 se comenzó a tomar dos pruebas por año, es
decir, 4º básico se comenzó a tomar todos los años, mientras 8º y 2º medio se alternaban. En
ningún documento público se indican las razones para dicha modificación, sino que
simplemente se la anuncia. Al parecer se trata de una decisión tomada en base al Informe de la
Comisión SIMCE (2003), entre cuyas sugerencias se indicaba aumentar la frecuencia de las
pruebas. La lógica tras esta recomendación se explica en los siguientes términos:
“El supuesto de esta estrategia es que la medición nacional estimula a los establecimientos a
concentrar sus esfuerzos en las generaciones y áreas curriculares que son objeto de la medición,
por lo que ampliar este foco llevaría a ampliar también el impacto positivo de las evaluaciones.”
(2003: 58).
Hay en este razonamiento una suposición sobre la cual no existe evidencia concluyente: que el
impacto del SIMCE en las escuelas es positivo. De manera consistente con la presente
investigación (ver sección 6.4), tanto el Informe (2003) como la investigación de Taut et al.
(2009) y el análisis crítico de Maureira et al. (2009), distinguen una serie de consecuencias
negativas o no deseadas de la prueba, como por ejemplo: estigmatización o juicio acerca de los
profesores por los resultados del curso correspondiente al año que se da SIMCE; estigmatización
de establecimientos como ‘buenos’ o ‘malos’; la realización de rankings a partir de los resultados
SIMCE (motivada incluso por el mismo MINEDUC en el Informe de Resultados por escuela del
año 2007); la concentración de los recursos del establecimiento en aquellas áreas y niveles que
son evaluados y, dentro de cada disciplina, en los contenidos evaluados por la prueba;
modificación de las prácticas pedagógicas de los docentes en función de la lógica de las

preguntas SIMCE y sus contenidos; profundización de la inequidad del sistema educativo; entre
otros aspectos. Teniendo en cuenta todas estas consecuencias, aumentar el número de
evaluaciones podría llegar a ser contraproducente, ya que se motivaría a otras áreas y niveles a
operar bajo la misma lógica de preparación de la prueba, reducción del currículum y
estigmatización. Pese a ello, la Comisión SIMCE, sin que se sepa qué actores dentro de ella lo
sugieren, propone el aumento de la frecuencia en las pruebas. Esta y otras modificaciones se
anuncian en el Informe de Resultados 2004, aun cuando la razón para el aumento de las pruebas
no se indica.
En relación con las áreas evaluadas, la Tabla 5 muestra las modificaciones experimentadas
desde el año 2004, en base a los documentos analizados.
Como se puede observar, existen cambios de denominaciones en las áreas evaluadas de un año
a otro. Los documentos de dominio público del SIMCE, nuevamente, no indican las razones para
dichas modificaciones ni las implicaciones que ello podría acarrear en términos del constructo y
el contenido a evaluar y, por lo tanto, de comparabilidad de resultados (ver sección 6.2). Estos
cambios simplemente se informan.
En términos de la época del año en que se rinde la prueba, siempre se indican fechas en torno a
octubre y noviembre. Se indica en la mayoría de los documentos también que se trata de una
prueba que mide a la población total de un mismo curso a nivel nacional y que consta de
preguntas cerradas y abiertas, aun cuando no se indica la cantidad de cada una en los
instrumentos ni su ponderación dentro del puntaje. Sí se indica que los estudiantes tienen
alrededor de 90 minutos para contestar.
2004 2005 2006 2007 2008 2009 2010 2011 2012

2º B Lectura
4º B Lenguaje y Lenguaje y Lenguaje y Lectura Lectura Lectura Lectura Lectura
Comunicación Comunicación Comunicación,
Escritura Educación Educación Matemática Matemática
Educación Educación Educación Matemática Matemática
Matemática Matemática Matemática Educación
Matemática Comprensión Comprensión Ciencias Ciencias Sociales
Comprensión Comprensión Comprensión del Medio del Medio Naturales
del Medio del Medio del Medio Comprensión Natural Social y
Natural, Social Natural, Social Natural, Social y del Medio Cultural
y Cultural y Cultural Cultural Social y
Cultural
6º B Piloto Lenguaje,
Matemática y
redacción de un
ensayo
8º B Lenguaje y Lenguaje y Lectura Ed. Física Lectura
Comunicación Comunicación (muestral)
Matemática,
Educación Educación Educación
Matemática Matemática Matemática Ciencias
Naturales
Estudio y Estudio y Estudio y
Comprensión de Comprensión Comprensión Historia,
la Naturaleza de la Naturaleza de la Geografía y
Naturaleza Ciencias
Estudio y Estudio y Sociales
Comprensión de Comprensión Estudio y
la Sociedad de la Sociedad Comprensión Ed. Física
de la Sociedad (muestral)
2º M Lengua Lengua Lectura Lectura
Castellana y Castellana y
Comunicación Comunicación Matemática
Matemática
Matemática Matemática.
3º M SIMCE Inglés SIMCE Inglés
TABLA 5. Subsectores y niveles evaluados por año según los documentos del SIMCE
Además, en gran parte de los documentos (sitio SIMCE, sitio Agencia y todos los Informes de
Resultados) se alude a la aplicación de cuestionarios que permiten dar una mayor
contextualización a los resultados. Estos cuestionarios recogen información acerca de docentes,
estudiantes, y padres y apoderados. En los sitios web no se indica dónde encontrar los
cuestionarios, quién los contesta ni en qué consisten más específicamente. Solamente en los
informes se indica en ocasiones ejemplos de los aspectos contenidos en estos cuestionarios (a
los docentes se les pregunta sobre las materias que han enseñado, a los padres por su nivel
educacional y a los estudiantes sobre sus hábitos de estudio, ver Informes de Resultados 2006 y
2007) y desde 2008 se agrega una nota al pie que indica que el cuestionario se puede encontrar
en el sitio del SIMCE.
Menos común es la información que se encuentra acerca de la cantidad de formas y de

preguntas que contienen las diferentes pruebas del sistema de evaluación. En el sitio SIMCE,
hasta 2012 se ejemplificaba con las cantidades correspondientes al proceso del año anterior. En
el actual sitio de la Agencia se explica por qué SIMCE no reporta resultados individuales y, en ese
contexto, se indica que ello se debe a que se utilizan varios cuadernillos para cubrir la totalidad
de contenidos y habilidades a evaluar, de manera que “el resultado de un establecimiento se
obtiene del conjunto de respuestas contestadas en un curso y no por el desempeño de un solo
estudiante”. El Informe de Resultados 2004, que constituye una excepción en términos del
detalle de la información que entrega en comparación con los de años siguientes, explica:
“Para cada uno de los subsectores de aprendizaje evaluados, se diseñaron dos cuadernillos
diferentes, complementarios entre si ́ , por lo que el promedio de los resultados individuales
entrega información sobre los logros de aprendizaje del grupo en su conjunto. Así,́ el puntaje
promedio de un establecimiento es indicador de lo que sabe o puede hacer el conjunto de los
alumnos del nivel evaluado. Por tratarse de un promedio, los resultados agrupan el rendimiento
de estudiantes que suelen tener puntajes individuales muy dispares.”
De allí que el SIMCE no entregue resultados por alumno, puesto que para lograr cubrir el
conjunto de contenidos y habilidades que busca evaluar en un tiempo razonable, debe hacerlo a
través de formas distintas. En 2006 y 2007 solamente se menciona que hay un número variable
de formas por área y que de ello depende el número total de preguntas por cuadernillo, pero no
se explica por qué sucede esto. Desde 2008 en adelante no se indica nada al respecto, con
excepción de la explicación ya indicada en el sitio de la Agencia.
 Construcción de las preguntas
La información disponible públicamente acerca del procedimiento de construcción de las

preguntas es de carácter general, y más bien escasa. Al reunir parte de la información que se
entregaba en el anterior sitio del SIMCE y en fragmentos de los Folletos de Orientaciones de
2004 y 2005 -únicas fuentes en las que se alude a esta parte del procedimiento-, se distinguen
los siguientes pasos:
1. Determinación del marco de evaluación: se examina el currículum de cada área y se

seleccionan aquellos objetivos susceptibles de ser evaluados por medio de una prueba
de papel y lápiz. En base a esta selección se elabora un marco de contenidos y
habilidades, a partir del cual se especifica la cantidad de preguntas tanto de la prueba
en su totalidad, como por contenido y habilidad.
2. Elaboración de las preguntas: estas preguntas son elaboradas por “profesores de aula,
especialistas de cada una de las áreas evaluadas y especialistas en evaluación” (sitio
SIMCE), además de “sicólogos educacionales” (Orientaciones 2005). En el proceso de
elaboración de las pruebas como totalidad se indica que participan “profesores,
evaluadores, curriculistas, especialistas de cada sector o subsector de aprendizaje,
sicólogos y estadísticos, entre otros” (Orientaciones 2004). Estas preguntas se
construyen sobre la base del marco de evaluación.
Esta es la única información que se encuentra en los documentos publicados por el SIMCE
acerca de la construcción de las preguntas de la prueba.
 Procedimientos de validación
Una vez elaboradas, las preguntas “siguen un riguroso proceso de revisión para asegurar que
sean pertinentes y relevantes al área y curso evaluado, estén correctas en su planteamiento, y
evalúen realmente los contenidos y habilidades que pretenden medir” (sitio SIMCE). Como
criterios de revisión de las preguntas cerradas, se indica que se resguarda la existencia de una
sola opción correcta y “las opciones incorrectas reflejen errores conceptuales o de
razonamiento típicos de los estudiantes” (sitio SIMCE). En el caso de las preguntas abiertas se
explica que se elaboran pautas de corrección que indican las características de una respuesta
correcta, una parcialmente correcta y una incorrecta.
Luego la prueba es sometida a una serie de procesos de validación, entre ellos: “(a) revisión por
parte de profesionales del equipo SIMCE, de expertos en currículum de la Unidad de Currículum
del MINEDUC y de profesores que se desempeñan en establecimientos municipales y
particulares; (b) aplicación en muestras de alumnos y análisis de los resultados; (c) entrevistas
personales con alumnos, en las que se les pide verbalizar el razonamiento utilizado para
responder cada pregunta y (d) aplicación en pruebas experimentales” (Orientaciones
2005).
Según el sitio del SIMCE, una vez aprobadas por los expertos, las preguntas se prueban con una
muestra representativa a nivel nacional un año antes de la prueba definitiva. Por medio de este
proceso se evalúa la calidad de las preguntas en relación con: el rango de dificultad de las
preguntas incluidas en la prueba y su capacidad de reflejar el desempeño de los estudiantes en
relación con la dificultad de las preguntas. Además, se juzga si las preguntas abiertas generan las
respuestas esperadas, si las pautas de corrección recogen las respuestas típicas de los
estudiantes y si categorizan adecuadamente el desempeño de los estudiantes. También se
corrobora la aplicación consistente de las pautas por parte de los correctores.
Esta fase de validación se cierra con la selección de preguntas para la prueba definitiva por parte
de “los profesionales del SIMCE” (sitio SIMCE). Se decide el número de preguntas que cada
alumno contestará, la cantidad de cuadernillos o formas a utilizar, y la secuencia con que se
organizarán las preguntas en cada forma. Finalmente, en el Informe de Resultados 2004,
aludiendo a las conclusiones de la Comisión SIMCE, se indica que en ella “se determinó que el
SIMCE posee instrumentos metodológicamente sólidos”, sin que se indiquen las bases sobre las
que se sostiene tal juicio.
 Aplicación y administración de la prueba
Antes de la aplicación, los docentes y directivos son informados cada año acerca de las “fechas
de aplicación, la forma de contestar, los distintos tipos de preguntas y los conocimientos y las
habilidades que se evaluarán, procedimientos de la aplicación, entre otros aspectos” (sitio
Agencia), por medio de los Folletos de Orientaciones.
En el sitio del SIMCE se indica que los Departamentos Provinciales de Educación junto con
universidades se encargan del proceso de aplicación de las pruebas. Son estas instituciones las
que seleccionan y capacitan a los examinadores en base a lineamientos del SIMCE. El rol de los
examinadores es el “de asegurar que todos y cada uno de los procedimientos de estandarización
se cumplan” (sitio SIMCE). Ello significa que deben asegurarse de que todos tengan 90 minutos
para responder, que se les lean las instrucciones, que estén en un ambiente adecuado para la
concentración, entre otros. Se indica que la uniformidad de la aplicación asegura la validez de la
prueba. Una vez que se da inicio a la prueba, se prohíbe el ingreso de miembros del
establecimiento y de cualquier persona ajena al proceso. Todo el operativo dura entre uno y dos
días por curso. En el proceso de aplicación participan aproximadamente 12.000 personas,
quienes deben evaluar a más de 500.000 estudiantes.
En gran parte de los Folletos de Orientaciones, además del sitio SIMCE y del actual sitio de la
Agencia, se insiste, en algunos años con bastante detalle, en la importancia de enseñar a los
niños a responder la prueba por medio de las hojas de respuesta disponibles. Se entregan en
algunos casos facsímiles de las hojas de respuesta y se advierte sobre la posibilidad de
obtención de resultados bajos solamente por el hecho de los alumnos no saber cómo contestar
la evaluación. Además, en algunos folletos se agrega que es importante decir a los estudiantes
que deben intentar contestar todas las preguntas, incluso aquellas frente a las cuales se sienten
inseguros, pues las respuestas incorrectas no se consideran en el puntaje final. En relación con
los Folletos de Orientaciones, hay una tendencia de un año a otro a la disminución de
información acerca del contenido y las preguntas de la prueba y un mayor énfasis en aspectos
de administración.
También se indica en múltiples documentos la importancia de que en lo posible asistan todos los
estudiantes el día de la prueba, de modo que no se vea afectada la representatividad de los
resultados y, por lo tanto, su validez. En las Orientaciones de 2008 para 2º medio se indica,
además, que el establecimiento podría quedarse sin resultados en caso de faltar una cantidad
significativa de estudiantes. En el sitio web de la Agencia se indica que si el establecimiento pide
a un alumno no asistir a la prueba, se trata de una falta grave que puede denunciarse al
Departamento Provincial y a la misma Agencia de Calidad y que puede desembocar en que no se
publiquen los resultados del establecimiento.
Como comportamientos deseables, además, se indica que los estudiantes respondan la prueba
seriamente y sin hacer trampa (sitio SIMCE). En el sitio de la Agencia, por otra parte, se indica
qué hacer en casos de inasistencia del los alumnos y del examinador.
 Corrección y cálculo de puntajes
En la mayoría de los documentos analizados lo que se indica acerca de la corrección de las

pruebas es que esta depende del tipo de pregunta. Si se trata de preguntas cerradas se realiza
una corrección automática por medio de un programa computacional. Si se trata de preguntas
abiertas, se trabaja con un equipo de correctores que son capacitados por el SIMCE, quienes
revisan las respuestas de los estudiantes “sujetos a estándares y pautas de corrección
previamente analizadas” (sitio Agencia), que permiten “identificar respuestas correctas e
incorrectas y, en algunos casos, también es posible identificar respuestas parcialmente
correctas” (Orientaciones 2007). El proceso está generalmente a cargo de universidades “que
trabajan bajo la estricta supervisión del SIMCE” (sitio SIMCE). En varias fuentes se aclara
también que las respuestas erróneas no se consideran en el puntaje final.
Hasta el año 2005, los Folletos de Orientaciones del SIMCE incorporaban ejemplos de preguntas
abiertas y respuestas tipo, con los correspondientes criterios de corrección o un comentario
acerca de las razones por las cuales una determinada respuesta se clasificaba en un nivel de
desempeño particular. Posterior a ese año, con excepción de las orientaciones de 4º básico
2009, se encuentran escasos modelos de preguntas abiertas, y cuando esto sucede es
principalmente para orientar el uso de las hojas de respuesta y no para facilitar la comprensión
acerca de cómo se corrigen estas respuestas.
Esta es la única información que se encuentra acerca del proceso de corrección de las
preguntas. En relación con el cálculo de puntajes, se explica que “la escala de puntajes no varía
entre límites mínimos y máximos preestablecidos” (sitio Agencia). El Informe de Resultados
2004 entrega un poco más de detalle al respecto:
“En el modelo IRT, no existen valores mínimos o máximos establecidos de antemano: el cálculo
se inicia asignando un puntaje al resultado promedio de todos los alumnos del país que dieron la
prueba. En el caso de 8° Básico, se asignó el valor 250, al resultado promedio obtenido en 2000,
que fue el año en que se usó la escala por primera vez en este nivel.
Tanto en el año 2000, como en 2004, se utilizó la misma escala, por lo que cualquier aumento de
puntaje estadísticamente significativo entre 2000 y 2004, indica que los alumnos alcanzaron
mayores logros de aprendizaje en 2004 que en 2000. A la inversa, una disminución significativa
de puntaje entre 2000 y 2004, indica un menor nivel de logro en los aprendizajes.”
Además, en el sitio de la Agencia se indica que el puntaje se determina según el nivel de

dificultad de la prueba, es decir, el puntaje máximo obtenido por un estudiante que responda
todo correctamente será mayor si las preguntas de la prueba son más complejas. Por lo tanto, el
puntaje debe analizarse en el contexto de cada prueba. Por otra parte, se aclara en diversos
documentos que el puntaje de los alumnos integrados no se incluye en el promedio del
establecimiento. Finalmente, varias fuentes indican que los puntajes promedio siempre se
calculan en base a los puntajes obtenidos por los estudiantes en las pruebas.
Nada más se indica acerca del cálculo de los puntajes de la prueba. No obstante, se agrega un
mecanismo más a partir de la inclusión de los Niveles de Logro desde 2006, ya que ello implicó la
determinación de puntajes de corte. Hay un documento específico que explica en detalle el
procedimiento de Bookmark empleado para este efecto, el cual se llevó a cabo con el apoyo de
la organización privada estadounidense Educational Testing Service (ETS). Conformados en su

mayoría por profesores de aula, considerando diversas zonas del país y diversos tipos de
dependencia administrativa, se formaron paneles que tuvieron entre 28 y 34 miembros para
cada disciplina evaluada. Se menciona también a los diferentes actores involucrados en los
paneles: “profesores de aula de primer ciclo básico; académicos de universidades; especialistas
de centros de investigación; especialistas de congregaciones religiosas; y especialistas del
Ministerio de Educación” (Documento técnico). Cabe señalar que no se explica cuál fue el rol de
los especialistas de congregaciones religiosas en un panel sobre evaluación por disciplinas.
Los pasos del proceso se explican con claridad: organización de un cuadernillo de preguntas
según orden de dificultad; separación de los paneles en grupos de 5 a 7 integrantes;
determinación de consenso respecto al nivel de desempeño mínimo de un estudiante;
colocación de los separadores o bookmarks en los lugares que marcan límites entre un
desempeño y otro, según el juicio experto de los participantes; discusión y determinación de la
mediana por mesa y del total de las mesas; y fijación del puntaje de corte. Sin embargo, cuando
se pasa de la determinación del juicio profesional a la transformación en un puntaje de corte
definido para cada prueba, lo único que se indica es lo siguiente:
“Una vez obtenido el Puntaje de Corte para el grupo total, se construye un intervalo de
confianza, que se presenta a un Comité Técnico que tiene la tarea de definir el Puntaje de Corte
para cada prueba, ubicándolo dentro del rango recomendado por los especialistas.”
No se sabe quién integra el comité ni bajo qué procedimientos se definieron los puntajes de
corte. Ello resulta complejo si se contrasta con el siguiente relato de Jaime:
“(…) lo que ocurrió en Octavo en Matemáticas, y yo creo que esa es la razón por la cual no se van
a hacer niveles de logro de Enseñanza Media, es que se hacía evidente que los alumnos que
estaban en nivel avanzado hacían lo mínimo del currículum y lo que estaban en nivel intermedio
no hacían ni lo mínimo, entonces era impresentable al país decir eso, y los políticos en ese
momento nos pidieron decir eso de una manera que no se notara tanto, y por otro lado, el
proceso de validación que se hace... bueno, se asignan unos puntos de corte, donde tú dices “ya,
mira, esta descripción corresponde más o menos a este puntaje”, entonces los puntos de corte
que se pusieron arrojaban que había un montón de colegios, no sé, cientos de colegios que
tenían a todos sus alumnos en nivel inicial, es decir, que nadie alcanzaba ni siquiera el nivel
intermedio. Entonces ahí ya entramos en un terreno político y el jefe del SIMCE nos dice en esos
momentos “oye, es que no le podemos decir al país que hay gente... hay colegios, esos colegios
se van a deprimir, van a pensar que están muy mal”, entonces *+, desde nuestro punto de vista,
había que decirlo no más, nosotros no estamos cuidando que... disimular el fracaso de un
proyecto político. Entonces nos dijeron “oye, ¿pero por qué no hacemos otra metodología para
que salgan distintos los resultados?”, y ahí, afortunadamente, la gente que está a cargo de
medición se puso firme y dijo “no poh, está bien que ustedes sean políticos y que igual manipulen
un poco esto, pero nunca tanto”.”
La necesidad de transparencia es, por lo tanto, fundamental para determinar la validez de un

proceso de evaluación, especialmente si este está expuesto, como el fragmento anterior lo
ilustra, a influencias de tipo político.
 Entrega de resultados
Se indica en el sitio SIMCE que los resultados de todos los establecimientos son públicos por ley.
Diversas fuentes analizadas señalan que lo que se entrega son los puntajes promedio de cada
establecimiento, así como el de diversas agrupaciones (p.ej. municipios, regiones) y el promedio
nacional. Se aclara, además, que desde 2006 se entregan resultados con Niveles de Logro,
primero para 4º básico y posteriormente también para 8º básico. En múltiples documentos se
explica también los medios a través de los cuales se entregan los resultados. Estos son:
 Informe de Resultados SIMCE para Docentes y Directivos de cada curso evaluado.

 Informe de Resultados para Padres y Apoderados de cada nivel evaluado, que se envían a
los establecimientos junto con los de Docentes y Directivos. Los directores deben
“distribuirlos tanto a los apoderados cuyos pupilos rindieron las pruebas SIMCE, como al
resto de los apoderados.” (sitio Agencia).
 Un inserto de prensa SIMCE por medio de un diario de circulación nacional, “en el que se
publican los resultados de todos los establecimientos evaluados, junto con los puntajes
promedio de los establecimientos Municipales de cada comuna, de las comunas del país, de
los Departamentos Provinciales (divisiones administrativas del Ministerio de Educación) y de
todas las regiones.” (sitio SIMCE)
 Página Web del SIMCE (www.simce.cl, actualmente dentro del sitio de la Agencia de
Calidad).
En la mayoría de los documentos también se indica la forma de clasificación de los

establecimientos según grupo socioeconómico, en base a tres índices: nivel educativo de los
padres, ingreso del hogar e índice de vulnerabilidad de la escuela. Esto se realiza con el fin de
entregar resultados más contextualizados, puesto que todos los años se observa que los
resultados están altamente determinados por el nivel socioeconómico de los estudiantes, de
manera que sería poco adecuado juzgar al establecimiento fuera de dicho contexto y en
comparación con otras escuelas a las que asisten estudiantes con un mayor capital económico y
cultural. Cabe preguntarse, sin embargo, si cuando se coloca en los informes de resultados los
puntajes de los diversos tipos de establecimiento y grupos socioeconómicos en una misma
tabla, no se promueve quizás la lectura contraria (ver ejemplo infra). La contigüidad de los datos
podría motivar, por ejemplo, la lectura de que los particulares pagados, ligados a los grupos
socioeconómicos más altos, tienen siempre mejores puntajes que los establecimientos que
atienden a grupos socioeconómico medios y bajos, llevando incluso a la interpretación de que
los primeros son de mejor calidad que los segundos, lectura que se contrapone con la intención
declarada de motivar comparaciones solamente entre grupos de similares características.
FIGURA 3. Ejemplo presentación puntajes por tipo de dependencia y

grupo socioeconómico (Informe Resultados 2008)
Los informes nacionales de resultados generalmente incluyen: una introducción acerca de las
características generales del SIMCE; los promedios nacionales y su variación con respecto a la
aplicación anterior para el mismo nivel y curso; promedios regionales, sus variaciones y
diferencias con el promedio nacional; una serie de comparaciones de resultados por género,
estrato socioeconómico y tipo de dependencia; y, hasta 2010, una sección en que se
investigaban factores asociados a un buen desempeño en SIMCE, según factores de éxito
abordados en la literatura internacional. En lo que más varían estos informes es en la cantidad
de información que entregan sobre SIMCE en la introducción y en los niveles de reflexión
pedagógica que promueven en base a los resultados.
La información que se encuentra en los documentos públicos del SIMCE es bastante general y
escasa y deja lagunas importantes acerca del proceso. Esto se observa en el hecho que la
información detallada en las páginas precedentes acerca del proceso SIMCE debió ser
reconstruida y puesta en un mismo lugar a partir de información dispersa en diversas fuentes. Al
respecto, cabe recordar que todos los constructores y correctores entrevistados manifiestan
que hay partes del proceso en las que ellos pierden el rastro de lo que sucede con los ítems que
elaboran o las respuestas que revisan. En ese sentido, incluso para los actores directamente
involucrados en el proceso hay aspectos que constituyen una ‘caja negra’ acerca de la cual no
saben mucho, pero en cuyos filtros, sin embargo, varios de ellos confían.
Como se indicó anteriormente, pese a ser un requerimiento en relación con la validez de un

proceso de evaluación, no existe un documento oficial que concentre los detalles del
procedimiento, con el fin de ayudar a los usuarios a comprender qué interpretaciones de la
prueba son plausibles y cuáles son las limitaciones del instrumento.
5.2. Información acerca del proceso SIMCE en base a entrevistas
A continuación se indica la información acerca del procedimiento del SIMCE obtenida a través
de las entrevistas, específicamente aquellos aspectos que complementan los datos ya expuestos
en base a los documentos. No se consignan, excepto cuando es pertinente, los nombres de los
participantes en este caso, puesto que el relato acerca del procedimiento fue altamente
consistente entre los diferentes entrevistados.
1. Elaboración de marcos de evaluación y tablas de especificaciones:
El primer paso en el proceso consiste en una lectura del marco curricular vigente, en base a la
cual se realiza una operacionalización de los Objetivos Fundamentales y Contenidos Mínimos
con el fin de hacerlos evaluables. Ello implica, por ejemplo, ver qué aspectos son posibles de
evaluar en una prueba de papel y lápiz y de qué manera se puede transformar ciertos aspectos
para que se puedan preguntar por medio de un test. Estos marcos se consideran confidenciales
y son de acceso exclusivo del SIMCE. En la medida en que un determinado currículum se
estabiliza en el tiempo, esta fase del proceso implica menos trabajo.
2. Elaboración de preguntas:
La elaboración de preguntas puede seguir tres modalidades. Pueden ser elaboradas de forma
interna por los profesionales del SIMCE, puede contratarse a elaboradores que quedan bajo la
dirección del SIMCE, o puede externalizarse, ya sea a través del encargo de preguntas al
extranjero (principalmente para Ciencias y Matemática cuando hay ciertas habilidades no
cubiertas por los constructores nacionales) o de la licitación del proceso abierta a la
participación de instituciones académicas nacionales.
En este último caso, la institución a cargo del proceso y el SIMCE componen de manera conjunta
un equipo de constructores, en su mayoría profesores de aula del área correspondiente. En el
caso de Lenguaje y Comunicación, por ejemplo, dicho equipo se conforma por cuatro
constructores, un supervisor del proceso (generalmente de perfil más académico), y un
coordinador institucional, cuya función consiste principalmente en mediar entre ambas
instituciones. Una vez conformado el equipo, hay una reunión de la universidad con SIMCE
donde se dan indicaciones acerca de aquellos contenidos y habilidades que se espera evaluar
y/o de las tareas asociadas a las preguntas que se deben construir, se explican ciertos criterios
de construcción de las preguntas y se establecen acuerdos acerca del proceso en general. Se
inicia el proceso de elaboración de preguntas, que en total contempla alrededor de 8 a 10
semanas. Hay una secuencia de trabajo que se reitera cada semana: los constructores crean
alrededor de 10 preguntas semanales, el supervisor las revisa, luego se realiza una reunión del
equipo constructor donde se revisan y modifican nuevamente las preguntas, y finalmente hay
una reunión entre el equipo y los profesionales del SIMCE, donde se realiza un nuevo proceso de
corrección y selección de preguntas.
Además, se realiza un proceso de consulta a expertos, algunos de ellos externos a SIMCE,

quienes realizan un análisis crítico de las preguntas, a partir del cual hay un nuevo proceso de
corrección. Una vez terminado el proceso, el equipo del SIMCE decide si las preguntas creadas
ese año se eliminan, van a una prueba experimental o se dejan en un banco de preguntas para
utilizarlas en el futuro.
3. Construcción de pruebas experimentales:
Antes de la prueba definitiva, las pruebas son piloteadas con una muestra representativa de
estudiantes. Se construyen diversos cuadernillos teniendo en cuenta que se mantenga la
cobertura y el grado de dificultad de las preguntas del año anterior, con el fin de resguardar que
los resultados sean comparables en el tiempo. Una vez que se tienen los resultados de esta
prueba, se realiza un análisis psicométrico que contempla detectar los índices de discriminación,
dificultad y azar de los ítems, así como la posibilidad de sesgo urbano/rural y de género. Así, se
determina la calidad métrica de los ítems, se descartan aquellos que no funcionan, otros se
dejan en el banco de preguntas para modificarlos y volver a experimentarlos en el futuro y, en
casos excepcionales, se modifican o se agregan ítems si existe riesgo en relación con la
cobertura de la prueba.
4. Elaboración de la prueba censal:
Sobre la base del análisis psicométrico, se construyen las pruebas definitivas. Como ya se indicó
en base a los documentos, los estudiantes responden varias formas, es decir, no todas las
pruebas son iguales y por ello no resulta factible entregar resultados individuales, puesto que no
todos son evaluados en los mismos contenidos y habilidades. Esto es, solamente a través de
varios cuadernillos diferentes se logra cubrir el marco de evaluación y entregar los resultados
del establecimiento completo para un área en específico. Evaluar todo el marco por alumno
implicaría una prueba extremadamente extensa y, por lo tanto, impracticable.
5. Aplicación de la prueba:
Este proceso también se externaliza a través de licitación. En este caso, prima el criterio
logístico, es decir, que la institución sea capaz de hacerse cargo de un proceso de alcance
nacional. Ellos se encargan de contratar a los examinadores y capacitarlos, de aplicar las pruebas
y de hacerlas llegar de regreso al SIMCE. El MINEDUC solamente se encarga del material de
apoyo para la capacitación.
Junto con las pruebas, en esta fase se aplican los cuestionarios para padres y apoderados,
docentes y estudiantes, con el fin de obtener información adicional que posibilite otros análisis
de los resultados.
6. Corrección de las pruebas y cálculo de puntaje:
La captura de datos y la corrección de las pruebas también son externas. El SIMCE solamente
realiza chequeos para asegurar la precisión de los datos recibidos.
Las preguntas abiertas son corregidas también por medio de una licitación. La institución a cargo
del proceso recibe del SIMCE las pautas de corrección de las preguntas, las que contienen una
serie de indicadores de presencia/ausencia o que requieren puntuación. Estas pautas han sido
elaboradas por los profesionales del SIMCE. Tras la aplicación de la prueba, son revisadas a la luz
de la evidencia obtenida y pasan por un nuevo proceso de revisión en conjunto con los
supervisores de corrección de la institución que se adjudicó el proceso.
La corrección propiamente tal se inicia con la selección de los correctores, quienes reciben una
capacitación en la pauta por parte de los supervisores de corrección y, al parecer, de miembros
del equipo SIMCE, aunque su participación fue reconocida solamente por algunos entrevistados.
Dicha capacitación contempla, en algunas aplicaciones, una explicación más general del SIMCE y
su importancia y propósitos, seguida por una explicación de la pauta a utilizar y, en todos los
casos, por un ejercicio de aplicación práctica de la pauta donde es posible resolver dudas. En el
caso de Lenguaje y Comunicación hay, además, un momento de marcha blanca que asegura la
calibración del juicio de todos los correctores y los ayuda a adquirir agilidad en el proceso. Los
entrevistados del área Matemática declararon no haber pasado por una marcha blanca, sino
haber comenzado inmediatamente a corregir. Luego, se inicia la corrección propiamente tal, por
medio de un software con las preguntas escaneadas, que permite revisar en pantalla,
controlando a través de correcciones dobles por ítem la calibración de los correctores, así como
su productividad.
Existe, en general, bastante confusión en los actores del proceso acerca de la forma en que las
preguntas abiertas se incluyen en la corrección total de la prueba y en el puntaje final. Los
entrevistados que tenían más claridad al respecto (Rebeca y Josefina) indicaron que el grado de
dificultad se asigna de la misma manera que las preguntas cerradas, por lo que no depende del
tipo de pregunta, sino de su grado de dificultad. Junto con ello, otra entrevistada aclara que no
todos los años se incluyen en el puntaje final. Hay ocasiones en que se decide dejar las
preguntas abiertas fuera del puntaje o incluir solamente algunas.
Con todos los datos de regreso en el SIMCE, estos se limpian y verifican, se realiza un nuevo
análisis psicométrico, se calculan los puntajes y se realizan los análisis correspondientes
(resultados por género, dependencia, nivel socioeconómico, tendencia).
7. Publicación de resultados:
Finalmente, se procede a llenar con la información correspondiente las maquetas pre-diseñadas

de los documentos que reportan los resultados. Antes del comunicado de prensa, se realiza una
reunión con las cabezas del MINEDUC para preparar su respuesta política a los resultados de la
evaluación. Junto con ello, hay una etapa final en la que los establecimientos llaman para
realizar consultas y reclamos, y los medios se comunican con el MINEDUC para pedir datos,
ejemplos de preguntas y rankings. Josefina indica que, en lugar de dejar a los medios elaborar
sus propios rankings, prefieren entregarles uno hecho por el SIMCE, más preciso y
contextualizado. Esta última fase estaba dentro del SIMCE hasta este año, en donde se separa
debido a la restructuración asociada a la creación de la Agencia de Calidad.
Estos son, a grandes rasgos, los pasos y procedimientos que contempla el proceso de evaluación
de SIMCE, al menos en su ideal teórico (ver síntesis en Figura 4). Hay una serie de detalles en la
forma en que se lleva a cabo cada fase que merecen una mirada más detenida desde el punto
de vista de la validez. No obstante, estos aspectos se incluyen en la siguiente sección, como
parte del análisis crítico de esta evaluación.
FIGURA 4. Síntesis etapas y actores procedimiento SIMCE.

6. RESULTADOS DE LA INVESTIGACIÓN: ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SIMCE
6.1. Propósitos
En el presente estudio se realizó una síntesis de todos los propósitos asignados a la prueba tanto
en los documentos como en las entrevistas, intentando agrupar, dentro de lo posible, aquellos
que fuesen afines. Bajo ese criterio amplio y flexible, se detectaron 17 propósitos diferentes,
que se indican a continuación:
1. Mejorar y monitorear/evaluar calidad y equidad del sistema educativo chileno.

2. Evaluar, medir, diagnosticar resultados de aprendizaje, logro/cumplimiento de los OF-
CMO o cuánto saben los alumnos.
3. Orientar, informar, estructurar y evaluar políticas educativas.
4. Medir y reportar variaciones/evolución en el logro de aprendizaje de los estudiantes.
5. Motivar la reflexión pedagógica, complementar las evaluaciones de la escuela y servir de
base para la toma de decisiones pedagógicas.
6. Informar/rendir cuentas/retroalimentar al MINEDUC, a los padres y apoderados y al
sistema en general acerca de los resultados de aprendizaje de los estudiantes.
7. Comparar/diferenciar establecimientos entre sí, generar rankings, ordenar/clasificar
escuelas.
8. Asignar incentivos para escuelas de buen rendimiento y apoyo para las escuelas de bajo
rendimiento.
9. Clasificar a los estudiantes según nivel de dominio o logro, en base a información sobre
conocimientos y habilidades de distinta complejidad.
10. Evaluar iniciativas/intervenciones a nivel de establecimiento.
11. Servir de apoyo a definición de metas y compromisos a futuro a nivel de
establecimiento.
12. Validar a los gobiernos frente a la opinión pública (propósito no declarado).
13. Regular la oferta y la demanda en educación.
14. Controlar a los colegios y los profesores (propósito no declarado).
15. Medir comprensión de lectura.
16. Medir razonamiento matemático.
17. Evaluar un nivel básico de algunos aprendizajes de algunas áreas del currículum.
Cuatro entrevistados, todos en roles internos de coordinación en el SIMCE por varios años,
coinciden en agrupar los múltiples propósitos del SIMCE en dos grandes ‘macro-propósitos’: la
rendición de cuentas y el apoyo a las prácticas pedagógicas. Dos de ellos ven estos propósitos
en tensión permanente e indican que se han tomado medidas para cumplir con ambos. Para
Arturo, no obstante, es el propósito de rendición de cuentas el que ha predominado en general,
mientras que para Josefina el énfasis varía según la orientación de la política. Frente a la
pregunta por la posibilidad de reconciliar ambos propósitos, Jaime indica:
“Yo, cuando entré al SIMCE, creía que sí. Francamente ahora creo que un propósito se come al
otro, porque es tan fuerte el peso que tiene [] el hecho de que te vayan a cerrar el colegio o que
los profesores [] los ponen a hacer ensayos SIMCE en todas las clases, que algunos colegios
reducen las clases de Arte, Educación Física, lo que sea, para tener más Matemáticas y
Castellano, y [] no tener así en general, sino que tener preparación para el SIMCE para eso, que
yo creo que ese efecto social que tiene el SIMCE anula el otro; o sea, yo no he conocido a nadie
en todos estos años que use los resultados del SIMCE y que diferencie ambos aspectos, o sea, el
SIMCE se ha teñido de ese manto, el cual para los colegios es como algo negativo y cuesta
desmantelarlo, entonces yo creo que ya no son separables.”
Solamente Rebeca los entiende como compatibles. Explica:
“Me parece que son compatibles de todas maneras (…), porque creo que, en la medida que
entreguemos más información de en qué nivel de desarrollo están los estudiantes respecto de
cada habilidad o contenido disciplinar, y en la medida que los profesores, los directivos puedan
hacerse cargo de eso y considerar esa información en su planificación anual docente [] y
pedagógica, vamos a ir mejorando, yo estoy convencida de eso, estoy convencida (…).”
Desde su perspectiva, al entregar mayor información sobre el aprendizaje de los estudiantes, los
profesores tienen mayores opciones de incorporar información al mejoramiento de su práctica.
Señala a continuación, sin embargo, que se necesitan otros indicadores de calidad educativa
más allá del SIMCE para, por ejemplo, realizar la actual ordenación de colegios requerida por
ley, en la cual el SIMCE tiene un porcentaje de importancia excesivamente alto, según la
entrevistada.
6.2. Constructo y contenido
 Límites del constructo y representatividad del contenido
En base a los documentos disponibles sobre SIMCE, un primer aspecto que emerge como
relevante se relaciona con los límites del constructo que se evalúa en SIMCE y, en base a ello,
qué es lo que finalmente se puede interpretar o no a partir de sus resultados. El primer rótulo
que se ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de
la educación en Chile. Ninguno de los documentos del SIMCE ofrece una definición concreta de
este constructo. El intento de modificación realizado en los últimos años, donde la sigla SIMCE
se desglosa como Sistema Nacional de Evaluación de Logros de Aprendizaje (sitio Agencia y
Orientaciones 2012) no contribuye a aclarar el constructo y contiene el riesgo de generar
interpretaciones basadas en equivalencias no válidas.
Los entrevistados involucrados en el proceso de SIMCE, por su parte, concuerdan en que lo que
evalúa el SIMCE no es calidad de la educación, al menos no de la forma en que su nombre
pareciera sugerirlo, sino más bien un espectro limitado de contenidos y habilidades de una
disciplina específica. Todos los entrevistados que mencionan el propósito de mejorar la calidad y
equidad de la educación, lo hacen para indicar que se trata de un propósito declarado, pero no
logrado del SIMCE. Alejandra, por ejemplo, percibe que el efecto ha sido el inverso:
“Entonces, ¿cuál es… qué entendemos por calidad? Habría que definir eso, ¿qué es la calidad de
la educación? Si tú estás entendiendo calidad como números, bueno, sí, mucha calidad, en
realidad, pero si la entiendes como algo más valórico, que también son habilidades, y también
son aprendizajes valóricos, actitudinales, que aquí no se están midiendo, aparte, no se están
midiendo. Entonces estamos mal (…). SIMCE no está colaborando con eso, todo lo contrario, está
contribuyendo a seguir segregando a la sociedad chilena, a seguir estableciendo esta
militarización de la educación, que no sirve… no se educa en valores de convivencia, en valores
de vínculos con el medio. Lo que importa es rendir una prueba (…) eso es lo que importa, eso es
lo que importa. No es lo que está pasando en el aula, no el esfuerzo que está haciendo el pobre
profesor para poder hacer que no le… que los niños se motiven. Entonces, en definitiva, creo que
el concepto SIMCE está fallando en términos de procedimiento, de cómo se hace, cómo se lleva a
cabo, y en términos de efectos también, porque ¿qué produce el SIMCE? Todo lo que provoca
alrededor, pero, sobre todo, tiene un error conceptual ahí… no un error conceptual, tiene una
indefinición: ¿qué es lo que es la calidad? Y si no sabes tú, no tienes definido lo que es la calidad,
no puedes estar midiendo la calidad, no puedes tener un sistema para medir la calidad. Me
parece que eso es una contradicción.”
La percepción de los docentes entrevistados coincide con esta apreciación. Todos ellos indican
que el SIMCE distorsiona la práctica de las escuelas al centrar la atención y el uso del tiempo en
las asignaturas evaluadas por el SIMCE; al modificar las prácticas de evaluación en función de lo
que ellos consideran es el modelo SIMCE; y al reducir el currículum a las áreas evaluadas por la
prueba y a aquellas habilidades y contenidos evaluables por medio de una prueba de lápiz y
papel (ver sección 6.4). La distorsión de la práctica sucede por la exposición pública de los
resultados y su uso para establecer comparaciones y rankings entre escuelas, lo que provoca
que las escuelas se vean presionadas a mejorar el puntaje SIMCE por cualquier medio. Ello
podría ir en contra del propósito intencionado de mejorar la calidad y equidad del sistema.
Los que sí consideran que el SIMCE evalúa calidad, aclaran que lo hace en términos de una
dimensión de la calidad entre muchas posibles, ligada en este caso a los resultados de
aprendizaje.
Junto con el concepto de calidad, todos los documentos del SIMCE indican que se trata de una
evaluación del currículum vigente para diversas áreas de aprendizaje. El primer punto a
considerar al respecto es si se puede establecer una equivalencia entre calidad de la educación Y
nivel de aprendizaje del currículum vigente y, en ese sentido, si se trata de una delimitación
adecuada o no del concepto de calidad.
Además de lo anterior, es importante tener en cuenta que se evalúa solamente el currículum de

ciertas disciplinas, principalmente: Lenguaje y Comunicación, Educación Matemática, Historia,
Geografía y Ciencias Sociales, y Ciencias Naturales, áreas a las que recientemente se agregan
Educación Física e Inglés. Por lo tanto, el constructo inicial de calidad se reduce primero a
evaluación del currículum vigente y, en segundo lugar, a la evaluación del currículum de 4 áreas
de aprendizaje. Las áreas relacionadas con el arte y la educación tecnológica, por lo tanto,
quedan aquí excluidas del concepto de calidad del sistema educativo. Las consecuencias que ello
genera en términos de reducción del currículum se indican en la sección 6.4.
El constructo se reduce más todavía cuando en la mayoría de los documentos disponibles se

indica que el SIMCE solamente incluye aquellos ámbitos de aprendizaje que pueden evaluarse
por medio de una prueba de lápiz y papel. Ello excluye áreas como la comunicación oral, la
experimentación científica, el cálculo mental, por mencionar únicamente algunas.
Coincidentemente, varios entrevistados observan que lo que en realidad se evalúa en el SIMCE
es finalmente una versión bastante reducida, rutinaria y básica del currículum de cada área. Por
ejemplo, Ximena indica:
“(…) yo creo que, finalmente, el SIMCE *+ evalúa un nivel muy muy muy básico de escritura y de
comprensión de lectura, pero muy básico. (…) yo creo que... o sea, habilidades de todo tipo,
habilidades complejas y todo lo demás yo creo que no lo evalúa bien y tampoco evalúa bien la
lectura comprensiva. Si lo hace, lo hace a un nivel muy muy básico, y muy mínimo.”
De manera similar, Pedro explica:
“SIMCE termina evaluando, se termina parando desde la posición más tradicional en medición,
que es evaluar lo que existe, lo que, básicamente, lo que se puede medir []. Entonces, lo que se
puede medir son reacciones, y las reacciones a lectura, las reacciones a las preguntas, las
reacciones... y lo que se puede obtener en reacción en un plazo breve, cuestiones muy
observables, por ejemplo, la presencia de determinados elementos en una pregunta, que
permitan obtener rápidamente una inferencia o una conclusión unívoca, respuestas... respuestas
únicas, en un contexto curricular... (…) donde, por ejemplo, se propicia la creación, creación que
no se puede medir en SIMCE.”
Alicia, por su parte, afirma:
“Esa era una de las peleas que teníamos nosotros también adentro [del SIMCE], que decíamos
que las pruebas de selección múltiple no estaban considerando todos los desempeños que los
estudiantes debieran mostrar en una prueba de esta envergadura. Entonces, en ese sentido, yo
diría que sí es válido, con la estructura que tiene para indicadores o para objetivos de evaluación,
no para (…) objetivos de aprendizaje que no son evaluables con pruebas de selección múltiple
(…). En la misma página del SIMCE dice que la misión [] del SIMCE es evaluar la calidad de la
educación, y era como cuestionable qué es la calidad de la educación si estamos evaluando solo
aquello que se puede preguntar en preguntas de selección múltiple, o sea, que dónde quedaba el
argumentar, por ejemplo, dónde quedaba el demostrar en Matemáticas, dónde quedaba el uso
de la calculadora que no la usamos en una prueba de SIMCE, dónde quedaba el cálculo mental
(…) entonces decir que calidad es solo aquello que se puede evaluar en una prueba de selección
múltiple es como cuestionable.”
Los fragmentos anteriores ilustran la opinión de gran parte de los entrevistados, quienes
perciben que, por una parte, no corresponde hablar del SIMCE como evaluación de calidad y,
por otra, que lo que logra evaluar del currículum no es lo más complejo ni lo más relevante de
cada disciplina.
Además, de acuerdo con el testimonio de algunos participantes, las preguntas que tienden a
comportarse mejor en el proceso de validación psicométrica son aquellas de formulación más
simple y que están ligadas a habilidades más básicas (ver sección 6.5), lo que refuerza la
existencia de un filtro hacia lo más elemental de cada área. En la misma línea, algunos observan
que, tras el análisis psicométrico, hay contenidos completos que quedan sin cubrir debido a que
ninguna pregunta asociada a dicho contenido logra pasar el pilotaje, como sucede con el
Teorema de Pitágoras, según Alicia. Al ser consultado por este aspecto, el Profesor David
Andrich indica que no le parece correcto simplemente excluir el contenido de la prueba, y
entrega las siguientes razones:
“Pareciera que son los ítems que evalúan el contenido los que no están pasando el análisis
psicométrico. Quizás necesitan revisarse. Si comienzas con sets de ítems que debieran ir juntos y
evaluar algo importante, y algunos sub-conjuntos de ítems no están funcionando, entonces es
necesario tener una explicación. Las estadísticas pueden decirte dónde está el problema, pero no
pueden explicar el problema. Puede estar en los ítems, puede estar en lo que se asume que se
enseña, y así sucesivamente.”
Junto con la exclusión de contenidos, se incluye dentro de un mismo constructo rasgos que no
se comportan de manera similar al aplicarse la prueba, como es el caso de geometría, que no se
correlaciona con el desempeño de los alumnos en números y álgebra, según Jaime. Anastasi y
Urbina (1997) explican que para que diferentes factores (p. ej. números, álgebra, geometría)
puedan formar parte de un mismo factor más amplio (p. ej. evaluación de razonamiento
matemático), debe existir un alto nivel de correlación en el comportamiento de dichos factores
(lo que denominan validez factorial). Ello significa que geometría no debería formar parte del
mismo constructo que números y álgebra, sino ser evaluados aparte, como dos rasgos
diferentes. De lo contrario, se puede llegar a concluir que un alto puntaje SIMCE en Matemática
implica que los estudiantes tienen buen desempeño en todos los ejes del área, cuando en
realidad esto estaría excluyendo los aprendizajes de geometría. El Profesor David Andrich, al
preguntársele por este aspecto, concuerda en señalar que:
“Pareciera que cada uno debiera ser un test diferente. Sin embargo, nuevamente ello depende
del currículum y de la intención. No obstante, si hay baja correlación, entonces no es solamente
un poco extraño, sino que significa que un puntaje no puede resumir el conocimiento de un
estudiante. El principio conceptual fundamental de utilizar un único test y, por consiguiente, un
mismo puntaje es si el puntaje único resume el perfil de la mayoría de los estudiantes. Si no lo
hace, entonces se necesita más de un test. Sin embargo, la correlación se ve afectada por las
prácticas de enseñanza al igual que por el test.”
Sobre la base de estos datos, entonces, es posible indicar que los límites del constructo se
reducen aun más tras el proceso de validación. Si a ello se agregan los ejemplos de preguntas en
las que se asigna una habilidad más compleja que la que la pregunta realmente evalúa (ver
análisis de preguntas infra), entonces nos encontramos con una prueba que tiende a evaluar las
habilidades más básicas del currículum de ciertas áreas. La siguiente figura ilustra la creciente
reducción del constructo evaluado por el SIMCE en base a la evidencia de investigación.
Aprendizaje del Aprendizajes

CALIDAD currículum
Aprendizaje en
4 áreas del
posibles de
evaluar en
Habilidades
más básicas
vigente currículum pruebas de del
currículum
lapiz y papel
FIGURA 5. Reducción de los límites del constructo a evaluar en SIMCE en base a evidencia
 Variaciones del constructo de un año a otro
Uno de los propósitos del SIMCE consiste en establecer comparaciones en el desempeño de las
escuelas y del país de un año a otro. Ello requiere necesariamente que cada año se evalúe un
mismo constructo, es decir, que la definición teórica de aquello que se evalúa sea la misma y
que sus límites se mantengan. No obstante, a partir de los documentos analizados, surgen una
serie de aspectos problemáticos que podrían poner en cuestión la estabilidad del constructo en
el tiempo.
Un primer aspecto se relaciona con los cambios curriculares. El SIMCE evalúa los aprendizajes
logrados en torno al currículum vigente. Si el currículum se entiende como susceptible de
modificación, entonces no existe seguridad acerca de la estabilidad del constructo a evaluar a lo
largo del tiempo. En los documentos se registran dos cambios de este tipo durante los últimos
años. Las Orientaciones para 4º básico 2004 indican:
“Las pruebas SIMCE 8° Básico 2004 marcan un hito importante, puesto que es la primera vez
que se evaluarán los Objetivos Fundamentales y Contenidos Mínimos Obligatorios (OF-CMO)
establecidos en la Reforma Curricular de este nivel.”
Ello significa que durante los años previos a 2004 lo que se estaba evaluando correspondía a un
currículum anterior. Si bien en el Informe de Resultados correspondiente a ese año se realiza
una pequeña advertencia al respecto, no se considera la posibilidad de que establecer
comparaciones entre las evaluaciones anteriores y posteriores a 2004 sea inadecuado, pues los
constructos a evaluar son diferentes. Las comparaciones se establecen como en cualquier otro
período. De forma similar, desde 2009 se comienza a evaluar solamente aquellos OF y CMO que
se mantendrían en el Ajuste Curricular publicado ese año, primero para 8º básico y desde 2011
también para 4º básico. Habría que preguntar, entonces, qué tan equivalentes son el Marco
Curricular y su Ajuste, qué pasa con aquellos ámbitos que no se evalúan desde 2009 y si la
comparabilidad de los resultados no se ve afectada por un nuevo cambio de constructo. Los
Informes de Resultados, en este caso, informan acerca de la modificación, sin indicar nada con
respecto a las consecuencias que ello puede tener para la comparabilidad y la interpretación de
los resultados. A estos cambios detectados en los documentos hay que agregar las Bases
Curriculares publicadas en 2012 y, además, los Niveles de Logro, que se incorporan desde 2006
como un referente más que, según Josefina, lleva a realizar cambios como la inclusión de
habilidades más complejas que no se evaluaban en aplicaciones anteriores.
Al preguntar a los miembros del equipo SIMCE por estos cambios curriculares, todos coinciden
en indicar que la solución es el establecimiento de un período de transición en el cual se trabaja
con las intersecciones entre ambos currículos, es decir, con aquellos elementos comunes entre
ambos marcos. No obstante, difieren en su grado de convencimiento respecto de este
procedimiento. Para la mayoría se trata de un medio adecuado de asegurar la comparabilidad
de contenido en el tiempo, sin embargo, Josefina y Sofía coinciden en señalar que este proceso
resultó mucho más complejo en las áreas de Ciencias, Ciencias Sociales y Matemática, puesto
que hubo contenidos que, por ejemplo, cambiaron de un ciclo a otro, por lo que ya no podían
evaluarse en el SIMCE correspondiente al ciclo al que anteriormente pertenecían. Consultado
sobre los cambios curriculares y cómo ello incide en la comparabilidad, el Profesor Andrich
indica:
“Por supuesto que los cambios en el currículum nacional (…) afectarán la comparabilidad de los
resultados de un año a otro. Una forma de enfrentarlo es (…) evaluar lo que es común. Sin
embargo, lo que es común puede tener diferentes ubicaciones en el tiempo (…) en los diferentes
currículos, por lo que esto debe tomarse en cuenta. Si la ubicación en el tiempo es la misma (…),
entonces es posible en principio utilizar esta evaluación de aspectos comunes para colocar las
evaluaciones completas de cada currículum en la misma escala. Esto debe realizarse con
cuidado.”
Por lo tanto, si existen contenidos que cambian de ciclo, entonces la solución de las
intersecciones podría considerarse cuestionable, pero se requiere un análisis más detenido para
llegar a conclusiones más definitivas. Junto con lo anterior, hay divergencias en relación con la
comparabilidad del currículum pre-2012 y las Bases Curriculares. Para algunos, como Rebeca, las
diferencias de enfoque son mínimas, mientras que para Alicia se trata de un cambio
paradigmático en la disciplina.
Algunos entrevistados confían en que los procesos de equating aseguran la comparabilidad de

las pruebas de un año a otro. No obstante, hay que recordar que este procedimiento
psicométrico ajusta por diferencias en la dificultad de los tests y no por diferencias de contenido
(Dorans et al., 2010). Según el Profesor Andrich, si lo que se espera de la prueba es evaluar
crecimiento en el tiempo, esto debería realizarse usualmente en relación con diferentes
evaluaciones del mismo constructo. Por lo tanto, antes de seguir estableciendo comparaciones y
tendencias en el tiempo, resulta crucial realizar un estudio curricular y de los marcos de
evaluación, que garantice que se están comparando constructos equivalentes, más allá de los
grados de dificultad.
En segundo lugar, además de los cambios curriculares, es importante revisar las diferencias de
constructo por subsector que se encuentran de un año a otro en la sección de los documentos
de Orientaciones y los Informes de Resultados referida a los conocimientos y habilidades a
evaluar en cada área. Esto resulta fundamental en términos de validez de constructo, puesto
que se trata de una de las escasas secciones de los documentos del SIMCE donde se puede
detectar la teoría disciplinaria subyacente a cada prueba. En las tablas 6 y 7 se transcribe, a
modo de ejemplo, esta sección para las diferentes aplicaciones de la prueba SIMCE en 8º básico,
tanto en Lenguaje y Comunicación como en Matemática (ver Tablas 6 y 7).
En el caso de Lenguaje y Comunicación, hay un cambio significativo de constructo, puesto que

desde 2007 la producción escrita queda excluida de la prueba, con lo que el constructo utilizado
hasta 2004 reduce sus límites de forma considerable al contemplar solamente la comprensión
lectora. En este sentido, no queda claro hasta qué punto pueden compararse los puntajes de
2004 con los de 2007 en adelante, puesto que de los dos componentes centrales del área de
Lenguaje y Comunicación solamente se deja uno. Junto con ello, la aplicación de contenidos
curriculares, que se consideraba como parte del constructo a evaluar en las pruebas de 2004 y
2007, desaparece a partir de 2009, quedando únicamente la dimensión de habilidades de
comprensión lectora. Se hace necesario preguntar hasta qué punto, por ejemplo, podrían estos
cambios estar afectando la dificultad general de la prueba y, en ese sentido, estar afectando los
resultados y su interpretación.
Hay, además, un cambio en la conceptualización de la comprensión global y local de un texto,

presentándose una definición poco precisa de estas en 2007, puesto que se indica que la
primera alude a párrafos y textos completos, mientras la segunda se refiere a palabras y

oraciones. Esta conceptualización ignora o, al menos, simplifica la relación entre ambos ámbitos,
puesto que se trata de una relación semántica y discursiva, y no simplemente ligada a unidades
de análisis mayores o menores. El tipo de pregunta que podría emerger de cada una de estas
concepciones sería completamente diferente. Las dimensiones local y global desaparecen desde
2009, con lo que solamente las dimensiones de extraer información y realizar inferencias e
interpretaciones acerca del texto se mantienen relativamente estables de un año a otro; no así
la de reflexión acerca del texto, que se incorpora solamente desde 2009, al igual que el detalle
sobre las características de los textos que se encuentran en la prueba. También se observan
variaciones acerca de los tipos de textos que se incluyen en la prueba, tipología que solamente
se mantiene estable entre 2009 y 2011. Por lo tanto, existen a nivel de constructo dudas
razonables acerca de la comparabilidad entre los resultados de 2004 y 2007, y de 2007 y 2009.
Algo similar ocurre con Educación Matemática para el mismo nivel, aun cuando las discrepancias
de un año a otro son menores que en el caso de Lenguaje y Comunicación. La descripción de los
contenidos a evaluar en 2004 es exactamente igual a la publicada en 2007. No obstante, en
2009 se observa, por una parte, un cambio en la denominación de los ejes a evaluar. Por
ejemplo, tratamiento de la información se reemplaza por datos y azar, denominaciones que no
necesariamente sugieren los mismos contenidos. Pese a ello, los contenidos de 2007 se
mantienen en este nuevo eje de 2009, agregándose algunos aspectos nuevos. Además, por
primera vez en 2009 se establece una división entre el conocimiento conceptual de cada eje y su
aplicación, lo que sugiere que pueden haber existido en esa aplicación preguntas de contenido
puro. Junto con ello, resolución de problemas deja de presentarse como un eje transversal y se
lo integra en cada uno de los ejes, quizás con la idea de explicar cómo se integra en cada área.
Finalmente, en 2011 hay contenidos específicos que se agregan y que no estaban en años
anteriores: potencias de base natural y exponente entero; calcular la longitud de la
circunferencia y el área del círculo; el teorema de Pitágoras. Por último, se amplía el uso de
tablas y gráficos más allá de los medios de comunicación masiva, que era el énfasis que se había
dado en años anteriores. La situación en 4º básico y 2º medio no es muy diferente a la ya
descrita para 8º, de manera que los resultados aquí expuestos pueden extrapolarse a dichos
niveles.
TABLA 6. Comparación contenidos y habilidades a evaluar en el SIMCE de 8º básico Lenguaje y

Comunicación según los Folletos de Orientaciones*
2004 2007 2009 2011
La evaluación considerará dos Este año, la prueba de El subsector de Lenguaje y El sector de Lenguaje y
dimensiones: comprensión de Lenguaje y Comunicación se Comunicación se evaluará el Comunicación se evaluará en
lectura y producción de concentrará en la dimensión año 2009 a través de una 2011 a través de una prueba
textos escritos. de comprensión de lectura. La prueba de lectura que medirá de comprensión de lectura. En
La comprensión de lectura se dimensión de producción las distintas habilidades ella se evaluarán las siguientes
evaluará considerando escrita será evaluada en el relacionadas con la habilidades y tareas
habilidades generales de futuro mediante una prueba comprensión lectora. Para específicas de lectura:
comprensión del contenido especialmente diseñada para esto, se incluirán preguntas Extraer información: extraer
de los textos, como también la esto. donde los estudiantes deben información ubicada en
aplicación de contenidos La dimensión de comprensión extraer información ubicada diferentes partes del texto;
curriculares que vayan en de lectura se evaluará en diferentes partes del por ejemplo, en el cuerpo del
beneficio de la comprensión considerando dos tipos de texto, por ejemplo, en una texto o en una nota a pie de
de los mismos. Ambas tareas tareas: comprensión de nota al pie de página o página extraer información a
tendrán dos niveles de contenidos textuales y realizar inferencias e partir de la combinación de
aplicación: local y global. Esto aplicación de contenidos interpretaciones, por dos o más datos presentes en
implica tanto la comprensión curriculares que favorecen la ejemplo, inferir el sentimiento el texto.
de palabras y oraciones, comprensión de los textos. de un personaje. También se Interpretar y relacionar
como la de fragmentos, Ambos tipos de tareas serán incluirán, preguntas que información: establecer
párrafos y textos completos. evaluados considerando dos requieren reflexionar acerca distintos tipos de relaciones
En ambos niveles se evaluará, niveles de aplicación: local y del contenido y de la forma en el texto (causa, efecto,
entre otros aspectos, la global. El nivel de aplicación del texto, por ejemplo, finalidad, concesión);
capacidad de los alumnos para local implica el trabajo con reconocer la relación entre las interpretar acontecimientos y
identificar información palabras y oraciones, y el imágenes presentadas y la acciones de personajes a
explícita, inferir significados y nivel de aplicación global, con información verbal. Para partir del sentido global del
sintetizar información. En párrafos y textos completos. evaluar cada una de estas texto; interpretar lenguaje
cuanto a la aplicación de En comprensión de habilidades se incluirán figurado en textos en que
contenidos curriculares, se contenidos textuales, se preguntas de diversos grados predomina ese tipo de
evaluará la capacidad de plantearán tareas específicas de dificultad. lenguaje.
reconocer las partes de la como identificar información Las habilidades de Reflexionar sobre el texto:
oración; identificar la función explícita, sintetizar comprensión de lectura serán reconocer la relación entre las
gramatical de las palabras; información o realizar evaluadas mediante imágenes o recursos gráficos y
reconocer elementos básicos inferencias a partir de ella, en preguntas referidas a diversos la información verbal; emitir
de la teoría de la diferentes tipos de texto; tipos de textos, tanto juicios o evaluaciones acerca
comunicación (como emisor, además de la realización de literarios como no literarios. de la lectura; aplicar la lectura
receptor o mensaje); y tener tareas de interpretación en Entre los primeros se incluirán a situaciones reales; opinar
conocimientos sobre las textos literarios. En aplicación cuentos, poemas y textos sobre los contenidos de los
características de los géneros de contenidos curriculares, se dramáticos. Entre los textos leídos.
literarios y de los distintos plantearán tareas como segundos, se incluirán Las habilidades de
tipos de textos. reconocer funciones noticias, instrucciones, comprensión lectora se
La comprensión de lectura se gramaticales de las palabras, artículos de opinión, afiches, evaluarán a partir de la lectura
evaluará mediante preguntas identificar algunos elementos entre otros. Los textos no de diversos tipos de textos
de selección múltiple, básicos de la teoría de la literarios generalmente literarios y no literarios. Entre
referidas a diversos tipos de comunicación (como el incorporarán elementos los textos literarios, se
textos, literarios y no concepto de “emisor” y sus complementarios como utilizarán cuentos, poemas y
literarios. Entre los textos características) y reconocer cuadros, gráficos, tablas, textos dramáticos. Los textos
literarios se seleccionarán características de los grandes notas al pie o ilustraciones. no literarios incluirán
principalmente textos géneros literarios y de Los textos podrán ser noticias, textos
narrativos, y entre los no diversos tipos de textos. completos o fragmentos, y instruccionales, artículos de
literarios, se seleccionarán Estas tareas de comprensión referirse a situaciones reales opinión y afiches, entre otros.
textos informativos, de lectura serán evaluadas o imaginarias. Asimismo, sus Los textos no literarios
instruccionales y persuasivos. mediante preguntas referidas contenidos serán variados en generalmente incorporarán
La producción de textos, por a distintos tipos de textos, temas y complejidad, y harán elementos complementarios,
su parte, se evaluará tanto literarios como no referencia a diversos como cuadros, gráficos,
mediante preguntas abiertas o literarios. Entre los primeros, entornos culturales. tablas, notas al pie o
de desarrollo que se deben se seleccionarán textos ilustraciones.
contestar por escrito, narrativos y líricos; entre los Los textos de la prueba
generadas a partir de segundos, textos pueden corresponder a
estímulos que situarán a los informativos, instruccionales versiones completas o
alumnos frente a y persuasivos o que expresan fragmentos de textos más
determinadas situaciones puntos de vista. extensos, y referirse a
comunicativas. situaciones reales o
Adicionalmente, se evaluará el imaginarias. Los contenidos
dominio de las normas de serán variados en temas y
ortografía, en sus aspectos complejidad, y harán
literal y acentual. referencia a diversos
entornos culturales.
* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran
las mayores diferencias.
TABLA 7. Comparación contenidos y habilidades a evaluar en el SIMCE de 8º básico Educación Matemática

según los Folletos de Orientaciones*
2004 2007 2009 2011
La evaluación considerará La prueba de Educación Orientaciones para la La prueba de Matemática que
cuatro dimensiones: números Matemática evaluará cuatro Medición Educación se aplicará en 2011 evaluará
y operaciones; geometría; ejes temáticos: Matemática los siguientes ejes temáticos:
álgebra y funciones; y a. Números y operaciones. b. La prueba de Educación Números: utilizar números
tratamiento de la información. Geometría. c. Álgebra. d. Matemática evaluará los enteros, decimales positivos,
En números y operaciones se Tratamiento de la Objetivos Fundamentales y fracciones positivas,
incluirán tareas en las que se información. Contenidos Mínimos proporciones, porcentajes y
requiere utilizar A continuación se detallan los Obligatorios del segundo ciclo potencias de base natural y
razonamientos ordenados y contenidos y habilidades que básico (OF-CMO Decreto Nº exponente entero y operar
comunicables para resolver serán evaluados en cada eje 232, del año 2002) que se con ellos. Aplicar los
problemas numéricos; temático: mantendrán presentes en el contenidos anteriormente
interpretar y manejar las a. Números y operaciones. En ajuste del Marco Curricular señalados para resolver
operaciones con números este eje se evaluará la aprobado recientemente. problemas numéricos,
enteros, decimales y capacidad del alumno o La prueba evaluará los verificar proposiciones
fracciones, estableciendo alumna para utilizar siguientes ejes: simples y emplear resultados
equivalencias entre una forma razonamientos ordenados y a. Números. En este eje se para fundamentar opiniones
de representación y otra; comunicables para resolver evaluará el conocimiento y tomar decisiones.
analizar situaciones de problemas numéricos; conceptual de los números Álgebra: utilizar expresiones
crecimiento y de interpretar y manejar las enteros, decimales positivos, algebraicas no fraccionarias
decrecimiento exponencial; operaciones con números fracciones positivas y sus simples y operar con ellas;
usar potencias para expresar y enteros, decimales y operaciones, los aplicar estos contenidos para
operar con cantidades fracciones, estableciendo conocimientos conceptuales representar diversas
grandes y pequeñas; y por equivalencias entre una forma de la proporcionalidad y los situaciones, relaciones y
último, aplicar de representación y otra; porcentajes. Además, se regularidades; resolver
proporcionalidad directa e analizar situaciones de evaluará la aplicación de estos problemas por medio del
inversa y calcular e interpretar crecimiento y de conceptos para establecer planteamiento y la resolución
porcentajes. decrecimiento exponencial; equivalencias entre fracciones de ecuaciones de primer
En geometría, se evaluará el usar potencias para expresar y y su representación como grado con una incógnita.
análisis y anticipación de los operar con cantidades número decimal positivo y Geometría: calcular áreas de
efectos que se producen en la grandes y pequeñas y, por calcular proporciones y figuras planas, superficies y
forma, el perímetro, el área y último, aplicar porcentajes en diversos volúmenes de cuerpos
el volumen de figuras y proporcionalidad directa e contextos. Conjuntamente, se geométricos, ángulos de
cuerpos geométricos, al variar inversa y calcular e interpretar evaluará la capacidad del polígonos y ángulos formados
la medida de algunos porcentajes. alumno o alumna para entre rectas paralelas
elementos (lados, ángulos, b. Geometría. En este eje se resolver problemas numéricos cortadas por una transversal,
radio, etc.). También incluirá evaluará la capacidad del utilizando razonamientos y y calcular la longitud de la
preguntas referidas a la suma alumno o alumna para estrategias ordenadas y circunferencia y el área del
de ángulos interiores de analizar y anticipar los efectos comunicables. círculo; aplicar el teorema de
polígonos; el análisis de la que se producen en la forma, b. Geometría. En este eje se Pitágoras y la capacidad de
medida de los ángulos de el perímetro, el área y el evaluará el conocimiento anticipar los efectos en el
figuras construidas por volumen de figuras y cuerpos conceptual del perímetro, perímetro y el área de
combinación de otras figuras; geométricos, al variar la área y volumen de figuras y polígonos, al variar la medida
el cálculo de perímetros y medida de algunos elementos cuerpos geométricos, de los de uno o más de sus
áreas; así como el cálculo del (lados, ángulos, radio, etc.). ángulos interiores de elementos (lados, ángulos,
volumen de cuerpos También se evaluará la suma triángulos y cuadriláteros y radio, etc.); resolver
geométricos, usando diversas de ángulos interiores de de los ángulos formados problemas geométricos,
unidades de medida. polígonos y el análisis de la entre rectas paralelas utilizando procedimientos y
En álgebra y funciones, se medida de los ángulos de cortadas por una transversal estrategias adecuadas.
requerirá utilizar lenguaje figuras construidas por y sus propiedades. Además, Datos y azar: usar tablas y
algebraico simple para combinación de otras figuras. se evaluará la aplicación de gráficos (por ejemplo, gráfico
representar diversas Además, se incluirá el cálculo estos conceptos para calcular de líneas, circulares o de
situaciones y expresar de de perímetros y áreas de área y perímetro de figuras, barras) y las medidas de
manera general algunas figuras geométricas, así como volumen de cuerpos tendencia central de una
relaciones, regularidades o el cálculo del volumen de geométricos y anticipar los colección de datos; aplicar
propiedades, así como cuerpos geométricos, usando efectos que se producen al estos conocimientos para
plantear y resolver ecuaciones diversas unidades de medida. variar la medida de elementos organizar, interpretar y
de primer grado con una c. Álgebra. En este eje se geométricos (lados, ángulos, elaborar nueva información,
incógnita para resolver evaluará la capacidad del radio, etc.). Finalmente, se presentada en distintos
problemas. alumno o alumna para utilizar evaluará la capacidad de los formatos y contextos;
En tratamiento de la lenguaje algebraico simple estudiantes para resolver resolver problemas en los
información se evaluará la para representar diversas problemas geométricos cuales se deba elaborar
capacidad para analizar situaciones y expresar de utilizando razonamientos y información, a partir de datos
información representada en manera general algunas estrategias ordenadas y entregados en tablas o

tablas y gráficos que relaciones, regularidades o comunicables. gráficos.
habitualmente se utilizan en propiedades, así como c. Álgebra. En este eje se Junto con lo anterior, las
los medios de comunicación plantear y resolver ecuaciones evaluará el conocimiento preguntas podrán plantearse
masiva. Además, se incluirá el de primer grado con una conceptual de las expresiones en contextos diversos,
cálculo de medidas de incógnita, para resolver algebraicas no fraccionarias especialmente aquellas que
tendencia central y el problemas. simples, además de la requieran resolver
recorrido de la variable para d. Tratamiento de la aplicación de estos conceptos problemas. Además, se
analizar la información. información. En este eje se para representar diversas evaluarán otros aspectos de
Como puede observarse, en evaluará la capacidad del situaciones, relaciones y la resolución de problemas;
cada una de las dimensiones alumno o alumna para regularidades. Finalmente, se por ejemplo, seleccionar la
se integra tanto analizar información evaluará la capacidad del información necesaria para
conocimientos propios del presentada en tablas y alumno o alumna para resolverlos, analizar
subsector como habilidades gráficos que habitualmente se resolver problemas por procedimientos de resolución
referidas a la aplicación de utilizan en los medios de medio del planteamiento y y resultados posibles y
procedimientos comunicación masiva. resolución de ecuaciones de verificar y justificar las
estandarizables y a la Además, se incluirá el cálculo primer grado con una respuestas.
resolución de problemas. de medidas de tendencia incógnita.
Por último, es importante central para analizar la d. Datos y Azar. En este eje se
destacar que en la prueba se información. evaluará el conocimiento
incluirán preguntas referidas a conceptual de tablas y
situaciones de la vida real o En cada uno de los ejes gráficos (por ejemplo, gráfico
cotidiana, así como a temáticos, se integrará la de líneas, circulares o barras
representaciones simbólicas evaluación de conocimientos comparadas) y de las medidas
(tales como expresiones propios del subsector en 8º de tendencia central de una
algebraicas, figuras Básico y de habilidades colección de datos. Además,
geométricas u otras). referidas al manejo de se evaluará la aplicación de
conceptos, la aplicación de estos conceptos para
procedimientos organizar y elaborar nueva
estandarizables y resolución información presente en
de problemas. contextos referidos a los
medios de comunicación
Por último, es importante masiva. Por último, se
destacar que en la prueba se evaluará la capacidad del
incluirán preguntas referidas alumno o alumna para
tanto a situaciones de la vida resolver problemas en los
cotidiana, laboral y científica, cuales deba elaborar
como a representaciones información, a partir de datos
simbólicas, tales como entregados en tablas o
expresiones algebraicas y gráficos.
figuras geométricas. Junto con lo anterior, en la
prueba SIMCE 8º Básico 2009
se incluirán preguntas
referidas a distintos tipos de
contextos: personales,
sociales, científicos y
matemáticos.
* Para facilitar la comparación, la investigadora ha destacado en negrita los aspectos donde se encuentran
las mayores diferencias.
La publicación de los marcos de evaluación facilitaría la tarea de confirmar si las diferencias

observadas en la descripción del constructo y de los contenidos a evaluar en estos documentos
efectivamente constituyen diferencias presentes en el proceso de construcción de las pruebas.
 Análisis de las preguntas SIMCE
Los actores involucrados en la construcción de preguntas mostraron dudas en relación con la

calidad de estas, debido a las condiciones en que se elaboran los ítems (ver sección 6.5) y a la
falta de claridad en los criterios de selección y revisión de preguntas por parte del MINEDUC. Así
indica Daniela:
“(…) cuando tú me propusiste ser tu entrevistada en este estudio, yo te dije por fin alguien me va
a preguntar algo del SIMCE, porque creo que en cada uno de los procesos cuando existe esta
preconcepción de que todo esto está correcto, de verdad que nosotros en algún minuto hemos
sentido que somos como un proceso con el que hay que cumplir para que esto se valide, pero si
no toman en consideración nuestras respuestas y lo que como equipo en alguna oportunidad
nos ha tocado enfrentar y elaborar, ahí me parece que la discusión es nula y finalmente no
tiene validez, o sea, hay ítems de pregunta cerrada que también se iban con distractores que no
nos parecían, con cosas que tenían parcialidades, entonces, a pesar de que esté declarado que
mide comprensión de lectura, si el ítem no está bien hecho o la pauta de corrección de pregunta
abierta no está bien elaborada, ¿qué mide?, yo no puedo asegurar que esté midiendo lo que dice
medir, para nada.”
En su rol de supervisora de elaboración de preguntas, Alejandra coincide con esta perspectiva:
“Tú llegas a construir... te hacen una pequeña (enfático), no diré que nada, pero pequeña
capacitación y ya, anda a construir preguntas y tú gastas muchísimo tiempo haciendo, no sé
cuántas serán ahora, pero, ponte tú, que diez por semana, vas a una reunión con cuatro o cinco
personas más, que las miran en un data show y las leen, y las otras personas, que tienen la
misma o menos capacidad o conocimiento del asunto que uno, te dicen “mira, yo creo que
deberías quitarle acá”; la otra “yo creo que no, que deberías quitarle allá”, y es, entre todos (…)
arreglando o bajando una pregunta, y muchas veces ha quedado en términos autoritarios.”
Como parte de los problemas de construcción se menciona también la selección de textos por
parte del MINEDUC, ya que algunos son excesivamente complejos para abordarlos por medio de
una pregunta cerrada o en el nivel evaluado, mientras que otros son pobres en términos de la
cantidad de preguntas que se pueden realizar a partir de ellos.
Varios entrevistados, tanto involucrados en la construcción como miembros del equipo SIMCE,
frente a estas dudas sobre la calidad de las preguntas, indican confiar en los procedimientos de
validación psicométrica que se realizan en base a la prueba experimental. No obstante, como ya
se indicó, este proceso también genera problemas de constructo y contenido (tendencia a la
selección de preguntas más básicas y rutinarias, exclusión de contenidos completos de la
prueba, inclusión de ejes que se comportan de forma diferente en un mismo constructo y una
misma prueba).
Para algunos entrevistados, la modificación de los equipos internos del SIMCE a partir del
traspaso de la prueba a la Agencia de Calidad incrementa la baja claridad de los criterios del
MINEDUC, puesto que ahora no hay equipos disciplinarios, sino que un único equipo
multidisciplinario a cargo de todo el proceso de elaboración de preguntas. Para Guion (1977: 7),
si bien el conocimiento de un psicólogo puede aportar desde su experticia en evaluación, resulta
fundamental que las decisiones y juicios en relación con los dominios a evaluar estén a cargo de
expertos en dicho dominio, en este caso, en los contenidos y habilidades de una disciplina
específica. A ello se agrega la salida masiva de los trabajadores más antiguos del SIMCE tras el
cambio de administración en 2008, debido principalmente a desacuerdos con respecto al
enfoque que se comenzó a dar a la prueba (más orientado a la rendición de cuentas) y al
carácter impositivo de la nueva administración. Esta salida es negada por los actuales miembros
de SIMCE en las entrevistas, pero es corroborada por todos los ex trabajadores del SIMCE que
fueron entrevistados. Esta salida, indican algunos participantes, hace que la competencia y el
criterio común que se hubiera podido generar con los años se pierdan, especialmente porque
varios explican que se trata de competencias con las que no se cuenta al entrar a trabajar en la
prueba y que se desarrollan y afinan con los años de práctica. Explica Jaime:
“(…) era bien artesanal, *+ eran muy pocas personas y básicamente tú aprendías ahí como, no sé
poh, como de maestro a discípulo, o del taller que le enseña a los nuevos aprendices, entonces
vas aprendiendo y haciendo de todo (…).”
De forma similar, Alicia relata:
“(…) mi jefe venía recién llegado, así que no sabía mucho como era la cosa. Él es matemático, así
nada que ver con sistemas de evaluación ni nada, entonces él también iba aprendiendo,
entonces estábamos todos como aprendiendo ahí. Solo había una persona que tenía mucha
experiencia, que era [nombre de miembro equipo SIMCE], que era una persona (...) que tenía
muchos años en el SIMCE, o sea, conocía desde que se armó. Ella sabía como más. (…) ahí me
dijeron “mira, mira a *nombre de miembro equipo SIMCE] un poquito como es la cosa y ahí...
este es *nivel de la prueba asignado a la entrevistada+, ármalo”. Y ya (…), ahí me puse a leer, me
entregaron unos libros (…).”
Por otra parte, todos los correctores manifestaron problemas en el uso de las pautas de
evaluación creadas por el SIMCE para la evaluación de las preguntas abiertas. La mayoría
cuestiona la calidad de las pautas, y aquellos que han estado en roles de supervisión indican que
en diferentes instancias y procesos han entregado retroalimentación al SIMCE en función de
mejorar estos instrumentos. No obstante, todos los años se experimentan los mismos
problemas y los cambios sugeridos no se implementan. Así indica Emilio, corrector de
Matemática:
“Entrevistadora: Y a ti, que te tocó trabajar varios años, los problemas que pudieron haber
detectado como en las pautas, como ponerse de acuerdo para clasificar las cosas, ¿te parece que
esas problemáticas se han ido corrigiendo de un año a otro o las problemáticas se repetían de un
año a otro?
Entrevistado: Uy, yo creo que era lo mismo todos los años.
Entrevistadora: Las mismas pautas.
Entrevistado: Eran distintas preguntas, pero los problemas... los tres años que trabajé fueron
igual de problemáticos, no quiero decir que muy problemáticos...
Entrevistadora: Pero los problemas se repetían, digamos.
Entrevistado: Pero sí, siempre había problemas, ningún año fue mejor que otro en ese sentido.”
De forma similar, Sandra, que trabajó tanto en validación de pautas como en supervisión de
corrección y en corrección de preguntas abiertas de Lenguaje, indica:
“Esas pautas están... se supone que cada año se van modificando y todos los años también se
revisan []. Pero en la práctica, en la práctica, cuando a uno le toca tanto corregir como
supervisar se da cuenta que las observaciones que se llegan a concretar como cambios en las
pautas son mínimas en realidad, lo que se cambia, en realidad, son los ejemplos para adecuarlos
a la prueba que se va a revisar [] durante ese año.”
Como supervisora de corrección, Alejandra observa el mismo fenómeno:
“Entrevistada: Lo que sucede es que siempre te dan mucha información al contratarte, como
que parece que está súper, hiperorganizado, y después resulta que estás viendo tú que está lleno
de pifias en la medida en que la pautas de evaluación (…) se levantaban, se levantaban, a partir
de la evidencia, una pauta para evaluar. Eh... la tienes que levantar tú mismo, se corrigen entre
ellos y resulta que tú dices las falencias que tienen y, al año siguiente, después de haber hecho
un tremendo informe, que sin el cual no te pagan, etc., haces el informe de todas las falencias y
resulta que, al año siguiente, es exactamente lo mismo, no hicieron...
Entrevistadora: Es la misma pauta.
Entrevistada: La misma, idéntica, con todas las fallas. Entonces uno decía, pucha, la cantidad de
recursos gastados ahí... es súper heavy.”
Estos problemas provocan, según los entrevistados, que la corrección se realice en base a una
versión acordada de la pauta creada in situ, versión que el equipo SIMCE no maneja.
La percepción de los entrevistados con respecto a las preguntas se confirma en el análisis de los
documentos. De ellos se logró rescatar 152 ejemplos de preguntas, 43 de los cuales presentaban
algún tipo de problema (ver detalles en Tabla 8). El análisis de las preguntas se realizó como
parte de la codificación inductiva de los documentos. En ese contexto, una vez que se
establecieron los 373 códigos, se generó una categoría denominada “Preguntas” en la cual se
clasificaron varios de los códigos, uno de los cuales correspondía a “problemas”. En este sub-
código se agruparon las preguntas en diferentes categorías, según los problemas observados. A
partir de ello, se observa que un 28% de las preguntas analizadas contiene alguno de los
siguientes aspectos:
 Clasificación dudosa de la pregunta en un Nivel de Logro específico.

 La pregunta no tiene una respuesta correcta.
 Inconsistencia entre la pregunta y la habilidad que se indica que evalúa.
 Posible sesgo socioeconómico.
 Inconsistencia entre la pregunta y el Objetivo Fundamental que se indica como
evaluado.
 Preguntas demasiado fáciles para el nivel.
 Contenidos cuya naturaleza dificulta su evaluación por medio de pregunta cerrada.
 Se evalúan conceptos del programa de estudios y no del currículum.
 Faltan indicios textuales para llegar a la respuesta correcta.
 Distractores muy fáciles; o un distractor muy lejano, que finalmente deja la pregunta
con tres opciones; o distractores potencialmente correctos desde la perspectiva de un
niño con mayores habilidades. Esta última impresión es corroborada por la profesora
Laura, quien cree que los estudiantes más hábiles se equivocan en las preguntas más
fáciles porque piensan que debe haber algo más, que la respuesta no puede ser tan
evidente.
 Redacción confusa de un problema matemático, haciendo que los estudiantes puedan
equivocarse por problemas de lectura y no de la disciplina.
 Algunas de las explicaciones que se ofrecen para las respuestas erróneas no resultan del
todo convincentes.
Tipo documento Total Total Total Total preguntas con

preguntas preguntas preguntas problemas (por
LyC MAT analizadas tipo documento)
Folletos orientaciones 2003 13 10 23
2004 6 8 14
2005 6 8 14
2006 1 0 1
2007 1 1 2
2008 1 1 2
2009 4 3 7
2010 (4º) 0 1 1
2010 (2ºM) 1 0 1
2011 (4º) 1 0 1
2011 (8º) 0 0 0
2012 (2º y 4º) 2 1 3
2012 (2ºM) 1 0 1
70 20
Niveles de logro 4º MAT 0 10 10
4º LECT 11 0 11
8º MAT 0 13 13
8º LECT 11 0 11
45 13
Modelo de prueba 2º Bás. LECT 24 0 24 5
Informe resultados 2004 (8º) 7 6 13 5
TOTALES 90 62 152 43
TABLA 8. Detalle de preguntas analizadas por subsector y tipo de documento
Para ilustrar estos problemas, se ofrecen a continuación algunos ejemplos. Un caso de

incoherencia entre la pregunta y el objetivo fundamental que se declara evaluar se puede
encontrar en el siguiente ejemplo, tomado del folleto de orientaciones 2003:
¿De qué se trata el texto?

A. De un hombre que se dedica a conversar con su huésped.
B. De un hombre que por las noches se convierte en mono.
C. De un hombre que tenía un cuerpo deformado.
D. De un hombre que habla sobre un desdoblamiento.
OBJETIVO FUNDAMENTAL
“Descubrir y proponer sentidos en torno a los temas planteados en las obras literarias (...)”.
FIGURA 6. Ejemplo pregunta con incoherencia entre objetivo e ítem.

La pregunta anterior corresponde a la habilidad de síntesis, y no a la proposición de sentidos en

relación con una obra literaria, ya que se pide indicar el tema del texto. De hecho, el objetivo
indicado sería sumamente difícil de evaluar por medio de una pregunta de opción múltiple
como la anterior. Si la pregunta se clasifica como representativa de esta habilidad en relación
con el marco de especificaciones para la prueba, entonces habría, además, distancia entre el
constructo declarado y el finalmente evaluado por las preguntas.
En el siguiente ítem, tomado de los ejemplos dados en el documento de Niveles de Logro de 8º

básico para Matemática, podría haber un caso de sesgo socioeconómico y regional:
Observa el siguiente gráfico.
¿Cuántas horas de diferencia hubo entre las preemergencias de los añ os 2003 y 2005?
A. 54
B. 60
C. 63
D. 72
FIGURA 7. Ejemplo pregunta con posible sesgo socioeconómico.
La falta de una mayor contextualización podría hacer que aquellos niños cuyos padres tienen un
automóvil y viven en Santiago, y por lo tanto necesitan saber cuándo hay preemergencia y alerta
ambiental, tengan una ventaja por sobre los niños que viven en regiones sin contaminación o
que viven en Santiago y no poseen un vehículo. Se indicó que el análisis psicométrico controla
por sesgo urbano/rural, por lo que el aspecto regional podría subsanarse de esta manera. No
obstante, no existe control por posible sesgo socioeconómico, lo que, dado los resultados de
SIMCE cada año, podría resultar fundamental. Jaime, en su descripción de los criterios de
análisis psicométrico de la prueba, confirma esta preocupación:
“Ahora, lo que no se estudia son diferencias por nivel socioeconómico, porque como en el SIMCE
hay resultados muy distintos por nivel socioeconómico, nunca ha quedado claro si a veces hay
sesgo socioeconómico, o sea si hay alumnos que... o sea, por ejemplo, si la prueba toca temas
que son más de una clase social y no de otra, si eso mismo no hará que les vaya a unos mejor
que a otros, o sea, eso no es muy claro.”
Los siguientes ejemplos ilustran la clasificación dudosa de preguntas en determinados Niveles

de Logro. Según el documento de los Niveles de Logro de Matemática para 4º básico, las tres
preguntas siguientes corresponden a un nivel avanzado:
FIGURA 8. Ejemplos preguntas con clasificación dudosa en Niveles de Logro.
Pese a que se clasifican en un mismo nivel, se trata de tres preguntas de dificultad diversa. La
segunda requiere más procesos mentales, además del trabajo con fuentes de información
variadas. A su vez, el tipo de operación a realizar en la tercera es mucho más sencillo que el que
se requiere en la primera, donde se exige la comprensión del concepto de fracción. No obstante,
las tres aparecen clasificadas como ejemplos de nivel avanzado. Jaime alude a las posibles raíces
de esta problemática:
“Por un lado, con la gente que está en un rol más político, a veces ahí entra un poco el criterio de
que hay cosas... a ver, cómo decir, como que tienes que decirlas de una manera no
necesariamente tan realista o tan clara, por un lado, para que sea más entendible para todo
público y, por otro lado, para que tenga el efecto político que ellos desean, es decir, tú no puedes
decir que el país está muy mal. Por ejemplo, para ponerles nombres a los niveles de logro, tú
tienes que decir que algo [] avanzado, intermedio, ahora dicen que es adecuado y elemental,
pero en realidad... o sea, esos tecnicismos se los dejamos más bien a ellos; ahora, para hablar de
aprendizajes, es un acuerdo re complejo, porque el Ministerio de Educación, a mi modo de ver,
nunca ha tenido una discusión [] ni un mínimo consenso respecto a lo que es el aprendizaje y a
cómo hablar de él.”
Una posible razón, entonces, se relaciona con la necesidad de mostrar como avanzado un nivel
que en realidad sería adecuado, o como intermedio un nivel que en realidad sería elemental,
por motivos de índole política.
Finalmente, el siguiente ejemplo del Folleto de Orientaciones 2003 ilustra el problema de la

provisión de distractores muy básicos:
Observa y lee el siguiente texto para contestar las preguntas 5 a 8.
¿A quién se dirige el aviso publicitario?

A. A universitarios que quieran ayudar a un grupo de familias.
B. A albañiles expertos en la reparación de viviendas.
C. A los centros de alumnos de Ingeniería y Bachillerato.
D. A estudiantes que quieran viajar a la ciudad de Rancagua.
FIGURA 9. Ejemplo pregunta con distractores muy fáciles.
Se trata de distractores que resultan demasiado fáciles de descartar frente a la respuesta

correcta. Esta tendencia en las preguntas de Lenguaje se puede corroborar en el Informe de
Resultados 2004, donde excepcionalmente se proveyeron, junto con los ejemplos, los
porcentajes nacionales de respuesta para cada opción. En este documento, todas las preguntas
de la disciplina (con excepción de una) tienen un porcentaje muy alto de respuesta correcta, es
decir, son muy fáciles de responder. Los distractores de estas preguntas son escasamente
abordados, por lo que su calidad es dudosa. Si bien es importante que en una prueba haya
preguntas de diverso grado de dificultad, incluyendo algunas más elementales, el mensaje que
se transmite con las preguntas liberadas para Lenguaje es que todas ellas son de nivel básico.
Las preguntas de Matemática en este documento, por el contrario, se comportan de manera
más variada en términos de la forma en que sus respuestas y distractores son abordados, según
las estadísticas presentadas.
Es importante señalar que en el análisis de los ítems los problemas se encuentran con mayor
frecuencia en el área de Lenguaje y Comunicación que en Matemática. Ello puede deberse a que
resulta más fácil formular preguntas cerradas en el contexto de una ciencia exacta; a la mayor
experticia de los elaboradores (aun cuando esto no es corroborado por los profesionales del
área en el equipo SIMCE); o simplemente a que la experticia de la investigadora en esta área es
menor y, por lo tanto, su capacidad de detectar sutilezas en las preguntas de esta disciplina es
menos alta que en Lenguaje.
Considerando el ámbito de la cobertura, el único instrumento completo que ha sido liberado es

el Modelo de Prueba de Lectura para 2º básico. Aquí nuevamente se encuentran problemas,
especialmente la inconsistencia entre la pregunta y la habilidad que se indica que esta evalúa.
Tal como se indicó en la sección sobre metodología, con el fin de corroborar la validez de los
juicios de la investigadora, se pidió a cuatro especialistas del área que respondieran una breve
encuesta en que se les pedía clasificar las preguntas que generaban dudas en una de las tres
habilidades indicadas como parte del constructo a evaluar en el Manual del Profesor asociado al
instrumento. Las preguntas 5, 9 y 16 de este instrumento se clasifican en el Manual como
preguntas que requieren Relacionar e interpretar información. No obstante, las cuatro
especialistas coinciden con la investigadora en indicar que las preguntas 5 y 16 evalúan la
localización de información literal en el texto. La pregunta 9 no obtuvo el mismo consenso, con
dos especialistas optando por la detección de información literal, al igual que la investigadora,
mientras otra de ellas coincidió con la habilidad asignada por el SIMCE y la cuarta prefirió optar
por la alternativa “Otros”, indicando que en realidad la pregunta evaluaba varias habilidades
simultáneamente, siendo una de ellas la detección de información literal y otra la relación e
interpretación de información. Por lo tanto, al menos dos preguntas, desde la perspectiva de la
validación a través de la consulta a expertos (Anastasi y Urbina, 1997; Shawn et al., 2012),
estarían mal clasificadas dentro del instrumento, generando así problemas de cobertura, de
comparabilidad y de interpretación de los resultados. Las preguntas pueden consultarse en el
Anexo 3, donde se adjunta la encuesta realizada.
Como puede observarse a partir de este análisis, los problemas detectados por Eyzaguirre y
Fontaine (1999) hace más de diez años en las pruebas SIMCE se reiteran en los instrumentos
actuales (ver sección 3.4).
Por lo tanto, en términos de constructo y contenido, se puede concluir que:
 El constructo calidad no se define ni se provee evidencia para interpretar los resultados

en esta dirección.
 El constructo currículum vigente se reduce en realidad a una serie de habilidades, en su
mayoría bastante básicas, de ciertas áreas del currículum.
 Los cambios curriculares y de especificaciones de contenidos entre una aplicación y otra
podrían generar problemas de comparabilidad de los resultados a lo largo del tiempo,
pues se evaluaría un constructo y una distribución de contenidos diferente.
 La falta de transparencia con respecto a los marcos de evaluación no favorece la
comprensión cabal del constructo evaluado cada año y de su comparabilidad.
 Existen dudas entre los actores del proceso acerca de la calidad de las preguntas y las
pautas de evaluación, y de su capacidad de medir todas las habilidades y contenidos
relevantes de cada disciplina.
 Hay una confianza excesiva en el proceso de pilotaje y análisis psicométrico, pese a que
este provoca la exclusión de contenidos completos, arroja que no existe correlación
entre los resultados de los ejes de una misma prueba, y estimula la producción de ítems
más básicos y rutinarios, a veces clasificados como si evaluaran habilidades y contenidos
más complejos.
 En términos de cobertura, la clasificación dudosa de ciertas preguntas en habilidades
más complejas que las que en realidad se evalúan genera dudas en relación con la
amplitud con que se abarca el currículum.
6.3. Criterio
El ámbito criterial de la validez es, al menos a simple vista, probablemente el de menor

relevancia dentro del presente análisis. Esto porque, a diferencia de la PSU, el SIMCE no está
diseñado con el fin de predecir un comportamiento ni se relaciona con toma de decisiones que
requieran, por ejemplo, seleccionar estudiantes. El testimonio de algunos profesores, sin
embargo, arroja ciertas dudas acerca de la validez del SIMCE en su dimensión criterial. Por
ejemplo Rosa, aludiendo a unas pruebas externas que contrata la fundación de la cual depende
el colegio donde ella trabaja, explica:
“Son unas pruebas, la verdad es que son unas pruebas muy sencillas, porque nosotros también
en un momento como fundación las diseñamos. Y es más, no es por falta de modestia, pero yo
creo que los instrumentos que nosotros preparamos eran un poquito más exhaustivos. Ahora,
mirando los instrumentos, son unas pruebas muy sencillas, pero sin embargo, las mediciones
que, mmm, no han sido del todo buenas y de alguna manera han sido realmente predictivas en
términos de los logros en la, en, en los SIMCE cuarto básico y sép, y octavo.”
Evidencia similar ofrece el caso de Laura, quien reconoce su bajo dominio del área de Lenguaje,
y en su discurso evidencia una perspectiva más bien tradicional de la disciplina, donde, por
ejemplo, cree que en los niveles inferiores de enseñanza solamente se debe enseñar
comprensión a nivel explícito. Sin embargo, declara haber sacado el mejor puntaje SIMCE de la
comuna.
Ambos casos son un primer indicio -muy preliminar por cierto-, desde las dimensiones
concurrente y predictiva, de que el SIMCE podría estar evaluando un nivel extremadamente
bajo de aprendizaje. Por lo tanto, se hace necesario generar evidencia que avale las
generalizaciones y extrapolaciones (Crooks et al., 1996) que actualmente se realizan desde la
muestra de tareas del SIMCE al dominio, por ejemplo, de la comprensión lectora.
Hay profesores también que, como Leila, no observan mayor correlación entre los puntajes del
SIMCE y su apreciación con respecto al aprendizaje de los estudiantes:
“Cuando el año pasado tanto, tanta vanagloria, y que habíamos subido 30 puntos en
matemática y aplausos van y vienen, y yo tomo a los niños en primero medio… y, ¿y dónde están
los 30 puntos de más que tuvieron? O sea, no, no me, no hay una correlación [se ríe], no le veo
correlación directa, fíjate, en el aprendizaje con el alumno. A lo mejor se preparó, lo prepararon
bien para el SIMCE y después, llegaron en marzo en pañales otra vez.”
Nuevamente hay evidencia preliminar aquí de que, desde la dimensión predictiva, podría
cuestionarse la validez de los resultados del SIMCE. Evidentemente, se trata en este estudio de
una primera aproximación cualitativa de tipo exploratorio, que requeriría estudios más
profundos del grado en que SIMCE se correlaciona con otras evaluaciones y predice
comportamientos futuros.
En base a lo anterior, se puede indicar que el SIMCE se beneficiaría con la realización de estudios
de validez concurrente y predictiva, que confirmen que aquello que dice medir es lo que
finalmente mide. Los documentos analizados aluden a la participación de Chile en una serie de
evaluaciones internacionales (sitio SIMCE), sin embargo, la información que se entrega se
relaciona solamente con las diferencias de administración y publicación de resultados de los
instrumentos nacionales e internacionales. Esta participación presenta una oportunidad para
realizar estudios de concurrencia entre los resultados de evaluaciones de constructos similares,
lo que permitiría eventualmente mejorar la validez del SIMCE, ya sea por la confirmación de que
mide el constructo adecuado o por la constatación de que dicho constructo necesita ajustarse.
Finalmente, estudios como aquel al que alude Josefina, en que se examina la concurrencia entre
las evaluaciones de los docentes y los puntajes del SIMCE, podrían ser beneficiosos para mejorar
la validez de este proceso de evaluación. Por ahora, según la entrevistada, solamente se ha
indicado que existe correlación. No obstante, esta podría estar determinada, por ejemplo, por la
forma en que el SIMCE ha modelado las prácticas de los docentes. Se requiere continuar en la
dirección de examinar los constructos y contenidos evaluados, la variedad de tareas
involucradas y, desde allí, la coincidencia de SIMCE con el juicio profesional de los docentes, ya
sea en el mismo instante en que se toma el SIMCE o desde su capacidad de predecir
comportamiento futuro.
6.4. Consecuencias
En diversos Folletos de Orientaciones se indica que “es aconsejable que los profesores
familiaricen a sus alumnos con las preguntas de selección múltiple y de desarrollo”
(Orientaciones 2003; ver también 2004, 2005, 2008 y 2012), con el fin de evitar que el día de la
prueba se equivoquen por no estar acostumbrados al tipo de preguntas que predomina en la
prueba. Podría haber un conflicto en términos de validez consecuencial si esta indicación
modifica las prácticas de evaluación de los profesores, volviéndolas menos variadas y más
apegadas al modelo del SIMCE.
Por otra parte, parece existir conciencia en la unidad ministerial del SIMCE acerca de la
posibilidad de reducir el currículum debido a la restricción que la utilización de ciertas preguntas
y el formato de papel y lápiz impone sobre la cobertura del contenido. Esta preocupación se
refleja en los documentos hasta el año 2006, pues en ellos se indica que, pese a estas
restricciones, es importante que el docente emplee métodos alternativos de evaluación e
incluya todas las habilidades relevantes del subsector. Desde 2007 se agrega un incentivo a esta
advertencia, sugiriendo que el desarrollo de las habilidades no contempladas directamente en el
SIMCE podría contribuir de forma indirecta a un buen desempeño en la prueba.
En el actual sitio de la Agencia, dentro de la sección de Preguntas Frecuentes, se incluye

directamente el tema de la preparación del SIMCE. Frente a la pregunta acerca de si se debe
preparar esta prueba, se indica que “De acuerdo con los análisis realizados por el SIMCE” la
práctica a través de ensayos tipo SIMCE no tiene impacto en los resultados. La investigadora
buscó el o los documentos correspondientes a los análisis mencionados, pero no fue posible
encontrarlos. Luego se afirma que cubrir todo el currículum y tener altas expectativas acerca del
aprendizaje de los estudiantes sí se relacionan con un buen puntaje. Para estos últimos rasgos
se encuentra evidencia en el Informe de Resultados 2006. Finalmente se afirma:
“En este sentido, prepararse para el SIMCE familiarizando a los estudiantes con el modo de
responder y reforzando los objetivos que deben alcanzar, no es contradictorio con alcanzar
aprendizajes de calidad. No existen normas que impidan a los establecimientos educacionales
implementar actividades de preparación. Sin embargo, es importante que ellas no sobreexijan a
los estudiantes, y que no le quiten tiempo a otras asignaturas. Sería adecuado además contar
con la aprobación de los padres para realizar actividades especiales de preparación, sobre todo
si interfieren con otras actividades escolares.”
A nivel de documentos, entonces, se encuentran más bien orientaciones generales que apuntan
a evitar determinadas consecuencias y a reforzar aquellas consecuencias que pudieran tener un
impacto positivo. ¿Qué es lo que pasa en la práctica con la dimensión consecuencial de SIMCE?
Las consecuencias de este proceso de evaluación son conocidas a nivel anecdótico, pero no
existe evidencia al respecto ni un estudio sistemático acerca de la forma en que esta evaluación
afecta la práctica diaria de las escuelas y los docentes. En ese sentido, las entrevistas aquí
analizadas constituyen una primera exploración que incorpora la voz de los profesores en
relación con los propósitos, las interpretaciones y los usos del SIMCE.
Todos los profesores entrevistados reconocen en el SIMCE un instrumento que ejerce presión
sobre los establecimientos, independiente de su dependencia administrativa. Los siguientes
fragmentos son ilustrativos de la perspectiva sostenida por todos los docentes entrevistados
acerca de la prueba:
“(…) el SIMCE, es algo que nos, nos afecta bastante, especialmente a mí, porque yo hago séptimo
y octavo, entonces, es una presión horrible en, encima, ¿ya?, que uno está preparando a los
niños, tiene, uno tiene que estar pasando los contenidos, la materia, pero a la vez tiene que estar
repasando lo anterior. Entonces, yo creo que es mucha presión y eso a mí me tiene muy, ya
agobiada, ya llega a ser una, una cosa agobiante. Y, y que todo el colegio, porque después
empieza a girar todo en torno al SIMCE, es tanta la presión que, que lo que te, lo único que te
interesa son los contenidos, contenidos y eso desvirtúa un poco lo que es la, lo que debiera ser el
enseñanza integral de los niños.” (Luisa, con experiencia, Historia y Geografía, Municipal)
“Odiamos el SIMCE. En general, odiamos el SIMCE. Yo lo veo en los distintos contextos, creo que
es una forma de estrés colectiva, [] una forma distante de entender [] el proceso educativo, eh…
con argumentos tan cuantitativos, que tienden a, a distanciarse también de las propias
prácticas, porque no podemos tener, eh, por decirte, el SIMCE nos marca de tal manera, que, eh,
se transforma en parte integral del proyecto educativo y del proyecto pedagógico.” (Saúl,
egresado reciente, Historia y Geografía y Jefe UTP, Particular Subvencionado)
“(…) bueno, el particular pagado en que estoy ahora le da harta importancia al SIMCE y además
que, por ejemplo, ellos tienen excelencia académica si mal no recuerdo; y el colegio de donde
venía yo, ellos habían tenido por mucho tiempo excelencia académica y lo perdieron, entonces le
dieron mucha importancia al SIMCE, *+ y este otro colegio, (…) yo no tengo esa presión, pero, por
ejemplo, lo que yo veía en el otro colegio era que había como una presión implícita en los profes,
sobre todo en los de básica. Me parece mucho que ese año, ¿o este año?, bueno, no sé, se iba a
tomar en Cuarto Básico. Y sobre todo la profe jefe de Cuarto Básico tuvo algunos problemas con
respecto a eso que presionaba a los niños y todo el cuento. Entonces, un par de apoderados le
reclamaron que presionaba a los niños. Entonces, yo sí veía al menos en el otro colegio veía
como una presión fuerte en eso. En este no lo veo tanto, pero sí está el cuento del SIMCE, ronda
en el establecimiento y no es una cosa de “ya, el SIMCE (…) no importa”.” (Raquel, egreso
reciente, Filosofía, Particular Pagado)
El SIMCE aparece en las entrevistas frecuentemente ligado a experiencias y emociones

negativas, tales como odio, estrés, presión, colapso, nervios, agobio, desastre y aburrimiento
(este último por parte de los estudiantes). Para la mayoría de los docentes entrevistados, la
forma en que el SIMCE se realiza actualmente, provoca que la prueba se transforme en el norte
de la educación y distorsiona sus prácticas evaluativas y/o pedagógicas. A los profesores de las
áreas evaluadas se los motiva a realizar pruebas mayoritariamente de selección múltiple y
centradas en contenidos, pues existe la creencia de que estas son las características centrales
del SIMCE.
En términos pedagógicos, los docentes se sienten presionados a priorizar “pasar la materia”, es

decir, la cobertura curricular, por sobre la profundidad del aprendizaje, pues piensan que de ello
depende tener un buen resultado SIMCE. En general, todos los profesores de las áreas
evaluadas por el SIMCE, incluyendo las nuevas pruebas de Inglés y Educación Física,
experimentan a causa de la prueba lo que Berryhill et al. (2009) denominan conflicto de rol. Esto
es, los docentes tienen una concepción de la enseñanza y de la disciplina que enseñan, la cual es
puesta en conflicto por el SIMCE, cuyas demandas son percibidas como en contradicción con sus
principios profesionales. Fabiana, por ejemplo, relata:
“Yo, tú sabes que yo hago Ciencias; gran parte de la enseñanza de las Ciencias y lo que a mí me
hizo cambiar mi vida, de enseñar Ciencias, mi vida profesional, fue justamente hacer que los
niños toquen, hagan cosas, entonces, antes de esto, yo hacía puras clases expositivas, mucho
papel, mucha pizarra. Después de eso, todas mis clases partieron con indagación, con
actividades de experimentación, dentro de la sala si tienes laboratorio, (…) con salir al patio, con
ir a río [nombre del río] y de ahí partir la clase, era otro cuento. Hoy día, tengo que hacer…
congeniar esa, que es la modalidad de enseñanza que a mí me gusta, que a mí me encanta y yo
he comprobado que los niños son otros cuando trabajan así, pero he tenido que ir congeniando
eso con la exigencia de ya viene SIMCE (…) o sea, ya no hago lo mismo… pero preparo guías,
busco lecturas más entretenidas en que a ellos se les introduzca algún contenido, pero ya no es
lo mismo, o sea, es un poco más de papel, un poco más la rapidez, “no escriban, aquí está
escrito”, y analizamos, leemos, conversamos, pero no ocurre lo que debería ocurrir que es al
revés, que el niño lo descubra, porque para que el niño descubra en Ciencias las cosas, requiere
pasar un tiempo; y cuando al niño le hace clic, a algunos les hace clic, a otros les hace clic
mañana y al otro le hizo antes de ayer, y es una cosa dinámica y variada. Llega un momento
donde tú quieres homogeneizar todo. Una sabe conscientemente que eso no resulta, pero lo
hace igual.”
De forma similar, Luisa considera que el trabajo concreto con fuentes es fundamental en
Historia, pero ha tenido que adaptarse a utilizar estos materiales en relación con preguntas de
selección múltiple. En Educación Física, Susana, quien tuvo acceso al piloto del SIMCE para esta
área, considera:
“Mira, yo estuve viendo la información sobre el SIMCE para Educación Física, eh, me parece muy
bien que se realice un SIMCE, porque también nos evalúa a nosotros como profesores, pero hay
un problema en, en este SIMCE, según mi punto de vista, eh, encuentro que están enfocados []
en el aspecto antiguo. (…) Si el niño encestó siete veces, está bien, entonces el niño realmente ahí
es cuando aprendió, y ese es el problema que tiene este SIMCE, evalúa ese tipo de cosas, y
lamentablemente en Educación Física nosotros tenemos muchos colegios dos horas a la semana,
con suerte cuatro horas en algunos colegios, y hay otro colegios, que (esos) son los particulares,
que tienen seis horas, más los talleres extra-programáticos, y tú con, en la realidad de todos los
colegios, con dos horas o cuatro horas no tienes un gran avance. (…) Y el SIMCE se fija en eso. En
el rendimiento. Y no puede ser. En cambio, si cambiaran yo creo la, la perspectiva, el ámbito de
qué evalúa realmente, sería diferente. (…) hay que darle un sentido a la Educación Física y un
sentido de, eh, principalmente de a los niños inculcarles la calidad de vida.”
Frente a estos dilemas, algunos optan por soluciones híbridas, otros se resisten a adaptar sus
prácticas a la lógica de la prueba, y otros se resignan sin dejar de experimentar culpa por sentir
traicionada su ética. También se observan en algunos casos distorsiones en la auto-percepción
profesional (dos profesoras, por ejemplo, demuestran orgullo indicando “me gané el SIMCE”) y
confusiones en términos de qué es lo que demanda el SIMCE, el currículum y la escuela.
Por su parte, los docentes de áreas no evaluadas por el SIMCE indican sentirse desplazados por
lo que Néstor denomina “las asignaturas estrella: Lenguaje y Matemática”. Las formas en que
esto se da en la práctica son diversas: se utilizan las horas de estas áreas para ensayos o
reforzamiento SIMCE, se impulsa a los docentes a diseñar sus disciplinas como apoyo a las áreas
evaluadas (principalmente Lenguaje), y los recursos humanos y materiales del establecimiento
se concentran en los niveles y áreas que se evalúan en el SIMCE del año correspondiente.
Junto con lo anterior, todos los entrevistados reconocen que existe en sus contextos de trabajo
algún tipo de preparación SIMCE, ya sea través de ensayos y pruebas que ellos deben elaborar,
o de ensayos periódicos por parte de sus sostenedores, o por medio del aumento de las horas
de Lenguaje y Matemática, o la contratación de consultoras que implementan programas de
apoyo especiales en aquellos niveles que se evalúan en el año correspondiente.
Varios docentes aluden también a una serie de malas prácticas asociadas al SIMCE, tales como:
 Dar gift cards a los profesores cuyos cursos obtuvieron buenos resultados.
 Entregar bonos por puntaje SIMCE a los docentes del nivel correspondiente.
 Prometer computadores a los niños si se obtiene un buen SIMCE.
 Prometer un 7 a todo el curso si se sube cierta cantidad de puntaje.
 Colocar notas por ensayos SIMCE e indicar a los estudiantes que el SIMCE también
tendrá una nota asociada.
 Sacar a los estudiantes destacados de sus clases normales para potenciarlos en las
áreas a evaluar en SIMCE, pensando que ello subirá el puntaje del establecimiento.
 Reemplazo de las horas de taller en las tardes por entrenamiento o reforzamiento
SIMCE.
 En el caso de los establecimientos particulares subvencionados, la persistencia de

formas encubiertas de selección, pese a que esta está prohibida por ley.
Estas prácticas se consideran aquí como negativas, puesto que algunas de ellas privan a los
estudiantes de ciertos ámbitos y formas de aprendizaje, mientras que otras ejercen presiones
indebidas que pueden motivar distorsiones orientadas a mejorar los puntajes del SIMCE de
manera artificial. La necesidad de prometer incentivos a los estudiantes revela, por otra parte,
una posible desmotivación frente a la prueba, desmotivación confirmada por los siguientes
testimonios:
“Entrevistada: (…) Si los que se aterran *con el SIMCE+ son los adultos yo creo *se ríe+. Los adultos
son los, los que lo ponen toda esa carga y se complican.
Entrevistadora: Los niños en básica a lo mejor no, no, no lo pescan mucho, no les interesa
mucho.
Entrevistada: No cachan [se ríe]. No, preguntan si es con nota. Y punto, ese sería todo el tema.
Entrevistadora: ¿Y afecta cuando les dicen que no es con nota? ¿O les dicen que es con nota
igual?
Entrevistada: Les dicen que es con nota. Hasta los ensayos. Lo que pasa, eso es otra cosa, que
ellos funcionan solamente si hay nota. O sea, es como con nota formativa, como que no existe,
de hecho uno ahí tienes como que mentir un poco. Es parte de la nota [se ríe].” (Catalina, egreso
reciente, Inglés, Municipal)
“¡Ah!, y otra cosa, para el SIMCE, que, no sé si será correcto o no, una vez empezamos, en el
departamento dijimos, ya, ¿por qué no le ponemos nota al alumno? Si logran un, como son tres
cursos por nivel, si suben, qué sé yo, sobre 15 puntos, sobre 15 puntos, les regalamos un 7 de
arriba pa’ abajo. Entonces, porque así el alumno sabe, pero como es una prueba que no le
significa nada a él, y fíjate que lo hemos hecho, entonces el profes, y los alumnos “profe, ¿nos va
a poner el próximo año un 7?”, sí, lo vamos a poner, lo vamos a quedar en el departamento y lo
hacemos, entonces es también un poco cumplirle al alumno lo que se, se les promete.” (Leila, con
experiencia, Matemática, Municipal)
[Aludiendo al uso de las horas de taller en las tardes para entrenamiento SIMCE+ “Encuentro que
es cruel para los niños, porque la verdad es que ellos en la tarde debieran de tener talleres, como
lo hacíamos antes. Yo hacía básquetbol siempre, me iba a la cancha de la Unidad Vecinal y ahí
estábamos desde las dos y media o desde las dos de la tarde hasta las cuatro, y los chiquillos lo
pasaban bien (…).[Ahora] Se aburren, algunos se escapan, no se quedan simplemente, no se
quedan. En cambio, si tú tienes taller de música, de tejido, los chicos se quedan, porque eso les
gustó y ellos se van inscribiendo de forma voluntaria en esos talleres, porque es una
entretención.” (Óscar, egreso reciente, Lenguaje, Municipal)
Por parte del MINEDUC, Jaime también manifiesta preocupación por una potencial
desmotivación de los estudiantes al responder el SIMCE, especialmente en 8º básico y 2º medio.
Indica que esta actitud podría afectar la validez de los resultados, ya que los estudiantes no
estarían realizando su mejor esfuerzo al contestar la prueba. Explica:
“(…) otro aspecto de la validez de la prueba es que a mí me consta, lo he visto cuando se toma la
prueba, [] y hay mucha gente que lo comenta, que los alumnos de Octavo y Segundo Medio no
tienen ninguna intención de responder la prueba, entonces para mí los resultados de Octavo y
Segundo Medio nunca los he tomado en cuenta porque sé que los alumnos ni siquiera quieren
responder. Entonces, no sé, en algunos colegios tengo la impresión que es más sí y en otros no,
entonces ese es un factor tremendo que no está estudiado y tampoco se va a estudiar (…). Es que
no tienes ninguna motivación para responder si estás en Octavo o Segundo Medio, ¿por qué vas
a responder?, de hecho hay alumnos que responden intencionadamente mal para perjudicar al
colegio [] o sea, hay contextos en los cuales los cabros son más disciplinados y más dóciles y
responden todo lo que les pongan porque tienen que hacerlo, pero en otros contextos tú no
puedes ni hacer clases, entonces todo eso tampoco se investiga y no se va a investigar.”
Con respecto a los propósitos de regular la demanda de la educación y de informar a los padres,
algunos docentes indican que para los apoderados los resultados del SIMCE tienen poca
importancia, lo que es consistente con los resultados de investigación de Taut et al. (2009). Saúl,
por ejemplo, que también es jefe de UTP de su escuela, indica:
“(…) nosotros tenemos un prestigio en la zona y que no roza por los resultados SIMCE, roza por el
tipo de persona que nosotros estamos generando, por el trabajo con afecto, por el respaldo, []
por la contención [], eso es nuestro fuerte y, y siento que el equipo de gestión de la escuela y el
perfil de la escuela (lo ha entendido así) (…).”
Raquel, por su parte, indica que los padres y apoderados del establecimiento particular pagado
en que trabaja se oponen al SIMCE. Explica al respecto:
“(…) dicen incluso que hay como los apoderados (…) dicen “no, no al SIMCE, porque es un medio
de evaluación que no sirve y funciona, evalúa otras cosas que no debiera evaluar”. Entonces, yo
he sabido por profes, y esto es como una especie no sé si decirlo... infidencia, por profes, que han
habido cursos que no han querido dar el SIMCE y que a veces no llegan o, si llegan, llegan
poquitos. Entonces, igual por ahí (…) es como una resistencia, pero es más que nada por el
contexto en el que está el colegio, no es... yo diría que a nivel de más de la plana directiva y los
profesores sí se preocupan bastante del SIMCE, existe como una presión con respecto a eso, y
más o menos parecida a lo que yo veía en el otro colegio.”
Si bien las entrevistas a los docentes no preguntaban directamente por la perspectiva de

apoderados y estudiantes, hay en estas respuestas indicios preliminares de desmotivación y de
resistencia, ambos potenciales motivos de desconfianza con respecto a la validez de los
resultados, además de aspectos importantes en términos de las distorsiones que la prueba
podría estar generando en relación con el aprendizaje y las finalidades de la escuela.
La resistencia de los docentes frente al SIMCE dista, por lo tanto, de la pasividad y la falta de
auto-crítica a la que se alude en otras investigaciones (Sepúlveda, 2008) y se relaciona mucho
más con una crítica fundamentada hacia un modelo de educación con el cual no están de
acuerdo, un modelo en que las escuelas deben competir entre sí por la matrícula y hacerse
publicidad a través de resultados, y que perciben se promueve a través del SIMCE. De hecho,
ninguno de los docentes indica estar en contra del hecho de ser evaluados, sino en contra de la
forma en que se presentan los resultados del SIMCE (publicación, rankings, competencia entre
escuelas), la manera en que la prueba evalúa realidades extremadamente diferentes a través de
un mecanismo homogeneizador, y la forma en que empobrece la experiencia educativa de los
estudiantes por las presiones asociadas al instrumento. Los siguientes fragmentos ilustran esta
perspectiva:
[Dando sus últimos comentarios con respecto a lo que esperaría de las políticas de evaluación a
nivel nacional+ “(…) que no se hiciera mal uso, por ejemplo, eso del SIMCE, ya, pero no, que no
sean como, eh, para poner en rankings a los colegios, eso, eso lo encuentro muy malo y la, y la
PSU también. Los rankings ahí, entonces, todo el colegio está pendiente ay, ya, y que el ranking
del tanto, buscando en qué número quedamos [se ríe].” (Leila, con experiencia, Matemática,
Municipal)
“(…) a final de cuentas, cuando estás en un colegio que supuestamente no le preocupa como
este, finalmente aquí también se hacen ensayos SIMCE. (…) ¿Y sabes por qué?, porque tiene que
ver con el mercado, porque si el mercado te cae de los 290 o de los, no sé, no anda cerca de los
300 puntos, entran menos alumnos acá. Entonces por eso te digo que tiene que ver, todo está
cruzado por el mercado, la estandarización es un instrumento de mercado en Chile, y SIMCE, que
intentó ser originalmente otra cosa, es un instrumento de mercado, o sea, no es un instrumento
pedagógico. Sin embargo, los profesores lo consideramos pedagógico (…). Que exista el SIMCE es
bueno, porque es un nivel, el problema es cómo se usa, pero todo el esfuerzo, tener una unidad
completa del Ministerio de Educación dedicada a hacer SIMCE para que sea un ranking, para
construir un ranking de mercado, me parece que es totalmente... y que esto que se publique es
exclusivamente para el mercado. Si no se publicara, si se llevara en secreto esta evaluación como
un instrumento evaluativo para que se promovieran cambios en esos colegios, sería fantástico,
pero que se saque, se prohíba publicar SIMCE. Te aseguro que los que les va bien lo publicarían.”
(Hernán, con experiencia, Historia y Geografía, Particular Pagado)
La evidencia es contundente en el sentido de no reflejar sino solamente una única percepción

positiva acerca del SIMCE entre los participantes: Ernesto indica que el efecto positivo que ve en
el SIMCE es que obliga al profesor de bajo desempeño a exigirse más y así “por lo menos está
haciendo algo”.
Varios de los docentes con experiencia dentro de los entrevistados indican que antes que se
comenzaran a publicar los resultados, la prueba se tomaba como una actividad más dentro de la
escuela y no se le daba tanta importancia. Tanto profesores con experiencia como de egreso
reciente observan, además, una sobrevaloración de este prueba.
La evidencia anterior es confirmada por algunos del los entrevistados del proceso SIMCE,
quienes poseen experiencias concretas al respecto, ya sea porque han trabajado como
profesores, porque tienen hijos en escuelas donde estas prácticas se observan o porque han
trabajado con profesores en desarrollo profesional docente o en investigaciones en curso que
arrojan la misma evidencia. A partir de estas experiencias, las consecuencias que se confirman
con respecto al SIMCE son: cursos que entrenan para construir preguntas tipo SIMCE, enseñanza
para la prueba en aula, exclusión de estudiantes el día de la prueba para tener mejores
resultados, reducción del currículum e incentivos económicos por buenos resultados. Además se
agregan: estigmatización de cursos por malos resultados, distorsión del rol profesional docente,
estudiantes que egresan de enseñanza media con un nivel muy básico de lectura y sin mayor
manejo de escritura y comunicación oral. Además, desde el mismo SIMCE se reconoce, a partir
de los procesos de supervisión de la prueba en terreno, la observación de prácticas como:
potenciar exclusivamente a los mejores alumnos para subir el puntaje, inasistencia de
estudiantes de bajo rendimiento el día de la prueba, entrenamiento para la prueba, premios a
los estudiantes y los profesores por los puntajes y despido de profesores por mal rendimiento
en la prueba.
Los participantes en roles de coordinación dentro del SIMCE coinciden en afirmar que piensan
que estos casos son lo suficientemente aislados como para no afectar la validez de los
resultados nacionales, aun cuando reconocen que podrían poner en riesgo la validez de los
resultados a nivel de establecimiento. Junto con ello, afirman que el entrenamiento para la
prueba no necesariamente afecta la validez de los resultados.
6.5. Aspectos de administración y procedimiento
La primera parte del reporte de resultados (ver sección 5) se centró en las fases del proceso
SIMCE en base a los documentos y las entrevistas. No obstante, se trata de una descripción
general y teórica de cómo se conceptualiza el proceso. Junto con los problemas descritos en
páginas previas, las entrevistas dan cuenta de algunos aspectos de administración y
procedimiento que podrían también tener una incidencia en la validez de las interpretaciones
realizadas con respecto a los resultados de la prueba.
Tanto los participantes involucrados en los procesos de construcción de ítems como aquellos
que participan en los de corrección de pregunta abierta indican, con excepción de Augusto,
problemas relacionados con las condiciones en las que deben realizar su trabajo. Los
supervisores de construcción y los constructores de ítems indican que no existe tiempo
suficiente para elaborar preguntas de buena calidad, especialmente porque las personas que se
contrata para este efecto son profesores de aula que deben combinar su horario laboral regular
con esta actividad adicional. Roberta, como supervisora, indica que las reuniones de revisión y
corrección de preguntas se realizan tras la jornada laboral normal y su duración no es suficiente
para abordar el total de los ítems (se intenta revisar alrededor de 60 preguntas en dos o tres
horas). Explica:
“(…) en general, tratábamos de arreglar la mayoría, en verdad, funcionábamos... todos

teníamos como la mejor disposición posible. (…) Se caían varias (…). Se caían varias preguntas;
terminábamos como a las 10-11 de la noche; a veces teníamos que salir de la universidad e irnos
a la casa de alguno a seguir trabajando. En verdad hubo veces en que yo llegué a la casa, a las
12 a mi casa porque no alcanzábamos a revisar todas las preguntas en ese rato. O sea, eran
tiempos muy ideales al final. Y [],entonces yo ahí me las llevaba a mi casa las preguntas y las re-
revisaba, las rearmaba, varias; había varias que ya no habíamos alcanzado a revisar, entonces
yo las revisaba en mi casa y había unas que se caían, entonces yo trataba de hacer más
preguntas para poder mandar la cantidad que se pedía al Ministerio... hasta el otro día.”
En otra sección de la entrevista agrega que, dado que se trata de un trabajo adicional al empleo
normal de los constructores, los ítems no siempre llegan en el día acordado, lo que hace que la
supervisora tenga menos tiempo del esperado para su revisión y corrección.
Los actores involucrados coinciden en señalar que esto perjudica la validez de la prueba, ya que
se motiva la producción de preguntas de baja calidad; se promueve la elaboración formulista de
preguntas en el sentido de saber cuáles son las que se aprueban sin mayores problemas
(generalmente a aquellas que evalúan habilidades más básicas); los elaboradores no tienen la
concentración necesaria para la revisión, por lo que a veces aceptan el rechazo de un ítem por
simple cansancio y no porque les parezca inadecuado.
A ello se agrega que en algunos procesos se pagó a los constructores por ítem aprobado, lo que
generaba presiones adicionales que tendían hacia la elaboración formulista y, por parte de
Alejandra, a una actitud más flexible hacia la aceptación de preguntas que no eran del todo
satisfactorias según su criterio, con el fin de no dejar a esa persona sin un pago asociado a su
trabajo.
Estas apreciaciones acerca de la calidad del trabajo de elaboración de ítems es confirmada por
algunos de los profesionales del SIMCE entrevistados, tanto de Lenguaje como de Matemática,
quienes indican que el aspecto más complejo de esta etapa del proceso es obtener buenas
preguntas.
En el ámbito de la corrección, un primer problema lo constituye la ya indicada ausencia de un

período de marcha blanca declarada por los entrevistados en Matemática, que significa que no
existe un tiempo inicial de calibración, sino que esta se va ajustando sobre la marcha. Ello
implica que, al observarse alguna inconsistencia sostenida entre los correctores, el proceso de
detiene y se establecen acuerdos acerca de cómo continuar. Mientras para Augusto este
procedimiento no genera mayores objeciones, Emilio manifiesta cierta preocupación al
respecto:
“(…) cuando se detectaba que había muchos casos o muchas dudas sobre... o muy parecidos
sobre lo mismo, paraba la corrección, y entrábamos a un proceso que se llama calibrar la
pauta, y ahí llegábamos a acuerdos de cómo íbamos a interpretar lo que estaba pasando;
entonces, pero... una vez que tomábamos la decisión de calibrar estos criterios, era porque ya
había pasado un par de veces o muchas veces, entonces no sé qué habrá pasado con esas que
pasaron y que yo las corregí de una forma y otro las corrigió de otra forma; o que ambos las
corregimos de una forma y luego, en el proceso de calibración, acordamos que era de otra
forma, entonces creo que puede haber una implicancia en los resultados, pero no sé las
magnitudes de esta situación, no sé en qué magnitud afectaba los resultados.”
Otro aspecto irregular del procedimiento de corrección es recordado por los dos actores
involucrados en el proceso de corrección de Matemática que fueron entrevistados en este
estudio. Tanto Augusto como Emilio recuerdan haber visto una respuesta en lo que a ambos les
pareció una lengua indígena nacional. Se trató de un caso en que ambos experimentaron
confusión con respecto a qué hacer. Mientras Augusto no recuerda qué sucedió finalmente con
esa repuesta, Emilio indica:
“(…) o sea, no se hizo ningún proceso de investigación de qué podía estar pasando ahí, sino que
“no, eso es ilegible, malo”, y eso no me pareció. Eso me pasó a mí, y escuché casos parecidos un
par de veces, y eso me pareció como extraño, por último lo hubiese dejado aparte y hubiese
investigado un poquito (…).”
Hay aquí un problema de procedimiento que podría, si se trata de una práctica generalizada,
presentar problemas de validez consecuencial en términos de cómo se consideran las
respuestas de los establecimientos con una mayor población indígena. Este problema contradice
nuevamente el propósito de mejorar la equidad del sistema educativo a través del SIMCE.
Un aspecto de tipo material que afecta también el proceso de corrección es la mala visibilidad
de las respuestas escaneadas que algunos correctores de Lenguaje indican. Ello les impide en
ocasiones detectar claramente problemas ortográficos, lo que dificulta la corrección de este

aspecto de la pauta y, por lo tanto, afecta la validez de este proceso.
No obstante, el aspecto de procedimiento que emerge como el más problemático en los datos
en relación con la validez de la corrección de estas preguntas, corresponde a las condiciones
laborales de los participantes del proceso. Tanto supervisores como correctores lo consideran
un trabajo intenso y a presión, en el cual se evalúa constantemente la productividad, aun
cuando varían en su percepción acerca de lo adecuado del tiempo asignado a la tarea. Daniela lo
describe de la siguiente manera:
“O sea, es que yo estaba en distintas jornadas, a eso voy, en distintas jornadas de

corrección. Y [] hay varias cosas que se suman ahí. Primero, la jornada muy larga con
detenciones breves, muy breves para el trabajo, para el tipo de concentración que tienes
que tener, porque tienes que ser sistemático, congruente, calibrado al corregir y porque,
además, también el coordinador iba mirando productividad, que eso es importante, a mí me
parece importante también que una persona no vaya muy lento, pero, como te digo, ya al final
de la jornada la consistencia cae, y era algo que se veía, el agotamiento era alto; cuando tenías
la jornada de la mañana, a las dos de la tarde ya estabas muerta de hambre, y no te permitían
tener ni agua ni comida cerca tuyo.”
En lo que todos coinciden (con excepción de Augusto, que en diversos aspectos es un caso
atípico dentro de los datos1) es en el paulatino empeoramiento de las condiciones laborales en
que esta actividad se realiza. El pago que se ofrece ha ido disminuyendo (Ximena indica que
desde 2009 lo máximo que se paga es $30.000 por una jornada de 8 horas de trabajo), lo que ha
alejado a aquellos correctores que tienen más años de experiencia y que podrían, por lo tanto,
realizar el trabajo con mayor rapidez y con un criterio más uniforme. También se han ido
acortando los intermedios en los que los correctores descansan tras estar dos horas corrigiendo
en pantalla, lo que aumenta los niveles de cansancio, que para varios ya eran altos antes de la
reciente precarización. Cuatro de los participantes involucrados en la corrección recuerdan
especialmente un caso extremo en el cual la empresa INGEMAS los hizo trabajar en una suerte
de búnker o bodega sin mayor ventilación, en medio de cajas almacenadas, con más de 30
grados de calor, sin autorización de beber agua durante el proceso y, en general, en condiciones
que los participantes consideran inadecuadas. Rodolfo describe la experiencia en los siguientes
términos:
“Yo recuerdo una vez haber trabajado en la corrección en una bodega, pero te digo que era una
bodega, no te estoy diciendo que era algo (parecido)... era una bodega y con todo lo inhóspito
que era trabajar en una bodega; era una factoría, una factoría de estos países asiáticos donde
hacen las prendas, así... y era eso. [En] Verano, claro, era muy incómodo trabajar, era muy... era
un poco indigno [], porque en realidad las condiciones no eran las adecuadas. Bueno, yo te estoy
hablando de algo que ocurría hace años atrás, (…) yo ya no corrijo, tengo entendido que ya no es
tan así ya, pero trabajábamos en una bodega, o sea, habían cajas, las cajas con las pruebas y,
claro, era asfixiante, no había... había muy poco aire, porque no estaba hecho para eso, en
1
Dentro de los entrevistados del proceso SIMCE, Augusto presentó un comportamiento atípico en el sentido de
mostrarse muy temeroso de contestar las preguntas y, por ello, reacio a asumir una perspectiva crítica frente a la
evaluación.
realidad, no es un lugar para que trabaje gente haciendo ese tipo de función; era un lugar para
almacenar objetos, y trabajábamos ahí.”
Los entrevistados lo reconocen como un caso excepcional y extremo, pero que ilustra el
empeoramiento paulatino de las condiciones laborales del proceso de corrección.
A ello hay que agregar lo que declara Sofía, quien indica que el contraste entre las sumas de
dinero que la empresa gana en el proceso y las condiciones deplorables en las que trabajan los
correctores constituye una de las razones por las que parte del equipo SIMCE renuncia a sus
cargos a partir de 20102. Explica Sofía:
“En esa licitación, por lo general, participa muy poca gente, y en los últimos años lo ha hecho
una consultora (1:12:48-1:12:57 sin audio)… millonaria en términos de lo que sale el proceso a lo
que se paga []; eso también fue un motivo de molestia al interior de los equipos disciplinarios
porque finalmente es plata de todos los chilenos y es increíble los excedentes que resultan para
los dueños de esta empresa licitar una corrección SIMCE, es increíble. (…) te cuento que esas
personas yo las conocí como en una consultora de una universidad y después llegaban así en
unos autos pero… (…) yo trabajé hasta diciembre de 2010. Ese año los equipos disciplinarios nos
enteramos de cuánto ganaban y fue un comentario así pero increíble, hubo mucho enojo en los
equipos disciplinarios porque sacamos incluso con Matemáticas la cuenta de cuánto sale, en
función de lo que les pagan a los correctores, lo que podría salir el arriendo de los equipos, el
arriendo del local, la luz, o sea, el excedente es increíble.”
La calidad de la corrección se ve afectada por los niveles de cansancio y falta de concentración,

lo que puede a su vez afectar la validez y confiabilidad de los resultados. La presión por la
productividad y el agotamiento, además, motivan malas prácticas reconocidas por los
correctores entrevistados, tales como acuerdos extra-oficiales durante los intermedios acerca
de las pautas de corrección cuando la calibración entre los correctores es baja. Junto con ello, la
voluntad de lucro excesivo de la empresa que ha ganado la licitación en los últimos años
tampoco garantiza una buena calidad del proceso, puesto que se prioriza el bajo costo por sobre
una instancia de corrección seria y en condiciones adecuadas.
Finalmente, aquellos actores que han asumido roles de mediación o interacción directa con el
SIMCE, como ya se ha reflejado en diferentes secciones del presente informe, se refieren a la
actitud autoritaria e intransigente de algunos de los miembros de esta unidad ministerial, lo que
impide el desarrollo adecuado de algunos procesos. Puede parecer un aspecto irrelevante en
relación con la validez del proceso de evaluación, pero varios actores atribuyen a esta actitud,
por ejemplo, la repetición constante de los mismos errores o problemas en las pautas de
corrección de pregunta abierta, pese a recibir observaciones y sugerencias tanto de los
supervisores de corrección como de los encargados de la validación de las pautas en base a las
respuestas de los estudiantes. También se atribuye a esta actitud ciertos juicios acerca de las
2
Según resolución N° 0016 del 02.01.2012 del Ministerio de Educación disponible en el sitio de Mercado Público,
donde se detalla la adjudicación de la corrección de la prueba experimental y censal por parte de INGEMAS en 2011,
el monto total adjudicado asciende a $816.855.000. Si se calcula el monto diario indicado por Ximena de $30.000 por
un mes, tiempo máximo de trabajo según los correctores entrevistados, y con los 50 correctores exigidos como
mínimo en el proceso de adjudicación, la empresa solamente invierte $30.000.000 en el personal de corrección.
Incluso si se multiplica este monto por todos los niveles y áreas evaluadas (7 áreas en dos niveles), el monto sigue
lejos del total adjudicado. Este ejercicio de triangulación confirma la apreciación de la entrevistada.
preguntas que los elaboradores no consideraban correctos. Algunos de los miembros del SIMCE
entrevistados, específicamente aquellos que presentaron su renuncia en 2010, reconocen esta
actitud y observan que se acentúa tras el cambio de administración ocurrido en 2008.
6.6. Interpretación
Dadas sus condiciones de construcción, aplicación y difusión, y sus consecuencias, cabe

preguntarse qué es lo que se puede interpretar a partir de los puntajes del SIMCE y qué es lo
que no se debiera interpretar a partir de sus resultados. Para algunos actores del SIMCE, las
interpretaciones erróneas provienen del uso que los medios hacen de los resultados y no de la
forma en que esta institución los entrega. Si bien el uso mediático existe, en base al análisis
crítico realizado aquí acerca del constructo y el contenido evaluado por el SIMCE, se puede
afirmar que los documentos oficiales publicados por el Ministerio de Educación también
presentan múltiples interpretaciones que no son válidas. A continuación se ofrecen algunos
ejemplos:
 “(…) el puntaje de la generación que rindió SIMCE 4º básico representa el logro de ese
grupo de estudiantes al finalizar el primer ciclo básico” (sitio Agencia).
 “el resultado obtenido en las pruebas SIMCE refleja los aprendizajes alcanzados por los
estudiantes durante todo el primer ciclo básico en las áreas evaluadas” (Orientaciones
2007, 2009, 2010).
 “Cuando dos establecimientos con similares características socioeconómicas obtienen
puntajes promedios significativamente distintos, es más probable que estas diferencias
se deban a que una escuela ofrece una educación de mejor calidad que la otra.” (sitio
SIMCE).
 “(…) el rendimiento alcanzado en las pruebas SIMCE refleja los aprendizajes logrados
por los estudiantes durante todo el primer ciclo básico en las áreas evaluadas:
Lenguaje y Comunicación, Educación Matemática y Comprensión del Medio Natural,
Social y Cultural.” (Orientaciones 2007)
Conclusiones de este tipo realizan extrapolaciones desde el contenido cubierto por la prueba a
ciclos y áreas completas de aprendizaje, sin que se provea evidencia suficiente para realizar este
salto inferencial. Los participantes asociados al SIMCE desde una mirada disciplinaria
(correctores, constructores e integrantes de equipos disciplinarios dentro del SIMCE) tienden
también a subrayar la necesidad de entender las limitaciones de la prueba y de comprender que
lo que muestra es solamente una aproximación bastante básica y gruesa al aprendizaje de
algunos aspectos de una disciplina.
Algo similar sucede con la comparación de resultados de un año a otro a nivel de

establecimiento. En algunos de los documentos analizados se indica que este tipo de análisis
comparativo “entregará valiosa información para estimar cuál ha sido el progreso en el logro de
los aprendizajes, tanto a nivel de los establecimientos como a nivel comunal, regional y
nacional” (Orientaciones 2005), pues “puntajes significativamente superiores a los obtenidos en
años anteriores y mejores que los de escuelas similares, son un indicio de que se están
realizando avances significativos” (sitio Agencia). Sin embargo, Josefina, al igual que Taut et al.
(2009), indica que de no existir una medida de valor agregado, resulta complejo afirmar que una
variación significativa en el puntaje de un año a otro se deba a aspectos de la escuela, puesto
que puede tratarse de factores especiales de la cohorte de estudiantes de un año específico.
Otras interpretaciones no válidas sobre las que advierten los entrevistados, y que coinciden con
el presente análisis crítico, se indican a continuación.
El puntaje SIMCE NO permite…
 inferir algo sobre la calidad de la educación en general;

 utilizar esta información como base para implementar cambios en la escuela;
 concluir algo sobre el aprendizaje de los estudiantes en toda una disciplina o eje;
 entender que son una verdad absoluta y el único indicador de calidad o éxito de una
política;
 quedarse con los puntajes sin analizar los aprendizajes asociados;
 sindicar a un colegio como ‘bueno’ o ‘malo’;
 establecer rankings entre establecimientos;
 evaluar la calidad de un docente.
Por el contrario, lo que sí es válido inferir del SIMCE, de acuerdo a los entrevistados, es:
El SIMCE permite…
 tener una imagen muy general y gruesa de los aprendizajes de los estudiantes en
algunos aspectos de algunas disciplinas del currículum escolar, siempre que haya una
validación psicométrica adecuada y se evite el entrenamiento mecánico y a corto plazo
de los aprendizajes;
 contar con un indicador de calidad entre muchos otros posibles, siempre y cuando se
tengan en cuenta sus limitaciones y se analice que lo que sus resultados significan en
términos de aprendizaje;
 concluir que el sistema educativo chileno es sumamente segregado socialmente;
 comparar resultados con los de otros establecimientos de características similares;
 observar tendencias de aprendizaje en el tiempo a nivel nacional, entendiendo el
aprendizaje en el sentido limitado que se indica en el primer punto.
7. INTERPRETACIÓN Y DISCUSIÓN
Un primer aspecto que se desprende del análisis anterior se relaciona con la necesidad de
mayor transparencia en relación con el SIMCE y sus procedimientos. Ello porque se trata de un
requerimiento de validez para cualquier sistema de evaluación estandarizada, si lo que se
espera es generar lecturas correctas y mesuradas de los resultados, en las que se contemplen
los límites de lo evaluado. Para Kane (2011), mientras más ambiciosas son las interpretaciones
que se busca realizar a partir de una prueba estandarizada, más evidencia se debe proveer para
las inferencias realizadas y el ejercicio de validación se vuelve más complejo. Por el contrario, las
interpretaciones más sencillas son menos costosas y más fáciles de justificar, aunque ello
también las hace menos interesantes y útiles. Si no se da información clara, coherente y
concentrada en un documento general que funcione como manual, se corre el riesgo de motivar
interpretaciones que se alejan del propósito inicial de la prueba o que no resultan válidas si se
consideran las características del test. Una mayor transparencia y la publicación de los marcos
de evaluación, práctica bastante extendida en las evaluaciones estandarizadas internacionales,
contribuiría al mejoramiento de la validez del SIMCE al asegurar que las interpretaciones que se
realicen de sus resultados sean las adecuadas.
Shaw et al. (2012: 171) indican que “el punto de partida lógico para cualquier ejercicio de
validación es establecer los propósitos e interpretaciones intencionados” del test. Si la validez
consiste en la adecuación de las interpretaciones que se realizan en base a un puntaje en
relación con un propósito determinado (Cureton, 1951; Cronbach, 1984; Anastasi y Urbina,
1997; Kane, 2011; Newton, 2012; Hubley y Zumbo, 2011, entre otros), entonces un aspecto
fundamental y básico antes de cualquier lectura de los resultados del SIMCE sería definir su
propósito. La excesiva variedad de propósitos que cumple el SIMCE ha sido reconocida en la
literatura y señalada como un aspecto problemático en términos de su validez (Bellei, 2002;
Informe Comisión SIMCE, 2003; Taut et al., 2009). Los resultados de la presente investigación
confirman esta preocupación, puesto que se detectan 17 propósitos diferentes para el sistema
de evaluación en estudio.
Cada uno de estos propósitos, con sus respectivas interpretaciones, requiere de un análisis de
validez que provea evidencia suficiente para indicar de qué manera este instrumento logra
cumplir con dichos propósitos y qué significado se puede o no se puede asignar a sus resultados.
Por ejemplo, si el SIMCE tiene como uno de sus propósitos intencionados orientar y evaluar
políticas educativas (que, de hecho, son en realidad dos propósitos), primero habría que
explicitar los saltos inferenciales que nos llevan desde una prueba mayoritariamente de opción
múltiple, que cubre solamente algunos aspectos de algunas áreas del currículum, a decir que un
buen resultado en ella indica que una política ha sido efectiva. De forma similar, si otro
propósito es monitorear la calidad de la educación, habría que explicar cómo se llega a concluir
que la educación chilena ha mejorado o empeorado sobre la base de una prueba como la antes
descrita, especialmente si el concepto de calidad no ha sido definido de manera explícita (ver
sección 6.2).
Por lo tanto, un segundo punto que se agrega al de transparencia, es la necesidad de una re-
evaluación y redefinición de los propósitos del SIMCE si se espera que constituya una
evaluación válida. Ello tanto porque cumple demasiados propósitos de manera simultánea, para
cada uno de los cuales se requiere evidencia que justifique las interpretaciones de los
resultados, como porque sus dos macro-propósitos (rendición de cuentas y uso pedagógico)
parecen estar en contradicción o, al menos, compitiendo entre sí.
Una vez resuelta la problemática de los propósitos, un tercer aspecto relevante lo constituye la
necesidad de definir el constructo a evaluar. Para Anastasi (1986), el punto de partida en
cualquier ejercicio de validación tiene que ver con la delimitación clara del constructo a evaluar.
Según esta autora, una definición más precisa del constructo facilita la lectura de los resultados,
pues se sabe con exactitud qué es lo evaluado por medio del test y, por lo tanto, qué es lo que
los puntajes significan. Para diversos autores las etiquetas o denominaciones utilizadas en las
evaluaciones estandarizadas son relevantes, pues son una primera aproximación a los límites de
un constructo (ver por ejemplo Messick, 1980; Kane, 2008). En ese sentido, el primer rótulo que
se nos ofrece en toda la documentación del SIMCE está dado por su nombre: mide la calidad de
la educación en Chile. No obstante, pese a tratarse de un concepto amplio y posible de ser
entendido de múltiples formas (conf. Harvey and Green, 1993; Aguerrondo, 1993), no se ofrece
en ninguna parte una definición de este concepto ni de cómo el SIMCE estaría evaluándolo a
través de sus preguntas. En base a los resultados de este estudio, habría que partir por
modificar el nombre del SIMCE, una vez que su propósito y su constructo estén claros. Si la
evaluación de los resultados de aprendizaje en torno al currículum vigente no se considera
equivalente a calidad, entonces la prueba debe cambiar su denominación, con el fin de impedir
lecturas no válidas de sus resultados.
No explicitar los reales límites del constructo y no modificar los rótulos correspondientes puede
llevar a hacer equivaler calidad en la educación al desarrollo de las habilidades más básicas de
algunos ámbitos de 4 áreas del currículum nacional, que es lo que en realidad logra evaluar el
SIMCE. En términos de Crooks et al. (1996), se genera aquí un problema de extrapolación y
generalización, dos de los ocho eslabones en la cadena de análisis de la validez de un proceso de
evaluación. Al no explicarse con mayor detalle lo que finalmente se está evaluando, se puede
cometer el error de extrapolar los resultados del SIMCE a la totalidad del currículum del área o
del currículum nacional, generando interpretaciones erróneas, tal como se observa en varios
Folletos de Orientaciones e Informes de Resultados (ver sección 6.6).
Además de los límites del constructo, la comparabilidad de los resultados de la prueba de un

año a otro se ve cuestionada por los datos, pues existen dudas acerca de la estabilidad del
constructo en el tiempo. Para Dorans et al. (2010: 6):
“Bajo reglas de ensamblaje apropiadas, las formas nuevas y antiguas son mediciones igualmente
confiables del mismo constructo, que se construyen sobre el mismo conjunto de
especificaciones estadísticas y de contenido bien detalladas.”
Al modificarse el currículum, con algunos contenidos cambiando en su distribución en el tiempo,

se pone en cuestión la estabilidad del constructo de un año a otro. Lo que se publica en los
documentos acerca de los contenidos a evaluar da mayor sustento a estas preocupaciones,
puesto que revela diferencias importantes entre una aplicación y otra en términos de aquello
que se evalúa. En estos documentos se observan, además, imprecisiones conceptuales
relacionadas con las dimensiones local y global del discurso, las cuales podrían estar revelando
cierta disidencia teórica en relación al concepto de comprensión lectora entre una postura
textual y discusiva, y una oracional y menos holística. Una tarea importante, por lo tanto, sería
corroborar que los marcos de evaluación garantizan la equivalencia en constructo, contenido y,
por lo tanto, la comparabilidad de las pruebas en términos de la teoría y la red nomológica que
las sustenta (Messick, 1980). Para ello se requeriría contar con dichos marcos publicados.
De acuerdo con los resultados de la sección 6.4, las posibles consecuencias que el SIMCE teme y
por las cuales indica que no publica los marcos de evaluación ya se observan en las aulas del
país. En ese sentido, la publicación de los marcos de evaluación solamente haría explícita una
reducción del currículum que, al parecer, ya ocurre. Disminuir el riesgo de la prueba para las
escuelas y los docentes, en lugar de ocultar aquello que evalúa, sería quizás una forma más
adecuada de disminuir su efecto negativo sobre la práctica pedagógica, mejorando la validez de
este sistema de evaluación en el eslabón asociado a su impacto (Crooks et al., 1996).
Por último, también en relación con el constructo y el contenido a evaluar, la presente

investigación revela la existencia de una serie de preocupaciones por parte de los participantes
en relación con la calidad de las preguntas y las pautas de corrección, percepción que se
confirma en el análisis de los ítems recogidos en los documentos. Se encuentran, por ejemplo,
preguntas que estarían mal clasificadas en relación con la habilidad que evalúan, generando
problemas de cobertura, comparabilidad e interpretación de los resultados, análisis corroborado
por medio de validación a través de la consulta a expertos (Anastasi y Urbina, 1997; Shawn et
al., 2012). Otro ejemplo lo constituyen las clasificaciones cuestionables de las preguntas en
determinados niveles de logro, donde se muestra como avanzado un nivel que en realidad sería
adecuado, o como intermedio un nivel que en realidad sería elemental, por motivos de índole
política. Al haber problemas de clasificación, el uso pedagógico que todos los actores que aluden
a los Niveles de Logro les atribuyen como intención fundamental, queda en cuestión, dado que
las clasificaciones resultan dudosas y la retroalimentación al profesor es potencialmente
inadecuada. Ello por ilustrar solamente algunos de los problemas detectados. En relación con las
pautas, la mayoría de sus usuarios indican que son inadecuadas y que requieren adaptaciones,
problemas que se reiteran de un año a otro pese a que SIMCE recibe retroalimentación de
diversas fuentes al respecto. En este sentido, la corrección finalmente se realiza en base a una
versión acordada de la pauta creada in situ, versión que el equipo SIMCE no conoce. La validez
de la corrección y de las pautas como parte del constructo y el contenido a evaluar se ve así
cuestionada, ya que el juicio experto de los profesionales que participan del proceso no se toma
en cuenta y la pauta intencionada por el SIMCE no es finalmente la que se aplica.
Como orientaciones acerca del camino a seguir, hay que mencionar que para los especialistas de
Lenguaje el proceso del piloto de Escritura en 2008 fue ejemplar en todo sentido, y que para los
expertos del área Matemática las preguntas abiertas son ejemplos de ítems que les gustaría ver
en mayor cantidad dentro de la prueba. Estas constituyen sugerencias que proveen modelos y
formas concretas de mejorar la calidad y representatividad de las preguntas, por lo que sería
relevante tenerlas en cuenta. No obstante, varios entrevistados indican que ello encarecería el
costo del SIMCE y de allí que se insista en el uso de preguntas cerradas.
En el ámbito criterial, dadas las dudas que el análisis de constructo y contenido arroja en
relación con qué es lo que realmente mide el SIMCE y hasta qué punto sus resultados pueden
interpretarse en términos de los constructos intencionados, la realización de estudios de las
dimensiones concurrente y predictiva podría ser provechosa para el mejoramiento de este
sistema de evaluación. Solamente en los últimos años ha comenzado a aprovecharse esta
información a través de estudios sobre TIMSS y PISA (ver por ejemplo MINEDUC, 2013). No
obstante, las iniciativas recientes se concentran en el establecimiento de concordancias de
puntaje entre ambas pruebas. Dada la poca claridad que los documentos públicos ofrecen
acerca del constructo y el contenido evaluado por SIMCE, podría ser de mayor interés
considerar en primer lugar las diferencias y similitudes de los constructos, la forma en que estos
se cubren en cada prueba, el tipo de tareas a través de las cuales se los mide y desde allí
obtener información acerca del grado de concordancia entre los resultados de SIMCE y otras
pruebas, al menos en aquellos ámbitos en que el constructo sea similar.
Para Koch y DeLuca (2012: 106), un estudio de validez requiere “explorar concepciones
congruentes e incongruentes dentro y a través de los grupos de actores más relevantes del
proceso en un esfuerzo por llegar a una descripción de la coherencia de la evaluación”, aspecto
que para Haertel (1999) constituye una brecha de investigación en evaluación posible de cubrir
a través de entrevistas y grupos focales con docentes y estudiantes. En la presente investigación
se buscó dar un primer paso en esta dirección al incorporar la voz de los profesores y lo que
ellos dicen sobre otros actores, como padres y estudiantes, en relación con el SIMCE. A
diferencia de otros estudios, su testimonio se incorpora aquí ausente del sesgo confirmatorio
(Haertel, 1999) en relación con la prueba, esto es, sin asumir la buena calidad de la evaluación
como un hecho dado ni atribuir a los usuarios la responsabilidad por los malos usos y las
interpretaciones erróneas.
Los resultados de las entrevistas a los docentes, confirmados por varios de los entrevistados de
SIMCE, son especialmente relevantes para la dimensión consecuencial. Tanto al interior de cada
disciplina como en el currículum de la escuela en general, el SIMCE provoca modificaciones en
términos de la cobertura curricular, pues se prioriza aquello que se piensa que la prueba
evalúa. Los docentes tienen una percepción crítica del SIMCE, ya que modifica sus prácticas,
reduce el currículum que enseñan, motiva una forma de trabajo en aula que dista de lo que ellos
consideran como adecuado en el aprendizaje de su área, homogeneíza aquello que es diverso y
pone presiones indebidas a su trabajo a partir del uso de los resultados para generar rankings y
motivar la competencia entre escuelas. En ese sentido, la demanda parece ser por una
evaluación más representativa, más sensible a las diferencias, y sin publicación de resultados.
Las consecuencias indicadas por los profesores aparecían ya en el Informe de la Comisión SIMCE
(2003). Sin embargo, estas entrevistas realizadas en 2011 no parecen reflejar mayores cambios
en la práctica.
Es probable que las advertencias de los documentos analizados con respecto a la importancia de
evaluar aquellas habilidades no contempladas en el SIMCE, o las indicaciones acerca de la
necesidad de compararse solamente con establecimientos similares, no resulten suficientes
para evitar las consecuencias indicadas en este informe. Resulta crucial profundizar en la
dimensión consecuencial del SIMCE, ya que emerge como uno de los eslabones más débiles en
términos de las amenazas a la validez de la prueba (Crooks et al., 1996). Se debe evaluar qué tan
expandidas están las consecuencias indicadas, puesto que de ser prácticas extendidas, el
propósito de mejorar la calidad y equidad de la educación no se estaría cumpliendo, y la prueba
podría estar favoreciendo el propósito contrario.
Para Shepard (1997: 7), la enseñanza o entrenamiento para la prueba, presente en todos los
contextos de los docentes entrevistados, no solamente amenaza la validez de la prueba en el
sentido de que el uso de los resultados no tiene el efecto esperado en el aprendizaje, sino que
refleja “también una falla en la conceptualización del test [que] lo hizo susceptible a ganancias
de puntaje inválidas que convierten su uso en inválido”. En este sentido, es necesario examinar
hasta qué punto la preparación mecánica para el SIMCE podría estar distorsionando el
constructo que se busca evaluar, impidiendo la extrapolación de sus resultados a otras
situaciones en que el mismo constructo se esté poniendo en práctica. Si el estudiante no
muestra un desempeño similar en otras tareas ligadas al mismo constructo, entonces se podría
dudar que este instrumento esté realmente evaluando los constructos declarados y los
resultados podrían estar más ligados al entrenamiento que al aprendizaje significativo.
Por último, hay aspectos de procedimiento que ponen en cuestión la validez de la

interpretación de los resultados del SIMCE. Las condiciones laborales de constructores y
correctores no garantizan un trabajo de buena calidad, ya que los participantes se ven
sometidos a presiones que los obligan a crear preguntas formulistas y básicas, o a establecer
acuerdos extra-oficiales para poder finalizar su trabajo de corrección a tiempo y pese al
cansancio. La actitud intransigente y poco abierta a la crítica que algunos participantes observan
en ciertos miembros de SIMCE no facilita tampoco el mejoramiento de la calidad de las
preguntas y las pautas. De allí la importancia de considerar que la validez involucra todas las
fases y aspectos del proceso de evaluación (Anastasi, 1986) y no únicamente la validación
psicométrica de los ítems, como parece ser la creencia en el equipo de SIMCE, pese a que dicha
validación también presenta problemas.
Para sintetizar la discusión aquí presentada, se indican en la siguiente tabla los ocho eslabones
de la cadena de validez de Crooks et al. (1996) y los problemas y ventajas que el SIMCE presenta
en relación con cada uno.
ESLABÓN EN QUÉ CONSISTE VENTAJAS PROBLEMAS

Administración Circunstancias en que se Uniformidad en la Potencial desmotivación de los
obtienen los desempeños aplicación. estudiantes.
de los estudiantes. Entrenamiento para la prueba.
Condiciones laborales de correctores.
Puntaje Proceso de asignación de Uso del TRI y estrategias Acuerdos extra-oficiales entre
puntajes. de equating. correctores.
Problemas en las pautas.
Falta de marcha blanca en Matemática.
Poca transparencia en relación con los
procedimientos de asignación de
puntaje.
No se considera valor agregado.
Influencia política en la determinación
de puntajes de corte y Niveles de Logro.
Agregación Cuando los puntajes se Presentación de los Consideración de ejes que se
agrupan para producir puntajes en relación con comportan diferente (geometría) como
una sub-escala o un establecimientos parte del mismo puntaje.
puntaje total. similares. Mucho peso dado a preguntas cerradas
de opción múltiple en comparación con
el peso de las preguntas abiertas.
Generalización Generalización de los La consistencia entre las Las tareas a las que se someten los
resultados desde la preguntas es estudiantes abarcan un espectro
prueba al dominio probablemente alta, limitado, por lo que la posibilidad de
evaluado. aunque esto podría generalizar al dominio evaluado es
deberse a que el tipo de también limitada. Lo mismo sucede con
pregunta y el espectro de las habilidades que la prueba
habilidades evaluadas son finalmente evalúa.
muy similares. Problemas en la calidad y la
clasificación de las preguntas, lo que
dificulta su adecuada interpretación.
Extrapolación Extrapolación de los Se puede hablar de cierta Los constructos a evaluar no se definen
resultados desde el posibilidad de claramente, por lo que el ejercicio de
dominio evaluado al extrapolación, aunque extrapolación es complejo desde un
dominio objetivo (target desde una mirada muy principio.
domain). limitada del dominio Las preguntas no logran representar
objetivo. todo el espectro relevante del
constructo a considerar. Hay
habilidades y contenidos relevantes
que están sub-representados o
ausentes.
Dudas acerca de la concurrencia entre
SIMCE y otras tareas que evalúan el
mismo constructo.
Evaluación Es el paso desde los Presentación de las Poca transparencia y claridad acerca de
puntajes en el dominio interpretaciones de los los propósitos, constructo, contenido,
objetivo hacia un juicio resultados asociadas a procedimiento e interpretaciones
acerca del mérito del grupos de características intencionadas del SIMCE, lo que
desempeño del similares. Búsqueda de provoca falta de comprensión por parte
estudiante. factores asociados al de los usuarios acerca de sus resultados
buen desempeño, con e involucra el riesgo de juicios no
independencia del nivel válidos.
socioeconómico. Interpretaciones erróneas por parte de
diversos actores en base al
desconocimiento de los límites de la
prueba.
Falta de evidencia para los múltiples
saltos inferenciales que se realizan en
las interpretaciones de los resultados
del SIMCE.
Decisión La toma de decisiones en Dado el constructo real No hay evidencia suficiente para
base a los juicios. en contraposición con el ninguna de las decisiones que se basan
constructo declarado en en los resultados de SIMCE. Las
SIMCE, no se observan decisiones que se toman no son
mayores ventajas en este coherentes con lo que la prueba logra
aspecto, ya que no hay evaluar y no siempre generan un
base suficiente para impacto positivo en los actores.
ninguna de las decisiones Los estándares están construidos sobre
que se toman en base a la base de clasificaciones inadecuadas
SIMCE. (Niveles de Logro).
Impacto El impacto de la Un profesor indicó que un Las consecuencias positivas esperadas a

evaluación en el impacto positivo es que partir de la evaluación no se logran
estudiante y los demás los docentes de bajo (mejoramiento de la calidad y equidad).
participantes del proceso. desempeño al menos Hay consecuencias negativas: reducción
Si este eslabón es débil, hacen algo. del currículum, presiones e incentivos
entonces todo el proceso indebidos, entrenamiento mecánico
puede ser cuestionable. para la prueba, ansiedad en los
docentes y las escuelas, entre otros.
TABLA 9. Resumen análisis de validez de SIMCE
en base a modelo de los 8 eslabones de Crooks et al. (1996)
En conclusión, lo que se puede decir de los resultados del SIMCE es bastante limitado y las
interpretaciones en base a ellos debieran ser más moderadas que las actuales. Por otro lado,
sabiendo lo que se puede concluir de los resultados de SIMCE, habría que preguntarse si, dado
todo el trabajo que implica, realmente se necesita esta información y, de ser así, para qué se la
necesita; qué información adicional se requiere para tener una imagen más global del sistema
educativo nacional y su calidad; qué acciones orientadas a consecuencias positivas para el
sistema se deben tomar en base a estos datos; cómo se garantizan las condiciones indicadas
para cada interpretación posible; y cómo se evita que las interpretaciones que no son válidas se
generen, haciendo daño al sistema en el sentido de la dimensión ética asociada a la evaluación.
8. CONCLUSIONES
En base al análisis realizado, entonces, se puede concluir que existen diversas razones para
cuestionar la validez de las interpretaciones de los resultados del SIMCE. En primer lugar, esta
evaluación presenta múltiples propósitos, algunos contradictorios entre sí. Además, su
constructo no se define claramente, su comparabilidad de un año a otro es cuestionable, y su
cobertura no está asegurada, de manera que no existe una base clara sobre la cual sustentar las
interpretaciones que se realizan de los puntajes. A ello se agrega que el análisis de los ítems
liberados genera dudas en relación con la relevancia, calidad y cobertura de las preguntas de la
prueba. La evidencia obtenida con respecto al procedimiento de construcción y corrección de
las preguntas, y la percepción de los docentes con respecto a lo que el SIMCE logra evaluar,
refuerzan las conclusiones de dicho análisis. Hay múltiples consecuencias asociadas al SIMCE
que también podrían incidir en su validez, entre ellas, distorsión de las prácticas pedagógicas y
de evaluación, malas prácticas y presiones indebidas. Por lo tanto, se puede al menos decir que
existe evidencia suficiente para plantear una duda razonable en relación con la validez del
SIMCE.
A partir de este análisis empírico, por lo tanto, se contribuye a la teoría sobre validez en
evaluación. Por una parte, se evidencia la forma en que el concepto unitario de validez (Messick,
1980 y 1989) y el enfoque basado en argumentos (Kane, 2008) contribuyen a iluminar áreas de
la calidad de un proceso de evaluación que una aproximación mecanisista, contenidista y
centrada en el aspecto estadístico no lograría dilucidar. Junto con ello, los datos implican al
menos una primera aproximación hacia la importancia de incluir la dimensión consecuencial en
el análisis de la validez de un procedimiento de evaluación, puesto que la evidencia empírica
arroja dudas razonables en este ámbito, que se interconecta posiblemente con la validez de
constructo, si se comprueba que las distorsiones de la práctica son extendidas y sistemáticas.
Corresponde ahora retornar a la definición del concepto de validez, en el sentido de examinar si

existe evidencia suficiente para realizar determinadas interpretaciones en base al puntaje del
SIMCE, en relación con cada uno de sus propósitos. En primer lugar, para el propósito del SIMCE
de mejorar y monitorear o evaluar la calidad y equidad del sistema educativo chileno, no se
provee evidencia suficiente que permita indicar que los resultados de la prueba puedan ser
interpretados en esta dirección. No se define el constructo calidad ni se provee evidencia
suficiente para los saltos inferenciales que se realizan desde el contenido real evaluado a este
constructo más amplio. Además, las consecuencias que genera la prueba parecen indicar que
sus efectos van más bien en contra de su propósito central, pues la calidad y equidad del
sistema educativo chileno se ven dañadas por su impacto.
En relación con los propósitos de evaluar, medir o diagnosticar resultados de aprendizaje,

logro/cumplimiento de los OF-CMO o cuánto saben los alumnos, y de evaluar comprensión
lectora o resolución de problemas, la evidencia obtenida indica que la interpretación debe estar
limitada a ciertos contenidos y ciertas habilidades, especialmente las más básicas y rutinarias, de
determinadas áreas del currículum. Hay evidencia, además, en contra de la calidad de las
preguntas y las pautas de corrección, que podría también poner en cuestión esta interpretación
limitada. No hay evidencia suficiente para inferir, desde las preguntas y contenidos evaluados
actualmente, que un buen resultado en SIMCE signifique desarrollo de aprendizajes en un ciclo
completo, un nivel completo, una disciplina completa o incluso el eje de una disciplina.
Asimismo, interpretarlo como progreso en el aprendizaje, sobre todo a nivel de establecimiento,
requeriría, junto con solucionar los problemas de constructo y cobertura del contenido,
incorporar medidas de valor agregado en las que se asegure que la variación en puntaje no está
determinada por características de la cohorte, y estudiar qué tan extendidas están las prácticas
que pudieran distorsionar estos resultados.
Al existir evidencia en contra y no haber evidencia suficiente para interpretar mayor calidad o
equidad ni resultados o progreso en el aprendizaje de los estudiantes chilenos, la base para
muchos otros propósitos se cae, entre ellos: orientar y evaluar políticas educativas; apoyar la
reflexión y las decisiones pedagógicas; informar a los padres y al sistema acerca del aprendizaje
de los estudiantes; comparar establecimientos; establecer rankings; evaluar iniciativas del
establecimiento; y probablemente todos los que se enunciaron en la sección correspondiente
del presente informe. Si no se sabe qué se está evaluando, difícilmente se pueden tomar
decisiones en base a esta información y menos evaluar si una escuela, una comuna, un gobierno
o un país poseen aprendizajes o una educación de calidad.
Si no hay un propósito claro, si los propósitos existentes se contraponen e incluso se anulan

mutuamente, si los constructos a evaluar no se han delimitado claramente, si los constructos
declarados no se encuentran adecuadamente representados en las pruebas, si el mismo análisis
psicométrico excluye otros contenidos relevantes, si la calidad de las preguntas y pautas no está
asegurada en su proceso de creación y de validación cualitativa, si la corrección de las preguntas
se realiza en condiciones que no garantizan su calidad, y si las consecuencias que la prueba
genera juegan en contra su propósito y constructo central, entonces la validación psicométrica
no resulta en absoluto suficiente para afirmar, como se ha hecho hasta ahora, que el SIMCE es
una evaluación metodológicamente sólida y que sus interpretaciones son válidas. Una
afirmación como esta podría ser más bien parte de los que algunos autores denominan sesgo
confirmatorio, el cual se genera cuando los desarrolladores de un test no se preocupan por
buscar evidencia en contra de los propósitos e interpretaciones intencionados (Haertel, 1999;
Kane, 2011).
No obstante, hay que recordar la ya mencionada crítica en la literatura sobre validez hacia la
forma en que la teoría sobre este concepto suele ser puesta en práctica por las agencias
evaluadoras: mecánica, empiricista, poco holística y centrada en el aspecto estadístico (Haertel,
1999; Anastasi, 1986; Hubley y Zumbo, 2011; Koch y DeLuca, 2012). Al parecer, lo que se busca
es evitar la complejidad de lo que un verdadero análisis de la validez de un proceso de
evaluación implicaría, complejidad que, sin embargo, no justifica la ausencia de dicho análisis
(Kane, 2010). Autores como Haertel (1999) sospechan que existe en la insistencia en el uso
acrítico de los tests un fin más bien económico y político. En los modelos educativos neo-
liberales, de hecho, la evaluación estandarizada se convierte en un medio para mantener un
control a distancia, esto es, permite gobernar a través de los datos y los números (conf. Grek,
2009; Lawn and Ozga, 2009; Ozga, 2009). Lo mínimo que se puede y se debe hacer, entonces, si
no se modifica este modelo, es al menos asegurar que dichos datos y números se construyan e
interpreten de manera adecuada y justa para todos los actores del sistema. Si se aprovecha esta
oportunidad, quizás el SIMCE podría convertirse en una evaluación pionera en este sentido.
9. RECOMENDACIONES
Uno de los propósitos del presente estudio es proveer recomendaciones y orientaciones para
mejorar la validez del SIMCE como proceso de evaluación. Dada la evidencia obtenida, una
primera medida tiene que ver con un replanteamiento radical del SIMCE, en el sentido de re-
evaluar su sentido y dirección en el sistema educativo chileno. Los diferentes actores deberían
establecer un diálogo en el cual se reflexione, primero, sobre la necesidad de SIMCE y sobre sus
propósitos y, en base a ello, se propongan procedimientos y condiciones que sean coherentes
con aquello que se defina que se quiere del SIMCE.
En directa relación con lo anterior, es importante reconsiderar los propósitos del SIMCE, puesto
que la multiplicidad actualmente existente no resulta sostenible técnicamente. Ello implica, por
una parte, tomar decisiones en relación con los macro-propósitos de rendición de cuentas y uso
pedagógico, priorizando aquel que se considere más relevante y menos perjudicial para el
sistema. Además, sobre la base de esta decisión, se debe acotar la lista de 17 propósitos a una
serie más realista y mejor justificada que la actual.
Para una buena comprensión de los propósitos y de las interpretaciones derivadas del SIMCE,
resulta fundamental definir, delimitar y transparentar para los usuarios el constructo y el
contenido evaluado en las pruebas. Ello implica, por ejemplo, utilizar las etiquetas adecuadas a
la hora de dar nombre a cada prueba y al sistema de evaluación en su totalidad,
denominaciones que actualmente deben modificarse a la luz del análisis aquí realizado,
considerando otras que reflejen de forma más adecuada el constructo a evaluar. También
implica incluir definiciones teóricas de aquello que se evalúa, ejemplos de cómo se lo evalúa, y
publicar los marcos de evaluación con la cobertura curricular implicada. Ello debiera
acompañarse de un manual detallado que ayude a los usuarios a realizar interpretaciones
mesuradas y adecuadas de los resultados, y a comprender las limitaciones a considerar en
relación con los instrumentos.
Junto con lo anterior, sería conveniente realizar un estudio curricular que asegure la
comparabilidad de resultados en el tiempo en relación con un mismo constructo. Ello porque,
dada la evidencia inicial de este estudio, existen razones para creer que las interpretaciones
entregadas hasta ahora no serían válidas en términos de progresión de aprendizajes, puesto que
el constructo evaluado se ha ido modificando. Si a ello se agrega que no se realizan medidas de
valor agregado, la interpretación en términos de mejora en los aprendizajes a nivel de
establecimiento resulta poco plausible.
La calidad y cobertura de las preguntas debe mejorarse. Quizás sea importante incorporar
preguntas más desafiantes y más preguntas abiertas cuyo costo podría asumirse si se convierte
el SIMCE en una prueba muestral y no censal. Ello daría al sistema un mensaje más claro acerca
del tipo de habilidades que se espera que los estudiantes desarrollen en relación con el
currículum, y quizás modificaría las prácticas docentes en un sentido más positivo, aun cuando
el mensaje debiera finalmente ser que el SIMCE no se debe preparar y que basta con trabajar en
aquello que el marco curricular exige.
Otro aspecto que permitiría mejorar la calidad de las preguntas se relaciona con una mayor
apertura al juicio externo en términos de modificar enunciados y pautas si un grupo de expertos
disciplinarios así lo sugiere. Quizás se insista en la estabilidad de las preguntas e instrumentos
por razones de comparabilidad y estandarización, motivos atendibles, pero que no debieran

sobreponerse a los de la calidad del instrumento. En conexión con este aspecto, resulta
fundamental generar más competencias teóricas y prácticas en evaluación en Chile en todos los
niveles, para facilitar la elaboración de pruebas de buena calidad. Una sugerencia pertinente en
este sentido sería aprovechar el conocimiento ya adquirido por las personas que llevan años
trabajando en la prueba, con el fin de, por ejemplo, crear con ellas un organismo dependiente
del SIMCE donde se elaboren preguntas, pautas y se corrijan las respuestas. Podría motivarse la
especialización de estas personas en evaluación, así como el aprendizaje mutuo. Ello podría
contribuir, simultáneamente, a asegurar las buenas condiciones laborales y, por lo tanto, la
validez del proceso de evaluación en relación con su construcción y corrección. Tener este
organismo especializado, con personas dedicadas de forma exclusiva al tema de la elaboración
de pruebas, sería una manera más eficiente de invertir los recursos en comparación con la
actual, que permite, por ejemplo, el lucro excesivo por parte de algunas empresas externas.
Resulta crucial investigar con mayor detención y amplitud las consecuencias generadas por el
SIMCE en su forma actual, puesto que no se sabe hasta qué punto la distorsión de las prácticas
pedagógicas y evaluativas se ha generalizado, al igual que las malas prácticas que podrían
distorsionar los resultados de los establecimientos. Si se trata de consecuencias extendidas,
entonces se deben tomar medidas acordes, como por ejemplo, bajar el impacto de los
resultados y prohibir su publicación. De lo contrario, puede ser que lo que finalmente se evalúe
sea el grado de entrenamiento para la prueba en un establecimiento, lo que se aleja
considerablemente de los constructos intencionados por el SIMCE. Junto con ello, el sistema de
evaluación completo entraría en contradicción, puesto que en lugar de evaluar y mejorar la
calidad de la educación, estaría realizando todo lo contrario.
Finalmente, resulta claro que los miembros del equipo SIMCE necesitan asumir un concepto más
amplio de validez, que vaya más allá de los procedimientos de validación de contenido que
predominaron en la primera mitad del siglo XX. La discusión teórica en torno al concepto ha
avanzado mucho en las últimas décadas, y la literatura reciente ofrece métodos concretos para
realizar estudios de validez basados en una concepción más actualizada del término. La validez
no puede limitarse a los procesos de consulta a expertos y de análisis psicométrico, en los cuales
parece existir una confianza ciega, sino que debe permear todo el proceso, desde la definición
de los propósitos y constructos hasta la publicación de resultados y su uso. El presente estudio,
de hecho, revela el riesgo de este exceso de confianza, puesto que queda en evidencia la
debilidad del SIMCE en gran parte de los eslabones de la cadena de validez de Crooks et al.
(1996).
Dada la evidencia que arroja la presente investigación, se abren dos caminos a futuro para el
SIMCE. En el entendido que se sigan las recomendaciones anteriormente indicadas, una
posibilidad es convertir el SIMCE en una evaluación menos ambiciosa o más razonable en sus
propósitos, de tipo muestral, de bajas consecuencias, con medidas de valor agregado, que
controle quizás por grupo socioeconómico para observar las diferencias de aprendizaje no
debidas a este factor, y con reporte directo a los establecimientos. La ‘foto’ que se podría
obtener con respecto a los aprendizajes del currículum podría ser mucho más exacta y la
interpretación de sus resultados mucho más válida.
El segundo camino es más complejo. Si se opta por continuar con la forma actual de SIMCE, se
requiere proveer evidencia para cada uno de los saltos inferenciales que actualmente se realizan
en base a sus resultados, tomando en cuenta cada uno de sus 17 propósitos. Dados los
resultados presentados en este informe, dicha tarea parece inviable. Insistir en esta vía
solamente estaría confirmando la siguiente apreciación de Jaime acerca de las razones por las
que no se publica mucha información sobre SIMCE:
“(…) este objeto de poder, que es tan preciado y que es tan delicado, porque va a permitir
estructurar todas las políticas públicas, controlar a los colegios, etc., sobre él se van a fundar las
promesas de mejoramiento de la calidad de la educación; ese instrumento es bien discutible, y si
se hace público, es muy criticable. Entonces, de ahí en adelante, empieza una época en la cual
como que la emoción como fundante del trabajo del SIMCE es el miedo, en el sentido de que
mientras menos gente lo conozca, mejor; porque cualquiera que lo conoce va a tener un punto
de vista, entonces a lo mejor ya no va a decir que las preguntas están malas, pero va a decir que
discrepa, y si discrepa, ya no podemos decir... darle tanta importancia a este instrumento.”
Sea cual sea la opción que se tome a futuro, el SIMCE no debería continuar en sus condiciones
actuales. De ser así, sus usuarios tienen el derecho de desestimar las interpretaciones pasadas y
futuras de los resultados de esta evaluación, y continuar realizando lo que ellos consideren ética
y pedagógicamente correcto.
REFERENCIAS Y BIBLIOGRAFÍA
Aguerrondo, I. (1993). La calidad de la educación: ejes para su definición y evaluación. La

educación, 116, 561-578.
Anastasi, A. (1986). Evolving concepts of test validation. Annual Review of Psychology, 37, 1-15.
Anastasi, A y Urbina, S. (1997). Psychological testing. Nueva York: Prentice-Hall.
Bellei, C. (2002). Apuntes para debatir el aporte del SIMCE al mejoramiento de la educación
chilena. Documento no publicado.
Berryhill, J.; Linney, J.A.; Fromewick, J. (2009). The Effects of Education Accountability on
Teachers: Are Policies Too-Stress Provoking for Their Own Good? International Journal of
Education Policy and Leadership, 4(5), 1-14.
Campbell, D.T. (1960). Recommendations for APA test standards regarding construct, trait or
discriminant validity. American Psychologist, 15, 546-553.
Campbell, D.T. y Fiske, D.W. (1959). Convergent and discriminant validation by the multitrait-
multimethod matrix. Psychological Bulletin, 56, 81-105.
CIDE (2007). Informe Final “Estudio Exploratorio Entrega de Resultados SIMCE con Niveles de
Logro a Establecimientos Educacionales Durante el año 2007”. Santiago: Publicación CIDE,
Facultad de Educación Universidad Alberto Hurtado.
CIDE (2008a). Informe cualitativo estudio “Evaluación de la jornada de análisis de resultados

SIMCE 2007”. Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado.
CIDE (2008b). Informe cuantitativo estudio “Evaluación de la jornada de análisis de resultados

CIDE (2009). Resumen ejecutivo estudio “Evaluación de la jornada de análisis de resultados

Comisión SIMCE (2003). Evaluación de Aprendizajes para una Educación de Calidad. Santiago:
MINEDUC.
Crooks, T. J., Kane, M. T., & Cohen, A. S. (1996). Threats to the valid use of assessments.
Assessment in Education: Principles, Policy & Practice, 3, 265-286.
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological
Bulletin, 52, 281-302.
Cronbach, L. J. (1984). Essentials of psychological testing (4th ed.). New York: Harper & Row.
Cureton, E. E. (1951). “Validity”. En: E. F. Lindquist (ed.). Educational measurement. Washington,

DC: American Council on Education, 621-694.
Dorans, N.; Moses, T.; Eignor, D. (2010). Principles and Practices of Test Score Equating.
Educational Testing Service.
Eyzaguirre, B. y Fontaine, L. (1999). ¿Qué mide realmente el SIMCE? Estudios Públicos, 75.
García-Huidobro, J.E. (2002). Usos y abusos del Simce. Santiago: Publicación CIDE, Facultad de
Educación Universidad Alberto Hurtado.
Gipps, C. (2004). Beyond testing (towards a theory of educational assessment). London:

Routledge/Falmer.
Grek, S. (2009). Governing by numbers: the PISA 'effect' in Europe. Journal of Education Policy,
24(1), 23-37.
Guion, R. (1977). Content validity: The source of my discontent. Applied Psychological

Measurement, 1, 1-10.
Haertel, E. H. (1999). Validity arguments for high-stakes testing: In search of the evidence.
Educational Measurement: Issues and Practice, 18(4), 5-9.
Harvey, L. y Green, D. (1993). Defining Quality. Assessment & Evaluation in Higher Education,
18(1), 9-34.
Himmel, Erika (1992). “Comentario a “Análisis del SIMCE y sugerencias para mejorar su impacto
en la calidad”, de E. Schiefelbein”. En: La realidad en cifras. Santiago: FLACSO, pp. 281-289.
Hubley, A y Zumbo, B. (2011). Validity and the Consequences of Test Interpretation and Use.
Social Indicators Research, 103(2), 219-230.
Kane, M. (2008). Terminology, Emphasis, and Utility in Validation. Educational Researcher, 37(2),
76-82.
Kane, M. (2010). Validity and fairness. Language Testing, 27(2), 177-182.
Kane, M. (2011). Validating score interpretations: Messick Lecture, Language Testing Research
Colloquium, Cambridge, April 2010. Language Testing, 29(1), 3-17.
Koch, M.J. y DeLuca, C. (2012). Rethinking validation in complex high-stakes assessment

contexts. Assessment in Education: Principles, Policy & Practice, 19(1), 99-116.
Lawn, M. y Ozga, J. (2009). The sleep of reason breeds monsters: data and education
governance in England. Edinburgh: Centre for Educational Sociology.
Linn, R. L. (1997). Evaluating the validity of assessments: The consequences of use. Educational
Measurement: Issues and Practice, 16(2), 14-16.
Lissitz, R. W., & Samuelsen, K. (2007). A suggested change in terminology and emphasis
regarding validity and education. Educational Researcher, 36, 437-448.
Manzi, J; San Martín, E.; Van Bellegem, S. (2010). School system evaluation by value-added
analysis under endogeneity. Belgium: Centre for Operations Research and Econometrics.
Maureira, F. y equipo Red Propone (2009). El SIMCE y su efecto en la inequidad educativa.

Santiago: Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado.
Meckes, L. y Carrasco, R. (2010). Two decades of SIMCE: an overview of the National Assessment
System in Chile. Assessment in Education: Principles, Policy & Practice. 17 (2), 233- 248.
Mehrens, W. A. (1997). The consequences of consequential validity. Educational Measurement:

Issues and Practice, 16(2), 16-18.
Messick, S. (1980). Test validity and the ethics of assessment. American Psychologist, 35, 1012-
1027.
Messick, S. (1989). “Validity”. En: R. L. Linn (ed.). Educational Measurement (3rd ed.). New York:
American Council on Education/Macmillan, 13-103.
MINEDUC (2013). “Relació n TIMSS -SIMCE: Calidad psicométrica e invarianza de puntajes y

parámetros”. Apuntes sobre la Calidad de la Educación, Nº 6. Santiago: MINEDUC.
Moss, P. A. (2007). Reconstructing validity. Educational Researcher, 36(8), 470-476.
Moss, P. A., Girard, B. J., & Haniford, L. C. (2006). Validity in educational assessment. Review of
Research in Education, 30, 109-162.
Mullis, V.S.; Martin, M.O.; Ruddock, G.J.; O'Sullivan, C.Y.; Preuschoff. C. (2009a). TIMSS 2011
Assessment Frameworks. TIMSS & PIRLS International Study Center Lynch School of Education,
Boston College. En:
http://timssandpirls.bc.edu/timss2011/downloads/TIMSS2011_Frameworks.pdf
Mullis, V.S.; Martin, M.O.; Kennedy, A.M.; Trong, K.L.; Sainsbury, M. (2009b). PIRLS 2011
Assessment Framework. TIMSS & PIRLS International Study Center Lynch School of Education,
Boston College. En:
http://timssandpirls.bc.edu/pirls2011/downloads/PIRLS2011_Framework.pdf
Newton, P. (2013). “Does it matter what ‘validity’ means?” Presentación en el Departamento de

Educación de la Universidad de Oxford. 4 de febrero de 2013.
Newton, P. (2012). Clarifying the Consensus Definition of Validity. Measurement:

Interdisciplinary Research and Perspectives, 10(1-2), 1-29.
OECD (2009a). PISA 2009 Assessment Framework – Key Competencies in Reading, Mathematics
and Science. París: OECD. En:
http://www.oecd.org/pisa/pisaproducts/44455820.pdf
OECD (2009). PISA Data Analysis Manual. París: OECD. En:

http://browse.oecdbookshop.org/oecd/pdfs/free/9809031e.pdf
Ortiz, I. (2010). 25 años del SIMCE. Santiago: Publicación CIDE, Facultad de Educación
Universidad Alberto Hurtado.
Ozga, J. (2009). Governing education through data in England: from regulation to self-
evaluation. Journal of Education Policy, 24(2), 149-162.
Popham, J. (1997). Consequential validity: Right concern–wrong concept. Educational

Román, M. (1999). Usos Alternativos del SIMCE: Padres, Directores y Docentes. Santiago:
Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado.
San Martín, E.; del Pino, G.; De Boeck, P. (2006). IRT Models for Ability-Based Guessing. Applied
Psychological Measurement. 30 (3), 183-203.
Savage, M. y Williams, K. (2008). “Elites: remembered in capitalism and forgotten by social

sciences”. En: Savage, M. y Williams, K. (eds.). Remembering elites. Sociological Review
Monograph. Oxford: Wiley-Blackwell.
Shaw, S.; Crisp, V.; Johnson, N. (2012). A framework for evidencing assessment validity in large-
scale, high-stakes international examinations. Assessment in Education: Principles, Policy and
Practice, 19(2), 159-176.
Schiefelbein, E. (1998). “Análisis del SIMCE y sugerencias para mejorar su impacto en la calidad”.
En: La realidad en cifras. Santiago: FLACSO, pp. 241-280.
Sepúlveda, L. (2008). El aporte del SIMCE a la discusión al interior de la escuela. Santiago:

Publicación CIDE, Facultad de Educación Universidad Alberto Hurtado.
Shepard, L. (1992). Will national tests improve student learning?, CSE Technical report 342,
CRESST, University of Colorado, Boulder.
Shepard, L. A. (1997). The centrality of test use and consequences for test validity. Educational
Sireci, S. (2007). On Validity Theory and Test Validation. Educational Researcher, 36(8), 477-481.
Srivastava, P. y Hopwood, N. (2009). A practical iterative framework for qualitative data analysis.
International Journal of Qualitative Methods, 8(1), 76-84.
Taut, S.; Cortés, F.; Sebastian, C.; Preiss, D. (2009). Evaluating school and parent reports of the
national student achievement testing system (SIMCE) in Chile: Access, comprehension, and use.
Evaluation and Program Planning, 32, 129–137.
Tenopyr, M.L. (1977). Content-construct confusion. Personnel Psychology. 30, 47-54.

Tenopyr, M. L. (1996). “Construct-consequences confusión”. Paper presented at the annual

meeting of the Society for Industrial and Organizational Psychology, San Diego.
TIMSS (2007). TIMSS 2007: User Guide for the International Database. TIMSS & PIRLS
International Study Center Lynch School of Education, Boston College. En:
http://timss.bc.edu/timss2007/PDF/TIMSS2007_UserGuide.pdf
ANEXO 1: FORMATO CONSENTIMIENTO INFORMADO EN LÍNEA

ANEXO 2: PREGUNTAS ENTREVISTAS PARTICIPANTES PROCESO SIMCE
ROL COORDINADOR SIMCE
Preguntas principales:
1) Brevemente, ¿podrías describir cuál es/era tu rol en el SIMCE y en qué consistía?

¿Cuáles son/eran tus funciones en ese rol? ¿Cuántos años trabajaste allí y en qué
período?
2) ¿Cuáles fueron/son las mayores dificultades asociadas a este rol? ¿Qué es lo más difícil
de abordar o manejar? ¿Crees que estas dificultades podrían afectar de alguna manera
la validez del SIMCE? ¿Por qué?
3) ¿Cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿De qué manera se asegura la validez
de la prueba para cada uno de esos propósitos?
4) ¿Qué evalúa el SIMCE? ¿Cuál es el constructo a evaluar? ¿Logran las preguntas
diseñadas representar ese constructo?
5) ¿Cómo se construye el SIMCE? ¿Cuáles son, en detalle y hasta donde tú conoces, las
fases que se consideran desde la construcción hasta la publicación de los resultados del
SIMCE?
6) ¿Habría un problema de validez si el SIMCE en los últimos años ha visto 3 marcos
curriculares diferentes? ¿Se podrían comparar los resultados? ¿Se mantiene el
constructo? En la misma línea, ¿qué pasa con la comparabilidad de resultados entre 8°
2000 y 2004? (pre y post-reforma) ¿Es posible? Lo mismo al evaluarse escritura por
separado en 2008, ¿se puede comparar el resultado en comprensión lectora con los de
los otros años?
7) ¿Cómo y por qué fue modificándose en nivel de transparencia de la información
entregada sobre el SIMCE a docentes y a la comunidad en general?
Preguntas secundarias (si hay tiempo):
1) ¿Qué porcentaje o ponderación tienen en la prueba las preguntas abiertas? ¿Cómo se

incluyen en la corrección?
2) Desde tu experiencia, ¿qué interpretaciones se pueden realizar de los puntajes SIMCE y
qué interpretaciones serían inválidas?
3) ¿Te parece que los usos o interpretaciones no intencionados del SIMCE podrían afectar
su validez? ¿Por qué? ¿De qué manera?
4) ¿Han realizado algún estudio que conecte las calificaciones asignadas por los docentes
de aula y los puntajes del SIMCE? ¿Hay algún estudio que correlacione los resultados del
SIMCE con los resultados provenientes de otras fuentes?
ROL PROFESIONALES SIMCE
Preguntas principales:

período?
2) ¿Cómo llegaste a trabajar al SIMCE y qué información te dieron cuando llegaste acerca
de la prueba y de tu rol?
4) ¿Cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿De qué manera se asegura la validez
de la prueba para cada uno de esos propósitos?
diseñadas representar ese constructo?
6) ¿Cómo se construye el SIMCE? ¿Cuáles son, en detalle y hasta donde tú conoces, las
fases que se consideran desde la construcción hasta la publicación de los resultados del
SIMCE? ¿Quién realiza cada tarea? ¿Quién realiza el análisis post-prueba experimental?
¿Qué tipo de análisis es?
7) ¿Tienen información acerca de posibles usos o interpretaciones no intencionadas del
SIMCE?
8) ¿Habría un problema de validez si el SIMCE en los últimos años ha visto 3 marcos
curriculares diferentes? ¿Se podrían comparar los resultados? ¿Se mantiene el
constructo?
8) ¿Cómo y por qué fue modificándose en nivel de transparencia de la información
entregada sobre el SIMCE a docentes y a la comunidad en general?
9) Para Lenguaje: ¿Cómo eligen los textos, en base a qué? ¿Cómo evitan el sesgo en los
textos?
12) ¿Han realizado algún estudio que conecte las calificaciones asignadas por los docentes
de aula y los puntajes del SIMCE? ¿Hay algún estudio que correlacione los resultados del
SIMCE con los resultados provenientes de otras fuentes?
ROL SUPERVISORES/JEFES EQUIPO DE CONSTRUCCIÓN DE PREGUNTAS

período?
3) En base a tu rol y experiencia, ¿cuál(es) es (son) el (los) propósito(s) del SIMCE? ¿Es la
prueba válida para todos esos propósitos?
diseñadas representar ese constructo? ¿Hay alguna distancia entre lo que se supone
que evalúa y lo que realmente evalúa?
5) En detalle, ¿cómo se construyen las preguntas del SIMCE? ¿Qué instrucciones les dan
cuando llegan a trabajar como supervisores/jefes de equipo en la construcción de
preguntas? ¿Qué cosas permanecen como dudas antes o durante el proceso?
6) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba?
7) ¿Hubo algún cambio con la introducción del Ajuste y luego de las Bases? (dependiendo
del año del entrevistado trabajando en SIMCE)
8) ¿Sabes en qué consiste la revisión de las preguntas y quién la realiza? ¿Sabes quién
aprueba finalmente las preguntas del SIMCE?
ROL CONSTRUCTORES DE PREGUNTAS

período?
diseñadas representar ese constructo? ¿Percibes alguna distancia entre lo que se
supone que evalúa y lo que realmente evalúa?
5) En detalle, ¿cómo se construyen las preguntas del SIMCE? ¿Qué instrucciones les dan
cuando llegan a trabajar en la construcción de preguntas? ¿Qué cosas permanecen
como dudas antes o durante el proceso?
6) ¿Sabes qué sucede luego con las preguntas que construyes?
7) ¿En qué consisten las especificaciones del marco de evaluación de cada prueba?
ROL SUPERVISOR CORRECCIÓN SIMCE

período?
diseñadas representar ese constructo? ¿Percibes alguna distancia entre lo que se
supone que evalúa y lo que realmente evalúa?
5) En detalle, ¿cómo se corrigen las preguntas del SIMCE? ¿Qué instrucciones les dan
cuando llegan a trabajar como coordinadores en la corrección de preguntas y quién les
da esas instrucciones? ¿Qué cosas permanecen como dudas antes o durante el proceso?

ROL CORRECTOR SIMCE
1) Brevemente, ¿podrías describir es/era tu rol en el SIMCE y en qué consistía? ¿Cuáles

son/eran tus funciones en ese rol? ¿Cuántos años trabajaste allí y en qué período?
diseñadas representar ese constructo? ¿Hay alguna distancia entre lo que se supone
que evalúa y lo que realmente evalúa?
5) En detalle, ¿cómo se corrigen las preguntas del SIMCE? ¿Qué instrucciones les dan
cuando llegan a trabajar como correctores de preguntas y quién les da esas
instrucciones? ¿Qué cosas permanecen como dudas antes o durante el proceso?
6) ¿Cuál es tu punto de vista acerca de las preguntas que te toca corregir? ¿Qué opinas de
su formulación? ¿Te parecen adecuadas para aquello que buscan evaluar?

ANEXO 3: ENCUESTA ESPECIALISTAS LENGUAJE Y COMUNICACIÓN

MODELO DE PRUEBA LECTURA 2º BÁSICO

Validez Del SIMCE PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Validez Del SIMCE PDF

Cargado por

Copyright:

Formatos disponibles

OXFORD

ANÁLISIS CRÍTICO DE LA VALIDEZ DEL SISTEMA DE

Oxford University Centre for Educational Assessment

El informe contiene, primero, un resumen ejecutivo con las principales características y

Objetivos del estudio:

 Analizar críticamente el Sistema de Medición de la Calidad de la Educación

 Explorar y describir el concepto de validez y sus diferentes dimensiones en el

 Análisis de 41 documentos públicos del SIMCE: información ofrecida en el sitio

 Se detectaron 17 propósitos diferentes para el SIMCE en documentos y

Dimensiones de constructo y contenido:

 Hay una distancia entre el constructo declarado en los documentos y lo que la

 Algunos de los profesores entrevistados declaran que, desde su perspectiva, no existe

 Todos los profesores perciben al SIMCE como un instrumento de presión, que

 No existe evidencia suficiente para considerar válidas las interpretaciones que se

 Reconsiderar los propósitos del SIMCE (acotar y realizar opciones).

3.1. Breve referencia histórica sobre el concepto de validez

Parte de la complejidad del concepto de validez en evaluación se relaciona con su historia. En la

Posteriormente, la capacidad de estos instrumentos para poder predecir un determinado

 Es necesario especificar o explicitar la interpretación que se busca realizar antes de

3.2. Principales discusiones en torno al concepto de validez

 Concepto unitario de la validez

 La dimensión consecuencial como parte de la validez

Interpretación del Test Uso del Test

FIGURA 1. Facetas de la validez de un test según Messick (1980)

El centro de la discusión no contempla el cuestionamiento de la importancia de considerar las

Aquellos que se oponen a la inclusión de la dimensión consencuencial en el ámbito de la validez,

Según Linn (1997), excluir la dimensión consecuencial de la validez reduciría su prioridad, y la

Otros autores que promueven la inclusión de la dimensión consecuencial de la validez intentan

De todas formas, incluso los críticos de la inclusión de las consecuencias de la evaluación en el

literatura, donde la mayoría de los autores revisados reconoce la importancia de las

3.3. Concepto de validez: principios generales, tipología y métodos a considerar en este

El primer aspecto sobre el cual existe acuerdo en la literatura se refiere a la importancia de la

Además de su relevancia, otro aspecto que recibe amplio consenso en la literatura es la

Otra fuente de evidencia consiste en el análisis de la consistencia interna de un instrumento de

Las intervenciones experimentales constituyen otro método de validación de constructo

Existen múltiples métodos para la validación de la dimensión de constructo de una prueba y

Para Messick (1980), la validación de un constructo no solamente implica evaluar las

 Relevancia del contenido: consiste en la especificación del dominio de comportamiento

Los métodos específicos en relación con la dimensión de contenido son:

(ansiedad, falta de motivación, falta de atención, azar, sesgo), ni a otras posible

Dimensión de criterio (predictiva y concurrente)

Evidentemente, encontrar un procedimiento para evaluar estos aspectos de la validez de una

3.4. Validez en SIMCE: literatura disponible

 Seguir el desempeño de una escuela en el tiempo (Eyzaguirre y Fontaine, 1999; Bellei,

Algunos consideran que la información no mide exactamente la realidad de los alumnos, y

Dada esta evidencia de múltiples propósitos, de interpretaciones erróneas, de usos y

 Estudios críticos en torno al SIMCE

La calidad técnica y la validez del instrumento no se cuestionan mayormente en este estudio, al

de sistemas de accountability, incentivos/consecuencias y competencia se considera positiva y

Desde entonces no se ha realizado un nuevo análisis de los instrumentos que se vienen

Lo que se encuentra posteriormente en la literatura en relación con los aspectos técnicos y la

4.1. Aproximación metodológica

4.2. Preguntas y objetivos de investigación

En base a los documentos disponibles y la perspectiva de los participantes del proceso:

 Analizar críticamente el Sistema de Medición de la Calidad de la Educación (SIMCE)

 Explorar y describir el concepto de validez y sus diferentes dimensiones en el SIMCE,

4.3. Revisión de la literatura disponible:

1) ¿Cómo se ha definido el concepto de validez en el ámbito de la evaluación educativa?

Para la búsqueda de literatura se consideraron las siguientes estrategias:

1) Búsquedas en bases de datos: considerando diferentes palabras clave (validez,

2) Snowball sampling: también se examinaron las referencias contenidas en diferentes

Los criterios de inclusión y exclusión se detallan en la siguiente tabla:

Criterio Inclusión Exclusión