Prueba Excale

ANEXO
Las pruebas EXCALE

para educación básica
Una evaluación para el Instituto Nacional
para la Evaluación de la Educación
Las pruebas EXCALE
para educación básica
Una evaluación para el Instituto Nacional
para la Evaluación de la Educación
Felipe Martínez Rizo

Coordinador
Luis Ángel Contreras Niño • Eugenio González

Jesús M. Jornet Meliá • Ma. Regina Martínez Casas
J. Felipe Martínez Fernández • Francisco E. Reyes Jiménez
Lucrecia Santibáñez • Guillermo Solano Flores
Marianne Sandy Taut • Agustín Tristán López
Universidad Autónoma de Aguascalientes
ANEXO
Cuaderno de investigación
40
Las pruebas EXCALE para educación básica
Una evaluación para el Instituto Nacional para la Evaluación de la Educación
Primera edición, 2015
ISBN : En trámite
Coordinador
Luis Ángel Contreras Niño, Eugenio González,

Jesús M. Jornet Meliá, Ma. Regina Martínez Casas,
J. Felipe Martínez Fernández, Francisco E. Reyes Jiménez,
Lucrecia Santibáñez, Guillermo Solano Flores,
Marianne Sandy Taut, Agustín Tristán López
D.R. © Instituto Nacional para la Evaluación de la Educación

Barranca del Muerto 341, Col. San José Insurgentes,
Del. Benito Juárez; C.P. 03900 México, D.F.
Editora
María Norma Orduña Chávez
Corrección de estilo
Hugo Soto de la Vega
Formación
Heidi Puon Sánchez
Impreso y hecho en México.

Distribución gratuita. Prohibida su venta.
Consulte el catálogo de publicaciones en línea: www.inee.edu.mx
La elaboración de esta publicación estuvo a cargo de la Dirección General

de Difusión y Fomento de la Cultura de la Evaluación. El contenido,
la presentación, así como la disposición en conjunto y de cada página
de esta obra son propiedad del INEE . Se autoriza su reproducción parcial
o total por cualquier sistema mecánico o electrónico para fines
no comerciales y citando la fuente de la siguiente manera:
Martínez Rizo, F. (Coord.) (2015). Las pruebas EXCALE para educación

básica. Una evaluación para el Instituto Nacional para la Evaluación
de la Educación. México: INEE .
Índice
Presentación ................................................................................................................... 7
Introducción ................................................................................................................. 11
Alineación a los referentes .......................................................................................... 15

Aspectos psicométricos ............................................................................................... 44
Atención a la diversidad cultural ................................................................................ 65
Aplicaciones ................................................................................................................. 76
Usos y consecuencias ................................................................................................... 94
Conclusiones y recomendaciones ............................................................................. 120
Referencias bibliográficas.......................................................................................... 125
Anexos
1. Criterios y subcriterios de evaluación ........................................................................................... 130
2. Microanálisis de reactivos de E XCALE .......................................................................................... 139
3. Resultados de encuesta de autoridades estatales ........................................................................ 154
4. Lista de estudios que utilizan datos de E XCALE ............................................................................ 157
5. Cobertura de prensa 2010-2013 ................................................................................................. 159
5
DIRECTORIO
JUNTA DE GOBIERNO
Sylvia Irene Schmelkes del Valle

CONSEJERA PRESIDENTA
Eduardo Backhoff Escudero

CONSEJERO
Gilberto Ramón Guevara Niebla

CONSEJERO
Margarita María Zorrilla Fierro

CONSEJERA
Teresa Bracho González

CONSEJERA
Presentación
En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA ) y el Instituto

Nacional para la Evaluación de la Educación (INEE) firmaron un convenio que establece las bases
para que ambas instituciones se apoyen en el cumplimiento de sus objetivos para el mejora-
miento de la calidad de la educación en México, en actividades de investigación, evaluación y
difusión de resultados. En ese marco, el INEE encomendó a la UA A la realización del Estudio de
validación de las pruebas ENLACE y EXCALE de educación básica, para lo cual el 1 de octubre
de 2013 se firmó un Anexo de Ejecución del convenio mencionado.
Dicho anexo precisa que el estudio de validación de las pruebas ENLACE y E XCALE de educación
básica analizará varios aspectos de la calidad de dichas pruebas, con base en la documenta-
ción que sobre su diseño, aplicación, resultados y la utilización y consecuencias de los mismos
aporten la SEP y el INEE y, en la medida en que sea necesario, en información adicional propor-
cionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas
del país, en relación con aspectos de los que no haya elementos suficientes en la información
documental que se recabe.
El estudio incluirá recomendaciones que tengan en cuenta las mejores prácticas internaciona-
les… de manera que el desarrollo del sistema nacional de evaluación de México, en lo relativo a
educación básica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su
diseño y aplicación, así como por el uso que se haga de sus resultados, contribuyan en la mayor
medida posible al propósito de mejorar la calidad de la educación mexicana.
Se precisa que el Estudio deberá comprender al menos cinco aspectos:
1. La alineación al currículo de la educación básica de México, revisando el grado en que

las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran
escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-
derados en los planes y programas de estudio de la educación básica nacional.
2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran,
la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, y las
técnicas de equiparación, entre otros.
3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay
entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que
se define como multicultural, y las implicaciones de lo anterior.
4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como
muestrales, y las implicaciones que tienen para la calidad de los resultados.
5. La forma en que se difunden los resultados de las pruebas, los análisis de factores aso-
ciados y el uso que se hace de dichos resultados, así como las consecuencias que ha
traído consigo su utilización en el sistema educativo.
7
El trabajo contemplado en el Anexo de Ejecución comprendía cuatro etapas, pero en abril de
2014 el INEE solicitó a la UAA incluir en el estudio las pruebas ENLACE de educación media
superior; en junio de 2014 se suscribió una modificación del mencionado anexo, con lo que
el trabajo pasó a comprender cinco etapas. La tercera etapa correspondía al informe relativo a
las pruebas E XCALE de educación básica, cuya entrega se fijaba para el 21 de julio de 2014; las
dos restantes, que corresponderían al informe sobre ENLACE de educación media superior y a
las conclusiones y recomendaciones generales, deberían entregarse en octubre y diciembre de
2014, respectivamente.
Los cinco apartados principales de este documento presentan el análisis de las pruebas EXCALE
sobre los aspectos antes mencionados, cada uno a cargo de dos de los diez especialistas involu-
crados. El análisis se hizo entre abril y junio de 2014, e implicó las siguientes actividades:
• Como insumos para el informe relativo a ENLACE de educación básica, pero también
para el que ahora se presenta sobre E XCALE, entre enero y marzo de 2014 personal de
la UAA transcribió las entrevistas a funcionarios de las secretarías de educación de diez
estados de la república y el Distrito Federal, así como de las instancias de la SEP y el INEE
a cargo de ENLACE y E XCALE; se procesaron las respuestas a los cuestionarios enviados a
los responsables de educación básica y de planeación y evaluación de todas las entidades
federativas, se revisaron diarios de circulación nacional y se rescataron notas sobre la
difusión de resultados de E XCALE .
• En abril y mayo de 2014 cada par de especialistas trabajó en la revisión de la documenta-
ción sobre E XCALE proporcionada por INEE , cuyo detalle se presentó en el primer informe
de este proyecto, entregado el 30 de noviembre de 2013.
• Entre el 31 de mayo y el 4 de junio los subgrupos de especialistas enviaron al coordinador
una primera versión del análisis de EXCALE basado en los criterios que les correspondieron.
• El coordinador conjuntó los avances recibidos en un documento integrado, que se envió
al grupo el 7 de junio.
• La primera versión del texto integrado se discutió en reunión presencial de todos los
miembros del grupo el día 16 de junio, en la cual los especialistas pudieron dar su opinión
sobre los aspectos considerados en la validación de las pruebas E XCALE de educación
básica.
• Durante el resto del mes de junio se preparó una segunda versión del análisis de EXCALE
respecto de los criterios correspondientes a cada subgrupo, y en la semana del 30 de
junio al 4 de julio los especialistas enviaron sus respectivos productos al coordinador.
• El equipo coordinador elaboró una versión integrada del tercer informe, que envió a los
especialistas el 5 de julio.
• El 12 de julio, en una reunión virtual los especialistas hicieron observaciones a la versión
integrada.
• El coordinador incorporó las observaciones y las que hicieron llegar los miembros del
grupo y con ello integró esta versión del tercer informe, que se envía al INEE el 21 de
julio de 2014.
El anexo 1 incluye la relación de los criterios y subcriterios de evaluación que se utilizaron. El ane-
xo 2 se refiere al apartado de validez cultural y contiene microanálisis de ítems de matemáticas y
español de E XCALE . Los tres anexos restantes se refieren al apartado de usos y consecuencias
de EXCALE, y presentan los resultados de la encuesta que se aplicó en línea a autoridades estata-
les, la relación de los estudios que utilizan datos de EXCALE, e información sobre la cobertura de
prensa relativa a EXCALE entre 2010 y 2013.
8
Cuando se entregó la versión inicial de este informe, en julio de 2014, se señalaba que no era
el texto definitivo del análisis de las pruebas EXCALE encomendado al grupo de autores, por lo
que sus conclusiones tenían un carácter inicial, y podrían ser precisadas cuando se entregara el
reporte final del proyecto, en el mes de diciembre. Esta nueva versión retoma la presentada en
julio con ligeras modificaciones, como se preveía. Las más importantes se refieren a los aparta-
dos I y II , como resultado del ajuste que se hizo de los criterios y subcriterios correspondientes,
por lo que en esta versión algunos puntos de dichos apartados se han reubicado.
Reiteramos que los análisis y valoraciones se refieren siempre a nuestro objeto de estudio —en
este informe las pruebas EXCALE — y de ninguna manera a las numerosas personas involucradas
en su desarrollo, su aplicación y el procesamiento de resultados. También señalamos que este
informe es producto del trabajo colectivo del grupo, si bien cada par de especialistas tuvo una
participación principal en el apartado que le correspondía. Los momentos de discusión colectiva
permitieron enriquecer las aportaciones de cada persona con la visión del resto, lo que llevó a un
grado de consenso considerable, aunque no absoluto. En caso de creerlo necesario, en el informe
final cada especialista expresa puntos de vista personales no necesariamente compartidos por
el conjunto.

Aguascalientes, diciembre de 2014
Presentación 9
Introducción
Los dos informes anteriores del proyecto incluyeron sendos apartados en los que se precisa la
noción de validación, confiabilidad y validez, y los criterios de evaluación que se utilizan en el
análisis encomendado. En este tercer informe no consideramos necesario reiterar la presentación
de dichas nociones, que se retomarán con algunas precisiones en el informe final del proyecto.
Los criterios de evaluación utilizados se presentan a continuación en forma sintética, y pueden
verse in extenso en el anexo 1.
En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la pro-

puesta de 72 criterios particulares, sin contar tres criterios adicionales de carácter general, que
serían la base para llevar a cabo el estudio. De esos criterios, 11 se referían a la alineación de las
pruebas al currículo; 16 a aspectos psicométricos de las pruebas; 12 a la atención a la diversidad;
16 tenían que ver con las aplicaciones; y 17 se referían a usos y consecuencias de las pruebas.
A lo largo del trabajo el listado de criterios definido inicialmente se modificó, con 59 criterios y
102 subcriterios. Con el ajuste final se llegó a un conjunto de 58 criterios y 97 subcriterios para
las cinco áreas que cubrió el estudio, distribuidos como sigue:
Tabla 1 Criterios y subcriterios utilizados
Áreas Criterios Subcriterios

Alineación a los referentes 11 25
Aspectos psicométricos 8 33
Atención a la diversidad 12 —
Aplicaciones 16 39
Usos y consecuencias 11 —
TOTALES 58 97
La lista de los 58 criterios es la siguiente:
ALINEACIÓN A LOS REFERENTES
1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro) y es el
marco teórico que orienta el desarrollo de la prueba.
2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba
en términos de objetivos, competencias u otro referente.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidió evaluar, o se incluye un análisis de unidades del dominio y su
densidad diferencial.
4. Se asegura la representatividad de los ítems y las subescalas respecto de los subdomi-
nios y el dominio definidos.
11
5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.
6. Existe un documento, manual o guía de redacción o diseño de reactivos en el que se
especifican y justifican los procedimientos para formularlos.
7. Los reactivos son diseñados por un comité que se selecciona teniendo en cuenta la
especialización académica, laboral y su representatividad respecto de la diversidad del
país, y está coordinado por una persona calificada.

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-
ción, revisión y modificación.
9. Hay un comité de revisión calificado para aplicar lo que define el manual.
10. La revisión de ítems incluye análisis de calidad técnica, congruencia ítem-contenido,
posibles fuentes de sesgo y concordancia de juicio de revisores.
11. Se cuida la alineación de la prueba en general.
A SPECTOS PSICOMÉTRICOS
1. Se documentan las evidencias relativas a los diversos tipos de validez que usualmente se
consideran en la medida en que éstos sean aplicables.
2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para
el análisis psicométrico.
4. Se ofrece información sobre la confiabilidad de las pruebas.
5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el
cuidado de su calidad.
6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.
7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que
responden las pruebas.
8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación
de resultados de las pruebas.
ATENCIÓN A LA DIVERSIDAD
1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje,

la enseñanza y la evaluación de un contenido están influidos por la experiencia socio-
cultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran
las pruebas.
2. Como parte del desarrollo de la prueba se establecen las características de la población
objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples con-
textos y escenarios culturales y ambientales.
3. Como parte del desarrollo se usan referentes teóricos y conceptuales sobre cultura y
lengua y se establecen procedimientos para tomar en consideración la diversidad cultu-
ral, lingüística y socioeconómica del estudiantado.
4. Los documentos que establecen tipos y formatos de los ítems proporcionan lineamientos
para asegurar que la información gráfica y contextual incluida en los ítems sea familiar
para la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.
5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en
contenido incluyen a profesionales con especialidades en el área de la cultura (antropó-
12
logos, lingüistas) y maestros de minorías culturales y lingüísticas, así como de escuelas
rurales y de nivel socioeconómico bajo.
6. Las muestras de estudiantes con las que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-
nómicas del país.
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales a alumnos de diversos
grupos culturales, lingüísticos y socioeconómicos, para investigar si interpretan igual el
contenido de muestras representativas de los ítems.
8. El proceso de revisión con jueces considera fuentes de sesgo cultural, lingüístico y so-
cioeconómico en muestras representativas de los ítems.
9. Se hacen análisis de funcionamiento diferencial de una muestra de ítems para diversos
grupos: estudiantes de distintos grupos indígenas, de nivel socioeconómico bajo y de
zonas rurales.
10. Se hacen análisis con la Teoría de la Generalizabilidad para determinar la confiabilidad
y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de
ítems para distintos grupos de estudiantes definidos por grupo étnico, localidad y nivel
socioeconómico.
11. Los tiempos y calendarios de las actividades que buscan tomar en cuenta la diversidad
cultural, lingüística y socioeconómica, son razonables y factibles.
12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la
información obtenida al realizar la validación cognitivo-cultural, la revisión, los análisis
de sesgo y los estudios de generalizabilidad.
APLICACIONES
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación
censal o como marco muestral.
2. Cuando procede, las muestras se establecen utilizando diseños sólidos; los estratos se
definen con base en argumentos teóricos.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planificó.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes
aceptables.
5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales
que aseguren la comparabilidad de los datos.
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-
ción de datos, en todos los niveles de operación.
7. Se fijan límites de tiempo realistas para que la carga de responder pruebas y cuestiona-
rios de contexto no sea excesiva para los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
9. Se desarrollan procedimientos para lidiar con la no respuesta o rechazo a responder
a la prueba y se entrena al personal de aplicación para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude
y se entrena al personal de aplicación para seguirlos.
11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.
12. Existen manuales que detallan aspectos a cuidar para crear archivos según normas in-
ternacionales: introducción de datos; identificadores de alumnos, maestros o escuelas;
Introducción 13
variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; forma-
to, estructura de archivos, limpieza, etcétera.
13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los
aspectos del trabajo, asegurando que esté familiarizado con procedimientos aceptados
y que comprende la importancia de recolectar y capturar la información con el cuidado
necesario para que los análisis posteriores se hagan sobre información de la mejor cali-
dad posible
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicación.
15. Existen procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificación de los datos son confiables
16. La coordinación del estudio es notificada de cualquier inconsistencia en los datos. Toda
modificación que resulte de la resolución de inconsistencias deberá ser aprobada y do-
cumentada.
USOS Y CONSECUENCIAS
1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y
consecuencias previstas y se evita sugerir otros que no tengan apoyo teórico o empírico
suficiente.
2. Se documenta y evalúa el grado en que se producen las consecuencias previstas o de-
seables de la prueba.
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-
mos de difusión y acceso para distintos usuarios sin discriminación.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-
cuada interpretación y utilización de los resultados.
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-
de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información
suficiente sobre la adecuada interpretación de los resultados.
6. Se utiliza un lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos
técnicos en lenguaje claro y comprensible.
7. Se ofrece el marco normativo para evaluar el desempeño de los examinados. Se descri-
be el perfil y características de la población de referencia.
8. Se da información para minimizar la posibilidad de interpretaciones incorrectas. Se se-
ñalan limitaciones y errores comunes al comparar años, dominios, grupos o niveles de
agregación. Se usan categorías precisas que no estigmaticen.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Si bien no
pueden preverse todos los usos o interpretaciones inapropiadas, se busca identificar y
acotar los más comunes.
10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/
positivas, o inadecuadas/negativas.
11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y de-
talle adecuado. Si persisten se informa a los usuarios y se intenta tomar acciones correctivas.
La lista completa de criterios y subcriterios pude verse en el anexo 1.
En las siguientes páginas se presentan los análisis hechos por los pares de especialistas, aplican-
do los criterios anteriores.
14
1 Alineación a los referentes
En el apartado relativo al análisis de las pruebas ENLACE presentamos el modo en que

trabajó el comité, así como los aspectos teórico-metodológicas que motivaban la consideración
de cada criterio de evaluación utilizado. Por este motivo, si bien matizaremos aquellos aspectos
que sean propios de la tipología de prueba analizada, remitimos al lector al apartado mencio-
nado con el fin de no ser reiterativos. En esta sección nos centraremos en las valoraciones que
podemos emitir a partir del análisis de la documentación aportada por el INEE respecto a las
pruebas E XCALE .
CONSIDERACIONES PREVIAS
El análisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:
• Las pruebas muestrales son aquellas que se diseñan para informar acerca del sistema
educativo a partir de una muestra representativa de sujetos, en contraposición con las
denominadas censales que se aplican a toda la población. A diferencia de ENLACE , que
evalúa a todos los sujetos de manera individual, éstas no proveen información particular
lo suficientemente fiable como para imputar una calificación por alumno.
• Sin embargo, en su diseño se enfatiza la representatividad del Dominio Educativo (DE) a
evaluar. Así, tienen por objeto establecer una valoración lo más exhaustiva posible acerca
del D E o universo de medida evaluado. Por ello, es prioritario disponer de un banco de
reactivos muy amplio que recorra toda la extensión del DE .
• De este modo, lo habitual es realizar el análisis del DE de manera muy pormenorizada
y, para cada unidad de DE crear las tablas de especificaciones que guiarán el diseño de
reactivos. No hay pues, una limitación en cuanto al número de ítems a diseñar. Por ello,
es frecuente que cuando se elabora una prueba referida a una materia de un curso (un DE
extenso) se disponga al concluir este proceso de un número elevado de reactivos.
• Es obvio que, si por ejemplo, disponemos de un banco de 350 reactivos que represen-
tan bien todas las unidades del DE a evaluar, éstos no pueden aplicarse a cada una de
las personas que componen la muestra. Sería inviable no sólo por la logística (tiempos
excesivos de aplicación), sino también porque la realización de una prueba de estas
características sería desmesuradamente laboriosa para el alumnado evaluado y el nú-
mero de factores de invalidez se multiplicarían, partiendo del indudable cansancio, y la
desmotivación progresiva.
• Por ello, la estrategia de elaboración de este tipo de pruebas (las que finalmente recibe
cada sustentante) se basan en el Muestreo de Matrices. En esta estrategia, se elaboran
bloques de reactivos de las dimensiones de las pruebas, y se componen cuadernillos
equivalentes en dificultad, que están basados en normas de muestreo muy precisas de
integración de los bloques de reactivos.
15
• Las pruebas matriciales ofrecen una opción de desarrollo que influye de manera clara
en la representatividad del dominio curricular que pretenden evaluar. Ello es así debido
a que la lógica de su diseño implica que puedan ser pruebas de una longitud muy
amplia, de manera que se cubra una muestra del dominio curricular más completa,
particularmente cuando se les compara con pruebas muestrales o censales que están
basadas en formas o versiones de la prueba.

• En las pruebas matriciales, la distribución de cuadernillos de prueba en un salón de clase o
escuela implica que a partir de esta unidad de análisis (el aula/escuela) pueda establecerse
una inferencia acerca del nivel de logro que el alumnado de un salón de clase o escuela
tiene del DE.
• Si pretendiéramos con este tipo de pruebas evaluar a cada persona, las puntuaciones
individuales implicarían un elevado nivel de error. Por este motivo se trabaja con diversas
puntuaciones plausibles para la representación de los niveles de logro individual.
• En definitiva, las claves que deben considerarse respecto a este apartado se basan en la
calidad del análisis que se realiza del DE a evaluar, los factores de validez que lo apoyan,
su alineación y grado de representatividad respecto al currículo, la adecuación de la es-
trategia de muestreo de matrices desarrollada para componer los cuadernillos de prueba,
y su equivalencia.
• En este caso, para el análisis nos basaremos en las evidencias documentales, tanto las
referidas a los marcos de referencia de las pruebas, los manuales técnicos de diseño y
desarrollo de las mismas, así como los informes técnicos de los procesos llevados a cabo.
• Las pruebas E XCALE se han desarrollado desde 2004 y hasta el 2014. Aunque durante
ese periodo se aprecia una evolución importante en sus procesos metodológicos, en este
apartado no se busca valorar el desarrollo histórico de su diseño, sino comprobar el nivel
de calidad que la prueba ha alcanzado en la actualidad.
A NÁLISIS DEL CURRÍCULO CUYO DOMINIO SE EVALÚA
1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el mar-
co teórico que orienta el desarrollo de la prueba.
El documento incluye un análisis de las áreas del currículo que evaluará la prueba, que precise
los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que
deberán cubrirse.
Las pruebas E XCALE, al igual que las ENLACE , se refieren al currículo mexicano. En este sentido,
valgan aquí las consideraciones que realizamos respecto a ENLACE , en relación con la inesta-
bilidad del currículo y las consecuencias indeseadas que ello tiene para disponer de pruebas
totalmente representativas en un momento dado. De hecho, esta falta de estabilidad es un
reto para cualquier prueba de referencia criterial que pretenda alinearse al currículo, por lo que
se reconoce que ha constituido una situación desfavorable para los constructores de E XCALE .
Así, en el periodo 2004-2014, que cubre el lapso en que se han desarrollado las pruebas, el currí-
culo nacional de la educación básica experimentó continuas transformaciones y en cada ocasión
16
ello impuso retos importantes al grupo de trabajo de la Dirección de Pruebas y Medición (DPM)
INEE . Como se comentó para el caso de los desarrolladores de ENLACE , los autores de E XCALE
fueron conscientes de dichas transformaciones y dieron cuenta de ellas en la documentación
que entregaron; pero a diferencia de aquellos, no delegaron en los desarrolladores del currículo
de la SEP el análisis de las dimensiones explícitas e implícitas que se evalúan en las asignaturas
de español, matemáticas, ciencias naturales, ciencias sociales y formación cívica y ética, sino que
llevaron a cabo un análisis curricular propio.
La documentación revisada da cuenta de varios productos derivados del análisis independiente

que realizó la DPM , entre los que destacan dos:
a) El modelo de logro educativo que desarrolló, el cual propone como eje organizador al
currículo, entendido en una acepción amplia que incluye no solo el que establece la SEP,
sino también el que adaptan las autoridades educativas estatales y enriquecen las escue-
las al imprimirle su sello particular, así como el que implementan en las aulas los profeso-
res y el que aprenden los estudiantes; es decir el logro que se evalúa en las pruebas (Plan
General de Evaluación, 2005: 13-14); y
b) Las retículas que diseñó para analizar y representar gráficamente los contenidos del currí-
culo, a fin de detectar el contenido importante a evaluar en los E XCALE . Los especialistas
de la DPM construyeron, para cada asignatura y materia evaluadas, ediciones diferentes
de retículas en las que estructuraron los contenidos y otros elementos del currículo vi-
gente, a medida que se daban los cambios curriculares antes mencionados. Por ejemplo,
a partir del último cambio que introdujo la SEP para articular la educación básica del país
(SEP, Acuerdo 592, 2011), surgieron elementos curriculares inéditos como estándares,
aprendizajes esperados, ejes o ámbitos de formación, prácticas sociales de lenguaje y
otros más que, junto con los contenidos propios de cada asignatura y materia, fueron
relacionados entre sí y con otros para integrar las retículas.
Una característica fundamental de las pruebas E XCALE es que su desarrollo ha sido el resultado
de un proceso de planeación a largo plazo. Así, la DPM del INEE siguió una estrategia evaluativa
plasmada en sus planes maestros de desarrollo institucional del cuatrienio 2002-2006 y del pe-
riodo 2007-2014 con sus etapas de 2007 a 2010, y de 2011 a 2014 (Plan Maestro de Desarrollo
2007-2014, 2006), y particularmente en su plan general de evaluación de aprendizaje (Plan
General de Evaluación, 2005).
Es justamente en este último documento donde se establece el marco de referencia que orienta
el desarrollo de las pruebas, y en el cual se adscribe a un desarrollo de instrumentos de gran
escala, de referencia criterial alineados al currículo oficial y con un diseño matricial; se definen
los dominios curriculares que evaluará y los dominios cognitivos que servirán de referencia para
el desarrollo de las pruebas, así como los tipos de ítems que se elaborarán y la periodicidad de
las evaluaciones.
Otro rasgo distintivo de las pruebas EXCALE es que su proceso de planeación, construcción y
validación ha sido acompañado por un considerable número de expertos nacionales e inter-
nacionales, quienes en el contexto de seminarios, talleres y otros eventos han participado con
el personal del INEE responsable de las pruebas, a lo largo del proceso de desarrollo. Ello ha
traído consigo además, la transferencia de tecnología psicométrica y evaluativa, así como la
formación permanente del personal involucrado en el proceso, que lo ha hecho cada vez más
independiente y competente.
Alineación a los referentes 17

En consecuencia, la estrategia de desarrollo y administración de pruebas siempre ha estado
dirigida por su Plan General de Evaluación del Aprendizaje, que incluye un cronograma que
permite abordar los diseños de prueba con un orden alterno, de forma que los cambios curricu-
lares pueden atenderse con mayor oportunidad y precisión que si se realizaran bajo el esquema
de aplicación anual de cada materia/curso. Al respecto puede consultarse Backhoff et al., 2005:
19 (en http://publicaciones.inee.edu.mx/detallePub.action?clave=P1C117), así como los ma-

nuales técnicos http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-excale/
marcos-de-referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/468-plan-general-
de-evaluacion-del-aprendizaje-proyectos-nacionales-e-internacionales
La tabla 1.1 recoge la planeación del diseño y aplicación de las pruebas E XCALE .
Tabla 1.1 Programa de Evaluación del Aprendizaje del INEE
Años escolares
Grados 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
3° de preescolar E, M E, M E, M
E, M E, M E, M
3° de primaria
N, S N, S N, S
E, M E, M
6° de primaria E, M E, M E, M E, M
N, S N, S
E, M E, M E, M
3° de secundaria E, M E, M E, M
N, S N, S N, S
3° de E, M
E, M
bachillerato N, S
Evaluaciones PEM
especiales PECL
E = E XCALE -Español; M = E XCALE -Matemáticas; N = E XCALE -Ciencias Naturales; S = E XCALE -Ciencias Sociales;
PEM = Pruebas de Estándares Nacionales de Matemáticas; PECL = Pruebas de Estándares Nacionales de Comprensión Lectora.
Fuente: Backhoff et al., 2005, pág. 20.
Las pruebas E XCALE toman como punto de partida un marco metodológico que orienta todos
los procesos de elaboración, así como los marcos de referencia específicos para cada prueba.
Así, la previsión de los procesos a abordar se basa en un análisis detallado que se realiza desde
la DPM del INEE , con apoyo del Consejo Técnico. En la misma publicación se reseñan todos los
elementos metodológicos a tener en cuenta en el diseño de las pruebas E XCALE . Asimismo, se
cuenta con un marco de referencia inicial acerca de los procesos de validación que deberán con-
siderarse (realizado en 2005 por Ruiz-Primo, Jornet y Backhoff, y publicado en 2006 en: http://
publicaciones.inee.edu.mx/detallePub.action?clave=P1C120
De igual modo, para cada prueba (materia/nivel) existe documentación en donde se recoge
el marco de referencia así como las evidencias empíricas en que se ha apoyado su desarrollo,
tal como puede observarse en http://www.inee.edu.mx/index.php/proyectos/excale/excale-
documentos-tecnicos
18
Sin pretender ser reiterativos, y para seguir el mismo proceso de análisis que seguimos en este
Informe respecto a las pruebas ENL ACE , nos referiremos ahora al segundo elemento clave para
valorar el modo en que se ha asegurado, por parte de los diseñadores de E XCALE, que la prue-
ba representa adecuadamente los subdominios curriculares y los niveles de demanda cognitiva
que representan para el alumnado, el cual se encuentra en la metodología que se ha utilizado.
Tomamos las mismas referencias metodológicas que mencionamos en el caso de ENLACE , las
cuales se identifican en la literatura y se postulan como requerimientos metodológicos para este
cometido bajo el ámbito del desarrollo de pruebas referidas a un criterio (Hambleton, 1994;
Nitko, 1995; Li & Sireci, 2005; Cizek, 2007; Sireci, 2009).
Revisadas todas las evidencias accesibles a través de la página del INEE , así como la documen-
tación interna aportada al respecto, podemos indicar que:
• Los manuales técnicos de E XCALE se ajustan a un proceso riguroso de carácter metodoló-

gico, en el que se establecen y realizan las etapas de diseño que la literatura especializada
menciona como necesarias en el diseño de pruebas para asegurar la validez (ver más
adelante la tabla 1.2, en la que únicamente se seleccionan las etapas que se refieren a la
validación que es objeto de este apartado del informe).
• Los análisis reticulares realizados permiten establecer las relaciones entre las unidades del
currículo y los diferentes niveles de demanda cognitiva que deben plantearse en el diseño
de tablas de especificaciones y reactivos en cada materia/nivel (ver figura 1.1).
• Por otra parte, hay que señalar que se observa una elevada unicidad en los procesos me-
todológicos, tanto en el diseño de pruebas referidas a una materia en diferentes niveles,
como entre pruebas. No obstante, en los marcos metodológicos específicos se advierte el
modo en que se atienden las especificidades de cada una de las materias/nivel. Se explici-
tan los resultados de análisis reticulares, tablas de especificaciones, etcétera.
• Respecto a los comités de análisis del Dominio Curricular, que deberían actuar de modo
independiente y sucesivo, que mencionamos como estrategia fundamental para la va-
lidación de este tipo de pruebas, puede observarse que se aporta la documentación
necesaria para comprobar que este modo de actuación se ha seguido en el desarrollo de
todas las pruebas desarrolladas.
En síntesis, la situación descrita se ajusta a las prácticas de análisis curricular y detección y es-
tructuración del contenido importante a evaluar en una prueba de estas características. Por ello
consideramos que el procedimiento seguido para el diseño de los EXCALE permite asegurar la
representatividad del contenido a evaluar.

Tabla 1.2 Proceso general de diseño, construcción y validación de los EXCALE .
Participantes
Fases Etapas Procedimientos Productos
externos
1. D
iseño del Plan • Consejo Técnico 1. Documentación 1. Plan General de Evaluación
General de • Asesores 2. Seminarios del Aprendizaje (con el Marco

Evaluación en medición 3. T rabajo colegiado de Referencia de los EXCALE)
y validación 4. Trabajos 2. M anual General de Procedimientos
por encargo 3. M anual Técnico para el Diseño Matricial
4. Manual Técnico para el Escalamiento de
Puntuaciones y Niveles de Competencias
5. M arco Teórico de Validación
de los EXCALE
I.
Planeación 2. D
iseño y • Especialistas 6. Marco de Referencia
general 1 elaboración de en diseño de los Cuestionarios de Contexto
cuestionarios de cuestionarios 7. Cuestionarios de Contexto
de contexto • Especialistas del alumno, docente y director
en evaluación
del aprendizaje
3. D
iseño y • Especialistas 8. S istema de bases de datos de reactivos
desarrollo en bases de datos 9. D ocumento que describe la estructura
del sistema y sistemas y funcionamiento de la base de datos 2
informático de información
4. D
iseño de • Comités Académicos 1. Documentación 10. Manual Técnico para el Diseño
las pruebas (uno por prueba) 2. Capacitación de las pruebas nacionales
3. Preparación 11. Retícula curricular de cada prueba
de materiales 12. Tabla de Contenidos de cada prueba
II. 4. T rabajo colegiado
Estructuración 5. Especificación • Comités 13. Manual Técnico para la Elaboración
de los EXCALE de reactivos Elaboradores de de Especificaciones
Especificaciones 14. E specificaciones de reactivos
de Reactivos de cada prueba
(uno por prueba) 15. Dos revisiones por especificación
de reactivos
6. Elaboración • Comités 1. Documentación 16. Manual Técnico para
de reactivos Constructores 2. Capacitación la Construcción de Reactivos
de Reactivos 3. T rabajo individual 17. Tres reactivos por especificación
(uno por prueba) y colegiado 18. Dos revisiones por reactivo construido
7. Validación •C
omités de 19. M anual Técnico para la Validación
de reactivos Validación y Sesgo de Reactivos
(uno por prueba) 20. Dos reportes de validación
III.
por cada reactivo
Construcción
de reactivos de 8. P iloteo de • Algunas 1. Muestreo para 21. Manual Técnico para el Piloteo
los EXCALE reactivos y Coordinaciones el piloteo de Reactivos
cuestionarios Estatales 2. Pre-edición 22. Muestra poblacional
de contexto de Evaluación de reactivos 23. Manual Técnico para la Edición
e impresión de Reactivos
de cuadernillos 24. Cuadernillos de prueba y Cuestionarios
3. Capacitación de Contexto impresos
25. Base de datos con resultados
de pilotaje
9. Selección • Asesores 1. Documentación 26. Manual Técnico para el Análisis
de reactivos en medición 2. Análisis Psicométrico de Reactivos
e integración de reactivos 27. Informe de Estimadores Estadísticos
de bloques de Reactivos.
IV. y formas 28. Bloques de reactivos
Conformación 29. Estructura de formas
de los EXCALE (combinación de bloques)
10. Edición, • Imprenta contratada 1. Edición 30. Manual Técnico para la Edición
armado e de cuadernillos de Reactivos y Cuadernillos
impresión y cuestionarios 31. Cuestionarios de Contexto impresos
de contexto 32. Cuadernillos de los EXCALE impresos
1
Fase general para la nueva generación de los E XCALE .
2
A partir de la cuarta etapa, el sistema informático se irá alimentando con la información que se produzca a lo largo de todo el proceso.
20 Fuente: Backhoff et al., 2006, págs. 5-6.

ANEXOS
Anexo I. Análisis reticular
Figura 1.1 Ejemplo de análisis reticular para diseñar la evaluación (Español 6º Primaria).
72
Fuente: Anexo B_Diseño de las pruebas. 6_Retículas. Proporcionado por el INEE .

ALINEACIÓN DE LA PRUEBA CON EL CURRÍCULO
2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

prueba en términos de objetivos, competencias u otro referente curricular.
tt Se presenta la estructura del dominio curricular completo —de donde se muestrea el conteni-
do de la prueba— así como la estructura del dominio curricular evaluado.
Como señalamos en el apartado referido al análisis de las pruebas ENLACE:
Otro factor imprescindible que permite trabajar en favor de la consecución de la validez de

contenido es el análisis del dominio educativo, tanto en su estructura (subdominios que lo
integran), como en relación con las especificaciones de contenido que permiten orientar el
diseño de reactivos. Esta estrategia es habitual en pruebas referidas al currículo. Debe incluir,
por tanto, dos tipos de información: estructural de la prueba, y especificaciones de unidades
del dominio. Eso permite obtener una visión precisa del universo de medida, a partir del cual,
posteriormente, se podrá orientar el muestreo de contenidos (Jornet y Suárez, 1989). Orienta
pues, las dimensiones o subdimensiones implicadas (un diseño curricular no necesariamente
es unidimensional, y poderse representar en una prueba), la densidad diferencial del dominio
(cantidad y relevancia de elementos observables…).
En el diseño de E XCALE se dio este modo de trabajo. Se muestran evidencias en:
http://www.inee.edu.mx /index.php/bases-de-datos/bases-de-datos-excale/marcos-de-
referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/470-manual-tecnico-diseno-
de-examenes-de-la-calidad-y-el-logro-educativos-excale
http://www.inee.edu.mx /index.php/bases-de-datos/bases-de-datos-excale/marcos-de-
referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/471-manual-tecnico-especificaciones-
de-reactivos
En la documentación existente se aprecia un elevado grado de coherencia con los procesos

previstos y desarrollados, de acuerdo con las prácticas metodológicas recomendadas para el
diseño de este tipo de pruebas. En la figura 1.1 del apartado anterior, presentamos un ejemplo
de análisis reticular destinado a identificar la estructura del DE , proceso que constituye el ori-
gen de cada prueba, tal como hemos comprobado en la documentación aportada por el INEE .
Puede observarse que en cada prueba se trabaja con un comité que realiza el análisis reticular,
tomando como referencia los textos normativos del currículo oficial, así como libros de texto.
Respecto a otras consideraciones metodológicas a tener en cuenta para valorar este criterio,
valgan aquí las expuestas en el apartado equivalente de ENLACE . Las pruebas E XCALE presentan
evidencias acerca de que todo el proceso de definición del contenido a evaluar se ha ajustado a
los requisitos metodológicos necesarios para asegurar la validez. Así, se trabajó con comités de
juicio que valoraron si la estructura de la prueba representaba la del DE ; dichos comités estaban
compuestos por especialistas que contaban con el perfil apropiado, y se ajustaron a valorar
22
cada prueba en cuanto a un protocolo de actuación previamente definido y homogéneo en el
conjunto de las pruebas. También hay que destacar que las pruebas miden el contenido curri-
cular completo, si bien la medida se basa, tal como indicamos anteriormente, en el muestreo
de matrices.
3. Se explica el procedimiento usado para determinar la importancia relativa de conte-

nidos cuyo dominio se decidió evaluar, o se incluye un análisis de las unidades del
dominio curricular y su densidad diferencial.
Como señalamos en el informe anterior respecto a las pruebas ENLACE:
La composición de cualquier prueba referida a un diseño curricular se debe apoyar en cri-

terios de selección de los contenidos, que reflejen la importancia diferencial de los mismos,
como expresión de la relevancia de los aprendizajes logrados. Este aspecto, que común-
mente se identifica en la literatura como densidad diferencial del dominio curricular es
difícil de llevar a la práctica. De hecho, aunque se ha formulado como concepto desde hace
años (Jornet y Suárez, 1989a), bien es cierto que existen pocas aproximaciones metodoló-
gicas que lo resuelvan de manera satisfactoria.
Generalmente, se basan en valoraciones que realizan comités de especialistas que indican

el peso diferencial que cada área del dominio curricular debería tener en la prueba, y ello
sirve para seleccionar la cantidad de reactivos que se utilizan al respecto. Recientemente se
han propuesto alternativas de indicadores de síntesis (Viveros, Contreras & Caso, 2013) que
permiten acercarse a una valoración de estas características, y orientar de una manera más
eficiente la estructuración de la prueba en relación al universo de medida.
Así, la determinación de la importancia relativa de los contenidos curriculares es un proce-

dimiento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci,
2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li & Sireci, 2005; Haynes, Richard &
Kubany, 1995; Nitko, 1994; Guion, 1977) enfatizan la necesidad de identificar blancos cu-
rriculares de primer orden, dada la imposibilidad de evaluar en una sola ocasión (examen)
el dominio de todo lo que se debió haber aprendido (currículo), ni siquiera todo lo que es
relevante. De ahí la importancia de seleccionar una muestra de contenido que represente
el dominio curricular, especialmente lo que es más significativo en él, desde el punto de
vista de la formación pretendida. Los autores destacan también la necesidad de que un co-
mité independiente de especialistas, con un perfil similar a los que se mencionaron antes,
convalide las decisiones que adoptaron quienes decidieron lo que es importante evaluar;
y que para ello examinen los criterios y procedimientos que siguieron para arribar a tales
conclusiones.
Hay varios procedimientos, materiales y características de las pruebas EXCALE que permiten obser-
var la manera en que se determinó la importancia relativa de los contenidos a evaluar. A conti-
nuación se comentan los principales:
• Por una parte, a diferencia de las pruebas como ENLACE donde este asunto es muy
relevante pues están basadas en versiones de un test con un número necesariamente re-
ducido de ítems, en las pruebas matriciales como E XCALE este aspecto tiene un impacto

menos severo, pues su desarrollo permite contar con pruebas de una longitud muy am-
plia, que garantizan una mejor representatividad del dominio curricular que pretenden
evaluar. Esta característica determina también que pueda cubrirse una amplia gama de
contenidos que comprenden diferentes grados de importancia relativa.
• Por otra parte, en las casi 40 retículas que pudimos revisar de todas las materias de las
asignaturas evaluadas en cada nivel educativo, y en otros documentos relacionados, se
identifica una taxonomía que clasifica aquellos contenidos que se consideraron como:
a) esenciales, b) muy importantes o c) importantes, en función de criterios como el
número y tipo de servicios que se dan entre sí los contenidos, entre otros criterios de
clasificación que se mencionan (por ejemplo, se habla de contenidos fuente de servi-
cios, contenidos de enlace o contenidos de carácter sintético). Además, en las retículas
se identifican con claridad aquellos que no son evaluables, independientemente de
su importancia relativa en el contexto del currículo, por referirse a competencias cuya
evaluación requiere de ítems de ejecución u otros diferentes de los de opción múltiple
utilizados en general en las pruebas E XCALE . Una vez hecha esta definición, ya no apa-
recen en las tablas de contenidos cuyo dominio se evalúa en cada prueba.
• Finalmente, en los manuales técnicos, marcos de referencia y documentos internos de

E XCALE, hay claras evidencias que muestran que estos aspectos quedan satisfechos en
su totalidad, por lo que entendemos que se trata de una fortaleza de las pruebas. Para
ilustrar este punto obsérvense la tabla 1.2 y la figura 1.2 que aparece enseguida. En las
tres primeras fases que corresponden al diseño y construcción de los E XCALE puede verse
que en las etapas 1, 4, 5, 6 y 7 el personal de la DPM , los cuerpos colegiados del INEE y
los diferentes comités externos de especialistas, diseñan, desarrollan o validan tanto las
pruebas como las especificaciones de ítems y los propios reactivos. Además, los comités
de especialistas son capacitados específicamente para llevar a cabo las funciones técni-
cas que les corresponde y para ello se emplean manuales diseñados ex profeso. Para más
detalles sobre este punto, véanse por ejemplo los documentos: “4 Manual técnico para
el diseño de las pruebas”, “8 Manual técnico para el desarrollo de especificaciones de
reactivos”, “Manual Técnico Validación Items”.
• Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.
No se dispone de esta información desde el punto de vista técnico; las escalas y subes-
calas quedan como producto del software de calificación pero no se reportan. Las pon-
deraciones son definidas en forma apriorística por consideraciones de los especialistas
en las reuniones de comités de validación, lo cual implica que, de acuerdo con el modelo
utilizado para la asignación de los puntos de corte, siempre se obtiene el consenso total
de los especialistas, por lo que no se dispone del número de casos, ni las frecuencias de
dichos acuerdos al definir las ponderaciones.
No hay estudios experimentales para realizar ajustes o demostrar la pertinencia de los

valores propuestos por los especialistas. Por ejemplo, se podría realizar análisis factorial o
ecuaciones estructurales para disponer de un análisis factorial confirmatorio u otro tipo
de estudio. Los análisis con estas técnicas se han realizado en otro tipo de trabajos para
proyectos del INEE diferentes a E XCALE .
24
• Se justifica metodológicamente el tamaño de la prueba y sus partes (número de reacti-
vos), cumpliendo la ponderación indicada en las tablas de especificaciones. Si se maneja
una justificación administrativa esta debe definirse claramente.
El tamaño de la prueba se justifica metodológicamente con base en dos dimensiones. La pri-

mera es la de los contenidos a cubrir en la evaluación; su tamaño se justifica con base en los
análisis de contenidos y curriculares que se llevaron a cabo a fin de seleccionar los tópicos de
la prueba y desarrollar los reactivos que la conformarán. La segunda dimensión se relaciona
con la cantidad de preguntas o reactivos que son aplicados a cada uno de los individuos.
DISEÑO Y CONSTRUCCIÓN En particular, dadoCOLEGIADA
que la cantidad deDE LOS necesarias
preguntas EXÁMENES PARA
para cubrir LA CALIDAD
los contenidos de la Y EL LOGRO
EDUCATIVOS prueba son muchos más de los que pueden ser aplicados dentro del esquema del horario
escolar, y ser respondidos por los estudiantes sin elevar los niveles de fatiga o bajar el nivel de
interés, se optó por utilizar un diseño matricial por medio del cual se dividieron las preguntas
mo se muestra en la figuraen1,varios bloques,
el proceso de ydesarrollo
cada estudiante
de los respondió a solodeunsiete
Excale consta par de de yellos.
fases El diseño
16 etapas matricial
básicas.
fue elaborado de manera que cada cuadernillo de preguntas sea distinto de otros aunque
Figura 1.lo Proceso
con preguntas compartidas, de desarrollo
que permite reportar losderesultados
los Excaleen una métrica común
utilizando procedimientos basados en la Teoría de Respuesta al Item (TRI ), en particular
con el modelo de Rasch. No se presenta un estudio específico sobre fatiga de los estu-
diantes que se relacione directamente con el tamaño de la prueba.
Figura 1.2 Sección del proceso de diseño, construcción, aplicación y validación de los EXCALE .
Fuente: Manual técnico para el diseño de las pruebas, pág. 11.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdo-
minios y al dominio curricular definidos.
tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la represen-

tación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular

completo.
Tal como en el caso de ENLACE , el análisis de reactivos se orienta desde dos perspectivas: lógica
y empírica. La revisión lógica la llevan a cabo comités de jueces especialistas en contenido, cu-
rrículo, cognición y docentes frente a grupo, entre otros, quienes deben valorar características
del ítem tales como su representatividad respecto del contenido a evaluar, su calidad técnica
(independencia de errores sistemáticos), su independencia de sesgo, etcétera. Por ello dicha
revisión afecta de manera directa la validez de contenido de la prueba. Por su parte, la revisión
empírica busca informar si los ítems se comportan de acuerdo con la estructuración dimensional
teórica que orientó el desarrollo de la prueba. Se solapa, en parte, con el análisis que deviene
de los ensayos piloto y la aplicación a gran escala.
A este respecto, y centrándonos en la revisión lógica, hay que señalar lo siguiente:
• Tanto el diseño como la validación de reactivos lo realizan docentes en servicio, selec-

cionados según la modalidad educativa, e intentando representar la diversidad socio-
cultural y económica del país.
• Se especifica la metodología de jueceo que siguieron los comités de revisión lógica.
• La estrategia de diseño de la prueba, desde el análisis reticular, la especificación de tablas
de contenidos y especificaciones de ítems, yel diseño de reactivos aporta garantías sufi-
cientes respecto a la representatividad de las subescalas o subdominios de la prueba en
relación al DE . Se incluyen informaciones específicas en cuanto al número de ítems que se
destinan a la evaluación de cada subdominio y el nivel de demanda cognitiva asignado.
No obstante, como se observó en el segundo subcriterio del criterio anterior, la representati-

vidad de ítems y escalas respecto a los subdominios y el dominio curricular completo —cuya
valoración se basó en operaciones de juicios—, pudo haberse complementado con estudios
empíricos y estadísticos como el análisis factorial confirmatorio o el modelamiento de ecuacio-
nes estructurales, a fin de observar la pertinencia de la estructura de contenidos propuesta por
los especialistas.
5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.
tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los

ítems, en relación con lo establecido en el currículo.
tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad
cognitiva real corresponda a la esperada.
tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la represen-
tación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular
completo.
26
En las pruebas de logro académico es fundamental el uso de un modelo taxonómico o sistema
de clasificación que facilite establecer el grado de demanda cognitiva que supone para el alum-
nado cada reactivo.
Para el desarrollo de las pruebas E XCALE, el INEE declara en principio que:
Es muy difícil establecer una taxonomía única para todas las disciplinas, por lo que corres-
ponderá a los grupos de especialistas adaptar o establecer un esquema propio de clasifi-
cación para asegurar que los ítems se construyan en forma equilibrada. Dichos esquemas
deberán contar, al menos, con dos ejes para poder especificar las competencias escolares
a evaluar: 1) el de los propios contenidos de la disciplina y 2) el de las habilidades cogniti-
vas sobre las que operan los contenidos. (Documento: 1. Plan General de Evaluación del
Aprendizaje: 23).
En consecuencia, en varios documentos se comenta el uso de diferentes sistemas para clasificar

distintos niveles de complejidad cognitiva a los que deben apelar los ítems que se especifican
y desarrollan.
Por ejemplo, en el documento “8 Manual técnico para el desarrollo de especificaciones de re-

activos” se considera la posibilidad de emplear taxonomías como la de Bloom y la de Gagne (p.
20, y p.p. 35-37), y en el documento antes mencionado se aclara que “sólo con el propósito de
ilustrar una clasificación utilizada para la evaluación de las ciencias naturales, nos referiremos a
la propuesta por Solano-Flores (2004), en la cual se hace una relación entre los tipos de cono-
cimientos y los requerimientos cognoscitivos” (Documento: 1. Plan General de Evaluación del
Aprendizaje: 23). (Ver tabla 1.3)
Tabla 1.3 Relación entre tipos de conocimientos y requerimientos cognoscitivos,

según Solano-Flores (2004)
Conocimiento Conocimiento Conocimiento Conocimiento estratégico

declarativo procedimental esquemático (cómo, cuándo, dónde
(qué) (cómo) (por qué) y por qué)
Aplicar
Explicar, dar Identificar y representar
Definir, comparar, procedimientos
razones, justificar, problemas, formular
Demandas ejemplificar, o algoritmos
predecir, preguntas, aplicar
en las tareas describir, proveer (p.ej., colectar
hipotetizar, formar conocimientos en un nuevo
términos. información
patrones. contexto, transferir.
o resultados)
Ejecutar
Recuperar/recordar
procedimientos, Usar el conocimiento
información, Razonar e
secuencias, (seleccionar estrategias) de
Requerimiento hechos, interpretar usando
acciones más o una nueva manera (creativa)
cognoscitivo vocabulario, modelos mentales,
menos rutinarias, para identificar un problema
términos, símbolos, principios o teorías
operaciones o producir una solución.
oraciones
mecánicas.
• Tareas muy estructuradas-tareas poco estructuradas
Apertura y • Inclusión de información relevante e irrelevante
complejidad • Descripciones largas, demandas de lectura diferentes
• Respuestas involucradas que contradicen creencias de la vida diaria
Fuente: Plan General de Evaluación del Aprendizaje, pág. 23.

Por otra parte, en los Marcos de Referencia de las pruebas E XCALE, en las distintas materias y
niveles, así como en el documento “Manual técnico para la construcción de reactivos” (Pág. 9)
y en el documento “Manual técnico para la validación de ítems” (Pág. 8), se presenta un sistema
taxonómico simple que orienta a los diseñadores de reactivos (ver tabla 1.4).
Tabla 1.4 Relación entre contenidos y estrategias cognoscitivas
Estrategias cognoscitivas
Contenidos Total
Conocimiento Comprensión Aplicación Análisis
Números decimales 3 5 3 3 14
Regla de tres 4 2 3 2 11
Área de rectángulo 2 3 3 2 10
Decimales y fracciones 3 3 3 1 10
Total 12 13 12 8 45
Fuente: Manual técnico para la validación de ítems, pág. 8.
En cuanto al uso de protocolos verbales con examinados, no se encontraron referencias en la

documentación revisada de que se hayan llevado a cabo.
ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS
6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se

especifican y justifican los procedimientos para formularlos.
Este objetivo se cumple si existen evidencias de que se ha estructurado el procedimiento de

escritura de ítems. Así, debe atenderse que los reactivos:
a) representan el contenido a evaluar, y

b) se adaptan al nivel de desempeño que se espera pueda darse en la enseñanza, como
expresión de las oportunidades de aprendizaje que se brindan a los alumnos.
Ello implica que existan manuales de referencia, hechos expresamente para el tipo de pruebas a
desarrollar y que se realice una capacitación adecuada para los diseñadores de especificaciones
de ítems y los escritores de reactivos.
Para analizar el grado de cumplimiento de este criterio, como para el caso de las pruebas ENLACE,
hemos tenido en cuenta los aspectos que se comentan a continuación.
tt El manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indi-
cando cómo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas
de los examinados para el dominio pretendido.
28
Diversos documentos explicitan el modo de diseño y corrección de reactivos de las pruebas
E XCALE; destacan:
• 4 Manual técnico para el diseño de las pruebas

• 8 Manual técnico para el desarrollo de especificaciones de reactivos
• Manual Técnico Validación Items
• 13 Manual técnico para la construcción de reactivos
• 17 Manual técnico de validación de reactivos
En estos documentos se describen y proporcionan ejemplos de todos los tipos de reactivos que
tendrá cada tipo de prueba E XCALE y se justifican al hacer referencia a la relevancia de las res-
puestas de los examinados para el dominio pretendido. Al respecto, en el “Manual técnico de
validación de reactivos” se hacen las siguientes declaraciones (págs. 11-12):
… Para los E XCALE de primaria, secundaria y bachillerato, los reactivos serán siempre es-
critos y requerirán respuesta escrita, ya sea de opción múltiple o de respuesta construida.
El formato de los reactivos de los E XCALE de preescolar se ajustará a las necesidades de la
edad, tipo de competencia y grado evaluados… Los reactivos más comunes son los de op-
ción múltiple, ya que pueden ser utilizados en distintos contextos y con diversos propósitos.
Sirven para evaluar conocimiento factual (puramente memorístico), habilidades intelec-
tuales de alto orden o disposiciones actitudinales y valorativas. Si son bien utilizados, con
este tipo de preguntas se pueden medir una gran cantidad de atributos sofisticados de los
estudiantes. Por lo anterior, son los reactivos más utilizados en los EXCALE… Las preguntas
de respuesta construida son aquellas que solicitan al alumno “producir” libremente sus
respuestas. Hay situaciones educativas donde es imperativo utilizar este tipo de preguntas,
por ejemplo cuando se requiere evaluar la habilidad de escribir ensayos, cartas personales,
composiciones, etc. Sin lugar a dudas, los reactivos de respuesta construida representan
la única posibilidad razonable para evaluar la habilidad de escribir, así como otras compe-
tencias escolares, como la originalidad, las operaciones intelectuales complejas, la solución
de ciertos tipos de problemas, etcétera… los reactivos diseñados para evaluar las compe-
tencias de los estudiantes de preescolar no utilizan preguntas en formato escrito, dado
que muchos de los escolares aún no tienen desarrolladas por completo las habilidades de
lecto-escritura… se utilizan consignas (instrucciones verbales por parte del evaluador) a las
cuales debe responder el escolar. Éstas pueden tomar la forma de preguntas, instrucciones
o enunciados, según se requiera; y pueden estar acompañadas de ilustraciones u otro
material pertinente…
Como puede observarse, hay evidencia suficiente de que se dan pautas a los diseñadores de
especificaciones de ítems y por ende a los elaboradores de reactivos tanto para para elaborar-
los, justificarlos y clasificarlos, como respecto al modo en que se evidencie la relevancia de las
respuestas de los examinados.
tt El manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar
el diseño de los tipos de ítems: formato o documento donde los diseñadores de reactivos
hagan la captura y la modificación.
Tanto en el Marco de referencia, como en los manuales técnicos e informes disponibles, las ta-
blas de contenido y las especificaciones de ítems están claramente definidas, de manera que se
homogeneiza todo el proceso de determinación de las unidades a evaluar. De hecho, podemos

afirmar que el modelo para especificar los ítems de EXCALE es bastante detallado (por ejemplo
dos de las especificaciones que revisamos tienen cinco y nueve páginas respectivamente, para
especificar un solo ítem) e incluye procedimientos y formatos particulares para contextualizar
el contenido cuyo dominio se evalúa; la revisión de los documentos que justifican su selección
para formar parte del examen (entre ellos la tabla de contenidos de la que forma parte); el
análisis del contenido para determinar la estrategia evaluativa apropiada, ya sea que se trate
del dominio de un concepto o de un procedimiento; así como el desarrollo propiamente de la
especificación. Este último incluye secciones específicas para consignar la identificación del con-
tenido a evaluar; para describir el contenido curricular que se evalúa; la plantilla para especificar
el ítem; un ítem muestra que ilustre la correcta aplicación de la especificación; y la bibliografía
consultada para apoyar el rigor conceptual y disciplinario, así como el apego al currículo oficial.
En la figura 1.3 que se muestra a continuación, se ilustran algunos de estos componentes o
secciones de ellos, que aparecen en el documento denominado “8_Manual técnico para el
desarrollo de especificaciones de reactivos” (Págs. 18 a 25), y que dejan ver también parte de la
estructura del formato para elaborar las especificaciones de ítems de las pruebas.
Figura 1.3 Muestras de elementos de la especificación de ítems de EXCALE

Ejemplo 2.
Identificación del contenido a evaluar (Matemáticas 6° grado, Educación Primaria)
a. Eje temático: b. Tema:

Los números, sus relaciones y sus operaciones Números decimales
c. Contenido:
Resolución de problemas con números decimales.
MANUAL TÉCNICO ESPEC IFICACIONES DE REACTIVOS
d. Especificación general como aparece en la tabla de contenidos:
Resolución de problemas de suma y resta con números decimales (hasta milésimos) en diversos contextos.
Ejemplo 2.
Descripción del contenido curricular a evaluar (Matemáticas 6º grado, Educación Primaria)
3.2 Descripción del contenido curricular a evaluar
a. Interpretación del sentido del contenido que se deberá evaluar:
Según el diseño que le es propio a un Excale en particular y a la naturaleza del contenido a evaluar, esta
Es importante que en la resolución de problemas el alumno determine cómo están relacionados los datos que se proporcionan
sección, eny general, incluye los siguientes aspectos:
la operación que permite resolver el problema (en este caso, suma y resta), así como interpretar el resultado.
a. Interpretación
b. Importancia del
delsentido
contenidodel contenido
en el que
contexto del se deberá evaluar. Este rubro contempla una descripción
currículo:
detallada de lo que
La resolución se pretende
de problemas de sumaque loscon
y resta estudiantes
decimales es sepan
útil en lahacer a partir
vida cotidiana del
y en estudiodedeotras
aplicaciones este contenido.3
asignaturas;
por ejemplo, en contextos de proporcionalidad, en la lectura de información de tablas o gráficas, en interpretación de medidas,
Dentroetcétera.
de este mismo apartado, podrá incluirse un breve resumen de los resultados de la revisión teórica
de este
Porcontenido en de
otro lado, el uso particular, a en
los decimales partir
sumasde preguntas
y restas como
contribuye lasconstruyendo
a seguir siguientes:el concepto de número, en general, y
de números con punto decimal, en particular, así como a profundizar en la comprensión del sistema decimal de numeración.
• ¿Qué significado tiene el contenido dentro de la disciplina y desde el enfoque curricular?
Además, los decimales hacen más sencillos los cálculos con números menores a la unidad.
• ¿Qué dificultades implica el aprendizaje o la evaluación de este contenido?
La introducción de sumas y restas de números con punto decimal inicia en cuarto grado con el planteamiento de problemas en
• ¿Qué dificultades manifiestan los estudiantes en el estudio de este contenido?
contextos de medición (Libro de Texto 4° grado, Bloque 4, Lección 7) y de relación dinámica. Una particularidad en este grado
• ¿Cuáles son las principales concepciones erróneas o errores más comunes de que se tiene registro
escolar es ayudar al alumno planteando la suma con el punto alineado.
en el estudio de este contenido?
En quinto y sexto grados los alumnos resuelven problemas, generalmente de tipo estático y con la lectura de tablas, en los que
b. Importancia delloscontenido
deben elegir en eldecontexto
datos y colocarlos manera que del currículo.
sumen Endécimos,
décimos con este centésimos
apartadocon
secentésimos
deberá yhacer explícito
milésimos con el
papel milésimos.
que juega el contenido para alcanzar las metas curriculares de la asignatura a evaluar.
c. Delimitación del contenido a evaluar:
Dicho Resolución
de otrademanera, en función del contenido a evaluar, este apartado responde a la pregunta o
problemas de suma y resta con números enteros y decimales hasta milésimos; los números pueden o no tener
preguntas que describen
parte entera. y clarifican su importancia curricular:
Para el planteamiento de la base del reactivo es necesario considerar la estructura del problema de acuerdo con la relación de
• Desde el punto de vista de la enseñanza y aprendizaje, ¿qué referencias hay del contenido a
los datos, la posición del dato que se pregunta, el contexto que se empleará y la presentación de los datos.
evaluar dentro de los materiales proporcionados por la SEP?, ¿cuáles son las estrategias
30 1) Por la relación de los datos:
curriculares plasmadas en los libros de texto y demás materiales educativos para la adquisición de
a. Problemas que implican una relación dinámica.
este conocimiento?, ¿qué aporta el estudio de este contenido en la evolución del conocimiento de
la disciplina?
Por ejemplo: Juan tenía $12.50, su papá le dio $15.30. ¿Cuánto tiene ahora?
Ejemplo 1. Peculiaridades de la plantilla (Español 6° grado, Educación Primaria)
Pecularidades de:
• la información textual, gráfica o tabular que se presenta MANUAL TÉCNICO ESPEC IFICACIONES DE REACTIVOS
Excluir la moraleja de la fábula en caso de que esté escrita en la versión original.

• el vocabulario empleado
A continuación se muestran dos ejemplos de esta sección de la especificación.
El estipulado en el documento de Normas para la construcción de reactivos.
Ejemplo 1. Plantilla (Español 6° grado, Educación Primaria)
Estructura de la base del reactivo:

Ejemplo 2. Peculiaridades de la plantilla (Matemáticas 6° grado, Educación Primaria)
La base del reactivo se conformará de los siguientes elementos: instrucción para la lectura + texto requerido (fábula) +
enunciadode:
Peculiaridades del reactivo a manera de afirmación.
Instrucción: directa, clara
• la información y concisa
textual, para
gráfica que el alumno
o tabular realice la lectura
que se presenta: del texto.
Si se desea, puedeLa hacerse
redacción
usodebe ser en modo
de información
(con decimales) presentada en tablas o gráficas, debido a que esto es muy común en las lecciones del libro de
imperativo.
texto, por lo que se supone que el alumno está familiarizado con problemas de este tipo.
• el vocabulario empleado: Se debe usar sólo vocabulario al alcance del alumno, sin palabras o frases
innecesarias. También es necesario evitar palabras clave, como “sumar”, “añadir”, etcétera. (Hart 1981, citado por
Puig, 1995, p. 84)
Texto: fábula de no más de 500 palabras
• Peculiaridades de la respuesta correcta: La respuesta correcta debe plantearse en la misma unidad de medida
que fue presentada en la base del reactivo, debido a que no se está evaluando si sabe hacer conversiones, sino la
resolución de problemas de suma y resta con números decimales.
Enunciado del reactivo:

3.5 Reactivo muestra
Elige (selecciona) la opción que (exprese, indique, señale…) cuál es (la enseñanza, la moraleja) de la fábula.
En este apartado se presenta un reactivo-tipo de la especificación elaborada. Con este ejemplo se espera
Estructura y descripción de la respuesta correcta:
que el Comité Elaborador de Reactivos tenga una mejor idea de la clase de reactivos que pueden construirse
A. Moraleja de la fábula (textual o parafraseada).
a partir de la especificación proporcionada.
Estructura y descripción de las opciones consideradas incorrectas:
A continuación se plausible:
B. Opción dan dosSustitución
ejemplosdelde reactivos
sujeto que integran
de la oración todas
que expresa las características
la moraleja, descritas
a fin de modificar enpero
su sentido los
apartados anteriores de la especificación.
manteniendo coherencia en la proposición resultante.
C. Opción plausible: Proposición relacionada con el contenido de la fábula.
D. Ejemplo
Opción plausible:1. Reactivo
Proposición muestra
relacionada con (Español 6°lagrado,
el contenido de Educación
fábula (distinta Primaria)
al distractor C).
Lee la siguiente fábula.

Ejemplo 2. Plantilla (Matemáticas
La liebre y la 6° grado, Educación Primaria)
tortuga
En cierta
Estructura
ocasión, la de la base
liebre del reactivo:
presumía ante los demás animales de su gran velocidad en las carreras.
—Nadie me ha ganado
Problema jamás
de suma cuando
o resta corro con
con enteros todas mis
y decimales fuerzas
(hasta –decía–.
milésimos); Desafío
estos últimosal que quiera
pueden probarlo.
o no tener parte entera.
—Acepto Debe preguntarse
el desafío —dijo por el estadotranquilamente.
la tortuga final y la relación puede ser estática o dinámica (ver apartado 2).
En el tienes!
—¡Qué gracia caso deSoy
la suma,
capazpuede incluirse
de danzar a tuunalrededor
máximo de tres sumandos;
durante el caminoen—dijo
el caso de la resta, sólo un minuendo y un
la liebre.
sustraendo.
—No presumas
Deben de algo, hasta
utilizarse no ser
contextos de vencedora —le contestó
dinero o medida. la tortuga.
Los contextos de medida deben referirse a longitudes, pesos o
Se fijaron capacidades.
las condiciones de la carrera y comenzó la prueba. La liebre desapareció a toda velocidad. De pronto se
detuvo y, Todos
despreciando
los datos a la tortuga,
deben estar ense
la puso
mismaa unidad
descansar y se quedó dormida.
de medida.
La tortugaIlustraciones o texto
avanzaba hacia adicional:
la meta Si se
sin prisa. desea ylaesliebre
Cuando adecuado para ellacontexto
despertó, tortuga elegido,
estaba los
tandatos
cercapara el meta
de la problema
quepueden
ya no
pudo alcanzarla.
ser presentados en una tabla.
Respuesta correcta:
Fuente: Manual técnico para desarrollo

Es el resultado de especificaciones
de resolver correctamente elde reactivos,
problema, págs.
debe 18-en25.
estar la misma unidad a la que se refieren los datos.
25
Distractores:
Para que los distractores den cuenta de los principales errores que suelen cometer los alumnos, se recomienda elegir
El manual fue algunos de los siguientes
desarrollado (según se ajusten
especialmente para laal problema
pruebaplanteado):
de que se trate y tiene en cuenta sus
particularidades; no es aceptable un manual genérico o tomado de otro sistema de evaluación.
En el caso de las pruebas E XCALE todos los manuales de referencia fueron desarrollados ad
hoc, de manera expresa para las pruebas, incluidos los cuestionarios de contexto utilizados en
23
el plan de evaluación junto a las pruebas de logro; se desarrollan a partir de las directrices ge-
néricas que dan marco al al proyecto de pruebas E XCALE, con lo que se evidencia una unicidad
en el cuidado de los procedimientos en el conjunto de pruebas, a la par que se reconocen sus
especificidades. Al inicio del presente apartado ya fueron mencionados los manuales técnicos
que incluyen información relativa a las especificaciones. Enseguida se ilustrarán detalles sobre la
elaboración de los reactivos con base en esas especificaciones.

7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la espe-
cialización académica, laboral y su representatividad respecto a la diversidad del país,
y es coordinado por una persona calificada en medición y evaluación.
Las características de los miembros de los comités que proponen autores como Guttman (1969),
Bormuth (1970), Hively (1974), Roid & Haladyna (1982) y Tiemann & Markle (1990), Solano-
Flores (1993, 2004), Downing & Haladyna (2006), son las mismas que mencionamos para el
caso de ENLACE . Aquí solo recapitularemos que se trata de especialistas en currículo, docencia,
lingüística, cognición, evaluación, la disciplina que se evalúa así como representantes de los
grupos socioculturales que potencialmente pueden ser afectados por la evaluación.
tt El
comité fue formado específicamente para realizar su labor, considerando todos los ele-
mentos característicos del tipo de prueba a diseñar
En los manuales técnicos se indica la composición del comité de diseñadores de ítems, y los
informes internos muestran evidencias documentales acerca de las personas que los integraron,
y la entidad federativa e institución de donde provienen, detallando su área de especialización
y aspectos de su currículo. En general quienes elaboran los ítems y quienes después los validan
son docentes de distintos estratos y modalidades educativos, y son coordinados por el respon-
sable académico de la prueba.
La capacitación de los elaboradores de ítems implica revisar los productos de la planeación y

diseño de las pruebas que fueron elaborados previamente, como las retículas, tablas de con-
tenido y las especificaciones de ítems que delimitan el dominio de la prueba. También incluye
considerar los tipos de ítems que se utilizan en los E XCALE y la estructura de cada especificación
de ítems, en particular la plantilla del ítem donde consignan su trabajo. Además, la capacitación
incluye revisar cinco anexos con materiales para apoyar el trabajo posterior de elaboración de
los ítems: a) Formato de la especificación de ítems; b) Normas para la construcción de reactivos
(relativas a la congruencia con su especificación, formato, contenido, uso del lenguaje, redac-
ción técnica, figuras y tablas a emplear, a cada tipo de ítem y de los ítems particulares para ma-
temáticas, español, ciencias naturales y ciencias sociales); c)Reglas para la generación de ítems
(transformaciones lingüísticas, facetas y análisis de contenido de conceptos y procedimientos);
d) Protocolo de revisión de reactivos; y e) formato de entrega de reactivos.
tt La capacitación de los redactores de ítems incluyó procesos metodológicos y referencias a las

taxonomías o sistemas de clasificación cognitiva usados para especificar el dominio a evaluar.
En el apartado 5 (véase la Tabla 1.4), señalamos que se utilizó un sistema de clasificación cogni-
tiva fácil de aplicar por los participantes. Por su parte, las tablas de especificaciones de la prueba
y el apartado del manual de diseño de reactivos incluyen los niveles de demanda cognitiva que
corresponden a cada contenido y tarea. Además, el formato de especificación de ítems incluye
el nivel de demanda que corresponderá a cada uno, denominándose ahí “actividades cognos-
citivas involucradas en la contestación correcta del reactivo”. Estos materiales son revisados por
los elaboradores de ítems durante su proceso de capacitación.
32
CONTROL DE LA CALIDAD DE LOS ÍTEMS POR EL COMITÉ DE REVISIÓN
En el apartado correspondiente del informe referido a ENLACE señalábamos que la validación

de ítems mediante juicios de expertos es una etapa que ha sido bien documentada por auto-
res como Hambleton y Jones, (1993), Nitko (1994), Popham (1980), Jornet y Suárez (1990) y
Solano-Flores (2004), quienes definen un perfil de especialistas similar al de quienes desarrollan
los ítems, y que en conjunto representen a la disciplina, al currículo y su operación en las aulas,
la lingüística, la teoría cognitiva, la psicometría y los grupos socioculturales que puedan verse
afectados por el tratamiento que se dio a los ítems.
Tales especialistas deben valorar el alineamiento de cada reactivo elaborado con la correspon-
diente especificación de ítems, la correspondencia de ambos con el blanco curricular pretendido
y con los demás productos de la planeación del examen. También deberán detectar en cada
ítem errores conceptuales, fallas en la redacción técnica, sesgos, complejidad cognitiva innece-
saria, falta de representatividad curricular y otros problemas que pueden presentar, así como
sugerir modificaciones en los reactivos que permitan mejorarlos.
Así pues, se trata de un comité independiente que revisa los reactivos con el propósito de libe-
rarlos de posibles errores sistemáticos.
8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acep-
tación, revisión y modificación.
Para capacitar a los jueces que evalúan los ítems y posteriormente orientar sus actividades, se
requiere un manual que incluya protocolos y criterios para revisar aspectos técnicos de orden
conceptual y procedimental sobre validación de ítems, como los tipos de evidencias relaciona-
das con dicho proceso y los métodos que pueden emplearse para obtener tales evidencias; la
estructura del formato de evaluación que emplearán; los lineamientos normativos que seguirán
y los procedimientos que utilizarán para llevar a cabo la evaluación.
tt Presenta la estructura con las funciones representadas en el comité evaluador.
En la tabla I2, la etapa 7 ubica la participación de los comités de validación y sesgo quienes,
previa capacitación apoyada por el manual correspondiente y un sistema informático ad hoc,
desarrollan un trabajo tanto individual como colegiado al evaluar los reactivos de EXCALE. Los
jueces deben hacer dos revisiones por reactivo construido y dos reportes de validación por cada
reactivo. Entre las funciones que desempeñan los jueces, establecidas en el manual, están revisar
la retícula, la tabla de contenidos, las especificaciones de ítems, los reactivos elaborados y las
normas para su construcción que elaboró el INEE, las claves y en su caso las rúbricas de califica-
ción de ítems de ejecución. Desde luego, la principal función de los comités es llevar a cabo la
validación técnica y cultural de los reactivos, lo que incluye revisar el grado en que los reactivos
del examen representan el dominio curricular a evaluar, juzgar la correspondencia con la especi-
ficación que produjo al ítem, evaluar el sesgo cultural y de género y detectar posibles problemas
técnicos de construcción como errores conceptuales, redacción compleja o proporcionar infor-
mación innecesaria, entre otros.

representantes de los ocho estratos escolares y modalidades educativas, de las 32 entidades
federativas, la asignación de los docentes a cada grupo de evaluadores se hace en forma
completamente aleatoria.
2.3 Procedimiento para la validación de reactivos
Tomando en cuenta la gran cantidad de reactivos que conforman los Excale, se diseñó un pro-
cedimiento práctico y eficiente que se sustenta en dos etapas de trabajo sucesivas. La primera de ellas
consiste en el trabajo individual que realizan los docentes con los reactivos; la segunda consiste en
t El manual
t describe procedimientos/criterios para revisar ítems por jueceo.
el trabajo colegiado que realiza el grupo de docentes con respecto al trabajo individual previamente
elaborado. Veamos con mayor detenimiento el proceso completo de validación.
Como ya se mencionó, los jueces llevan a cabo primero una evaluación individual de los ítems.
Una vez conformados los grupos que validarán los reactivos de los Excale, a cada docente se
La figura 1.4 un
le entregará sintetiza los de
conjunto pasos que seque
reactivos siguen al efectuar
tendrá eseindividualmente
que validar jueceo: en un formato
diseñado ad hoc (ver anexo D), siguiendo la guía para validar reactivos (ver anexo E). En este
formato se presenta el reactivo a evaluar, la especificación del reactivo, distintas características

que se deben de evaluar de cada reactivo y un espacio para hacer observaciones o aclaraciones
Figura 1.4 Síntesis
de aquellos aspectosdel
deljueceo individual
reactivo de los ítemsnodedeseados.
que se consideran EXCALE
En síntesis, la evaluación individual consiste de los siguientes pasos:
Paso 1. Leer cuidadosamente la especificación del reactivo: Es muy importante conocer
con precisión el contenido (conocimientos, habilidades o competencias escolares) que el
reactivo pretende evaluar, para poder juzgar su pertinencia y validar la alineación especifi-
cación-reactivo. Si no existe esta alineación, el reactivo no es válido para el propósito que
se le desea dar en la prueba.
Paso 2. Leer el reactivo y responderlo: Lo anterior se debe hacer sin conocer la respuesta
correcta, como si el docente fuera el estudiante. El propósito de este ejercicio es conocer las
habilidades y conocimientos que son necesarios para responder correctamente un reactivo
en particular, y con ello poder juzgar la competencia escolar que se evalúa, la dificultad de
la pregunta, y su pertinencia para la asignatura y grado correspondientes.
Paso 3. Responder los apartados del formato de validación de reactivos: Esta es la
parte fundamental del proceso de validación, que se enfoca a identificar problemas o errores
del reactivo como fuentes de invalidez. Como se mencionó anteriormente, el reactivo es
evaluado en tres grandes aspectos: el grado en que el reactivo representa el contenido
curricular especificado, la ausencia de sesgo y de género, y los problemas técnicos de construc-
ción. Para responder a las preguntas, los docentes tienen que hacer uso de la normatividad
para la construcción de pruebas del INEE, así como de su conocimiento pedagógico y expe-
riencia profesional.
Paso 4. Justificar los errores o problemas identificados en el reactivo: Cada problema
que se identifique en el reactivo debe ser documentado, de tal forma que la esencia del
VALIDACIÓN DE REACTIVOS
problema y la forma de corregirlo sean entendibles.
Paso 5. Agregar señalizaciones, correcciones o comentarios al cuerpo del reactivo:
En algunos casos será necesario que en el cuerpo del reactivo mismo se hagan los señala-
mientos necesarios para ubicar con mayor facilidad los errores, tal es el caso de problemas 23
gráficos u otros que sean difíciles de describir.
Cada reactivo deberá ser evaluado por dos jueces de manera independiente. Se trabajará por rondas
de reactivos
Fuente: Manual (por ejemplo,
técnico de diez
de validación en diez)págs.
de reactivos, para23-24.
que posteriormente se revisen las evaluaciones
realizadas por los docentes de forma colegiada por los ocho profesores.
En caso de que las evaluaciones de un reactivo no coincidan en lo fundamental, el grupo de do-

centes analizará, discutirá el caso y llegará a un consenso sobre la evaluación del reactivo. Por el
Cada reactivo
contrario, si la es evaluadodepor
evaluación dos docentes
ambos jueces decoincide,
manera la
independiente,
evaluación del quienes trabajan
reactivo se por ron-
consignará
tal cual, sin mayor análisis, a menos que cualquier miembro del grupo solicite revisarlo.
das de reactivos antes de proceder a las evaluaciones colegiadas realizadas por los ocho profe-
sores que integran
Para realizar el comité.
el trabajo colegiado se contará con un formato electrónico que contiene la infor-
mación de los reactivos y los indicadores para su validación. En el siguiente capítulo revisaremos
con mayor detalle sus características técnicas.
En cuanto a la fase de la evaluación grupal, para facilitar la revisión colegiada de los ítems el INEE
desarrolló un programa informático con un formato electrónico de cinco páginas que contienen
los datos de los reactivos y los indicadores para su validación; además, creó una página más
para el caso de la educación preescolar. Tres de dichas páginas se ilustran en la figura 1.5 que
se presenta en la página siguiente.
Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación
de los integrantes de los comités de revisión.
34
Figura 1.5 Programa informático para el jueceo grupal de los ítems
Página del reactivo
Página de evaluación
del reactivo
Página de la especificación
del reactivo
Fuente: Manual técnico de validación de reactivos, págs. 25-28.

La cualificación se apoya, al menos, en tres factores:
a) profesional (dependiendo de la tarea a realizar, deberían ser especialistas en currículo, pro-

fesorado frente a grupo —con experiencia y formación evaluativa—, lingüistas, etcétera);
b) diversidad geográfica (como garantía para representar la diversidad de situaciones socio-
culturales, económicas y escolares de México); y

c) diversidad en cuanto a modalidad educativa en que realizan su trabajo, en el caso de
profesorado frente a grupo (como garantía para representar adecuadamente los factores
característicos que pueden influir o darse en cada modalidad).
Los criterios de selección de revisores deberían contemplar al menos los factores mencionados.
tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con
representatividad de la diversidad del país.
Los miembros del Comité de validación técnica y cultural tienen un perfil similar al de los elabo-
radores de ítems. En el manual técnico de validación de reactivos que aportó el INEE , se explican
los criterios para conformar los grupos de jueces. Se trata de especialistas en la enseñanza de
las distintas disciplinas que están implicadas en las pruebas que se elaboran y en su totalidad
están formados por docentes en ejercicio que provienen de las 32 entidades federativas, repre-
sentando distintos estratos y modalidades escolares; se procura que en su participación haya
un equilibrio de género.
Cada comité está constituido por ocho personas. Para el nivel de primaria los docentes deben
representar a escuelas urbanas públicas, rurales públicas, de educación indígena y privadas
mientras que para la secundaria a generales, técnicas, telesecundarias y privadas.
Además, para incorporarse al trabajo de los comités, los miembros deben contar con carac-
terísticas, algunas indispensables y otras deseables, mismas que se describen en la figura 1.6.
tt El comité de revisión está formado por jueces diferentes al del de escritura de ítems.
Existe documentación específica que avala el cumplimiento de este criterio. Incluso es posible
identificar a los participantes de cada comité y conocer sus características.
tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.
Tanto el proceso de capacitación de diseñadores como el de revisores de reactivos se han estan-

darizado como un protocolo de trabajo —que se basa en una guía— indispensable para el dise-
ño de todas las pruebas. Un ejemplo de la guía, puede observarse en el Manual Técnico de Vali-
dación de reactivos (págs. 43-46). La capacitación incluye, además de revisar la documentación
elaborada por los comités académico, elaborador de especificaciones de ítems y elaborador de
los reactivos, la detallada revisión de los componentes de la guía, los cuales incluyen detectar
problemas asociados al contenido curricular, al sesgo en los ítems así como a su construcción
técnica, a las ilustraciones que se emplean en los reactivos, a la situación comunicativa que se
plantea en el ítem, a la forma de calificación y a la categoría “Otros” para consignar problemas
adicionales que pueden identificarse. La Figura 1.7 ilustra una sección de dicha guía.
36
2.2 Conformación de los grupos de jueces

Una característica del trabajo del INEE respecto al diseño, desarrollo y validación de los Excale
es el trabajo colegiado de diversos expertos y especialistas en la enseñanza de las distintas
disciplinas de interés para evaluar la calidad del Sistema Educativo Nacional. En la etapa de la
validación de reactivos, este grupo está conformado en su totalidad por docentes en ejercicio.
Como es indispensable que el trabajo de validación lo realicen los docentes que tengan el
Figura 1.6
mejor Características
perfil profesional indispensables y deseables
posible, a continuación de los miembros
se enlistan de los comités
las características idóneas de los
profesores
deque son invitados
validación a validar
de reactivos delos reactivos de los Excale, las cuales se pueden clasificar
EXCALE
en dos tipos: las indispensables y las deseables.
Las características indispensables de los miembros de los CVS son las siguientes:
• Ser profesor en ejercicio, con experiencia mínima de cinco años frente a grupo
• Ser normalista, con especialidad en la asignatura y grado a evaluar
• Tener interés en participar en los trabajos de validación de las pruebas nacionales
• Tener gran conocimiento del currículo nacional de la asignatura y grado a evaluar
Asimismo, es deseable aunque no indispensable que los docentes cumplan con las siguientes
características:
• Estar inscrito en el programa de Carrera Magisterial
• Contar con altas calificaciones en el Pronap
• Tener gran prestigio como docente, entre sus colegas y alumnos
• Tener conocimiento y experiencia en evaluación de gran escala
LosManual
Fuente: grupos de evaluadores
técnico de validación deestarán
reactivos, representados
pág. 22. por docentes provenientes de las 32
entidades federativas, representando a los distintos estratos y modalidades escolares, procu-
rando que haya un equilibrio de género. Para el nivel de primaria docente representarán a
escuelas: VALIDACIÓN DE REACTIVOS
Figura 1.7 Sección de la guía para validación de reactivos de EXCALE

• Urbanas públicas: Escuelas públicas ubicadas en comunidades con una población mayor
Anexo V. Guía para validar reactivos

a cinco mil habitantes.
• Anexopúblicas
V. Guía para validar reactivos
EstaRurales
guía tienepúblicas: Escuelas
la intención de orientar alubicadas
Comité de en Validez
comunidades
y Sesgocon
de una población
los Excale sobremenor
la uti-a
dos mil quinientos habitantes.
lización de los códigos que tendrán que registrar en los formatos de evaluación de los reactivos.
Esta guía tienede
Dependiendo la la
intención
gravedaddede
orientar al Comitédetectados
los públicas
problemas de Validezen y Sesgo de los Excale
los reactivos, sobre la uti-
se determinará su
• Educación
lización de los indígena:
códigos que Escuelas
tendrán que ubicadas
registrar en los en localidades
formatos de de población
evaluación de los indígena,
reactivos.
descarte, modificación o su verificación.
donde se imparte
Dependiendo educación
de la gravedad de bilingüe bicultural.
los problemas detectados en los reactivos, se determinará su
descarte,
Primariamodificación
y Secundaria o su verificación.
• Privadas: Escuelas de sostenimiento privado.
Primaria y Secundaria
Se omiten los docentes de losProblemas
cursos comunitarios
de contenidoporque representan a menos del 1% de la
curricular
población estudiantil de primaria y por la dificultad de su traslado al Distrito Federal.
1. Falta de alineamiento curricular
Problemas de contenido curricular
Evalúa para
Igualmente, conocimientos
el caso deajenos
los al currículo
Excale y/o los libros
de secundaria de texto
se buscan docentes de las cuatro modalidades
1. Falta de alineamiento curricular
educativas:
2. No corresponde
Evalúa a laajenos
conocimientos especificación
al currículo y/o los libros de texto
Puede ser resuelto sin los conocimientos y habilidades que se supone evalúa y que se señalan
• 2.Generales: Secundarias
No corresponde públicas con un currículo comprensivo.
a la especificación
en la especificación del reactivo.
Puede ser resuelto sin los conocimientos y habilidades que se supone evalúa y que se señalan
• 3.Técnicas:
Reactivo Secundarias
demasiado
en la especificación
públicas
deldifícil
reactivo.
con un currículo comprensivo, que además ofrecen capaci-
tación
Tienetécnica.
un alto nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.
3. Reactivo demasiado difícil
4. Reactivo demasiado
Tiene un alto fácil
nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.
Tiene un bajo nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.
22 4. Reactivo demasiado fácil
5. Cobertura
Tiene un bajo nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.
Evalúa conocimientos que no se enseñan en mi escuela y que yo no enseño en mi aula.
5. Cobertura
Evalúa conocimientos que no se enseñan en mi escuela y que yo no enseño en mi aula.
Problemas de sesgo
6. Vocabulario y/o redacción Problemas de sesgo
Usa palabras cuyo significado es diferente entre los grupos sociales evaluados y/o está escrito de
6. Vocabulario y/o redacción
modo que puede ser interpretado de manera distinta por individuos de grupos sociales diversos.
Usa palabras cuyo significado es diferente entre los grupos sociales evaluados y/o está escrito de
7. Situación
modo que puede ser interpretado de manera distinta por individuos de grupos sociales diversos.
Contiene situaciones poco cercanas a la cotidianeidad de los alumnos de algún grupo social.
7. Situación
8. Estereotipos
Contiene situaciones poco cercanas a la cotidianeidad de los alumnos de algún grupo social.
Refleja concepciones sociales fijas asociadas a las características de algunos grupos sociales.
8. Estereotipos
Refleja concepciones sociales fijas asociadas a las características de algunos grupos sociales.
Fuente: Manual técnico de validación de reactivos, pág. 43.
Problemas técnicos de construcción
9. Errores conceptuales Problemas técnicos de construcción
Tiene errores respecto a los principios teóricos de la disciplina científica en que se fundamenta. Alineación a los referentes 37
9. Errores conceptuales
10. Contexto inapropiado
Tiene errores respecto a los principios teóricos de la disciplina científica en que se fundamenta.
El contexto que se presenta no se considera apropiado para los alumnos del grado escolar evaluado.
10. El sistema de revisión lógica de cada ítem incluye:
tt Análisis de calidad técnica: claridad en la formulación, adecuación al marco de prueba.

tt Análisis de la congruencia ítem-contenido o ítem-objetivo (subdominio).

tt Análisis de posibles fuentes de sesgo de cada reactivo: género, diversidad cultural, entre otras.
tt Análisis de concordancia de juicio para la selección de reactivos o procedimientos para esti-
mar la confiabilidad de los juicios de los evaluadores.
La revisión lógica de reactivos es un procedimiento clave para asegurar la validez. Su aplicación

está orientada a detectar y eliminar posibles errores sistemáticos en los ítems, antes de proceder
a su pilotaje. La revisión de los reactivos puede llevarse a cabo de manera analítica o sintética.
A diferencia de ENLACE , las pruebas E XCALE pueden considerarse, en términos de Madaus y

Kellaghan (1992), de bajo impacto, ya que con ellas no se pretende aportar una evaluación de
personas, que oriente decisiones o afecte a su imagen individual.
La revisión se guía en este enfoque aportando criterios específicos sobre los cuáles los revisores
deben centrar su atención. Así, se atienden tanto características de calidad técnica (formula-
ción, base del ítem, existencia de respuesta correcta, calidad de distractores, etcétera), como su
adecuación a la unidad del dominio curricular que pretende medir, y la posibilidad de detectar
elementos socioculturales y lingüísticos que puedan constituir posibles fuentes de funciona-
mientos diferenciales de ítems (DIF ) y, en su caso, puedan considerarse sesgos (como factores
indeseables en las pruebas que afectan a la justicia y equidad de la evaluación).
En el caso de E XCALE, los componentes de la guía para validar reactivos que mencionamos en
el criterio 9, y en particular los que se ilustran en la figura 1.7, satisfacen los requerimientos
enunciados en los subcriterios ya referidos. De hecho, al revisar la documentación y manuales
técnicos, se observa que hay una atención muy específica respecto a la revisión lógica de los re-
activos. Se aportan guías concretas para tal cometido, definidas para diferentes tipos de ítems,
sean de alternativas, o bien de respuesta construida, así como a la categorización o calificación
de estos últimos.
Una vertiente de nuestra valoración bajo este criterio evaluativo, considera los análisis que se
realizan sobre el sesgo a través de varios procedimientos. El primero —descrito en el manual del
plan general de evlauación y realizado por comités específicos para cada prueba—, señala que
se hace predominar el aspecto criterial y de contenido más que los aspectos cuantitativos pro-
cedentes del análisis psicométrico. Este análisis de sesgo se realiza hasta alcanzar un consenso
entre especialistas con base en su experiencia y criterio. El segundo procedimiento está indica-
do en el manual de validación de reactivos con criterios específicos para determinar el sesgo
por diseño (lenguaje, estereotipos, descalificación, género, etcétera.). En el caso de diferencias
culturales se plantea una metodología de comparación de muestras de grupos focales; este
aspecto es analizado y discutido en otra sección por el equipo encargado del análisis de validez
cultural. El tercer procedimiento para abordar el problema de sesgo se refiere al control que se
establece en el diseño de las muestras. La documentación aclara que al diseñar la muestra
se tiene cuidado de no inducir sesgos por diversas razones, las cuales no están explícitas en sus
tipos ni en las formas de determinarlos.
38
Por otra parte, se proporcionaron distintas referencias respecto del análisis de funcionamiento
diferencial de ítems y personas, además de algunos estudios de sesgo. Por ejemplo, los estadísti-
cos de las pruebas piloto son presentados y analizados por distintos grupos, aunque no se hace
referencia específica al tipo de acción que se toma al encontrar funcionamiento diferencial de las
preguntas. Se incluye también un documento que explicita el procedimiento para evaluar el fun-
cionamiento diferencial de los ítems. En particular, se establece que se realizarán estudios de
funcionamiento diferencial de las preguntas con base en género, grupos de edad, edad normativa
y modalidad educativa. Si bien existe la documentación técnica que norma la realización de este
tipo de estudios, no se presentan evidencias de que en realidad se hizo con las pruebas operativas,
aunque sí se observa que se generaron algunas de estas estadísticas con las pruebas piloto.
Además, los manuales de elaboración de los reactivos dedican una sección a la forma de evitar
el funcionamiento diferencial de los ítems. El procedimiento se basa en 1) proporcionar a los ela-
boradores de las preguntas un conjunto de lineamientos claros sobre la elaboración de los ítems
a fin de minimizar el funcionamiento diferencial, y 2) establecer distintas fases de evaluación
de los reactivos previos a su utilización en una aplicación piloto u operativa. No obstante, no
pudimos observar evidencia sobre la aplicación o confirmación de que estos principios fueron
aplicados y que se probó que resultaran efectivos en la prueba operativa utilizada para presen-
tar resultados públicos.
Adicionalmente, se reporta un estudio de validación del E XCALE 00 de preescolar aplicada en

castellano y en maya (Backhoff, Contreras y Solano, 2012). Si bien no se trata de un análisis di-
ferencial de las preguntas, estudios de este tipo ayudan a informar los procesos de elaboración
de preguntas y contribuyen a minimizar —o hasta cierto punto controlar— la presencia del
funcionamiento diferencial, al resaltar la posibilidad de efectos en el desempeño en las pruebas
debidos a razones culturales y de lenguaje.
Con relación específica al análisis de funcionamiento diferencial de los reactivos, se cuenta con
el reporte técnico: “Modelo para detección de funcionamiento diferencial de reactivos (DIF ) en
pruebas INEE” (González-Montesinos, 2010) donde se presenta el procedimiento de determina-
ción de DIF proporcionado directamente por el programa Winsteps® para distinguir la diferen-
cia de funcionamiento en subgrupos en todo el dominio a medir. En el manual de Winsteps® se
explica la forma en que el programa lleva a cabo este análisis con base en las medidas del mo-
delo de Rasch y una implementación del esquema de Mantel-Haenszel. Puede interpretarse que
este análisis se realiza desde 2010 y que, en principio, se aplica a todas las pruebas de EXCALE,
pero no se dispone de publicaciones con estos resultados para todas las pruebas.
Por otra parte, hay varios estudios sobre las diferencias observadas en los resultados entre
estados o grupos (especialmente tipos de escuela y género), pero no se presentan asociados
explícitamente al análisis que hace Winsteps® del funcionamiento específico de los reactivos
(por ejemplo: El aprendizaje en tercero de preescolar en México, Backhoff, Andrade, Sánchez y
Peon, 2008; El aprendizaje en sexto de primaria en México, Sánchez y Andrade, 2013).
En otros documentos como “Adaptación lingüística y cultural de pruebas de logro académico”

(Solano, 2011, en INEE una década de evaluación) se cita la importancia del DIF, y se cuenta
con resultados y comentarios en Pertinencia de la traducción y adaptación de los Exámenes
para la Calidad y el Logro Educativos (EXCALE ) de preescolar a la lengua maya (Backhoff, Con-
treras y Solano, 2012). Estos casos serán discutidos más adelante por el grupo que examinó la
validez cultural.

Más allá de estos ejemplos, no se cuenta con un manual o nota técnica adicional sobre DIF,
salvo una mención en la tabla de desarrollo del proyecto que aparece en Plan general de eva-
luación del aprendizaje. Proyectos nacionales e internacionales (Backhoff y Díaz, 2005), por lo
que resultará importante el desarrollo de dicho manual.
Finalmente, en los reportes que presentan resultados estadísticos de las aplicaciones se incluyen
tablas con valores del estadístico que mide sesgo (posiblemente el sesgo a3 de Pearson aunque
no está explícitamente indicado), lo cual implica asimetría en la distribución. Este sesgo puede
estar asociado parcialmente con problemas de diseño, funcionamiento diferencial de los ítems,
aspectos de aplicación y diferencias reales entre grupos.
Como hemos visto, las explicaciones y detalles presentados al valorar este criterio demuestran
que el análisis de sesgo, así como las previsiones para identificarlo, reducirlo o controlarlo, cons-
tituyen un aspecto atendido con mucho cuidado por parte del INEE .
En síntesis, hallamos que la evidencia documental sobre los aspectos valorados en este criterio
es suficiente, e incluye elementos tanto de una revisión sintética como analítica. Por ello, enten-
demos que es una fortaleza en el diseño de la prueba.
Tal como lo mencionamos al valorar ENLACE , el alineamiento de la prueba al currículo, así como
la relevancia y representatividad del conjunto de ítems que la integran respecto al mismo, son
los criterios fundamentales para asegurar evidencias de validez relacionadas con el contenido;
de ahí que constituyan los principales referentes para guiar su desarrollo pero también, como en
este caso, su valoración. La idea de alineamiento de la prueba tiene que ver con la correspon-
dencia con el referente curricular, e igualmente con el ajuste o armonización entre los productos
de su planeación y desarrollo.
De este modo, al evaluar el alineamiento de la prueba se busca, en particular, identificar la

correspondencia y ajuste de cada ítem con la especificación que lo produjo; de estos dos com-
ponentes con el contenido cuyo dominio se juzgó importante evaluar; y de los tres elementos
con el subdominio en que se ubica el blanco curricular cuyo dominio se evalúa. En general, se
pretende determinar si el conjunto de ítems desarrollados se corresponden y armonizan con el
conjunto de especificaciones a partir de las cuales se generaron; si ambos componentes permi-
ten dar cuenta del dominio del universo de medida que llamamos prueba; y si, a su vez, tales
componentes y relaciones constituyen un cúmulo de evidencias que permiten hacer inferencias
válidas acerca del dominio del universo de contenido que llamamos currículo.
Pasamos a emitir las valoraciones respecto a este criterio.
tt Tras analizar los ítems del pilotaje y desechar los que no cumplan los criterios, se verifica que
el contenido de las pruebas a aplicar corresponda al dominio curricular en todos los aspectos
y niveles de demanda cognitiva planeados.
En el Manual de Procedimiento de la Dirección de Pruebas y Medición se detallan las fases y

tareas a realizar para la elaboración de los E XCALE, tal como puede observarse en:
40
http: // w w w.inee.edu.mx / images /stories / Publicaciones / Documentos _tecnicos / De_
pruebasymedicion/Procedimientos/Completo/procedimientos_pruebasa.pdf
En dicho documento se aprecian las garantías que se establecen y que, posteriormente se ob-
servan en los Manuales de Técnicos de las pruebas.
Con propósitos ilustrativos, en la figura 1.8 se muestran las fases del proceso general de desa-
rrollo de las pruebas que se relacionan con la valoración que hemos hecho sobre la alineación
de E XCALE a sus referentes.
Figura 1.8 Fases del desarrollo de los EXCALE relacionadas con la alineación de las pruebas
con sus referentes
2.4 Diagrama del procedimiento para el diseño y edición de los Excale
Director de
Director de Pruebas Subdirectores Área de Diseño Relaciones
Nacionales y Proveedor
y Medición de Pruebas y Edición
Logística
Inicia
1
Autoriza el Entrega los
Excale reactivos 2
Edita los
Excale
3
Autoriza la
¿Hay Sí
edición de
observaciones?
los Excale No
4
Entrega el Excale
al proveedor
Imprime los hard

copy de los Excale
Revisa los Recibe los

hard copy hard copy
Informa al
Sí proveedor de los
¿Hay cambios?
cambios que
efectuará
No
5
Entrega los hard Entrega al
Recibe los hard
copy para la proveedor los hard
copy e imprime los
impresión de los copy para la
positivos de
positivos impresión de los
los Excale
de los Excale positivos
Realiza respaldo,
genera y actualiza
las bases de datos
Termina
Fuente: Manual de Procedimientos de la Dirección de Pruebas y Medición del INEE

tt Secuida la alineación ítems-test-currículo, ítems-test-estándares de interpretación y, de ser
posible, ítems-test-enseñanza e ítems-test-evaluación en aula.
En general, todos los manuales que hacen explícito el marco de referencia, así como los ma-
nuales técnicos de las pruebas E XCALE, se ajustan al proceso general de diseño que, implícita y
explícitamente, propone un método de trabajo que permite asegurar la alineación la prueba y

sus reactivos con el dominio educativo.
En cuanto a los métodos de determinación de estándares utilizados (derivados del método

Bookmark) no implican necesariamente que se haya dado dicha alineación, pues constituye un
procedimiento de ordenamiento por dificultad en una escala unidimensional.
No obstante, no se aportan estudios específicos acerca de si la alineación se da o no, o, en todo

caso, en qué grado, en ninguna de las restantes referencias mencionadas en el criterio. De este
modo, no se incluyen evidencias acerca de que se haya estudiado la alineación de la formula-
ción de reactivos con los modos en que se trabaja en el aula, ni en cuanto a la enseñanza, ni en
relación al modo en que son habitualmente evaluados los estudiantes.
Así, podemos concluir que un factor que garantiza la validez de contenido de E XCALE es la
metodología de diseño de la prueba, desde el análisis reticular hasta el diseño y revisión de
reactivos. No obstante, un factor de debilidad, en este sentido, es la falta de información acerca
de las distancias entre los enfoques metodológicos didácticos usuales y los modos de evaluación
en el aula, los que pueden ser factores que expliquen diferencias en cuanto al desempeño del
alumnado. Esta es una fuente de invalidez que no está controlada.
tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuan-

titativa) de la prueba.
Si se considera que la validez de contenido no se “demuestra”, en el sentido de que no es un

proceso con resultado binario, puede afirmarse que al concentrar la documentación relacio-
nada con los procesos a seguir para la elaboración de los reactivos en particular, y el diseño y
estructuración de la prueba en general, al igual que los estadísticos calculados y presentados
para documentar la confiabilidad y dimensionalidad de la prueba, se han encontrado suficientes
evidencias tanto cualitativas como cuantitativas respecto a la validez de contenido de la prueba.
Un dato faltante dentro de la documentación proporcionada es el resultado final de la compo-
sición de la prueba operativa y el conjunto de estadísticos (por reactivo y por prueba) utilizando
la aplicación final. Al respecto, cabe señalar que solo se proporcionan estadísticos con base en
las aplicaciones piloto.
Para justificar la validez de contenido fue realizado un análisis factorial de componentes princi-
pales sobre los residuos del modelo utilizado, proporcionado por el software Winsteps® con el
modelo de Rasch. En esencia, se espera que dichos residuos estén aleatoriamente distribuidos.
Los resultados de los análisis de los datos del levantamiento de 2005 mostraron que la mag-
nitud de los factores en los residuos estaba dentro del umbral de ‘ruido’ de los datos, por lo
que era plausible el análisis de ambos aspectos como uno solo. Adicionalmente, una evidencia
directa es el estudio relativo al desarrollo de las retículas que fue realizado por el INEE al inicio
del programa de pruebas, el cual podría considerarse una ”demostración” de dicha validez.
42
tt Se muestran evidencias para fundamentar la validez de contenido.
Se dispone de evidencia documental sobre los estudios de análisis curricular, el armado de las
tablas de especificaciones y la construcción de las especificaciones de ítems que se siguen al
momento de elaborar preguntas para las pruebas. En tales casos, los procedimientos se descri-
ben minuciosamente y se recauda abundante información en los formularios utilizados por los
distintos comités evaluadores de las preguntas, a fin de determinar su pertinencia en cuanto al
constructo que se quiere medir.
CONCLUSIÓN
En términos generales, puede afirmarse que existen evidencias suficientes acerca de que las
pruebas E XCALE se han ajustado a los requerimientos metodológicos necesarios para asegurar
una suficiente validez de contenido y representatividad de las mismas respecto al currículo de
referencia.
Los elementos fundamentales sobre los que se sustenta nuestra apreciación residen en las evi-
dencias de que existe un marco de referencia de desarrollo de las pruebas que guía todos los
procesos, dotando al proyecto de pruebas de unicidad; a la par que se atienden las especifici-
dades que devienen de las características propias de las materias a que se refiere cada prueba.
Otra de las fortalezas encontradas es que los manuales y protocolos de trabajo para cada fase
se han desarrollado ad hoc, de manera específica para cada tarea a realizar en el diseño de las
pruebas, desde los marcos de referencia, tablas de especificaciones, niveles de demanda cog-
nitiva, entre otros componentes del desarrollo de las E XCALE como la composición de comités
de análisis del dominio educativo y los de desarrollo de especificaciones, diseño y revisión de
reactivos. En todos los casos se ajustan a las pautas internacionales reconocidas como de cali-
dad metodológica, exigibles para el diseño de esta tipología de pruebas.
No obstante, aún son necesarios estudios que se refieren a: 1) los análisis de los especialistas
que llevan a cabo operaciones de juicios, mismos que deben documentarse para mostrar los
grados de acuerdo y su posterior dictamen con algún modelo de medición de consenso entre
jueces o con el uso de un análisis de facetas; 2) análisis de tipo factorial (exploratorio, confir-
matorio u otro equivalente) donde se observen “agrupaciones” de reactivos de alguna manera
similares a las áreas o a los temas propuestos; 3) atender la debilidad observada en cuanto a
la carencia de estudios empíricos específicos acerca de la alineación de las pruebas respecto a
las metodologías didácticas y evaluativas que habitualmente se desarrollan en las aulas, lo que
puede crear un factor de error no controlado.
Con todo, estimamos que se aportan evidencias suficientes para asegurar un grado elevado de
validez de contenido.
Una sugerencia puntual a los desarrolladores de las pruebas, es que elaboren un manual técnico
compacto y actualizado para cada edición de E XCALE . Ello facilitaría que otros especialistas y
personas interesadas pudieran disponer de las evidencias sobre su calidad técnica en un docu-
mento integrado, mismo que podría remitir a los manuales técnicos específicos y otros escritos
que tratan la información de manera más detallada.

2 Aspectos psicométricos
Como ya se ha visto en el capítulo anterior, la prueba EXCALE es producida por el INEE

con el propósito de apoyar al diagnóstico del desempeño de los estudiantes de manera grupal,
y no individual y brindar una evaluación del estatus educativo a nivel nacional. Se trata de un
propósito a nivel macro del país, que puede incidir en las políticas públicas, la actualización y
adecuación de los planes de estudio y las mediaciones psicopedagógicas, la definición de pro-
gramas de formación, apoyo, promoción de actividades académicas, y la vida de estudiantes,
docentes, padres de familia y las autoridades. Para cumplir con sus objetivos, el proyecto debe
contar con documentación que lo respalde, para garantizar la calidad del proceso. Es por ello
que debe reforzarse el gran esfuerzo desarrollado por el INEE al producir y publicar manuales,
guías, normativas, estudios e investigaciones.
El primer documento de base con que cuenta el Instituto es el Plan General de Evaluación, que
si bien tiene el valor de ser una guía general del proyecto, desde su edición inicial no se ha
puesto al día, por lo que representa una laguna en la documentación, al carecerse de un mate-
rial integrador y actualizador de la información y que presente los cambios a través del tiempo.
Con este antecedente, puede decirse que la cantidad de informes y documentos es tan vasta
que se vuelve complicado identificar los datos pertinentes para cada criterio de evaluación. Hay
numerosos estudios sobre ciertos temas —a veces en abundancia— de gran interés, frente a
otros que no han recibido la misma atención.
Por el tipo de prueba de que se trata —muestral, matricial, de bajo impacto—, E XCALE no tiene
problemas por usos inapropiados a nivel individual o del grupo escolar, lo cual lo ha permitido
que el proyecto haya avanzado de forma segura y contundente hasta convertirse en una fuente
de información debidamente alineada a los fines propuestos.
A lo largo de este capítulo se detallan los puntos medulares que atiende cada criterio y junto
con las conclusiones se señalan las fortalezas y debilidades del proyecto.
CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LAS PRUEBAS
1. Evidencias técnicas de validez de las pruebas.
tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos en una

de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores
obtenidos en los estudios de validez de criterio.
44
Solo se presenta un estudio realizado para comparar los resultados de las pruebas E XCALE con
los de la prueba PISA . Se preguntó a los responsables de la SEP si contemplaron la factibilidad
de aprovechar los resultados escolares de los estudiantes para hacer comparaciones entre asig-
naturas y con los resultados de la prueba ENLACE , y respondieron que este estudio no puede
concretarse fácilmente a corto plazo, porque hay deficiencias en los datos disponibles en la
base de ENLACE , en particular aparecen divergencias en nombres y en la CURP, lo que fue
comentado con los responsables de la prueba ENLACE durante las reuniones de análisis para
su dictamen.
Dentro de la documentación suministrada solo se presenta un estudio en el que se comparan

los resultados de las pruebas E XCALE 09 de Matemática y Español contra los resultados obteni-
dos de las pruebas de PISA .
En cualquier caso, dentro de la documentación no se presentan coeficientes de correlación que

pudieran interpretarse como coeficientes de validez de criterio que hubieran resultado de este
estudio.
tt Hay evidencia documental del análisis de la validez de escala de la prueba y su pertinencia

en relación con el constructo y el modelo del perfil a evaluar.
En los materiales proporcionados para este estudio, se presentan diversos documentos en los
que se describen los procedimientos establecidos por el INEE para desarrollar la prueba y con
los cuales se sustenta la validez de la escala. Entre estos documentos puede mencionarse el
mismo Plan General de Evaluación del INEE , además de ejemplos de tablas de contenidos de
las pruebas, manuales técnicos para la elaboración de reactivos, formatos de especificación,
plantillas de reactivos, ejemplos de listados de comités de elaboración de reactivos, entre otros.
Desde el punto de vista conceptual, la validez de escala de la prueba reposa en buena medida
(aunque no de forma exclusiva) en la calidad y distribución de los ítems. Por ello, resultaría de
particular importancia que en el manual técnico de validación de reactivos del INEE se describie-
ran detalladamente los procesos para validar los reactivos de las pruebas.
Por otra parte, se documentó el desarrollo del software para almacenar y controlar el contenido
de los reactivos, junto con las opiniones de los jueces que los validan, y se presentaron algunos
ejemplos de su funcionamiento, con lo que este requisito quedó parcialmente cubierto. Para
completarlo, hubiera sido de utilidad tener, por ejemplo, acceso a las bases de datos en las que
se guarda esa información para contar con evidencia suficiente de que se han seguido los pro-
cedimientos al pie de la letra.
Otra laguna se refiere a los reportes sobre la escala que proporciona el software Winsteps®
pero que no se entregaron en la documentación. Estos reportes contienen la distribución de
los ítems y la escala ítems-medida que permite estimar la medida de una persona a partir de un
número dado de ítems contestados correctamente. Por tratarse de salidas estándar proporcio-
nadas por el software puede considerarse que aunque sí fueron calculados los datos de salida
contenidos en estos reportes, se tiene una omisión importante al no incluirlos en la documenta-
ción disponible. Este tipo de salidas no es exigible en el caso de ENLACE porque dependen del
modelo de tres parámetros de la TRI ; a estas pruebas se les solicitan otros elementos informati-
vos, como se indica en el análisis respectivo.
Aspectos psicométricos 45
tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez
de constructo de la prueba y se presentan los resultados.
No se presentan este tipo de evidencias, aunque puede considerarse que se realizó como pre-
rrequisito para la producción de las especificaciones con las que se diseñan los ítems.
2. Análisis integral de los procesos y métodos para el desarrollo y construcción de las

pruebas, definiendo equivalencia y periodicidad.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones
y del banco de ítems.
El manual técnico “Diseño de exámenes de la calidad y el logro educativos” plantea, entre otros
aspectos para la construcción de las pruebas, los siguientes: a) los procedimientos para la defini-
ción del objeto de medida; b) las especificaciones propuestas para la definición de los dominios;
c) el análisis reticular del currículo educativo en el nivel focal de la prueba; d) los criterios para
elegir a los miembros de los comités para cada dominio a evaluar; e) modelos de especificacio-
nes de tablas de ponderación de contenidos con objeto de dimensionar las pruebas y dirigir el
diseño de los ítems.
En el Cuaderno 17 del INEE (Backhoff, E. y col. 2005), se presenta la tabla I: “Proceso de diseño
construcción, aplicación y validación de los E XCALE”, donde se indican las fases para la pro-
ducción de las pruebas. En este documento se describe el procedimiento metodológico para la
construcción de formas equivalentes a partir de los mejores ítems del banco. En particular se
cita la forma de considerar los bloques para garantizar su equivalencia en contenido, extensión,
varianza y tiempo de respuesta.
Sin embargo, la documentación disponible no incluye ninguna referencia específica al software

que se utiliza para lograr el diseño de la prueba con las especificaciones propuestas o los re-
sultados finales de su armado y su correspondencia con las tablas de especificaciones. Dada la
magnitud de la tarea involucrada en E XCALE para el diseño de la prueba operativa y los módulos
matriciales, puede pensarse que este trabajo de construcción no es realizado en forma manual,
pero falta información a este respecto.
tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en

el tiempo o según sedes o localidades.
En la documentación disponible del INEE se tienen ejemplos de tablas de validez de contenido,

cuyo objetivo es establecer las equivalencias entre versiones. Con relación a los reactivos, el
detalle de las especificaciones se presenta en un formato que hace explícitos los requerimientos
de diseño, justificaciones, referencias y relación con el programa de estudio. Para la calibración
inicial de los reactivos se utilizan los resultados de las aplicaciones piloto realizadas con muestras
de estudiantes de la población focal en una fracción de los estados de la república, como se
desarrolla en los modelos muestrales que se explican a continuación.
A partir de la información disponible, puede afirmarse que los diseños muestrales de E XCALE
han pasado por dos modelos en etapas diferentes: la primera etapa siguió un modelo ad hoc
46
y la segunda etapa fue planteada en concordancia con el enfoque de la prueba PISA , como se
explica en seguida.
En la primera etapa el modelo se planteó siguiendo indicaciones dadas por el asesor internacio-
nal Richard Wolfe, que aparecen en el Manual Técnico para el Muestreo Poblacional del INEE
(Juárez y col., 2006). Por otra parte, en el documento de 2012 (Diseño muestral para tercero de
secundaria 2011-2012) se indica lo siguiente: “La cantidad de alumnos en la muestra se basa en
las cuotas establecidas por el Dr. Richard Wolfe (Ontario Institute for Studies in Education) quien
diseñó la muestra de E XCALE 09 (2005); estas cuotas también fueron empleadas en EXCALE 09
(2008), el cual fue revisado por el Dr. Ignacio Méndez Ramírez”. Hasta los EXCALE 09 (2012)
se propone “continuar con estas cuotas como base para el estudio con el fin de conservar el
margen de error estándar obtenido en estudios internacionales”. Fuera de estas citas, no se
proporcionó un documento concreto donde se explique el diseño de la muestra.
En la segunda etapa ocurrida en 2013, se tiene un cambio de modelo muestral cuya justificación
no queda clara, salvo que se indica: “con la finalidad de mejorar la eficiencia de los estimado-
res se propuso combinar la estratificación que ha manejado E XCALE en los levantamientos de
datos anteriores con la estratificación que emplea la prueba PISA” (Diseño muestral para sexto
de primaria 2012-2013). De nuevo, se carece de un documento técnico donde se justifique la
metodología para llegar a la muestra.
Puede comentarse que un aspecto criticable del primer diseño es la forma en que se abordaba
el problema de atrición o merma en la cantidad de personas en la muestra. El modelo consis-
tente en un muestreo bietápico (escuelas-estudiantes) planteaba la forma de contender con
los casos de unidades faltantes sustituyéndolas por otras equivalentes previa autorización del
INEE ; este procedimiento quedaba a criterio no sistemático que pudiera incidir en deficiencias
muestrales. Desde 2011 se logró una mejora al perfilar la muestra tomando en cuenta la tasa
de no respuesta y produciendo una lista de escuelas desde el diseño (Diseño muestral para el
levantamiento de datos de los E XCALE 00, 3° de Preescolar, mayo 2011).
tt Se cuenta con la metodología de diseño que se utilizó para obtener versiones equivalentes
y reportar los valores de diseño y experimentales que demuestren dicha equivalencia. No es
aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre versiones
o formas.
En el manual técnico y en los otros documentos disponibles sobre el diseño de las pruebas de
E XCALE se establece el modelo matricial y la forma de construir cada instrumento a partir de
los reactivos del banco. El modelo garantiza la equivalencia de contenidos y especificaciones en
número y tipo de ítems para cada uno de los bloques que ocupan las “celdas” de la matriz. En
un principio no se tuvo en cuenta el propósito de hacer equivalente la escala desde el diseño,
debido a que pudo dejarse esta equivalencia a cargo del proceso que realiza el programa Wins-
teps® de análisis de Rasch. De acuerdo con el planteamiento del modelo de Rasch y siguiendo
la misma consideración que se hace en la TRI , la escala carece de un origen fijo, lo cual obliga a
definirlo utilizando criterios razonables en función de los ítems o de las personas; el criterio más
utilizado y que utiliza Winsteps® por omisión consiste en centrar la escala en 0 lógitos (logits)
en la media de las dificultades de los ítems.
Finalmente, el programa de calificación se encarga de realizar las operaciones matemáticas

necesarias para lograr la equivalencia entre formas con base en ítems de anclaje. Esto implica la
necesidad de reactivos ancla y utilizar uno de los bloques del diseño matricial como ancla entre
versiones lo cual se explica en el documento sobre diseño de la prueba matricial. La ubicación
del cero de la escala utilizando anclaje ya no corresponde con la media de dificultades de los
ítems y por ello debe hacerse un análisis cuidadoso de los resultados para interpretar correcta-
mente las medidas de los ítems y de las personas.
Para la metodología de construcción de las pruebas se consideran reactivos de respuesta cerra-

da y de respuesta construida, estos últimos se califican con rúbricas con base en el modelo de
crédito parcial que realiza el programa Winsteps®.
En el caso de las pruebas de lenguaje y matemáticas de 2008 se indican los principales criterios
de rediseño de las pruebas: a) alinear la prueba a planes y programas de estudio; b) utilizar la
mayor parte de los reactivos de versiones previas eliminando o modificando los que presentaron
alguna dificultad en su validez de contenido y c) adicionar algunos reactivos de aspectos no
explorados en versiones previas.
Si bien no queda del todo claro lo que se entiende por “dificultad en la validez de contenido”,
al parecer el documento del INEE pretende indicar que en algunos reactivos se tuvieron dificul-
tades para identificar los elementos de validez por parte de los responsables del diseño de los
bancos y de las prueba y posiblemente es el sentido más apropiado para este criterio.
El manual de procedimientos dice que la subdirección de Pruebas se encarga de construir las

versiones que se envían a impresión. Posiblemente la descripción más detallada se tiene en el
documento “Propuesta de piloteo de reactivos 2005” donde se indica el procedimiento estadís-
tico de asignación aleatoria en las versiones (sin embargo, no se encuentra referencia al proceso
de selección de reactivos para la prueba ni tampoco al software para integrar las versiones).
El criterio principal apunta a garantizar los aspectos de contenido y las cualidades definidas por
los especialistas, para comprobar que los ítems elegidos tienen parámetros aceptables; sin em-
bargo, se recomienda que la media de dificultades de los bloques sea similar para garantizar la
equivalencia métrica de las escalas de las versiones. No es explícito que esto se haga en forma
automatizada ni sistemática y seguramente debe ser controlado por el responsable de la prueba
de parte del INEE .
Los manuales técnicos de diseño y validación de ítems especifican las etapas requeridas para
la producción de los reactivos y su validación por especialistas y muestran los formularios de
verificación de los jueces y los criterios de aceptación.
tt La periodicidad de las aplicaciones se justifica con criterios teórico-metodológicos o logísti-

cos sustantivos, distinguiéndolos de criterios políticos o de opinión.
De hecho, la vigencia de las versiones y los rediseños se asocia con los programas de estudio y
se ha enriquecido a partir de los dominios de español y matemáticas, con otras áreas:
• Lectura (L)
• Reflexión sobre los códigos escritos (C)
• Redacción (R)
• Matemáticas (M)
• Civismo (V)
48
• Geografía (G)
• Historia (H)
• Ciencias Naturales (N)
Sin considerar el caso de las pruebas de lenguaje y matemáticas, no es completamente evidente

la lógica de la periodicidad de las aplicaciones, y la selección de las otras asignaturas a evaluar.
Algunas de ellas se han aplicado una sola vez, por lo que se supone fines en cierto sentido
exploratorios o experimentales, y han servido para responder a determinadas preguntas en el
tiempo.
tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos
y métodos que guían el desarrollo de la prueba.
En el documento del Plan General de la Evaluación se especifica el marco metodológico que

integra los procesos y métodos que guiarán el desarrollo de la prueba. En documentos subsi-
guientes también se presentan de manera coherente los procesos de desarrollo de la prueba
que están esencialmente basados en el propósito de la evaluación. Cabe señalar que la docu-
mentación requiere actualizarse a fin de reflejar cambios en los procesos.
Es de mencionar la coherencia del propósito de la prueba, puesta en evidencia en los distintos

documentos proporcionados, y la consistencia de los procesos a fin de cumplir dicho propósito.
Por ejemplo, la mayoría de los documentos técnicos y manuales de procedimientos comienzan
explicitando los propósitos de las pruebas y la justificación de los procesos; esta información
permite aclarar a los usuarios el porqué de los procesos, además de que ayuda a centrar a los
lectores alrededor de los propósitos de la prueba.
tt Se especifica y justifica el modelo psicométrico usado para guiar desarrollo de la prueba.
Aunque los modelos psicométricos utilizados para el desarrollo de la prueba pueden inferirse a
partir de los distintos materiales presentados, no existe un documento propiamente dicho en
el que se describan los procedimientos psicométricos utilizados para el desarrollo y calificación
de la prueba.
Es evidente que el modelo preponderante es el de Rasch, con uso de valores plausibles. En

alguna parte del modelo se considera también la Teoría Clásica (TC), con énfasis en la dificultad
como proporción de aciertos correctos y la correlación punto-biserial para estimar la discrimina-
ción del ítem. Se sugiere contar con una versión actualizada de manual técnico general u otro
documento específico para cubrir este criterio.
Al utilizarse el modelo de Rasch se tiene una aproximación diferente de la que se sigue en las
pruebas ENLACE para las que se usa el modelo de tres parámetros. En una visión global de
las tres pruebas, las agencias evaluadoras podrían justificar el uso de estos modelos diferentes
por tratarse de pruebas censales en ENLACE y muestrales en E XCALE, pero seguramente debe
analizarse la pertinencia de los modelos y plasmar el análisis en un documento aclaratorio para
todos los usuarios.
tt Hay manuales técnicos que orientan de manera detallada todos los procesos involucrados
en el desarrollo de la prueba.
Dentro de la documentación proporcionada existen manuales puntuales que detallan algunos
de los procesos del desarrollo de la prueba. Entre los manuales proporcionados se encuentran:
1) desarrollo de reactivos; 2) establecimiento de niveles de rendimiento; (3) selección de las
muestras; 4) impresión de cuadernillos de evaluación; 5) impresión de las pruebas; y 6) captura
de datos.
No se presentaron guías o manuales que describan cómo fueron analizados los datos tanto
del piloto como de la prueba operativa o que indiquen cómo se armaron las pruebas finales en
base a los análisis y resultados de las aplicaciones piloto (criterios de selección de preguntas).
Tampoco se presentaron manuales —generalmente conocidos como “Guía de usuario de da-
tos”— que ayuden a un investigador a utilizar los datos, pese al el uso potencial de los mismos
con fines de investigación.
3. Calibración y análisis psicométrico de las pruebas.
tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo, funciona-

miento diferencial e impacto adverso de la prueba.
Este es uno de los temas que cuenta con mayor documentación, especialmente en lo relativo a
sesgo de la prueba y, en menor medida, sobre funcionamiento diferencial de los reactivos. Esta
es una fortaleza de E XCALE y constrasta con ENLACE que no hace este tipo de análisis de forma
sistemática y respecto del cual no cuenta con documentación.
En el último criterio de la sección 4 de este capítulo se presenta el detalle de los análisis de

funcionamiento diferencial de los ítems (DIF ), para este criterio interesa el funcionamiento de
la prueba en su conjunto. Puede anotarse que hay estudios técnicos para el análisis de DIF
desde 2010 y varios estudios sobre diferencias observadas en los resultados entre estados o
grupos (especialmente tipos de escuela y género), pero no se presentan asociados explíci-
tamente al análisis de funcionamiento específico de los reactivos que hace Winsteps® (por
ejemplo: El aprendizaje en tercero de preescolar en México, Backhoff, Andrade, Sánchez y
Peón, 2008; El aprendizaje en sexto de primaria en México, Sánchez y Andrade, 2013).
En otros documentos como por ejemplo “Adaptación lingüística y cultural de pruebas de logro
académico” (Solano, 2011, en INEE una década de evaluación) se cita la importancia del DIF y
se cuenta con resultados y comentarios en Pertinencia de la traducción y adaptación de los Exá-
menes para la Calidad y el Logro Educativos (EXCALE) de preescolar a la lengua maya (Backhoff,
Contreras y Solano, 2012). Estos casos son discutidos por el grupo de validez cultural en esta
evaluación.
Más allá de estos casos, no se cuenta con un manual técnico o una nota técnica general y
bien detallada sobre funcionamiento diferencial de ítems, salvo una mención en la tabla de
desarrollo del proyecto que aparece en “Plan general de evaluación del aprendizaje. Proyectos
nacionales e internacionales” (Backhoff y Díaz, 2005), por lo que resultará de importancia de-
sarrollar dicho manual.
Otra vertiente respecto de las diferencias de funcionamiento de las pruebas en grupos espe-
cíficos de personas, se presenta con los análisis de sesgo a través de varios procedimientos.
50
El primero es realizado por comités específicos para cada prueba, como se describe en el manual
del plan general de evaluación, que presenta claramente la constitución de comités de validación
por sesgo; se señala que se hace predominar el aspecto criterial y de contenido más que el de
los aspectos cuantitativos procedentes del análisis psicométrico. Este análisis de sesgo se realiza
hasta alcanzar un consenso entre especialistas con base en experiencia y criterio propios.
El segundo procedimiento está indicado en el manual de validación de reactivos con criterios

específicos para determinar el sesgo por diseño (lenguaje, estereotipos, descalificación, género,
etcétera.). En el caso de diferencias culturales se plantea una metodología de comparación de
muestras de grupos focales; este aspecto es analizado y discutido en esta evaluación por el equi-
po encargado del análisis de validez cultural.
El tercer procedimiento para abordar el problema de sesgo se refiere al control que se establece
en el diseño de las muestras. La documentación aclara que al diseñar la muestra se tiene cui-
dado de no inducir sesgos por diversas razones, las cuales no están explícitas en sus tipos ni en
las formas de determinarlos.
Finalmente, en los reportes que presentan resultados estadísticos de las aplicaciones se incluyen
tablas con valores del estadístico que mide sesgo (posiblemente el sesgo a3 de Pearson aunque
no está explícitamente indicado),1 lo cual implica asimetría en la distribución. Este sesgo puede
estar asociado parcialmente con problemas de diseño, funcionamiento diferencial de los ítems,
aspectos de aplicación y diferencias reales entre grupos.
Todas estas explicaciones y detalles demuestran que el análisis de sesgo, así como las previsio-
nes para identificarlos, reducirlos o controlarlos, constituyen un aspecto atendido con mucho
cuidado por parte del INEE y la mejora en la documentación seguramente es una tarea relativa-
mente sencilla para los responsables del proyecto.
tt Se describen los análisis efectuados para detectar influencias de factores diversos en la

calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial,
la ansiedad, etcétera.
Aunque se cuenta con algunos elementos de base, este es un punto a mejorar. Por ejemplo, no
se reportan resultados sobre los tiempos de respuesta en las prueba piloto, pero sí se encuentra
prescrita la necesidad de contar con este tipo de estudios en el Plan General y en proyectos
nacionales e internacionales de E XCALE . En dicho plan se menciona que se realizarían estudios
de laboratorio para explorar la velocidad con la que se contestan los reactivos.
Lo que se controla con detalle se refiere a las aplicaciones piloto que se realizan con base en un
modelo muestral descrito detalladamente en cuanto a número de sujetos y entidades federati-
vas, que debe efectuarse en condiciones similares a las de la aplicación definitiva.
1
Hay diversas medidas de sesgo: a) diferencia de media y moda respecto de la desviación estándar; b) diferencia de
media y mediana respecto de la desviación estándar; c) sesgo en función de cuartiles; d) sesgo en función de percenti-
les 10 y 90; e) sesgo a3 de Pearson en función del tercer momento respecto de la media, como relación adimensional
respecto del cubo de la desviación estándar Se pueden definir otras medidas de sesgo en función del área de la curva
normal ajustada a los datos y la diferencia entre la distribución observada y la esperada teórica. Ninguna de estas
medidas se asocia con DIF. No se especifica en la documentación cuál modelo o parámetro se utiliza y la interpretación
difiere en función del coeficiente o modelo utilizados. Una referencia clásica de medidas de sesgo se tiene en: Spiegel,
M.R. y Stephens, L.J. (2008) Schaum’s outline of theory and problems of statistics. McGraw Hill. NY. Cap. 5.
Hay reportes y estudios sobre la influencia del conocimiento del idioma en el caso de la validez
cultural, pero no se tienen trabajos específicos para poblaciones con discapacidad, ni estudios
sobre copia, ansiedad, fatiga, etcétera. No se presenta un estudio propiamente dicho sobre la
influencia de estos factores que se relacione directamente con el tamaño de la prueba.
Finalmente, se cuenta con normativas de aplicación y administración de las pruebas que se en-
cargan de reducir o eliminar cualquier deficiencia en las condiciones de aplicación y que pudieran
inducir diferencias en las respuestas de los estudiantes. A este respecto, EXCALE no tiene referen-
cias explícitas a problemas de copia, como en el caso de ENLACE . Seguramente esto es debido
a que como prueba muestral no tiene el mismo impacto en los evaluados que la prueba censal.
4. Confiabilidad de las pruebas.
tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y

versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia
interna de la prueba y sus subescalas.
El análisis completo del instrumento detalla los valores de alfa de Cronbach que se reportan
en todos los casos, siendo valores superiores a 0.8 para la variable medida. No se reporta la
separación logística que produce Winsteps® y solo se indica el alfa que también es proporcio-
nado por el programa, equivalente a la expresión de Kuder y Richardson 20, en el caso de ítems
dicótomos. Debe advertirse que el programa Winsteps® produce dos valores equivalentes para
alfa (para personas y para ítems), pero solo el valor de alfa para las personas es el que debe
reportarse; el alfa para los ítems es deficiente y carece de sentido en pruebas como las que se
están analizando. Puede suponerse que el valor de alfa para las personas es el que se reporta
por parte del INEE .
Los valores superiores a 0.8 son esperados para el tipo de prueba y el tamaño muestral. Debe
tomarse en cuenta que se trata de conjuntos grandes de ítems, independientemente de que
no todos los temas sean contestados por todos los estudiantes. La ausencia de respuestas no
es una “omisión” sino una condición de “no administrado” o “no aplicado” a la persona; esta
condición no es un problema para su tratamiento estadístico y es factible de analizarse con
ayuda del software Winsteps® usado por el INEE , utilizando comandos de control específicos
para este caso.
No se cuenta con información detallada de la escala general de la prueba ni de sus subescalas.

Debido a que E XCALE no se centra en determinar medidas individuales, no se ha considerado la
necesidad de reportar la escala ítems-medida que se obtiene con Winsteps® ni se muestran las
distribuciones de los ítems en cada versión o bloque o en el total de bloques, no obstante, esta
información está disponible al término de la corrida de este software y debería proporcionarse,
como se indicó en un criterio previo, porque es información que puede ser útil en proyectos de
investigación.
No se presentan evidencias de la confiabilidad de las pruebas finales. Si bien hay documenta-

ción extensa acerca de los estadísticos calculados con base en las aplicaciones piloto, no se pre-
senta esta información en el caso de las pruebas finales y operativas que son las que permiten
reportar los resultados.
52
En cuanto a los estadísticos de consistencia interna presentados, se hace uso extenso de los de
ajuste de las preguntas (INFIT y OUTFIT ). Debe anotarse que estos no son estadísticos de con-
sistencia interna, sino que proveen información acerca de si la pregunta se ajusta al modelo y,
por consiguiente, a una variable unidimensional medida por ella, lo que se puede entender (con
mucha flexibilidad) como una medida de consistencia de la pregunta con respecto al resto de las
preguntas en la prueba; de hecho el software Winsteps® provee la correlación punto-biserial
que es la apropiada para estimar la relación entre el ítem y el resto de la prueba. Ahora bien,
estos estadísticos solo se presentan para las aplicaciones piloto, y no para las aplicaciones ope-
rativas. Aunque se supone que procedimientos análogos son utilizados para evaluar las pruebas
finales y operativas, no se presentan evidencias al respecto.
Se reporta en numerosos documentos el valor de alfa de Cronbach y se asume a la correlación

punto-biserial como evidencia de la validez del ítem dentro de un conjunto. El uso de la teoría G
se cita en los casos de validez cultural, pero no se muestran resultados. El software Winsteps®
permite obtener la separación logística que está relacionada con alfa de Cronbach, pero los valo-
res de separación no se reportan. Dado el uso de valores plausibles, un estadístico no reportado
es el error de medida.
tt Se dispone de resultados de correlación con aplicaciones repetidas.
No se presentaron evidencias de aplicaciones repetidas enfocadas a realizar estudios de con-

fiabilidad. Dado que se utilizan modelos de prueba matricial, puede afirmarse que el uso de
bloques en aplicaciones consecutivas constituye una situación de aplicación repetida, por lo que
es importante presentar información respecto al funcionamiento de bloques en las distintas ins-
tancias en las que se ha utilizado, a fin de comprobar que el bloque en cuestión, y las preguntas
que lo conforman siguen funcionando de la manera esperada.
Un estudio cercano a lo que se pide en este criterio puede hallarse un estudio “puente” que
se realizó cuando se decidió cambiar el esquema de composición de la pruebas y se presentan
análisis detallados al respecto.
tt Hay un reporte con valores de separación del modelo logístico empleado.
No se presentan estas evidencias, tampoco se muestran resultados de la prueba operativa en

cuanto a valores de separación del modelo logístico empleado. El dato de la separación es
proporcionado directamente por Winsteps®, por lo que es claro que fue calculado, pero no se
incluye en los reportes.
• Se reporta la metodología para el cálculo del error de diseño de la prueba y de sus subes-
calas, o de sus partes o secciones y se reportan los resultados obtenidos en las aplicaciones.
Se incluye un documento en el que se explica la utilidad y la lógica de los valores plausibles

para obtener estimados poblacionales. En esa documentación se describe como se calculan los
errores de medición.
Además en los documentos acerca del diseño de la muestra, se muestran cálculos de los errores
estándar esperados en base a la estructura de la muestra. Los errores estándar son calculados
utilizando aproximaciones lineales de Taylor, y estos se combinan con los estimados de los erro-
res de medición debido a la imputación de los valores plausibles.
Fuera de los documentos citados, no se proporciona más información acerca del cálculo de
errores de la prueba operativa y tampoco se presentan estimados del error estándar en los
resultados de las pruebas operativas.
tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos

asociados con las personas, con las pruebas y con las sub-escalas. Se reportan los resultados
de los estudios realizados para determinar posibles sesgos.
Ya se apuntó en el primer criterio de la sección 3 de este capítulo, que el análisis de sesgo

y de funcionamiento diferencial es —con la reserva de la conveniencia de mejorar la docu-
mentación— una de las fortalezas de E XCALE . Se proporcionaron distintas referencias con
respecto al análisis de funcionamiento diferencial de ítems y personas, además de algunos
estudios de sesgo.
Con relación al análisis de funcionamiento diferencial de los reactivos se cuenta con el reporte
técnico: “Modelo para detección de funcionamiento diferencial de reactivos (DIF ) en pruebas
INEE” (González-Montesinos, 2010) donde se presenta el procedimiento de determinación de
DIF proporcionado directamente por el programa Winsteps® para distinguir la diferencia de
funcionamiento en subgrupos a lo largo de las medidas en todo el dominio de medidas. En el
manual de Winsteps® se explica la forma en que el programa hace este análisis con base en las
medidas del modelo de Rasch y una implementación del esquema de Mantel-Haenszel. Puede
interpretarse que este análisis se realiza desde 2010 y que, en principio, se aplica a todas las
pruebas de E XCALE, sin embargo, no se dispone de análisis similares para todas las pruebas.
Los estadísticos de las pruebas piloto son presentados y analizados por distintos grupos, aun-
que no se hace referencia específica al tipo de acción que se toma al encontrar funcionamiento
diferencial de las preguntas. Se incluye también un documento en el que se explicita el proce-
dimiento para evaluar el funcionamiento diferencial de los ítems. En particular se establece que
se realizarán estudios de funcionamiento diferencial de las preguntas en base a 1) género, 2)
grupos de edad, 3) edad normativa y 4) modalidad educativa. Si bien existe la documentación
técnica de que esto debe hacerse, no se presentan evidencias que en realidad se hizo con las
pruebas operativas, aunque puede verse que se generaron algunas de estas estadísticas con las
pruebas piloto.
Los manuales de elaboración de los reactivos dedican una sección a la forma de evitar el fun-
cionamiento diferencial de los ítems. El procedimiento se basa en 1) proporcionar a los elabo-
radores de las preguntas un conjunto de lineamientos claros sobre la elaboración de los ítems a
fin de minimizar el funcionamiento diferencial, y 2) establecer distintas fases de evaluación de
los reactivos previos a su utilización en una aplicación piloto u operativa. Se carece en este mo-
mento de evidencia sobre la aplicación y confirmación de que estos principios fueron aplicados
en la prueba operativa utilizada para presentar resultados a nivel público.
Conviene mencionar que se cuenta con un documento en el que se reporta un estudio de

validación de algunas preguntas de la prueba aplicada en castellano y en maya. Si bien este no
es un análisis diferencial de las preguntas propiamente dicho, estudios de este tipo ayudan a
informar los procesos de elaboración de preguntas y, a fin de cuentas, contribuyen a minimizar
—o hasta cierto punto controlar— la presencia del funcionamiento diferencial, al resaltar la
posibilidad de los efectos por razones culturales y de lenguaje en el desempeño en las pruebas.
54
CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LOS ÍTEMS
Y DE LOS BANCOS DE REACTIVOS
5. Análisis psicométrico y de calidad de los ítems.
Modelo calibración y criterios p. aceptar, modificar, etcétera. (12.1)
tt Se cuenta con un documento que describe el modelo de calibración de reactivos y los crite-
rios para su aceptación, revisión y modificación.
El análisis de reactivos se realiza de forma central y exclusiva con ayuda del software de análisis
de Rasch: Winsteps®. El modelo es ampliamente conocido y se refiere en varios documentos
técnicos del INEE , pero no hay un manual específico que presente de manera formal el modelo
de calibración de reactivos. En algunos documentos se cita el uso de Winsteps®, donde se
indican valores de cotejo (por ejemplo: El aprendizaje de la expresión escrita en la educación
básica en México. Sexto de primaria y tercero de secundaria, de Backhoff, Peón, Andrade y
Rivera, 2006; Factores asociados al aprendizaje de estudiantes de 3º de primaria en México de
Backhoff, Bouzas, González, Andrade, Hernández y Contreras, 2008).
No se cuenta por lo tanto con un documento tipo “manual técnico” para la aceptación de los
valores procedentes del análisis, en particular en cuanto a medida y ajuste al modelo y se dejan
al uso “generalmente aceptado” de los parámetros en la práctica habitual. Queda claro, sin
embargo, que los análisis se realizan dentro de cada variable y no en forma globalizada para
toda la prueba. Esto es especialmente importante para medir la correlación punto biserial como
medida de homogeneidad o de pertenencia como evidencia de validez del ítem respecto del
conjunto o dominio del cual forma parte.
En otras publicaciones acerca de los resultados de E XCALE se señala que se utiliza ConQuest
para producir los valores plausibles, pero en la documentación revisada no se hace mención
explícita al uso de este software para el análisis y calibración de los ítems.
tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, dis-
criminación, ajuste (fit), distractores, dimensiones, etcétera.)
Como extensión del punto anterior, los procedimientos quedan a cargo del software Wins-
teps®, por lo que los interesados se ven obligados a referirse al manual de usuario de dicho
programa. Es correcto referir al lector al manual del software, pero esto no es pertinente para
garantizar la conveniencia de las interpretaciones, de ahí la necesidad de que el INEE disponga
de un documento propio donde se indique el compromiso que se tiene con el análisis de ítems.
Se sabe que por su propósito así como por las características de diseño (modelo matricial,
aplicación muestral), E XCALE no tiene la pretensión de emitir resultados particulares por cada
estudiante, ni pretende describir los resultados para todas las escuelas. En consecuencia se
incorpora en la producción de los reportes y de sus interpretaciones la técnica de valores plausi-
bles, de manera similar a la prueba PISA entre otras. Esta metodología difiere significativamente
de las pruebas ENLACE aplicadas por la SEP en forma censal.
Con el uso de los valores plausibles se pretende reducir o evitar sesgos para la apreciación de
los grupos específicos que intervienen en la aplicación. Solo hay dos documentos donde se hace
mención a su uso, así como a referencias de autores como Wu y Adams que han trabajado con
esta técnica en el caso de las pruebas PISA . Por otra parte, el software ConQuest que permite
producir las salidas de los valores plausibles, solo es citado en una ocasión como parte de las
referencias, sin presentar los valores obtenidos ni su uso específico. Es de observar que las
aplicaciones de los valores plausibles aparecen en otros proyectos del INEE pero no en el caso
de E XCALE .
6. Calidad y gestión de los bancos de reactivos.
Se cuenta con una normativa para revisar, corregir y desechar reactivos en función de los re-
sultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias.
Aunque en el Plan General (Backhoff y Díaz, 2005) se cita la existencia del “Manual técnico so-
bre el análisis psicométrico de los ítems” no se contó con dicho manual dentro de la documen-
tación entregada ni se encontró en el sitio del INEE . En cambio, se tienen diversos documentos
(como los citados en la sección previa) donde se describe el uso del software Winsteps® de
análisis de Rasch, así como la interpretación general de los parámetros para la aceptación de
los reactivos al banco.
Los criterios para conservar o desechar ítems están citados en algunos de los estudios, es decir,
forman parte de reportes técnicos e informes. La normatividad para la revisión o validación de
los reactivos se presenta en un manual desarrollado con claridad para los evaluadores pero no
se pide que los revisores interactúen específicamente con los parámetros estadísticos del mo-
delo de Rasch.
Los valores de referencia generales indican el intervalo de aceptación para el valor esperado del
ajuste al modelo de Rasch. En particular se utiliza la media cuadrática de INFIT o de OUTFIT, dos
de los parámetros de ajuste de Winsteps® que tienen un valor esperado de 1.0; en algunos de
los documentos se establece un intervalo de aceptación de 0.7 a 1.3, mientras que en otros el
intervalo corre de 0.8 a 1.3. Para la aceptación de la correlación punto biserial, E XCALE exige
valores superiores a 0.15 o 0.2, independientemente de que el ítem sea dicotómo o policótomo.
tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con
valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o
que haya reactivos sin calibración.
Los inventarios de reactivos están disponibles y se cuenta con una muestra de ellos acompa-
ñados de sus datos psicométricos. En lugar de contarse con ese tipo de guías, el INEE produce
numerosos estudios, publica investigaciones y reporta varios trabajos que permiten interpretar
los resultados con gran impacto en la sociedad y en los grupos de interés.
56
- En los citados inventarios aparece el contenido de trabajo del ítem con los datos procedentes
del análisis de Rasch: Medida (en lógitos) y ajuste (INFIT, media cuadrática).
- También se tiene la correlación punto biserial global y para cada opción.
- Finalmente se presenta la gráfica de distribución de respuestas observadas y la curva del modelo de Rasch.
- En la parte inferior se presenta un dictamen final del reactivo
tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco
o en las versiones, forma de almacenamiento en medio informático o físico y forma de ac-
tualización para uso posterior.
No se tiene un documento en este sentido, pero queda la intención de conservar los ítems para
una aplicación y se renuevan cuando hay rediseño de versiones, aunque no se indica específi-
camente una vigencia para fines del banco. La forma de almacenamiento en la base de datos
implica que una vez que el reactivo ha sido revisado y admitido en el banco, no se tiene que va-
lidar sino hasta que se desarrolle una nueva versión, cuando todos los reactivos que participan
en dicha versión son revisados en conjunto.
CRITERIOS TÉCNICOS SOBRE LA CALIFICACIÓN
Y LOS NIVELES DE DESEMPEÑO
7. Calificación de los estudiantes.

tt Está disponible el documento que explica la forma en que se asignó calificación a estudian-
tes (normativa, criterial u otra).
Para la calificación se trabaja con el modelo de Rasch, utilizando ConQuest, traduciendo la

medida en lógitos a una escala en el intervalo de 200 a 800 puntos, centrada en 500 puntos y
con una desviación de 100 puntos
Al usar el modelo de Rasch se está trabajando con un modelo invariante que asigna las puntua-
ciones a partir del número de aciertos, es decir, dos estudiantes que tienen el mismo número
de aciertos en un mismo subconjunto de ítems tienen la misma medida, independientemente
de cuáles ítems hayan contestado. Ahora bien, el cálculo de los puntajes basados en un modelo
Rasch está modificado con el uso de valores plausibles, que introducen el uso de las variables
de contexto en el cálculo de los puntajes individuales.
Este modelo de calificación difiere del de ENLACE , en donde no se utilizan valores plausibles,
y la relación entre la habilidad del individuo y la respuesta al ítem es definida en función a tres
características de los ítems: dificultad, discriminación y adivinación.
Además del puntaje de calificación, cada medida tiene asociado un nivel de desempeño. Por
tratarse de una prueba referida a criterio, se encarga a un grupo de especialistas el análisis de
los ítems para establecer los puntos de corte y los niveles de desempeño. Para ello se sigue una
metodología de tipo “bookmark”, como se describe en “Manual técnico para establecimiento
de niveles de competencia”, que consiste en analizar cada dominio por un grupo de especialis-
tas que toman decisiones en forma colegiada apoyándose en los resultados psicométricos de
los reactivos analizados.
tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los
puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección
por azar, entre otros posibles criterios.
La construcción de la escala no está explícita en la documentación y tampoco los valores reque-

ridos para hacer el escalamiento (corrimiento de la media y escala para la desviación estándar),
porque se trata de una operación matemática que realiza el software de manera directa, como
se explica en los documentos descriptivos del proceso de calificación en varios estudios. Debe
recordarse que el procedimiento por omisión consiste en ubicar el cero de la escala en la media
de dificultades de los ítems.
Al usar modelos de TRI , queda implícito que no se considera ninguna penalización ni corrección
por respuestas incorrectas, y que en el modelo se considera nulo el parámetro de adivinación
sistemática (o de pseudo azar).
58
tt Se explica el procedimiento para obtener la calificación global como combinación de diver-
sos instrumentos o partes de la prueba. No es aceptable la asignación global como prome-
dio de promedios.
No es propósito del proyecto obtener un valor único de medida de los estudiantes y no existe lo
que podría llamarse una calificación global de la persona. De entrada, el análisis de los puntos
de corte se realiza con las calificaciones obtenidas por separado para cada dominio cognosci-
tivo, lo cual responde al modelo matricial. Se cuenta con una normatividad o recomendación
que establece que debe garantizarse que la prueba que recibe cada estudiante solo presenta los
reactivos que definen un contexto acotado lo más posible al bloque matricial que debe resolver,
con objeto de disponer de resultados unidimensionales tanto como sea posible, dentro de las
limitaciones propias que se tienen en los instrumentos de medición.
8. Niveles de desempeño e interpretación de resultados
tt Existe el marco teórico-metodológico basado en currículo que justifica la organización en

niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con
el procedimiento de asignación del valor del punto de corte en la escala.
En la documentación de las pruebas EXCALE se encuentra un manual dedicado al establecimieto

de los niveles de competencia, en el cual se detalla el procedimiento para establecer los niveles de
logro, incluyendo los pasos a seguir para la selección de los jueces y su entrenamiento, la forma-
ción de distintos comités para el establecimiento de los niveles de logro, y la secuencia de pasos
que deben seguirse en las sesiones donde los especialistas deben definir los niveles de competen-
cia. De particular interés son las etapas explicitadas para la validación del proceso para establecer
los niveles de logro y su utilidad.
El establecimiento de los niveles de competencia se basa en un estudio cuidadoso de los fines

y usos de las pruebas, un análisis detallado de las preguntas, la elaboración de los descriptores
de niveles y la selección de los puntos de corte que corresponden a cada uno de los niveles con
base a las instrucciones proporcionadas.
De acuerdo con la documentación, las pruebas EXCALE evalúan los conocimientos y habilidades
escolares de mayor énfasis en el currículo nacional. Su interés primordial es explorar los resultados
de los currículos formal e implementado por mediación del currículo logrado. Así, se entiende que
la selección de los puntos de corte se define atendiendo las expectativas curriculares; expertos
curriculares y profesores en ejercicio son seleccionados para establecer los descriptores de nivel
así como los puntos de corte.
tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para

determinar los niveles de desempeño o estándares.
Se especifica un procedimiento combinado en el que se reúne a expertos en la materia a quie-

nes se pide primeramente describir los niveles de desempeño deseados. Estas descripciones se
toman como insumo por un segundo comité que trabaja con base en un procedimiento que
modifica y combina los métodos de “bookmark” y Angoff, para determinar los puntos de corte
que definen los niveles de desempeño en la prueba. Los jueces encargados de establecer estos
puntos de corte reciben datos empíricos con base en los resultados de las pruebas, lo que les
permite refinar o revisar su selección. Por separado, se dispone de un segundo grupo de exper-
tos que se encarga de revisar y evaluar la idoneidad de los puntos de corte seleccionados por el
primer grupo de expertos. Este procedimiento mixto de selección permite revisarlos y refinarlos,
además de añadir procesos de verificación de los puntos de corte con la ayuda de varios comités
de especialistas.
Dado el procedimiento utilizado se hace explicita la relación entre las puntuaciones y las cate-
gorías de dominio o niveles de desempeño. Específicamente, con el procedimiento de “book-
mark” se convoca a un conjunto de jueces a quienes se les proporciona un cuaderno de ítems
ordenados por dificultad; se les pide escoger el ítem o reactivo al que una persona del nivel X
pueda responder correctamente, entendido esto como si la mayoría de los sujetos de dicho nivel
pudieran responderlo correctamente, tomando como referencia una probabilidad de al menos
67% de dichas personas.
Ahora bien, las instrucciones que se presentan en la documentación del procedimiento deben
mejorarse porque parecen un poco confusas al indicar que “el cambio de nivel de logro se
producirá cuando surge un reactivo del que se entiende es razonable que un sujeto del nivel
actual no lo pueda responder.” En este sentido, lo “razonable” seria en sí que la probabilidad
de resolverlo sea menor a 67%.
tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis del do-
minio curricular o tienen en cuenta consecuencias empíricas de la identificación de puntajes
de corte.
Como ya se señaló, en la documentación proporcionada por el INEE se describen en detalle los

procedimientos a seguir a fin de establecer los puntos de corte. Los estándares son definidos
por comités de jueces expertos con diversas credenciales, entre los que se encuentran profe-
sores en ejercicio, expertos curriculares, investigadores educativos, al igual que el responsable
encargado de la prueba por el INEE .
Durante el proceso de selección de los puntos que limitan los intervalos, los jueces que escogen
los puntos de corte reciben retroalimentación respecto a las consecuencias empíricas de su elec-
ción. Esto permite utilizar un esquema de rondas que posibilita a los jueces revisar o modificar
sus decisiones, hasta lograr cierto nivel de acuerdo entre ellos.
Es importante mencionar que la elección de puntos de corte para los estándares no es un pro-
ceso exacto,sino de revisión de opiniones a fin de lograr un consenso entre los participantes.
En particular se trata de definir la forma en que los puntos escogidos representan la intención
de la prueba y proveen una clasificación de los estudiantes; la utilidad de estos puntos depende de
su correspondencia con la intención curricular y con la representación “gruesa” de la evaluación
de los resultados de la instrucción.
tt Lospuntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra

experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.
No se presentan los puntos de corte finales de las pruebas, pero sí se describe el procedimiento
mediante el cual se validan por medio de juicios empíricos, para lo cual se proporciona a los
jueces información respecto a los resultados de su elección de los puntos de corte específicos y
60
se les presenta información comparativa de dicha elección, al igual que la variabilidad de éstos.
Hubiese sido ideal revisar resultados específicos de una de las pruebas E XCALE a fin de analizar
la evidencia de que fueron seguidos fielmente los procedimientos delineados en el manual
técnico.
No se dispone de documentación sobre los valores del error estándar, ni sobre los intervalos de
confianza de los puntos de corte. Esta información es importante porque permite reforzar la toma
de decisiones por parte de los jueces y documentar el proceso.
tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan
bien en relación a contenido de prueba.
Dentro de la información suministrada para la elaboración de este reporte no se presentan re-

sultados específicos de alguna prueba, y por consiguiente no se dispone de evidencia empírica
de la graduación y discriminación de los puntos de corte utilizados.
Sería de utilidad presentar información acerca de la cantidad de reactivos o preguntas clasifi-

cadas dentro de cada uno de los niveles de competencia definidos; ello permitiría estimar la
capacidad de la prueba de discriminar a los estudiantes en cada uno de los niveles reportados.
tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado
de los niveles de desempeño o del conjunto de competencias por nivel en términos de los
puntos de corte.
Existe un manual técnico para el establecimiento de los niveles de competencias y la elaboración

de los descriptores de niveles en el que se describen en detalle los procedimientos a seguir y los
roles de los distintos actores en el proceso.
Si bien existe un documento general que asumimos se debe seguir en todas y cada una de las
pruebas E XCALE, no se presentan evidencias del proceso específicamente realizado en ninguna
de ellas.
tt Se tiene el documento que detalla los desempeños por nivel para las competencias y con-
tenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los
resultados de las pruebas.
Se presentan lineamientos generales a seguir en cada una de las pruebas, pero no se proporcio-
na evidencia de que el procedimiento se ha llevado a cabo tal cual lo especificado.
A pesar de eso, se sobreentiende que se utilizan la misma cantidad y descriptores de niveles en

todas las materias y grados de las pruebas E XCALE, lo que facilita la comparación y descripción
de los resultados independientemente de la prueba en cuestión.
Específicamente se utilizan estas categorías para definir niveles de desempeño:
1. Por debajo del nivel básico: indica carencias importantes en el dominio curricular de
los conocimientos, habilidades y destrezas escolares que expresan una limitación para
seguir progresando satisfactoriamente en la materia.
2. Básico: indica el dominio imprescindible suficiente, mínimo, esencial, fundamental, o
elemental de conocimientos, habilidades y destrezas escolares necesarias para seguir
progresando satisfactoriamente en la materia.
3. Medio: indica un dominio sustancial (adecuado, apropiado, correcto o considerable)
de conocimientos, habilidades y destrezas escolares, que pone de manifiesto un buen
aprovechamiento de lo previsto en el currículo.

4. Avanzado: indica un dominio muy elevado (intenso, inmejorable, óptimo o superior)
de conocimientos, habilidades y destrezas escolares que refleja el aprovechamiento
máximo de lo previsto en el currículo.
tt Los integrantes de los comités encargados de definir niveles de desempeño son selecciona-
dos por sus perfiles académicos o laborales y por su representatividad dentro de la diversi-
dad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al
manejo de la metodología a utilizar.
No se presentan ejemplos o listados de los integrantes de los comités de niveles de logro, aun-
que se señala que se cuenta con dos comités para el establecimiento y definición de los niveles.
El primero, Comité de Niveles de Logro, (CNL ), se encarga de la elaboración de descriptores,
mientras que el segundo, Comité de identificación de Puntuaciones de Corte, (CPC) se encarga
de identificar los reactivos que pueden servir de “punto de inflexión” entre dos niveles de logro,
los cuales dirigen la identificación de las puntuaciones de corte que los separan.
El CNL está compuesto por un número reducido de especialistas en currículo y en investigación

educativa, así como por el coordinador(a) de cada prueba, que actúa como conductor(a) del
comité; intervienen también profesores en ejercicio, conocedores del funcionamiento real de
la materia y de los alumnos tipo. El CNL debe ser independiente del CPC que posteriormente
trabaje en la identificación de puntuaciones de corte. El número de miembros del comité será
de cinco participantes.
En el manual técnico para el establecimiento de los niveles de competencia se establecen linea-

mientos específicos sobre el entrenamiento de los jueces y de los comités que determinan los
puntos de corte. El entrenamiento se lleva a cabo en varias etapas en las que los miembros del
comité tienen la oportunidad de escoger puntos de logro y recibir retroalimentación respecto
a su selección. En total se prevén tres rondas de prácticas antes de realizar la selección final de
los puntos de corte.
CONCLUSIONES
E XCALE se ha revelado como un proyecto de varias pruebas que se enfoca a diagnosticar el

estatus del sistema educativo nacional, por medio de un modelo muestral. Con base en este
objetivo y debido a las implicaciones y el impacto que tienen los resultados de las pruebas,
la mayoría de los usos son pertinentes para los fines propuestos, con lo que se favorece que
el proyecto cuente con más ventajas que ENL ACE .
Una de sus principales fortalezas es la gran cantidad de estudios y materiales informativos

producidos por el INEE . Sin embargo, un área de oportunidad es la producción de un manual
62
técnico actualizado, coherente y debidamente documentado que sirva como fuente única de
referencia. La fundamentación de E XCALE con base en el Plan General de la Evaluación sirve de
base principal para la mayoría de los documentos técnicos y los manuales de procedimientos del
INEE , porque todos utilizan dicho Plan para definir los propósitos de las pruebas y la justificación
de los procesos.
Otra fortaleza relativa al diseño de las pruebas es el uso del modelo matricial que equivale a
contar con una batería de instrumentos que permiten cubrir una gama muy amplia de conteni-
dos y competencias, facilitan el piloteo, la equiparación, las comparaciones y las descripciones
del sistema educativo nacional, estatal y en otros niveles de agregación.
Al tratarse de pruebas aplicadas a muestras de la población en EXCALE se trabaja con el modelo

de Rasch y la técnica de valores plausibles. Otro aspecto notable es que cuenta con numerosas
revisiones y justificaciones sobre sesgos donde se presentan datos de gran relevancia, reflejan-
do aproximaciones metodológicas a través de comités de validación, definición de criterios para
revisar sesgos de diseño, comparación entre grupos focales y otros enfoques.
Una fortaleza más es el desarrollo de las especificaciones de los ítems, que describen detallada-
mente los elementos requeridos para dar calidad a la elaboración de las preguntas, su ubicación
en los constructos y el desempeño medido. Sin embargo, esta descripción parece ser demasia-
do exhaustiva y podría reducirse un poco para agilizar su uso entre los diseñadores y analistas
que lo requieran. En cambio, parece importante que se complemente la descripción sobre los
constructos de cada subescala, detallando el procedimiento mixto y los resultados disponibles
con aplicaciones empíricas. El INEE cuenta con documentos normativos para el diseño, revisión
y validación de reactivos de utilidad para los especialistas miembros de comités. Por ejemplo,
es importante el marco teórico-metodológico que justifica niveles de desempeño o de compe-
tencia desarrollados con apoyo de grupos de expertos, con esquemas de tipo “bookmark” y
Angoff o con base en los resultados de las pruebas.
Dentro de los puntos a mejorar está la actualización del manual técnico, que fue producido
en una versión inicial y no se ha puesto al día. Hace falta una nueva edición con los avances y
resultados obtenidos, para mostrar la evolución y los elementos más vigentes con base en las es-
pecificaciones propuestas. El manual técnico deberá recopilar y organizar la información que en
este momento está contenida en trabajos de investigación, documentos específicos, informes,
estudios de funcionamiento diferencial de ítems y análisis comparativos para diversos grupos
socioeconómicos y culturales. Del mismo modo, en el manual debe describirse el diseño de las
muestras o la especificación para seleccionar los reactivos para los bloques en el diseño matri-
cial. Conviene llevar a cabo el análisis de diversos factores que inciden en el dimensionamiento
de las pruebas y en los resultados, como la fatiga en los estudiantes, entre otros aspectos. El
diseño muestral debe mejorarse o detallarse claramente, ya que la información disponible es
limitada, máxime el cambio de modelo que se dio desde 2013, sin una justificación clara.
Debe contarse con un manual específico o, por lo menos, con un capítulo en el manual técnico
que haga explícitos los criterios de aceptación de los ítems utilizando el modelo de Rasch y el
modelo clásico, evitando que se tengan que encontrar en documentos variados no integrados.
Además, será de utilidad contar con los datos métricos de las subescalas aprovechando los
reportes que produce el software de análisis de Rasch y precisiones sobre la confiabilidad obte-
nida con el modelo logístico.
El INEE podrá realizar otros trabajos de investigación citados en el Plan General de Evaluación,
entre los que pueden mencionarse:
a) Estudios:
• Análisis de constructos en función de los niveles de desempeño.

• Análisis factoriales para identificar constructos y dimensiones métricas de las pruebas
y de las subescalas.
• Validez de criterio con respecto de otras pruebas.
• Error de medida como información necesaria sobre la precisión de las pruebas,
pudiendo calcularse con modelo clásico o con TRI .
• Equiparación entre versiones de un mismo año y en pruebas longitudinales. En este
caso se trataría de sistematizar la información para disponer de documentos integra-
dores que faciliten las comparaciones.
• Análisis multinivel para describir los conjunto de variables explicativas donde se in-
volucren los anidamientos por salón, escuela, entidad, entre otros posibles niveles.
b) Manuales
• Diseño muestral.
• Sistema informático para la administración de los bancos de reactivos, su almacena-
miento y la generación de pruebas.
64
3 Atención a la diversidad cultural
Validez cultural se define como el grado en que el diseño, el proceso de desarrollo

y el contenido de una prueba toman en consideración la forma en que factores culturales,
lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen en la ma-
nera en que los estudiantes interpretan el contenido de los ítems y la forma en que responden
a ellos (Solano-Flores, 2013; Solano-Flores y Nelson-Barber, 2001).
La evaluación de la validez cultural de las pruebas E XCALE se efectuó con base en los doce cri-
terios que los autores de este reporte propusieron el 25 de octubre de 2013: 1) Marco concep-
tual de la prueba; 2) Especificación de las poblaciones; 3) Estrategia para considerar diversidad
cultural, lingüística y socioeconómica; 4) Especificación de ítems; 5) Profesionales involucrados
en el desarrollo de los ítems; 6) Representación de poblaciones diversas en las muestras de es-
tudiantes piloto; 7) Validación cognitivo-cultural; 8) Revisión; 9) Análisis de sesgo; 10) Estudios
de generalizabilidad; 11) Tiempos y calendarios; y 12) Mecanismos de corrección.
Este informe reporta los resultados del análisis de la documentación de las pruebas EXCALE .
Los materiales revisados incluyeron toda la documentación de la prueba que el INEE puso a
disposición de los miembros del comité, vía su sitio web, la cual incluyó los manuales técnicos
de las pruebas, bases de datos, reportes de estudios especiales, y presentaciones a diversas
audiencias de las características de la prueba. Dichos documentos abarcan un período de seis
años: de 2007 a 2012.
Además de la revisión de los documentos mencionados, los autores de este reporte efectuaron
el microanálisis de una muestra aleatoria de ítems de matemáticas y de español, de acuerdo
con la metodología descrita por Solano-Flores y Trumbull (2003). Tal análisis pretende identifi-
car los aspectos gramaticales y pragmáticos que, desde una perspectiva no empírica, pueden
afectar negativamente la manera en que los estudiantes interpretan los ítems.
Los ítems fueron seleccionados aleatoriamente por personal del INEE , de acuerdo con las espe-
cificaciones proporcionadas por los evaluadores. En lo que se refiere a matemáticas, se analiza-
ron tres ítems de tercero de primaria, otros tantos de sexto de primaria y cuatro de tercero de
secundaria, para un total de 10. En lo que se refiere a español, se revisaron también tres ítems
de tercer grado de primaria y tres de sexto de ese nivel, pero sólo dos de tercero de secundaria,
para un total de ocho en esta materia, y un gran total de 18 ítems analizados.
En el anexo 2 de este informe puede verse el análisis de esos 18 ítems, en el que se apoya un
segmento de este apartado.
65
1. Marco conceptual de la prueba. Considera cómo la efectividad en el aprendizaje,
la enseñanza y la evaluación de un contenido están influidos por la experiencia
socio-cultural del estudiante y su familiaridad con la lengua y el dialecto en que se
administran las pruebas.
El INEE ha producido una gran variedad de documentos que norman el proceso de desarrollo
de las pruebas E XCALE . Además de los documentos internos diseñados para guiar el trabajo de
los constructores de las pruebas, se han generado otros que presentan las bases conceptuales
del proceso de construcción de pruebas. Adicionalmente, el INEE ha comisionado una serie
de estudios técnicos relacionados tanto con sus pruebas nacionales como su participación en
pruebas internacionales.
Como un todo, estas acciones y esta diversidad documental han generado una normatividad
institucional necesaria para el desarrollo sistemático de las pruebas E XCALE . Tres documentos
producidos por el INEE presentan información relevante a la conceptualización de las pruebas:
el primero presenta sus características (Backhoff et al., 2005); el segundo describe los proyectos
nacionales e internacionales (INEE 2005b); el tercero presenta el Plan Maestro de Desarrollo
para el período 2007-20014 (INEE , 2006).
En el documento, Exámenes de la Calidad y el Logro Educativos (EXCALE), se ofrecen los razo-

namientos que dan sustento conceptual y metodológico a las pruebas. El documento también
reporta el trabajo organizativo para su diseño, construcción y validación.
En la descripción de los proyectos nacionales del plan general de pruebas, se presenta una
discusión general de la intersección de los tipos de conocimiento (e.g., declarativo, procedi-
mental, esquemático y estratégico) y las características de las tareas (e.g., demandas de las
tareas, requerimiento cognitivo y apertura y complejidad). También se documentan los pasos
que se siguieron para determinar los contenidos de las pruebas y los criterios para revisar
la calidad técnica de las mismas. Estos criterios incluyen: alineamiento con el currículo nacional,
calidad del contenido, complejidad cognitiva, evaluación significativa, propiedad del lenguaje,
transferencia y generalización, y consecuencias pretendidas. Más aún, el documento refleja
una preocupación por examinar validez, especialmente a través de las acciones que se toman
durante el proceso de construcción de pruebas y de los estudios especiales comisionados por
el Instituto.
El Plan Maestro identifica una serie de criterios constituyentes de un sistema educativo, mismos
que han de orientar los esfuerzos evaluativos del Instituto. Junto con los criterios de pertinencia,
relevancia, eficacia interna y externa, suficiencia y eficiencia, se identifica el criterio de equidad.
Esta dimensión se refiere al grado con que la evaluación “[c]onsidera la desigual situación de
alumnos y familias, de las comunidades en que viven y las escuelas mismas, y ofrece apoyos es-
peciales a quienes lo requieren, para que los objetivos educativos sean alcanzados por el mayor
número posible.” (INEE , 2006, p. 17).
Aunque hay claridad institucional acerca de las bases conceptuales y metodológicas para el
desarrollo de las pruebas, su revisión, y su validación, hay tres observaciones importantes
que plantear.
66
La primera es que no existe un documento que presente formal y específicamente el marco
conceptual de cada una de las pruebas E XCALE . La información y los razonamientos que se
emplean para su desarrollo se encuentra esparcida en distintos documentos generados por el
INEE . Basándose en la experiencia de sistemas de pruebas a gran escala, tales como NAEP, PISA
y TIMSS , idealmente, debiera existir un documento titulado “Marco Conceptual de la Prueba
E XCALE” para cada una de las áreas de contenido evaluadas. Dicho marco conceptual debiera
presentar una visión del contenido en términos de los conceptos y las habilidades a evaluar,
para cada uno de los grados.
A diferencia de NAEP, PISA y TIMSS , el desarrollo de las pruebas E XCALE ha contado con la
ventaja de que en México existe un currículo común oficial (aunque éste bien puede ser muy
diferente del implementado). En virtud de esta circunstancia, el trabajo conceptual para la iden-
tificación de los contenidos y habilidades a evaluar se facilita en gran medida por la existencia
de documentos curriculares oficiales. De hecho, el Instituto ha generado 30 análisis reticulares
del contenido que permiten identificar las líneas evaluativas de las pruebas (véase, por ejemplo,
INEE , 2011). Sin embargo, la ausencia de un documento conceptual integrador para cada área
de contenido puede limitar la memoria institucional a largo plazo.
La segunda observación se desprende de la primera: en ausencia de un documento que pre-

sente específicamente el marco conceptual para las pruebas correspondientes de cada área
de contenido, no es posible discutir la relación entre los contenidos y factores lingüísticos y
socio-culturales. ¿Cómo la forma en que un reactivo está escrito puede determinar diferentes
interpretaciones entre distintos grupos lingüísticos y experiencias socioculturales? ¿De qué ma-
nera el estilo de redacción de una prueba y los contextos que ésta usa en sus reactivos pueden
estar sesgados en favor de un segmento poblacional específico? ¿Qué es lo que determina
que un contexto sea igual o diferencialmente significativo para diversos grupos poblacionales?
Estas son preguntas que debieran hacerse continuamente durante el proceso de desarrollo de
pruebas. El marco conceptual es el documento clave para que los constructores de pruebas las
tomen en consideración.
La tercera observación es que en gran parte debido a la ausencia de marcos conceptuales de

las distintas pruebas E XCALE, no se proporcionan suficientes elementos conceptuales o meto-
dológicos para el propio tratamiento de la diversidad. Ello a pesar de que en los documentos
revisados se reconoce la importancia de la diversidad cultural y lingüística.
3. Especificación de las poblaciones. Como parte del desarrollo de la prueba se estable-

cen las características de la población objetivo que consideran la diversidad cultural
y lingüística del país y los múltiples contextos y escenarios culturales y ambientales.
Los documentos generados por el INEE en relación con las pruebas E XCALE, incluyendo los
reportes técnicos, consideran cinco tipos de escuelas: urbanas públicas, rurales públicas, de
educación indígena, cursos comunitarios, y privadas. El documento, Exámenes para la Calidad
y el Logro Educativos, EXCALE , Sexto Año de Primaria 2012-2013: Diseño Muestral (INEE , 2014),
contiene los razonamientos con base en los cuáles se han tomado muestras poblacionales por
estado y tipo de escuela.
Atención a la diversidad cultural 67

Globalmente, considerando la proporción de la población indígena con respecto al total de la
población mexicana, los números incluidos en las muestras para los estudiantes indígenas son
razonablemente altos. Sin embargo, debe notarse que el marco conceptual no hace un desglose
por grupos indígenas o por grupos lingüísticos. Mejores generalizaciones de los resultados de
las pruebas E XCALE podrían hacerse si los resultados pudieran desagregarse por grupo etnolin-
güístico, en vez o además de hacerlo por entidad y por la categoría genérica indígena. Como ya
se ha señalado, las implicaciones que conlleva el uso de una sola categoría para caracterizar la
diversidad lingüística y cultural en México impide conocer el impacto real de las peculiaridades
de cada una de las lenguas nacionales en su uso dentro y fuera del ámbito escolar.
Sin embargo, es importante mencionar que recientemente el INEE comisionó la elaboración de

un estudio para determinar la pertinencia de la inclusión de poblaciones indígenas en las prue-
bas E XCALE (Backhoff, Solano-Flores y Contreras-Niño, 2012). Dicha investigación ha examinado
la validez de traducciones y adaptaciones de pruebas a las lenguas y los contextos indígenas y
el tipo de acciones que se requerirían para hacer tales adaptaciones apropiadamente. El estudio
revela que hay aspectos lingüísticos y culturales muy sutiles que son relevantes a la evaluación
válida y equitativa, y que no pueden ser generalizados necesariamente para todos los grupos
indígenas. Debido a la alta tasa de reemplazo por el español, muchas lenguas indígenas son
muy inestables y los grupos que las hablan son lingüísticamente muy heterogéneos. Debido a
esta inestabilidad, a fin de atender propiamente los aspectos de validez para los grupos indíge-
nas, el diseño muestral de las pruebas E XCALE debiera desglosar a la población de las escuelas
indígenas por grupo lingüístico, ya que casi todas las entidades federativas pueden tener varios
grupos etnolingüísticos distintos tanto por su origen histórico como por migración.
El diseño de E XCALE toma en cuenta la diversidad socioeconómica de los estudiantes, aunque

en el documento Acerca de la Validación de los EXCALE (p. 7) la unidad mínima de análisis es la
escuela y no los alumnos. También menciona que se consideran factores como el género. Sin
embargo, no es claro cómo se tomó en cuenta dicho criterio si la unidad de análisis es la escuela.
El documento menciona:
Otro elemento sustancial de la validez es la consideración de las diferentes variables que

pueden afectar al programa evaluado y, por ello, deben ser atendidas como elementos de
contextualización. Los E XCALE deben aportar una información precisa y equiparable para
todo el sistema educativo acerca de la calidad del aprendizaje de los estudiantes. Así, la
representatividad muestral, el sistema de muestreo, los estratos a considerar en la confi-
guración y definición de la muestra, entre otros elementos resultan clave en el proceso de
validez. Asimismo, los E XCALE deben actuar sobre un estudio muestral convenientemente
ajustado, no sólo en el diseño de la muestra, sino también en la muestra extraída. (Acerca
de la Validación de los EXCALE, p. 11).
El mismo documento, en su página 12, menciona lo siguiente: ¿La muestra sobre la que se
va a recoger información incluye alumnos representativos de todas las situaciones sociales,
culturales y educativas que pueden darse en el sistema educativo mexicano y en la proporción
adecuada a cada estrato?
Este estudio es solo un marco de referencia para futuras investigaciones sobre la validez de la
prueba, por lo que concluye que:
68
Hasta ahora es claro que la validación de los E XCALE comenzó desde su diseño, desarrollan-
do un modelo en el que se han tenido en cuenta diversos elementos dirigidos a asegurar su
validez. No obstante, esta tarea de validación es una tarea compleja, que deberá llevarse a
cabo durante toda la vida útil de los E XCALE en el sistema de evaluación que realiza el INEE ,
sustentada en un plan completo de investigación evaluativa, como el que aquí se sugiere.
(Ruiz-Primo, Jornet y Backhoff, 2006, Acerca de la Validación de los EXCALE, p.28).
En los cuestionarios sobre contexto, un estudio previo plantea que:
En esta línea, hay que señalar que son precisamente las informaciones relativas a la entrada
(condiciones de la oferta educativa: recursos materiales, humanos, características de la
población que atiende la escuela) y las de proceso (estilo de la enseñanza, estrategias y me-
todología didáctica, clima social en el aula, violencia escolar, multiculturalidad…) las peor
resueltas en este tipo de evaluaciones. En consecuencia la utilidad final que pueden aportar
estas evaluaciones al funcionamiento escolar está muy limitada. Por otra parte, es evidente
que cuando establecemos los perfiles personales o de grupo de los alumnos resulta inevita-
ble hacer alusión a estas variables contextuales, procedentes del ámbito familiar, sociocul-
tural, del grupo de iguales… (Informe sobre cuestionarios de contexto, INEE 2012, p. 11).
Este mismo estudio señala que:
Por otra parte, los aspectos sobre los que se recoge información, en muchos casos, puede
considerarse que el alumnado no es la mejor fuente de información. Así, informaciones de
contexto (como por ejemplo, la estratificación socio-ocupacional o el capital económico…)
es posible conjeturar que no estén adecuadamente informadas por el alumnado. (Informe
sobre cuestionarios de contexto, INEE 2012, p. 15).
Según dicha investigación, en los diferentes tipos de cuestionarios de contexto se recaba infor-
mación referente a la condición étnica de los estudiantes y los docentes e información socioeco-
nómica de los estudiantes y otras variables como necesidades especiales. Desafortunadamente,
la adecuación de las generalizaciones de la información socioeconómica y el capital cultural está
limitada cuando se depende casi exclusivamente del auto-reporte del estudiante.
En la revisión documental no se encontró evidencia de que se recabe información sobre el grado

de bilingüismo y el tipo de lengua o lenguas que se manejan tanto en el ámbito extra-escolar
de los estudiantes como dentro de las aulas (p. 21). Al respecto dicho estudio reconoce que:
Buena parte de las informaciones que pretendemos recabar a partir de cuestionarios de

contexto presentan como debilidad inicial el hecho de que se extrae la información a partir
de “informadores débiles”; por ejemplo, las informaciones socio-demográficas de las fa-
milias del alumnado que atiende una escuela suelen pedirse al alumnado. Entre ellas, los
estudios de los padres, o la situación laboral (que se han manifestado como indicadores
de gran interés en estudios realizados a partir de diversos proyectos evaluativos, como por
ejemplo, el Informe PISA ) podría ser una información más fiable y válida si se recabara a
partir de bancos de datos del INEE desarrollados en colaboración con las administraciones
públicas de los Estados (en las escuelas, en el proceso de matrícula se pueden recabar estas
informaciones). (p. 54).

Con base en esta revisión, es claro que existe la necesidad de recolectar más información sobre
los factores socio-económicos que caracterizan a las diferentes escuelas. Tal información inclu-
ye las características lingüísticas predominantes en el ámbito escolar (por ejemplo, las lenguas
presentes en la escuela) y el grado de bilingüismo de los alumnos.
3. Estrategia para considerar diversidad cultural, lingüística y socio-económica. Como

parte del desarrollo de la prueba se hace uso de referentes teóricos y conceptuales
sobre cultura y lengua y se establecen procedimientos para tomar en consideración
la diversidad cultural, lingüística y socioeconómica del estudiantado mexicano.
Como se mencionó en la sección anterior, EXCALE está diseñado desde sus orígenes como una
prueba muestral que considera el posible sesgo por origen socioeconómico, género, capacida-
des especiales y condición lingüística. Sin embargo no se encontraron entre los documentos
disponibles, estudios que examinen sistemáticamente las diferencias entre estos grupos.
4. Especificación de ítems. Los documentos que establecen los distintos tipos y forma-
tos de los ítems a incluir en la prueba proporcionan lineamientos para asegurar que la
información gráfica y contextual incluida en los ítems sea familiar para la mayoría del
estudiantado y reflejen una amplia variedad de contextos culturales.
Existe un manual técnico para la construcción de reactivos (INEE , 2005a). Adicionalmente, di-
versos documentos sobre las características de las pruebas EXCALE (i. e. Backhoff et al., 2005)
presentan información detallada sobre los procedimientos seguidos para el desarrollo de las
pruebas.
Los formatos para crear reactivos y los ejemplos de especificación de reactivos en apoyo a esos
formatos son especialmente demostrativos del trabajo al respecto. Los primeros promueven
entre los constructores de las pruebas el desarrollo sistemático de ítems y la fundamentación de
ese desarrollo. Los segundos ilustran el tipo de producto que se debe crear con esos formatos.
Aunque estos documentos consideran los posibles retos que el vocabulario empleado en la re-
dacción de ítems puede plantear para que el alumno entienda su contenido, el tratamiento de
estos retos es superficial. Los textos no proporcionan una base conceptual para profundizar en
una serie de aspectos lingüísticos tales como: el registro y el lenguaje académico, las diferencias
de dialecto y el sesgo debido al uso de formas de lenguaje específicas a un grupo determinado
(e.g., clase media, medio urbano, centro del país) de la población mexicana. Tampoco toman
en cuenta el tipo y grado de bilingüismo presente en los distintos planteles de las escuelas del
subsistema de educación indígena.
5. Profesionales involucrados en el desarrollo de los ítems. Los equipos de profesionales

a cargo de desarrollar los ítems son multidisciplinarios; además de los expertos en
contenido, dichos equipos incluyen a profesionales con especialidades en el área de
la cultura e idioma (por ejemplo antropólogos y lingüistas) y a maestros de minorías
culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo.
70
Los documentos de desarrollo de las pruebas E XCALE describen la participación de varios espe-
cialistas en el personal de planta que desarrolla las pruebas y en los grupos de profesionales que
realizan estudios comisionados o que forman parte de su consejo externo. Como ya se mencio-
nó, estos especialistas incluyen maestros, especialistas en las áreas de contenido de las pruebas,
psicólogos, pedagogos, especialistas en medición educativa, antropólogos y lingüistas.
Una observación en relación con este criterio es que debiera haber acciones apropiadas para
asegurar que los profesionales de las ciencias del lenguaje y la cultura participen más activamen-
te en todas las etapas del proceso de desarrollo de las pruebas, especialmente en las de control
del desarrollo de los reactivos.
6. Representación de poblaciones diversas en muestras de estudiantes para piloto. Las

muestras de estudiantes con los que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minorías culturales, lingüísticas y socioe-
conómicas del país.
Como ya se señaló en las dos primeras secciones de este documento, E XCALE considera, desde
sus orígenes, la necesidad de incluir muestras de todos los tipos de escuelas que existen en Mé-
xico y toma en cuenta la diversidad social, cultural y lingüística (Ruiz-Primo, Jornet y Backhoff,
2006). Sin embargo no se explicita si durante el piloteo de los reactivos se incluyó a todos los
diferentes tipos de escuela y a los distintos grupos etnolingüísticos del país.
Entre los documentos sobre piloteo disponibles (Piloteo 2005, Propuesta 2do. borrador; EXCALE
09: 2008; Cómo elegir escuelas; EXCALE -06 2013: Piloteo Especificaciones de Selección de Mues-
tra; EXCALE 03 2010: Propuesta de Piloteo de instrumentos; EXCALE 03 2006: Diseño Muestral
para el Piloteo de Reactivos), no se encontró evidencia de que ese piloteo se realice con diversas
comunidades lingüísticas y diferentes tipos de escuelas. Tampoco se encontró evidencia de que
la información colectada con estos grupos y escuelas haya influido en el proceso de refinamiento
de las características de los ítems.
7. Validación cognitivo-cultual. Como parte del desarrollo de la prueba se efectúan en-

trevistas cognitivo-culturales para investigar si estudiantes de diversos grupos cultu-
rales, lingüísticos y socioeconómicos interpretan de la misma manera el contenido
muestras representativas de los ítems de la prueba.
No se encontró documentación de que se efectúen entrevistas o protocolos verbales para

efectuar la validación cognitivo-cultural de las pruebas E XCALE . Las entrevistas cognitivas y los
protocolos verbales figuran actualmente como parte de la familia de procedimientos para la
validación de pruebas, que se emplean con muestras de ítems en los sistemas evaluativos más
importantes del mundo.
En un futuro inmediato, a fin de estar a la par con las normas de desarrollo de pruebas, E XCALE
deberá incluir dichas entrevistas. La diferencia entre la naturaleza “cognitivo-cultural” y la sim-
plemente “cognitiva” de tales entrevistas radica en el contenido. Las entrevistas cognitivo-

culturales tienen el mismo contenido que las entrevistas cognitivas, pero incluyen aspectos
que permiten evaluar el grado en que el contexto socio-cultural de los estudiantes moldea la
forma en que entienden los reactivos y por ende, su efecto en las pruebas. El uso y desarrollo
de instrumentos para la validación cognitivo-cultural no es más caro ni toma más tiempo que
el de instrumentos para la validación cognitiva. En contraparte, contar con información cogni-
tivo-cultural permitirá elaborar mejores diagnósticos sobre las distintas modalidades educativas
existentes en México y valorar el peso específico de las particularidades sociolingüísticas en el
rendimiento de pruebas muestrales.
8. Revisión. Hay un proceso de revisión con jueces que considera fuentes de sesgo cultu-
ral, lingüístico y socioeconómico en muestras representativas de los ítems de la prueba.
Aunque los documentos de especificación de ítems contienen información para su revisión, no

se ha desarrollado una metodología para la exploración formal de sesgo cultural, lingüístico y
socioeconómico. Hambleton y Jones (1994) distinguen entre los procedimientos empíricos y los
procedimientos basados en juicio para la revisión de sesgo. Idealmente, dichos procedimientos
debieran usarse de manera mutuamente complementaria pero sistemática. Los primeros co-
rresponden a las técnicas basadas en el funcionamiento diferencial de los ítems. Los segundos
corresponden a las revisiones hechas por evaluadores que los examinan, y pueden conducir a
la identificación de aspectos lingüísticos, contextuales y culturales que podrían afectar adversa-
mente a algunos segmentos de la población.
A pesar de que existe un proceso de revisión de los ítems E XCALE , en aspectos lingüísticos,
contextuales y culturales, tales aspectos no se tratan con profundidad. La implementación de
procedimientos para atenderlos no sería difícil, dado el alto nivel de organización logística,
como lo reflejan los documentos operativos publicados por el INEE (i.e. INEE , 2013). Es impor-
tante que se incluya este tipo de revisión no sólo con fines diagnósticos, sino también para
contar con información de primera mano sobre el rendimiento de las diferentes modalidades de
escuela en pruebas muestrales (Evaluación de la Educación Pre-escolar Evepre, Reporte Técnico
de la Aplicación Piloto, 2011).
9. Análisis de sesgo. Se efectúa el análisis del funcionamiento diferencial de una muestra

representativa de ítems para diversos grupos focales: estudiantes de distintos grupos
indígenas, estudiantes de distintas zonas geográficas, de nivel socioeconómico bajo
y de zonas rurales.
Se encontró documentación de análisis de los reactivos utilizando la TRI y TC para distintas

subpoblaciones (véase, por ejemplo, INEE , 2012 a,b). Estas subpoblaciones incluyen: global (se-
cundarias generales, técnicas, telesecundarias y privadas), secundarias generales, secundarias
técnicas, telesecundarias, secundarias privadas, hombres, y mujeres. Tales análisis se efectúan
como parte del piloteo de los ítems.
Sin embargo, no se encontró documentación de análisis de sesgo basado en el funcionamiento

diferencial de los ítems. Es importante mencionar que, aunque entre los documentos que se
pusieron a la disposición de los revisores está el titulado Modelo para la Detección de DIF en las
72
pruebas del INEE, en realidad contiene un duplicado de un memorándum sobre la comparabili-
dad de pruebas de lenguaje y comunicación.
La ausencia de una práctica rutinaria de análisis de sesgo de ítems E XCALE limita las posibili-
dades de una evaluación justa y válida. También limita oportunidades para refinar los proce-
dimientos de desarrollos de pruebas. Se recomienda que se establezcan los procedimientos
para el análisis sistemático de sesgo, y que estos análisis incluyan género, grupo socioeco-
nómico, tipo de escuela, región (rural vs. urbana), grupo etnolingüístico, y tipo y grado de
bilingüismo.
10. Estudios de generalizabilidad. Se efectúan análisis de generalizabiliad para determinar

la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el
mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo
étnico y lingüístico, localidad y nivel socioeconómico.
No se encontró evidencia de que se efectúen estudios de generalizabilidad con conjuntos de

ítems. Estos estudios permiten evaluar el grado en que la validez de las calificaciones puede
variar entre grupos poblacionales así como cualquier diferencia importante en el tamaño de
muestras de reactivos necesarios para poder hacer generalizaciones válidas de las calificaciones
de las pruebas E XCALE .
11. Tiempos y calendarios. Los que se refieren a actividades que tienen como objetivo con-
siderar la diversidad cultural, lingüística y socioeconómica son razonables y factibles.
No se encontró en la documentación disponible para los evaluadores evidencia de que los

tiempos necesarios para adaptar instrumentos o dar atención a las necesidades especiales de
grupos marginados sean tomados en consideración en el diseño de los tiempos y calendarios.
Ello no quiere decir que los tiempos y calendarios para el desarrollo de las pruebas E XCALE sean
inadecuados. Sin embargo, de alguna manera debiera hacerse explícita la consideración de los
grupos especiales como base para el establecimiento de tiempos y calendarios. En particular,
resalta el hecho de que no se tomaran en cuenta este tipo de factores y, en cambio sí se men-
cionara la posibilidad de encontrar escuelas en paro para el ajuste de las muestras.
12. Mecanismos de corrección. El proceso de desarrollo de pruebas incluye mecanismos

de corrección y mejoramiento de las pruebas con base en la información obtenida
respecto a validación cognitivo-cultural, la revisión, los análisis de sesgo y los estu-
dios de generalizabilidad de los ítems.
No se encontró en la documentación evidencia de mecanismos formalmente establecidos para

dar atención a sesgo de ítems o fuentes de invalidez cultural. La ausencia de evidencia con res-
pecto a este criterio, es resultado de que actualmente el desarrollo de las pruebas E XCALE no
incluye estudios de validación cognitivo-cultural, procesos formales de revisión de ítems, análisis
de sesgo y estudios de generalizabilidad de los ítems.

CONSIDERACIONES FINALES
El sistema E XCALE cuenta con un conjunto de procedimientos y documentos normativos que le

han permitido el desarrollo sistemático de sus pruebas. En términos generales, la documenta-
ción revisada es evidencia de un trabajo cuidadoso para el desarrollo de pruebas y la toma de

acciones básicas necesarias para asegurar que las pruebas desarrolladas tienen un mínimo de
propiedades técnicas aceptables.
A pesar de estos logros, las acciones tomadas no incluyen los aspectos culturales y lingüísticos
de manera suficiente y sistemática. Aunque la documentación revisada refleja el interés por
considerar diferencias entre grupos etnolingüísticos, no se han tomado acciones para especifi-
car poblaciones de grupos vulnerables con un grado de precisión mayor que el nivel socioeco-
nómico o los grupos indígenas. Entre estas acciones podría estar la desagregación de los análisis
por grupo etnolingüístico. Tampoco se efectúan análisis específicos de sesgo con tales grupos,
ni el piloteo de los ítems parece incluir sistemáticamente comunidades lingüísticas diversas.
El conjunto de prácticas relacionadas con la generación de ítems y su evaluación reflejan que

se consideran seriamente la estructura y la organización de los contenidos y la correspondencia
de las características de los ítems con esos contenidos. Sin embargo, no existen documentos
formales que desglosen los marcos conceptuales de las pruebas ni sobre la especificación de
los ítems. La ausencia de esos documentos impide que se establezcan principios de generación
de ítems de extrema importancia para dar atención a los aspectos culturales y lingüísticos de
las pruebas.
Afortunadamente, existe un conjunto de prácticas a partir de las cuáles es posible elaborar esos
documentos formales y establecer prácticas adicionales que en el futuro tomen en cuenta todos
los criterios de validez cultural.
Los resultados de microanálisis de la muestra de reactivos revela que algunos de los reactivos
presentan problemas tanto de forma (redacción poco clara o uso de términos infrecuentes en el
español de México), como de contenido. Estos resultados también revelan que en algunos casos
los ítems no tenían una respuesta correcta defendible. En general, se observa buen cuidado
en la redacción de los reactivos, pero no todos parecen haber sido elaborados en apego a los
lineamientos a los que se hizo referencia en el cuarto criterio.
CONCLUSIÓN
El INEE deberá crear un documento formal del marco conceptual y un documento de especifi-
caciones de ítems de las dos áreas de contenido. También deberá crear un documento formal
del marco muestral de la población estudiantil mexicana. Estos documentos deberán abordar
explícitamente la diversidad étnica, lingüística, cultural y socioeconómica de la población por
medio de tres aspectos básicos del desarrollo de pruebas: la especificación de las poblaciones
estudiantiles, el análisis del error de medición resultante de la heterogeneidad poblacional, y la
generalización de los resultados de las pruebas.
74
La implementación adecuada de tales acciones implica la inclusión adecuada de diversas mues-
tras de los grupos indígenas y de grupos sociales marginados en todo el proceso de desarrollo
de la prueba, la realización de estudios de generalizabilidad en los que se examine el grado en
que las calificaciones en las pruebas varían como efecto de la diversidad mencionada, y la des-
agregación por grupos étnicos, lingüísticos y socioeconómicos en los análisis de confiabilidad
y validez.
Lo autores de este informe están conscientes de que, en virtud de la gran diversidad cultural y
lingüística de la población mexicana y las limitaciones de recursos, es imposible incluir en los
estudios piloto, muestras de estudiantes pertenecientes a todos los grupos étnicos y lingüísticos
del país. Adicionalmente, se hace hincapié en que la atención adecuada de la diversidad lingüís-
tica no debe entenderse como la traducción de las pruebas E XCALE a lenguas indígenas. No sólo
el proceso de traducción es largo, costoso, y muy difícil de implementar adecuadamente, adicio-
nalmente, existe evidencia de que la mayoría de los estudiantes indígenas no reciben instrucción
en su lengua materna aun cuando asistan a escuelas del subsistema de educación indígena y
que muchos maestros en escuelas bilingües no hablan la lengua materna de sus estudiantes
indígenas. De tal suerte, evaluar a estudiantes indígenas en su lengua materna sería una política
inadecuada. Estrategias más idóneas para evaluar a minorías culturales y lingüísticas deberán
basarse en la identificación y selección de un número reducido de grupos étnicos y lingüísticos
que sean representativos de la totalidad de los que existen en México, y el conocimiento actual
de las principales familias lingüísticas del país.
Más específicamente, a fin de dar atención adecuada a la diversidad cultural y lingüística, el

INEE deberá realizar estudios especiales cuya última finalidad sea la de desarrollar modelos
evaluativos y estrategias muestrales basados en teorías socioculturales y lingüísticas y en el
conocimiento actual de las características de los grupos étnicos y lingüísticos del país. Podría ini-
ciarse con estudios de una o dos lenguas de cada una de las principales familias lingüísticas para
determinar si existe alguna influencia de la gramática de estos sistemas en la manera en que los
estudiantes construyen el conocimiento socializado en el espacio escolar. Otra vertiente podría
consistir en incluir a comunidades con diferentes tipos y grados de bilingüismo y así explorar el
impacto de la escolarización en el uso de las distintas lenguas en espacios escolares bilingües.

4 Aplicaciones
La aplicación de las pruebas es un paso crucial dentro del proceso de desarrollo

(Downing, 2010). Es en esta etapa en la que se hacen llegar a los sustentantes los cuadernillos
con los ítems generados, se promueve su respuesta, se recolecta la información y se realizan
análisis sobre el comportamiento de los ítems. De la manera en la cual se realice esta etapa,
dependerá la validez de los puntajes y la utilidad que tengan para el cumplimiento de los
propósitos con los que la prueba fue creada (Downing, 2010).
Con el fin de controlar la mayor cantidad de variables extrínsecas que puedan afectar las res-
puestas de los sustentantes se recomienda la estandarización de las aplicaciones. Esto implica-
que se ha definido e implementado un mismo procedimiento relacionado con las “indicaciones,
condiciones de la prueba y su calificación” (AERA , APA , & NCME , 2014, p. 111). La estandari-
zación es de gran importancia para asegurar que los sustentantes tienen la misma oportunidad
de demostrar su talento al momento de responder la prueba. Las limitaciones relativas a este
aspecto pueden poner en riesgo la generación de puntajes comparables, la medición del cons-
tructo y, por lo tanto, la utilidad e interpretación de los puntajes (AERA et al., 2014). Algunos
autores señalan que “condiciones laxas, inseguras, o no estandarizadas de administración de
una prueba pueden invalidar la interpretación de los puntajes para algunos o todos los examina-
dos y estropear el trabajo realizado en las otras etapas del proceso de desarrollo de la prueba”
(Downing, 2010, p. 163).
En general, se busca que en esta etapa se eliminen las condiciones que podrían invalidar los
resultados, sus interpretaciones y su uso para el cumplimiento de los propósitos de la prueba.
Esto comprende procesos que se llevan a cabo antes, durante y después de la aplicación.
Antes de la aplicación, es importante que se garantice que se cuenta con un listado de escuelas
actualizado y confiable, sea para una aplicación censal o como marco muestral; que las mues-
tras estén basadas en diseños sólidos, y en las que los estratos hayan sido definidos con base
en argumentos teóricos defendibles; y, que se hayan diseñado procedimientos para verificar
que los sustentantes a los que se aplica la prueba sean los que se planificaron. Además es ne-
cesario que se lleve a cabo un minucioso proceso de planeación de la aplicación, incluyendo la
generación de manuales que hayan sido probados en campo, la definición de un cronograma
detallado, la identificación del personal de las escuelas que participará en la aplicación, la pre-
cisión de requisitos y procedimientos para garantizar confidencialidad y seguridad de materiales
de evaluación así como de las respuestas de los sustentantes, y los mecanismos para controlar
la calidad de la aplicación. Finalmente, en esta etapa se selecciona y capacita al personal de apli-
cación, esto involucra: la definición de criterios estandarizados para su reclutamiento, selección
y entrenamiento; la definición de procedimientos de entrenamiento que aseguren el adecuado
conocimiento de los materiales y el dominio de las funciones que realizarán en campo, la docu-
mentación de estos procesos, y la definición de procedimientos para monitorear la aplicación.
76
Durante la aplicación de las pruebas se busca que no haya irregularidades que puedan afectar
las respuestas de los alumnos. Esto implica, principalmente: motivar la respuesta de los alum-
nos; contar con procedimientos estandarizados para lidiar con la no respuesta y prevenir y
enfrentar la copia o cualquier tipo de fraude; implementar mecanismos de control de calidad
que permitan asegurar que las condiciones de administración de la prueba sean estandariza-
das, que se realicen conforme a lo planificado y se aseguren los materiales y las respuestas de
los alumnos.
Después de la aplicación, es importante que se establezcan y lleven a cabo procedimientos siste-

matizados para la preparación del procesamiento de datos que retomen las experiencias y prác-
ticas internacionales. También requiere asegurar que se cuenta con personal calificado para el
manejo de los datos que haya sido entrenado en todos los aspectos de su trabajo, asegurando
que esté familiarizado con los procedimientos técnicos aceptados para el manejo de los datos
y que comprende su importancia, para que los análisis posteriores se hagan sobre información
de la mejor calidad posible. La conformación y verificación de las bases de datos es crucial en
esta etapa, focalizando en su estructura, la asignación de identificadores a los sustentantes, y el
comportamiento de sus respuestas a cada uno de los ítems. Finalmente, la documentación de
los procesos y la definición de procedimientos para notificar y documentar irregularidades son
fundamentales para la validación del proceso de aplicación.
En este capítulo se presentan los principales hallazgos del análisis sobre la validez de las aplica-
ciones de E XCALE, de acuerdo con los diferentes momentos del proceso de administración de
las pruebas:
Antes de la aplicación
• Selección de la muestra
• Planeación de las aplicaciones
• Selección y capacitación del personal de aplicación
Durante la aplicación
• Minimización de carga, motivación, no respuesta y fraude
• Procedimientos para el control de calidad de las aplicaciones
Después de la aplicación
• Preparación del procesamiento de datos
• Procesamiento y verificación de datos
• Notificación de irregularidades
Para la valoración de los criterios se utilizó información de diferente naturaleza. En primer lugar
se revisaron los documentos electrónicos proporcionados por el INEE . Se condujeron entrevistas
semi-estructuradas en diez entidades federativas (Aguascalientes, Colima, Distrito Federal, Du-
rango, Estado de México, Guanajuato, Nuevo León, Veracruz, Yucatán y Zacatecas) y se aplicó
un cuestionario en línea dirigido a los responsables de las Áreas Estatales de Evaluación de todo
el país que fue respondido por un total de 31 informantes de 26 entidades. La información
recuperada se incorporó también en la valoración de los criterios.
La creciente participación de diversos países latinoamericanos en las principales evaluaciones

estandarizadas internacionales ha posibilitado comparar las prácticas nacionales en la materia,
compartir experiencias, adoptar criterios de calidad relativamente homogéneos e identificar
oportunidades de mejora.
Aplicaciones 77
CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN
Selección de muestra
El marco muestral se construye a partir de la Estadística Educativa (forma 911) del ciclo escolar
anterior. Durante la validación de la muestra se detectan y subsanan las inconsistencias acerca
del número de grupos, docentes, alumnos, ubicación y demás datos requeridos para adelantar
la aplicación.
Las respuestas del cuestionario en línea, dejaron ver que para la mayoría de las entidades la actua-
lización de las bases de datos es adecuada (21 entidades de 26 que respondieron el cuestionario
afirmaron estar de acuerdo o totalmente de acuerdo con que “el nivel de actualización de las
bases de datos de escuelas y estudiantes [censo escolar, forma 911] sobre las cuales se basa el
INEE para llevar a cabo la aplicación, es adecuado”). En tres entidades los informantes estuvieron
en desacuerdo, aludiendo en un caso a la falta de actualización en cuanto a domicilios de los
planteles, claves y fusiones de escuelas dadas de baja; en otro caso, señalaron que en el periodo
establecido para validar las bases de datos aún no se cuenta con estadísticas oficiales actualizadas.
Las sugerencias de mejora que mencionaron algunos informantes en el cuestionario en línea

con respecto a las bases de datos, incluyeron: envío oportuno a las entidades para realizar el
proceso de validación; considerar la inclusión de un proceso de validación en campo; y ac-
tualizar la forma 911 de acuerdo con la información que se requiera para conformar el marco
muestral para las aplicaciones de estas pruebas.
El nivel de actualización de las bases de datos probablemente infiere con las irregularidades que
se presentan en cuanto a suficiencia de cuadernillos y correspondencia de las cajas entregadas
a las escuelas. A este respecto, en el cuestionario en línea, los informantes de la mayoría de las
entidades señalaron que no se presentaron irregularidades (22 entidades, de un total de 26).
Tres entidades afirmaron haber tenido algún tipo de eventualidad, particularmente la insuficien-
cia de cuadernillos en algunas escuelas.
Se preguntó sobre la suficiencia de cuadernillos en la última aplicación de E XCALE; la mayoría de

las entidades (23 de 26) afirmó que los cuadernillos fueron suficientes. Sólo dos entidades re-
portaron insuficiencia, en una caso faltaron cuadernillos para docentes en dos escuelas, en otro,
un cuadernillo no estaba dentro de la caja de materiales y lo encontraron en otra escuela. Estas
respuestas pueden considerarse también como un indicador de la actualización y adecuación
del proceso de validación de las bases de datos para la aplicación de esta prueba.
De acuerdo con la documentación disponible y particularmente según lo planteado en la ficha

técnica para el levantamiento de datos, la muestra de alumnos es seleccionada por el aplicador
el día de la aplicación, con base en el procedimiento y cuotas establecidas por el INEE y tenien-
do en cuenta la disponibilidad de materiales de evaluación. Con ello se simplifica la logística
de distribución de materiales, se propende por maximizar su aprovechamiento y se minimiza el
riesgo de sesgo por sobre o subaplicación.
78
Dada la importancia de la apropiada selección de la muestra de alumnos y su implicación en el
procesamiento de los resultados, es fundamental que el procedimiento de muestreo se aplique
rigurosa y consistentemente y que se lleven a cabo verificaciones técnicas aleatorias posteriores
a la aplicación
2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos
se definirán con base en argumentos teóricos defendibles.
Se revisó el diseño muestral para E XCALE 06 2013, aplicado a sexto grado de primaria en el
ciclo escolar 2012-2013. El diseño se basa en parte en el esquema utilizado para la muestra
PISA (Reporte Técnico de 2006), y está explicado con detalle en el documento “Diseño Mues-
tral E XCALE 06 2013”. El muestreo se hace siguiendo un esquema probabilístico, estratificado,
bietápico y por conglomerados, lo que asegura que los resultados de logro sean representa-
tivos a nivel nacional, por entidad y por modalidad educativa. El diseño parece ser sólido. Se
presentan evidencias de que las nuevas versiones (2013) de las pruebas tienen una precisión
comparable a los estudios internacionales como TIMSS o PISA (es decir más menos 0.10 de
error de muestreo, interpretado como 10% de la desviación estándar de la variable de interés).
Se exceptua el caso de las muestras por entidad (para matemáticas, español, formación cívica y
ética, y ciencias naturales), que tienen una precisión mucho menor (0.25 de error de muestreo),
haciendo estos resultados menos confiables. El documento argumenta que esto se hizo así por
restricciones presupuestales.
También se revisó el diseño muestral para EXCALE 09 2012, aplicado en tercer grado de secunda-
ria, en el ciclo escolar 2011-2012. El diseño es igual al descrito para EXCALE 06 2013. Se nombran
dos consultores expertos que diseñaron la muestra en E XCALE 09 2005 y E XCALE 09 2008
(Dr. Richard Wolfe) que a su vez fueron revisadas (Dr. Ignacio Méndez Ramírez). Se presentan los
márgenes de error por modalidad, los cuales parecen aceptables. Aunque no se da una referencia
o benchmark para que el lector pueda juzgar, si tomamos la referencia de precisión como 10%
de desviación estándar en la variable de interés, todos los estratos parecen contar con precisión
suficiente; hay que notar que la muestra EXCALE 09 2008 no es representativa a nivel entidad.
Sería convendría adjuntar como anexo los reportes tanto de los consultores para apoyar la idonei-
dad de la muestra, aunque el hecho de haber sido revisada por dos personas diferentes sugiere
que es sólida.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planificó.
El Programa Anual de Actividades del INEE considera la validación de la muestra, a partir de crite-
rios definidos y con la participación de los Coordinadores Estatales, labores a las que se dedican
tres semanas, luego de lo cual la dirección responsable del estudio entrega la muestra definitiva.
A partir de la información consignada en la Ficha Técnica para el Levantamiento de Datos de

E XCALE 06 2013, el promedio de escuelas en la muestra por estado es de alrededor de 180, por
lo cual se considera que el tiempo disponible para validación es suficiente.
Aplicaciones 79
Para los estados en los que la aplicación se lleva a cabo en más del doble del promedio de es-
cuelas (como en el caso de Chiapas, Oaxaca y Veracruz) se hace necesario contar con recursos
humanos, técnicos y financieros para llevar a cabo la validación apropiadamente.
Ahora bien, el día de la aplicación el aplicador obtiene los listados de asistencia directamente en
la escuela, con lo cual se asegura que el conjunto de sujetos al que se aplica la prueba coincide
con el planificado.

aceptables.
Para validar la muestra existe un procedimiento que inicia con una validación del listado de
escuelas realizado por las áreas estatales de evaluación. Estos datos incluyen nombre de la es-
cuela (CCT ), matrícula por grado, número de docentes, turno, etcétera. Las áreas de evaluación
estatales deben verificar que la información contenida en el listado turnado por los evaluadores
sea la correcta; en su caso, habrán de actualizarla o completarla. Durante la aplicación, los
evaluadores deben llenar una Acta de Aplicación en la escuela, la cual provee de validación
adicional de los datos. Con base en lo contenido en estas actas, el INEE elabora el “reporte de
aplicación de los E XCALE 06 definitiva 2013”, describe el porcentaje de escuelas que lograron
evaluarse respecto a la muestra planificada a nivel nacional, y por estrato, escuela, instrumento
y entidad federativa. Este documento es importante porque permite constatar por ejemplo, que
únicamente logró aplicarse E XCALE 06-2013 a alrededor de 83% y 86% de la muestra planifi-
cada en educación indígena y cursos comunitarios respectivamente.
tt Se documentan en detalle los pasos para la selección de la muestra.
En los manuales (Guía Didáctica del Instructor y Cuaderno de Trabajo para el Aplicador) se
describe en detalle el procedimiento a seguir para la selección de los alumnos sobre el cual
se capacita a los instructores se les capacita; la guía propone también casos específicos en los
cuales los aplicadores ejercitan el procedimiento durante la capacitación (anexos 11 y 12 de la
Guía Didáctica).
En el Cuaderno de Trabajo para el Aplicador se dedica un apartado a explicar el procedimiento

para la selección de alumnos, y a familiarizar a los aplicadores con el formato de control de
aplicación en aula.
tt Hay una verificación de la muestra por una instancia externa.
El INEE implementa una estrategia adicional para verificar la calidad del levantamiento de datos
a través de los enlaces, quienes realizan una observación de la aplicación en un centro educativo
en función de una guía de observación elaborada por la Dirección de Relaciones Nacionales y
Logística del INEE . En ella se retoman diferentes elementos del protocolo de los aplicadores,
dentro de los que se encuentra la selección de alumnos (Ver Reporte técnico de la aplicación
definitiva de los Exámenes de la Calidad y el Logro Educativos en el sexto grado de primaria
(EXCALE 06), pág. 52). En la última aplicación los enlaces reportaron 85% de apego al protocolo
con respecto a la selección de alumnos en las escuelas observadas.
80
tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.
Como se mencionó en el criterio anterior, el INEE implementa diferentes estrategias de asegura-

miento de la calidad, dentro de las que se incluye la verificación de la selección de los alumnos a
través de la observación que hacen los enlaces de acuerdo con el procedimiento especificado en
el protocolo para los aplicadores. Los coordinadores regionales, nombrados por los coordinado-
res estatales, también supervisan la aplicación de los instrumentos en las regiones definidas por
cada entidad federativa. Al finalizar la aplicación, y cuando los enlaces del INEE se encuentran
aún en la entidad, realizan una entrevista al responsable del Área Estatal de Evaluación sobre la
validación de la muestra y otros elementos del proceso de la aplicación de la prueba.
PLANEACIÓN DE LAS APLICACIONES
5. Se planifican todos los puntos necesarios para hacer la aplicación de manera estan-
darizada, con formas y materiales que aseguren comparabilidad de los datos.
En el documento “Estrategia Operativa” se consigna la información acerca de los diversos acto-

res del proceso así como las fechas en que deben adelantarse las labores necesarias para llevar
a cabo la aplicación en los términos previstos.
Dada la diversidad y extensión del país hay aspectos de la estrategia operativa que pueden
variar entre estados, no obstante contar con una estructura unívoca facilita el control y optimi-
zación del proceso.
tt Hay manuales de aplicación, probados en campo, que precisen las actividades a desarrollar
por cada participante; se describen las variaciones aceptables.
Se incluyen documentos diferenciados para los participantes. A los coordinadores estatales,

coordinadores regionales, directores, docentes, y alumnos, se les entregan folletos en los que
se precisan las actividades correspondientes a cada rol; a los instructores, una guía impresa de
126 páginas que describe las funciones que tendrán que realizar y cómo se enmarcan dentro
de la estrategia de capacitación del INEE , además, explica el taller que deberán desarrollar para
los aplicadores, precisando las actividades a desarrollar, orientaciones estandarizadas para su
desarrollo y los materiales que utilizarán. A los aplicadores se entrega un cuaderno con una
extensión de 80 páginas para el taller del aplicador; en él se describen las diferentes actividades
que tendrán que realizar; el proceso de selección de alumnos; indicaciones para el llenado de
los formatos de control; y las instrucciones a comunicar durante la aplicación.
En el Reporte Técnico de la Aplicación de E XCALE 06 realizada en 2013, se incluyen algunas

observaciones a estos materiales y al proceso de capacitación. Se sugiere, por ejemplo: enfatizar
el llenado de formatos de control, reducir el tiempo que se dedica a aspectos teóricos y ampliar
el tiempo dedicado a aspectos operativos, asegurar que el tiempo sea suficiente para la reali-
zación de todas las actividades, y desarrollar un apartado específico sobre las actividades del
coordinador regional. También se señala que proceso de capacitación es repetitivo; se sugiere
hacerlo más sencillo y práctico, y repensar la estrategia de capacitación en cascada.
Aplicaciones 81
En cuanto a los aplicadores, se observa que el tiempo de capacitación es repetitivo, extenso y
apresurado; en particular, parece necesario reforzar el proceso de selección de alumnos.
En el cuestionario en línea aplicado a los responsables de las Áreas Estatales de Evaluación se

sugirieron las siguientes mejoras a los manuales: simplificar los manuales evitando repeticiones;
facilitar su manejo; precisar los responsables de cada una de las actividades; incluir materiales
adicionales para autoridades educativas y estructura de inspectores o supervisores escolares; en-
tregar manuales oportunamente; simplificar formatos, enfatizar el proceso de llenado; y enfatizar
la importancia de la seguridad de materiales.
Si bien los documentos provistos son claros, podría considerarse simplificarlos e incorporar
materiales adicionales a los impresos tales como videos que describan las diferentes actividades
a desarrollar.
El tamaño de la muestra permite asumir que la implementación de variaciones no aceptables

por desconocimiento es marginal. No obstante lo anterior, mejoras en diagramación e incorpo-
rar más gráficas podrían apoyar la estandarización de los procesos de aplicación. En tal sentido,
se ha provisto a la coordinación del estudio de algunos ejemplos de manuales con mayor com-
ponente gráfico, como una posible referencia.
La documentación provista incluye cronogramas detallados de todo el proceso. Adicionalmen-

te, se cuenta con instructivos específicos para cada actor de E XCALE, que incluyen las fechas en
que deben llevar a cabo los diversos puntos clave del proyecto.
Es particularmente detallada la “Información para el enlace”, que incorpora las actividades que
deben realizar quienes ejerzan dicha función durante las últimas tres semanas anteriores a la
aplicación y hasta dos semanas después, culminando con la retroalimentación.
tt Seidentifica a personal de las escuelas que tendrán que ver con la aplicación (directores,
maestros) para contar con su cooperación.
Los compromisos de cada actor del proceso se establecen y comunican oportunamente. Tenien-
do en cuenta que la aplicación está a cargo de un aplicador externo a la escuela y que incluye
hasta 35 alumnos, la cooperación de directores y maestros el día de la aplicación se reduce
fundamentalmente a asignar el espacio para llevarla a cabo, proveer los listados de asistencia
de alumnos y gestionar cuestionarios de contexto.
tt Se precisan requisitos de confidencialidad y seguridad de materiales y respuestas.
En la guía didáctica para el instructor se precisa que una de las competencias a desarrollar en los
aplicadores es la de “[u]tilizar adecuadamente los formatos de control para la administración y
seguridad de los instrumentos de evaluación”; en el manual también se describe la importancia
de la seguridad de los materiales para lograr el cumplimiento de la prueba. Se enfatiza a los apli-
cadores que dada la confidencialidad de los materiales, no puede permitirse su reproducción
total o parcial, y se desarrollan procedimientos para revisar los materiales al momento de la re-
cepción y el cierre de la aplicación. También se les entregan los materiales el día de la aplicación;
en ese momento deben contarlos y contrastar las cantidades con respecto a lo estipulado en sus
cajas; también registran el estado de los materiales y si existe algún tipo de irregularidades. Los
instrumentos se colocan en una bolsa sellada que será abierta hasta el día de la aplicación frente
82
al director de la escuela. Al cierre de la aplicación tienen que registrar los instrumentos aplicados
y no aplicados, verificar cantidades, y sellar nuevamente la bolsa que los contendrá para su de-
volución al coordinador estatal o regional, quien posteriormente los entregará al INEE . Durante
la capacitación se pide a los aplicadores que se aseguren de no dejar ningún material fuera de la
caja, y lo mismo al cierre de la aplicación. Se considera que el hecho de que los aplicadores sean
los encargados de portar los materiales a las escuelas y de regreso a los coordinadores estatales
o regionales puede representar un riesgo para la seguridad de los materiales. Por ejemplo: en
el anexo 3 del Reporte Técnico de la Aplicación de EXCALE 06 llevada a cabo en el 2013, se
reportó que en una escuela no permitieron la aplicación y le quitaron al aplicador la caja con
todos los materiales; otros aplicadores enfrentaron dificultades para acceder a las escuelas, por
inseguridad social, mal estado del camino, o falta de transporte; este tipo de situaciones pone
en riesgo la seguridad y confidencialidad de los materiales.
Por otro lado, en el documento “Especificaciones de impresión, empaquetado y distribución

de materiales” se establecen los requisitos para la imprenta. A efectos de asegurar la calidad
de los materiales, se hacen exigibles pruebas de contenido, de encuadernado, de marcas para
digitalización y lectura óptica, de asignación e impresión variable y de empaquetado.
Dentro de la documentación disponible, no se encontraron referencias explícitas a las caracterís-

ticas de seguridad de la imprenta, los medios de transporte y almacenamiento de los materiales
de evaluación.
Por otra parte, amerita reconsideración que la imprenta sea la encargada del ensamble de las
formas a partir de los bloques de ítems, por asuntos seguridad y competencia. Se sugiere ana-
lizar la viabilidad de que todos los cuadernillos, cuestionarios, manuales y hojas de respuestas
salgan del INEE diagramados y verificados en versión final para impresión y que la imprenta se
circunscriba a la reproducción de las cantidades que se le especifiquen por cada tipo de mate-
rial, manteniéndose la supervisión directa del INEE antes, durante y después de la impresión,
asegurando la destrucción de originales, muestras y sobrantes, así como la apropiada disposi-
ción de materiales para archivo.
Aunque E XCALE no genera resultados individuales ni por escuela, lo cual restringe sustancial-
mente su atractivo para fines ilícitos, es conveniente determinar técnicamente si se han presen-
tado brechas de seguridad y en todo caso, fortalecer las medidas que aseguren la cadena de
custodia de los materiales, de manera que se mitiguen eventuales perturbaciones internas o
externas que pudieran afectar la pureza de los resultados.
De igual manera, y teniendo en cuenta la escala de la aplicación, podría considerarse disponer

de un operativo de distribución y recolección de materiales desde y hacia cada escuela directa-
mente, sin almacenamientos intermedios. Si bien esto tiene costos adicionales, reduce tiempos
y eleva de manera importante la integridad de los materiales antes, durante y después de la
aplicación.
tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación y las
incidencias que se puedan presentar.
Se cuenta con diagramas y explicaciones suficientes acerca de cada paso de la aplicación. Igual-
mente se dispone de formatos apropiados para presentar los respectivos informes.
Aplicaciones 83
El documento “Cuaderno de Trabajo del Aplicador” es particularmente detallado e incluye
descripción y ejemplos del procedimiento de selección de la muestra de alumnos en la escuela,
punto neurálgico del proyecto el día de la aplicación.
El texto es extenso pero mantiene su intención didáctica, a la vez que provee indicaciones claras
y completas.
tt Hay procedimientos de aseguramiento de la calidad de la aplicación.
Las funciones de cada actor del proceso y particularmente del aplicador apuntan a asegurar la
calidad de la aplicación. Los procedimientos son suficientemente detallados antes, durante y
después de ella y considerando su tamaño, no se advierten riesgos mayores.
No se encontraron referencias explícitas a normas de calidad externas nacionales o internacio-

nales que si bien no son un requisito, podrían contribuir a elevar el nivel de estandarización de
los procedimientos, en busca de aplicaciones cada vez de mayor calidad.
SELECCIÓN Y CAPACITACIÓN DEL PERSONAL DE APLICACIÓN
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
lección de datos, en todos los niveles.
tt Hay criterios para reclutar y entrenar aplicadores y apoyos.
En el documento “Estrategia General de Capacitación” se establecen los roles y perfiles para

formar parte de E XCALE . En general se requiere por lo menos contar con título de licenciatura y
tener experiencia acorde con la responsabilidad asignada, lo cual se considera suficiente.
tt Se recluta y capacita a suficiente personal de reemplazo.
No se cuenta con información específica sobre este criterio. Para el caso de E XCALE 06 2013 se
brindó capacitación a alrededor de 6 mil personas que proveyeron los servicios asociados a la
aplicación a alrededor de 80 mil estudiantes, por lo cual se infiere que se capacitó al personal
requerido más el de reemplazo para eventualidades.
No obstante lo anterior, es recomendable que se establezca explícitamente la tasa de personal

de reemplazo y que se vele por su cumplimiento ante eventualidades.
tt La capacitación incluye oportunidad de practicar con los instrumentos.
Los instructivos para el aplicador así como otros documentos utilizados para la capacitación in-
cluyen las carátulas de los instrumentos de evaluación y los formatos de control de la aplicación,
de manera que los aplicadores conocen con suficiente detalle y antelación los materiales con los
cuales conducirán la aplicación.
84
Durante las sesiones de capacitación, se incluyen actividades en las que los aplicadores revi-
san los materiales que llevarán a las escuelas para familiarizarse con ellos y cerciorase de que
estén todos los cuadernillos y otros materiales necesarios para la aplicación. La formación de
capacitadores o el entrenamiento del personal que asegurará la calidad del proceso se maneja
centralmente o, en todo caso, se cuida su adecuado funcionamiento.
Hay previsiones de orden general acerca de la estructura y contenido de la capacitación para cada
actor del proceso. La implementación de la estrategia puede tener particularidades por estado,
pero se desarrolla bajo parámetros, cronogramas y procedimientos establecidos por el INEE ,
lo cual propende por la efectividad y estandarización del entrenamiento para todo el personal.
tt Se llevan registros de las sesiones de entrenamiento de aplicadores.
Las sesiones de entrenamiento incluyen trabajo práctico y una minuciosa evaluación del taller,
incluyendo la valoración por parte de los asistentes del instructor, de sí mismos, de los materia-
les y procedimientos, entre otros.
Igualmente, el reporte técnico de la aplicación da cuenta de hallazgos, sugerencias y recomen-

daciones, cuya consideración permitiría cualificar diversos procesos.
tt Se monitorean las actividades en campo por personal de la instancia central y/o externo,
y se registran problemas detectados.
El enlace funge como monitor externo de la aplicación en una escuela de su jurisdicción y

presenta su reporte como parte del “Tercer Informe Semanal del enlace” ante el INEE .
tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la

experiencia del personal en campo.
Según la documentación disponible, se cuenta con información suficiente para retroalimentar

el proyecto luego de cada aplicación.
A NÁLISIS DEL CUMPLIMIENTO DE LOS CRITERIOS DE VALIDEZ

ANTES DE LA APLICACIÓN
Se encontró información suficiente para sustentar todas las otras etapas clave del proceso, se-
gún como está planteado en los criterios de validez.
Se sugiere hacer explícitas las condiciones de seguridad aplicables a la imprenta y a los centros
intermedios de distribución así como la tasa de personal de reemplazo.
Por otra parte, podría analizarse la viabilidad financiera y logística de contar con un operador
para la distribución de los materiales directamente desde la imprenta hasta la escuela y su
posterior recolección y retorno al INEE , a efectos de obviar instancias intermedias y optimizar la
cadena de custodia de los instrumentos de evaluación antes, durante y después de la aplicación.
Aplicaciones 85
CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN
Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de con-

texto para que no sea excesiva tomando en cuenta los sujetos.
tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean
realistas y aceptables.
En el Plan General de Evaluación del Aprendizaje del INEE se establecen las fases técnicas del
diseño, construcción, aplicación y validación de los E XCALE, incluyendo el piloteo de reactivos y
cuestionarios de contexto, como insumo para seleccionar los reactivos que pasan a la aplicación
final, en bloques y formas dispuestas para lograr los fines de la evaluación.
En el cuestionario en línea, se preguntó sobre la suficiencia del tiempo estipulado para que los
alumnos dieran respuesta a los cuadernillos. Esta pregunta fue respondida por informantes
de 24 entidades; todos señalaron estar de acuerdo en la suficiencia del tiempo asignado para
responder los E XCALE . Éste puede ser un indicador de que, de acuerdo a la experiencia de las
Áreas Estatales de Evaluación, la carga es realista para los alumnos.
tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-

do minimizar la carga para los sujetos.
Los procedimientos que deben seguir los alumnos son simples y se encuentran apropiadamente
estandarizados.
tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden
obtener de otras fuentes.
Los cuestionarios están integrados a los cuadernillos en un solo instrumento de evaluación.

Se indaga por las características personales de los alumnos y de su entorno escolar y fa-
miliar, incluyendo temas como: aspiraciones educativas, capital económico, estratificación
socio-ocupacional, estructura familiar y relacionamiento social y educativo, etnicidad, trabajo
infantil, capital cultural, necesidades especiales, rutinas escolares, estrategias de aprendizaje
y trayectoria escolar que sólo pueden ser obtenidos a partir de la aplicación del cuestionario
de contexto.
Dado que se aplican más de 100 ítems tanto para estudiantes de primaria como de secundaria,
es conveniente reconsiderar la extensión y alcance de los cuestionarios, en función del uso real
de la información que se obtiene a través de ellos.
tt Se agenda la aplicación en horarios convenientes para los sujetos.
La aplicación se lleva a cabo durante la jornada escolar y se anuncia a todos los actores del
proceso con antelación suficiente y por diversos medios.
86
8. Se busca motivar a los sujetos para que no respondan las preguntas de la prueba
a la ligera.
tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio
y cómo se utilizarán sus datos.
En el instructivo para los alumnos se les anima a presentar la prueba haciendo su mejor esfuer-
zo para responder correctamente. La información se brinda en lenguaje claro y en un formato
apropiado para los estudiantes.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a respon-

der a la prueba y se entrena al personal de aplicación para seguirlos.
No se encontró en los documentos sobre aplicación y capacitación de los aplicadores informa-

ción sobre como deberán lidiar con alumnos que rechacen responder a la prueba.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-
de y se entrena al personal de aplicación para seguirlos.
En el Cuaderno de Trabajo para el Aplicador se encontraron las siguientes medidas que ayudan
a prevenir la copia entre estudiantes: se hace una selección aleatoria de estudiantes entre los di-
ferentes grupos del grado a evaluar; se acomoda a los alumnos dentro del salón considerando el
orden en que aparecen en la lista (por lo general, alfabéticamente); se solicita a los aplicadores
que digan a los alumnos que no está permitido hablar entre ellos mientras trabajan en el cua-
dernillo; se pide a los aplicadores que durante la aplicación caminen entre las filas. Convendría
complementar estas indicaciones con medidas para el manejo de aparatos tecnológicos que
podrían poner en riesgo la seguridad de los materiales y promover la transmisión, recepción o
copia de información de la prueba.
Es importante señalar que en el Cuaderno de Trabajo para el Aplicador no se dan orientaciones

para detectar comportamientos de copia y otras formas de fraude. Convendría que se añadie-
ran y que la capacitación incluyera también actividades para desarrollar esta competencia.
Por otro lado, en cuanto al tratamiento de la información, no se encontraron referencias a la

aplicación de algoritmos para identificación de copia. Aunque el diseño matricial de la prueba
y su característica de low stakes lleva a pensar que la copia entre estudiantes no puede darse
(por diseño), sería bueno contar con un análisis sobre patrones de respuesta que se salen de lo
normal (por ejemplo 100% de respuestas correctas en un mismo centro, o porcentaje de res-
puestas por encima de lo normal o de lo pronosticado para determinado aplicador). El manual
de procesamiento inicial de datos incluye una descripción de los trenes de respuesta que son
eliminados por ser casi imposible que se puedan generar, o bien, que no fueron contestados
(todas en cero), o que se contestaron menos de la mitad de las preguntas. Los casos que son
sujetos a eliminación son analizados por personal especializado del INEE .
Aplicaciones 87
PROCEDIMIENTOS DE CONTROL DE CALIDAD EN LAS APLICACIONES

tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,
observando la recolección de datos en un subconjunto de los sitios.
Los enlaces ejercen como monitores externos y deben presentar un informe de observación a la
aplicación de E XCALE en una escuela de su zona.
En el cuestionario en línea se preguntó a los informantes acerca de su grado de acuerdo con

la siguiente afirmación: “la supervisión externa durante la aplicación fue adecuada”. De las 26
entidades que dieron respuesta al cuestionario, 24 informantes de señalaron estar de acuerdo
con la afirmación; los dos restantes estuvieron en desacuerdo y señalaron que la supervisión
fue mínima y sin registros.
Algunas de las sugerencias que dieron para la mejora del proceso de monitoreo fueron: incluir
recursos para que las Áreas Estatales de Evaluación cuenten con monitores regionales para su-
pervisar la aplicación y establecer la visita de observadores externos acreditados.
tt Sino es viable, se hacen entrevistas presenciales o por teléfono de control de calidad con
aplicadores y demás personal involucrado en la aplicación.
El control de calidad de la aplicación se apoya en la gestión de reportes escritos por parte del
personal involucrado; además, al finalizar la aplicación, los enlaces deben realizar una entrevista
a los responsables de las Áreas Estatales de Evaluación, para identificar fortalezas y debilidades
del proceso. De acuerdo con la información disponible, aunque se realizan capacitaciones in-
tensas al personal de aplicación, se encuentra que en más de 40% de los estados, el apego al
protocolo de aplicación es inferior a 70%.
Es conveniente aprovechar la experiencia de los estados en los que se lograron los mayores por-
centajes de apego a los procedimientos, identificar los factores que coadyuvaron a tal éxito y a
partir de dicha información, resaltar las mejores prácticas y hacerlas replicables en los estados
en los que se presentaron mayores desviaciones en la aplicación del protocolo previsto.
tt Se hace revisión de control de calidad en una muestra aleatoria de los datos recolectados
para asegurar que se hayan llenado completa y correctamente.
Se controla la gestión de los materiales y se llevan estadísticas acerca de las novedades que se
encuentran.
tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las
actividades y para identificar y corregir las causas de problemas de calidad.
Se documenta cada etapa del proceso previo a la aplicación, se identifican los problemas pre-
sentados y las soluciones implementadas, con lo cual se hace posible la cualificación del proceso
y la adopción de mejores prácticas incrementales en el tiempo.
88
A NÁLISIS DEL CUMPLIMIENTO DE LOS CRITERIOS
DE VALIDEZ DURANTE LA APLICACIÓN
Se encontró información suficiente para sustentar todas las otras etapas clave del proceso, se-
gún como está planteado en los criterios de validez.
Los procedimientos de control de calidad en las aplicaciones están previamente establecidos y

se instruye a los diversos actores para su apropiada implementación.
La documentación disponible apoya la creciente estandarización de las aplicaciones. Contando

con mayores facilidades tecnológicas para la captura de la información en la fuente, podrían
reducirse los tiempos asociados a los diversos procesos, facilitándose la comparación directa de
variables operativas entre aplicaciones.
CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN
Preparación del procesamiento de los datos
12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según
normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-
maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas
no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.
Existe un manual que detalla aspectos para el procesamiento inicial de las bases de datos, tales
como la forma de verificar que los archivos entregados sean los correctos, así como comprobar
que las variables sean las adecuadas y estén en el tipo y ancho indicado, etcétera. Este procedi-
miento genera una lista de errores para envío a la dirección de informática.
También detalla cómo inspeccionar visualmente la muestra (se solicitan tres cuadernillos para
inspección visual); cómo calcular las variables de tren de respuestas siguiendo los cálculos del
diseño matricial, y como eliminar casos raros o improbables. Al final se explica que hay que
convertir todo a SPSS y aplicar los formatos apropiados.
13. Se cuenta con personal calificado para el manejo de los datos y se le entrena en todos
los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos
aceptados para manejar datos y que comprende la importancia de recolectar y captu-
rar la información con el cuidado necesario para que los análisis posteriores se hagan
sobre información de la mejor calidad posible.
No se encontró información al respecto.
concentran los resultados de la aplicación. Se asegura que:
Aplicaciones 89
tt La estructura de los datos se apegue a la de los instrumentos.
Los procedimientos que permiten asegurar que la estructura de los datos se apegue a la de los
instrumentos se detallan en el manual inicial de procesamiento de datos.
tt Los datos tengan suficientes redundancias para permitir control de calidad.
Los procedimientos se detallan en el manual inicial de procesamiento de datos.
tt Las bases tengan identificadores únicos consistentes para que alumnos y escuelas y, en su
caso, maestros o directores, puedan relacionarse.
Dado que la aplicación de la prueba es matricial, no existen identificadores por alumno,

únicamente con escuela, los cuales se asegura sean únicos y consistentes (ver manual inicial
de procesamiento de datos).
tt Selleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar
que se cumplan los puntos anteriores.
Se cumple este criterio, como se detalló en el punto anterior.
tt Se documenten todas las actividades de preparación de datos.
Se definen procedimientos para documentar todas las actividades de preparación de datos; esta
información está en documentos como el Manual inicial de procesamiento, y las Especificacio-
nes de Lectura de las hojas de respuesta de las pruebas.
PROCESAMIENTO Y VERIFICACIÓN DE LOS DATOS
15. Se cuenta con procedimientos para asegurar que la lectura de las respuestas y todos
los pasos del procesamiento y verificación de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática para
garantizar la confiabilidad del proceso.
Se utilizan instrumentos extra para ser leídos y verificar que todas las marcas son identificadas
de acuerdo con la codificación (Informática, Reporte final, 2012). Se lleva a cabo además un
proceso de revisión de folios y duplicados. En caso de encontrarse problemas en registros, se
revisan contra el cuadernillo y se procesan nuevamente. Existe un proceso para identificar y
corregir duplicados cuando se considere necesario. También existe un proceso para lidiar con
valores faltantes y codificarlos de forma adecuada.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-
plan los estándares en todos los sitios.
90
Este criterio no aplica dado que la lectura de los datos se realiza completamente en el INEE .
tt Se revisa que la estructura de bases se apegue a la acordada; las variables estén en rangos
válidos; los identificadores sean únicos e íntegros.
El documento sobre procedimientos de lectura (por ejemplo “E XCALE 2006 Especificaciones de

Lectura 2ª. Parte” detalla cómo deberán capturarse los códigos y variables. El documento “Ma-
nual para el procesamiento inicial de bases de datos” especifica cómo debe llevarse a cabo la
verificación de las bases de datos, tamaño de las variables, etcétera para apegarse a las especifi-
caciones y a los instrumentos. Hay programas diseñados expresamente para extraer la informa-
ción de lectura en el formato correspondiente, los cuales se detallan en los manuales de lectura.
tt Se contrastan archivos de datos con instrumentos y cuestionarios.
Se hacen diversos contrastes y el reporte de informática final describe que se revisa 100% de
los cuadernillos.
tt Se calculan estadísticas analíticas para cada ítem.
Se presentan análisis psicométricos realizados para cada ítem de las pruebas.
tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya valores
extremos o faltantes; si hay se reportan para revisión.
Se presentan análisis psicométricos realizados para cada ítem de las pruebas. Estos incluyen
información sobre cantidad de alumnos que contestaron el reactivo, alumnos por tipo de res-
puestas, respuestas múltiples, respuestas omitidas, y ajuste al modelo IRT.
tt Se documentan todos los pasos del proceso.
El procedimiento de análisis de los datos y verificación se documenta en diversos manuales y

reportes incluyendo el reporte final de informática, el reporte de validación de la muestra y los
análisis psicométricos.
NOTIFICACIÓN DE IRREGULARIDADES
16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los
datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser
aprobada y documentada.
En el Reporte Técnico se consolida toda la información proveniente de las distintas etapas del
proceso, desde la verificación de la muestra hasta el procesamiento de resultados y se presen-
tan datos específicos acerca de las eventualidades presentadas. Durante la aplicación, los apli-
cadores, coordinadores regionales, directores de escuela e instructores regionales reportaron
novedades, consolidadas por los enlaces en el formato “Registro de incidencias y consultas”,
Aplicaciones 91
a partir de lo cual la coordinación del estudio cuenta con los elementos requeridos para tomar
las decisiones del caso.
A NÁLISIS DEL CUMPLIMIENTO DE CRITERIOS DE VALIDEZ

DESPUÉS DE LA APLICACIÓN.
Se encontró información suficiente para sustentar el cumplimiento de los criterios de validez en

esta etapa del proceso, a excepción de lo relativo al personal a cargo del procesamiento
de resultados.
Por otra parte, se considera que se cuenta con suficiente información e indicadores acerca de
la aplicación, que podría ser aprovechada para elevar la calidad de la implementación en los
siguientes ciclos.
CONCLUSIÓN GENERAL
La verificación de la muestra de escuelas es fundamental para asegurar la calidad de E XCALE . Se

cuenta con las previsiones del caso para obtener los datos básicos de cada escuela participante
y el archivo resultante se remite vía correo electrónico al INEE al culminar el proceso. Dada la
importancia de la validación se sugiere contar con un sistema de información en línea que
capture directamente los datos verificados por el coordinador estatal y los deje disponibles en
infraestructura del INEE .
En general el diseño de la muestra parece sólido y hay verificaciones externas en varios puntos
del proceso para asegurar que concuerde con la muestra planificada.
Las decisiones sobre el diseño muestral de E XCALE deberán ser revisadas a la luz de las decisio-
nes que se tomen en el Sistema Educativo Mexicano, pues si se deseara que fueran utilizadas
como un insumo para la toma de decisiones en las entidades federativas, será necesario que se
asegure que tengan representatividad estadística a ese nivel.
Las funciones de cada actor del proceso y particularmente del aplicador apuntan a asegurar la
calidad de la aplicación. Los procedimientos son suficientemente detallados antes, durante
y después de ella y considerando su tamaño, no se advierten riesgos mayores.
En la parte de procesamiento de datos y verificación de la calidad existe un proceso documen-

tado, con reportes de la estadística descriptiva para conocer el resultado de cada ítem (análisis
psicométrico), reportes sobre verificaciones de datos (duplicados, omisión de respuesta, valores
permitidos, folios y revisiones) e incidencias reportadas durante los procesos de empaque y
recepción, así como un listado completo de incidencias.
El control de la aplicación y la toma de decisiones acerca de ella podría optimizarse mediante la

adopción de tecnologías que permitan contar con información en línea que proceda de manera
92
directa la fuente, antes, durante y después de la aplicación, manteniendo soportes impresos o
correos electrónicos como mecanismos alternos para casos de carencia de infraestructura.
Dada la escala de la aplicación, podría analizarse la viabilidad financiera y logística de contar

con un operador para distribuir directamente los materiales desde la imprenta hasta la escuela
y para su posterior recolección y retorno al INEE , a efectos de obviar instancias intermedias y
optimizar la cadena de custodia de los instrumentos de evaluación antes, durante y después de
la aplicación.
Aplicaciones 93
5 Usos y Consecuencias
OBJETIVO Y MARCO CONCEPTUAL
En este apartado se presentan los resultados de un análisis detallado de la evidencia

disponible relativa a los usos y consecuencias de la prueba E XCALE (Exámenes de la Calidad y el
Logro Educativos), frecuentemente denominado en la literatura especializada como análisis de
validez consecuencial. Se busca revisar evidencia de que se dan los usos apropiados previstos
a los resultados de la prueba, que estos están teniendo los efectos y consecuencias previstas y
que, por el contrario, no se están dando usos inapropiados que conlleven consecuencias nega-
tivas. La noción de validez relativa a usos y consecuencias de las pruebas combina un amplio
rango de consideraciones teóricas, psicométricas, y prácticas; su aplicación (en general o en
casos particulares) es un tema en constante evolución que se discute activamente en la literatura
especializada (Lissitz, 2009).
En este trabajo se conceptualiza la validez consecuencial de manera amplia, y no ceñida a un

modelo de medición particular. Esto se refleja en el convenio de ejecución entre INEE y UA A
que incluye en este apartado la forma en que se difunden los resultados de las pruebas, los
análisis de factores asociados y el uso que se hace de dichos resultados, así como las conse-
cuencias que ha traído consigo su utilización en el sistema educativo mexicano1. Dado que
este estudio se conceptualiza primordialmente desde la perspectiva de la política educativa,
se considera que el uso de la prueba determina directamente su significado y consecuencias
(Welner, 2013), sin importar necesariamente si esto corresponde a la definición psicométrica
especifica de validez. Sin embargo, es importante diferenciar la evaluación que se busca aquí
del uso de un instrumento en el contexto de una política educativa, de la evaluación general
del impacto social de esta política en un sentido amplio, que este estudio no pretende abordar.
CRITERIOS DE VALORACIÓN
Al inicio de este proyecto el comité estableció una serie de criterios técnicos para guiar la evalua-
ción de las pruebas ENLACE y E XCALE, basados principalmente en los estándares de AERA , APA
y NCME (1999) que ofrecen los lineamientos técnicos y profesionales en evaluación educativa
más establecidos a nivel internacional. Además se incluyeron elementos de tres fuentes: los
estándares del Educational Testing Service (2000) que atienden lo relativo a equidad y conse-
1
El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico
para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del
individuo que pertenecen al tema de validez de constructo.
94
cuencias (Standards for Quality and Fairness); los del Centro Nacional de Evaluación para la Edu-
cación Superior de México (2000), que incluyen la comunicación de resultados y la capacidad
de interpretación; y una publicación del Banco Mundial que considera factores que inciden en
distintos tipos de usos (Kellaghan, Greaney y Scott Murray, 2009).
De estas fuentes se sintetizó una serie de once criterios que se engloban en cuatro aspectos de
validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos y consecuen-
cias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3) Comunicación que
facilite la buena interpretación de los resultados; y, 4) Interpretaciones, usos y consecuencias
imprevistas.
Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias
A. Justificación de interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias
previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.
2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.
B. Acceso equitativo y capacidad de interpretación y uso
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión
y acceso para todas las partes involucradas sin discriminación.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación
y utilización de los resultados.
C. Comunicación que facilite la buena interpretación de los resultados
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir,
y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación
deseable (o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje
claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil
y características de la población de referencia.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones
y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles
de agregación. Se usan categorías precisas que no den lugar a estigma.
D. Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever
todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas,
o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado.
Si estos usos persisten, se informa a los usuarios y se intenta tomar acciones correctivas.
Fuente: Adaptado de AERA /APA / NCME (1999), ETS (2000), CENEVAL (2000)
Es evidente que, aunque estos criterios reflejan aspectos concretos de calidad técnica de la
prueba, a diferencia de aspectos psicométricos u operativos, estos no pueden evaluarse direc-
tamente en términos cuantitativos o en cierta manera, objetivos o exactos.
Por el contrario, la evaluación de criterios aquí requiere juicios cualitativos graduales basados
en evidencia teórica y empírica de muy diverso tipo y origen, no siempre observable de manera
directa o confiable. El grado y naturaleza de evidencia necesaria, se concibe siempre en referen-
cia al uso o usos específicos propuestos, dentro del contexto particular del sistema educativo
en que estos ocurren. Esto es importante porque, aunque el marco conceptual que presenta
la Tabla 5.1 es pertinente en general para cualquier prueba o evaluación, en la práctica la rele-
Usos y consecuencias 95
vancia de cada criterio puede variar considerablemente dependiendo del uso y objetivo de cada
prueba (AERA , APA , NCME , 1999). Por lo tanto, el grado, nivel, y enfoque del análisis técnico,
será necesariamente diferente en el caso de una prueba de alto impacto que puede tener
consecuencias serias para los sujetos e instituciones implicadas (como fue el caso de ENLACE),
que en una prueba diagnóstica que reporta solo resultados agregados a nivel estatal y no tiene
consecuencias para los actores involucrados (como es el caso de E XCALE). Así, algunos criterios
que adquirieron gran relevancia en el caso de ENLACE , no son relevantes para E XCALE, o no es
posible abordarlos con evidencia o grado de especificidad comparables.
La evaluación de usos y consecuencias no propuestas o imprevistas de una prueba es aún

más compleja porque estos aspectos con frecuencia están fuera del control del desarrollador o
usuarios principales, y se rigen por motivaciones y criterios distintos a los técnicos o educativos.
Comparado con ENLACE , en el caso de E XCALE podría esperarse en principio un menor riesgo
de usos injustificados, dado su diseño matricial que no reporta resultados o tiene consecuencias
directas para estudiantes, maestros, o escuelas. Aun así es importante dar seguimiento a los
usos de la prueba de forma amplia para asegurar que en la práctica éstos no se distorsionen y
se aparten de los previstos o deseables.
Es importante señalar que nuestro reporte no busca ofrecer un juicio cualitativo sobre el valor o
mérito de los diversos usos propuestos o posibles de E XCALE, o su idoneidad en un sentido edu-
cativo y social más amplio. La distinción entre usos previstos e imprevistos es en cambio nece-
saria por motivos prácticos y técnicos, al permitir delinear las responsabilidades de diseñadores,
desarrolladores, y usuarios de la prueba. En principio los desarrolladores son responsables antes
que nada de aquellos usos que ellos mismos han propuesto para la prueba. Sin embargo, como
se verá más delante, la literatura sugiere que también existe un cierto grado de responsabilidad
en la prevención, detección y corrección de usos que se consideren injustificados o inadecuados
por distintos tipos de usuarios, estén o no entre los inicialmente previstos.
F UENTES DE EVIDENCIA Y ANÁLISIS
Los once criterios de valoración que se presentan en la Tabla 5.1 proveen el marco conceptual
para el análisis de los aspectos teóricos, psicométricos, y prácticos de E XCALE, sus usos previstos
e imprevistos, y las consecuencias que de éstos se derivan. Evaluar estos aspectos de validez
requiere de información y evidencia de muy diversos tipos y fuentes, que normalmente no están
disponibles en forma sintética en ningún documento o base de datos.
El grado en que E XCALE se usa en las formas previstas y produce los resultados esperados no
puede establecerse directamente con algún análisis estadístico o psicométrico, sino que requie-
re recolectar y sintetizar fuentes de información de distinto tipo y origen.
Este estudio ofrece una síntesis cualitativa que refleja la evidencia disponible de múltiples fuen-
tes, respecto a los criterios de valoración propuestos. Para su elaboración se revisó la totalidad
de los manuales y otra documentación que acompaña a E XCALE, así como otros textos, trabajos,
estudios, y literatura adicional tanto del INEE como de otras fuentes. Dada la naturaleza de las
preguntas de esta sección —y ciertas limitaciones en la información disponible que documenta
usos y consecuencias de E XCALE —, se buscó además enriquecer el análisis con información
96
proporcionada directamente por actores involucrados en el uso de resultados de la prueba.
En particular, el equipo de investigación de la UAA recogió información de tres fuentes adicionales:
1) Encuesta nacional de actores involucrados en la administración y uso de las pruebas

E XCALE en cada localidad.
2) Entrevistas a profundidad con autoridades y personal involucrado en el uso de resulta-
dos de las pruebas EXCALE en una muestra de diez estados y a nivel federal en depen-
dencias de la Secretaria de Educación Pública.
3) Búsqueda estructurada utilizando herramientas Google y Google Scholar para iden-
tificar evidencia sobre usos y consecuencias previstas e imprevistas, con base en una
revisión de cobertura en prensa, grupos y organismos de la sociedad civil.
La Tabla 5.2 sintetiza las fuentes de información que sirven de base para nuestro análisis, orga-
nizadas según los criterios de valoración ofrecidos en la Tabla 5.1.
Tabla 5.2 Fuentes y tipos de evidencia empleadas por criterio de valoración
Criterio Tipo de evidencia
A. Interpretaciones, usos y consecuencias previstas

t Plan General de Evaluación del Aprendizaje 2009
t Estudios especiales realizados por INEE (ver publicaciones en página web INEE )
1. Evidencia y respaldo t Estudios no realizados por INEE
2. Monitoreo t Encuesta y entrevistas con personal de entidades
t Estadísticas de acceso a Explorador EXCALE, Corpus EXCALE, y bases de datos
B. Acceso equitativo, y capacidad de interpretación y uso
t Manual técnico EXCALE 2005/2009
t Talleres de actualización y uso para política educativa estatal y federal, prensa, otros
3. Reporte / acceso a resultados t Documentos de apoyo para tomadores de decisiones a nivel estado y federal
4. Capacitación y apoyo t Estadísticas de acceso a Explorador EXCALE, Corpus EXCALE, y bases de datos
t Encuesta y entrevistas con personal de entidades
5. Reportes informativos t Manual Técnico EXCALE 2005/2009
6. Lenguaje adecuado t Reportes de resultados producidos para grupos de usuarios y accesibles en página web
7. Marco de referencia (ver Explorador EXCALE, Corpus EXCALE)
8. Limitaciones / errores comunes
t Manual Técnico EXCALE 2005/2009
t Estudios especiales realizados por INEE (ver publicaciones en página web INEE )
9. Advertir sobre usos inapropiados t Estudios no realizados por INEE
10. Documentar esos usos t Encuesta y entrevistas con personal de entidades
11. Acciones respecto a ellos t Cobertura de medios (ver “sala de prensa” en página web INEE ) y Organizaciones
No Gubernamentales
REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓN

A. Interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los

usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no
tienen un apoyo teórico o empírico.
El manual técnico de E XCALE establece:
el objetivo fundamental de la evaluación del aprendizaje es proporcionar un conocimiento

general del rendimiento académico de los estudiantes a niveles estatal y nacional (con dis-
tintos grados de desagregación por estrato y modalidad educativos), así como de los facto-
res más importantes que explican las diferencias en el logro de los aprendizajes… Se espera
que los resultados que genere el INEE complementen los procesos evaluativos existentes
desarrollados por otras instancias nacionales e internacionales— a fin de emitir juicios de
valor contextualizados que sirvan para apoyar la toma de decisiones documentada y con-
tribuyan al establecimiento de políticas, reformas e innovaciones dirigidas al mejoramiento
de la calidad educativa con equidad.” (INEE , 2009)
A partir de esta definición general, la Tabla 5.3 sintetiza en mayor detalle los objetivos que
se desprenden del Manual Técnico (INEE , 2009) y el Plan General de Evaluación (INEE , 2005).
Además de la sociedad en general, estos usos se dirigen o involucran a seis grupos de usua-
rios específicos, a saber: autoridades educativas estatales y federales, instituciones educativas,
profesores o maestros,2 investigadores, autores de libros de texto, y organizaciones no guber-
namentales. Por otro lado se presentan cinco principales áreas de influencia de la evaluación:
política educativa nacional y estatal, currículo nacional, programas de estudio y libros de texto,
administración y gestión escolar, y formación y actualización docente (2005, p.9).
Tabla 5.3 Usos, beneficios, y/o consecuencias previstos de EXCALE
Plan General de Evaluación (p8) y Manual Técnico (p5)

1. C onocer el logro académico de los estudiantes a nivel estatal y nacional, y los factores de contexto más
importantes que explican las diferencias de los sectores estudiados.
2. Informar juicios de valor contextualizados que sirvan para apoyar la toma de decisiones documentada y
contribuir al establecimiento de políticas, reformas e innovaciones dirigidas al mejoramiento de la calidad
educativa con equidad.
3. C omplementar los procesos evaluativos existentes que han sido desarrollados por otras instancias nacionales
e internacionales.
4. C ontribuir a conocer los alcances y limitaciones del Sistema Educativo Nacional y, con ello, el nivel de la
calidad de la educación básica en el país.
5. A portar elementos para enriquecer la rendición de cuentas a que tiene derecho la sociedad mexicana.
Plan General de Evaluación (p22; Características de las pruebas)

1. C onstruir una visión general de lo que los alumnos aprenden como resultado de su escolarización formal;
2. C onocer los puntos fuertes y débiles del aprendizaje de los estudiantes en cada asignatura, de acuerdo al
género, modalidad educativa, estrato social, grado y área temática del currículo;
3. C omparar el rendimiento escolar, así como las tendencias de aprendizaje a lo largo del tiempo entre grupos
de alumnos y áreas temáticas evaluadas;
4. M ejorar la evaluación de gran escala de las disciplinas que se evalúen y,
5. P roporcionar información para estudios especiales.
Fuente: Plan general de Evaluación (2005) y Manual técnico E XCALE (2009)
Una primera observación es que los objetivos generales descriptivos de las pruebas de apren-
dizaje del INEE se mencionan ampliamente; son generalmente claros; y se justifican con un
amplio desarrollo técnico reflejado en una docena de manuales especializados. Sin embargo,
la documentación no define de manera clara y explícita los objetivos de E XCALE, ni establece
2
Los términos profesor y maestro se utilizan de forma intercambiable en la documentación sin definir explícitamente
la equivalencia de estos términos.
98
los usos específicos previstos con cada grupo de usuarios, o las consecuencias previstas. Esto
refleja en parte la naturaleza descriptiva y enfoque sistémico de la prueba, pero nuestro análisis
también revela una considerable falta de claridad y consistencia en la definición y descripción de
usos y objetivos que va más allá de la mera falta de consistencia en el uso de términos técnicos.
Es revelador en sí mismo que los objetivos que se listan en la tabla 5.3 no se condensan de esa
forma en ninguno de los documentos que acompañan a E XCALE; la tabla es una síntesis con
nuestra lectura de los diversos objetivos y usos que se describen en distintas secciones del ma-
nual técnico, Plan general de evaluación, y pagina web, con lenguaje similar pero no idéntico,
y con diferente foco y granularidad. Esta dispersión resulta es evidente cuando se nota que el
monitoreo de tendencias en el aprendizaje (a todas luces uno de los objetivos fundamentales
de la prueba) no se menciona propiamente en el manual técnico, sino que aparece a mitad del
Plan General de Evaluación en la sección Características de las pruebas (p.22).
En relación directa con lo anterior, se aprecia una falta de claridad al definir, acotar y justificar
las interpretaciones y usos previstos de E XCALE, y los objetivos más generales a que se orienta la
labor del INEE . Los dos conjuntos de objetivos con frecuencia se superponen o se tratan como
conceptos intercambiables, lo que complica la correcta diferenciación y evaluación de ambos.
En el manual técnico, por ejemplo, se alude a los objetivos fundamentales “de la evaluación
del aprendizaje” no de la prueba E XCALE . Cuando se refiere más específicamente a E XCALE, el
manual lo hace reduciendo considerablemente su alcance, que se limita a “Establecer el mar-
co de referencia de cada E XCALE, lo cual incluye desde la fundamentación teórica del ámbito
disciplinar que pretende evaluar, hasta la definición de sus dimensiones.” El manual por tanto
explícitamente excluye el objetivo central de presentar argumentos y evidencia que respalde los
usos propuestos.
Todo lo anterior se traduce en la práctica en objetivos demasiado amplios y no bien acotados que
no especifican consecuencias esperadas de uso, y menos aún los mecanismos que las producirán.
Por ejemplo, no es claro cómo se distingue el grado en que E XCALE ha cumplido el objetivo de
“aportar elementos para enriquecer la rendición de cuentas”, y el de “informar juicios de valor
contextualizado que sirvan para apoyar la toma de decisiones”. Tampoco lo es la diferencia en-
tre “contribuir a conocer los alcances y limitaciones del sistema educativo nacional”, y “construir
una visión general de lo que los alumnos aprenden”.
En otros casos se establecen ligas específicas entre usos y usuarios que no parecen tener corres-
pondencia con las consecuencias esperadas. Por ejemplo, el Plan general de Evaluación (2005,
p. 9) establece que para efectos de difusión de resultados, los esfuerzos del INEE se enfocan
principalmente a las autoridades educativas, y la sociedad en general.
Sin embargo, el mismo plan define como aspectos centrales de validez consecuencial los usos
que dan a la prueba personas no especializadas y de manera fundamental los maestros en el
aula (2005, pp. 82-83). Otro ejemplo es el Explorador EXCALE, una herramienta en Internet que
busca promover el uso de los resultados por maestros, directores, tomadores de decisiones, y
otros interesados. En la página del Explorador se listan los siguientes objetivos de la prueba:
a) Proporcionar un conocimiento general del rendimiento académico de los estudiantes…

con distintos grados de desagregación, entre los que se encuentran los estratos escolares
de primaria y las modalidades educativas de secundaria;
b) Permitir comparaciones del rendimiento escolar entre diversas regiones geográficas,
así como entre distintas modalidades educativas;
c) Conocer los puntos fuertes y débiles del aprendizaje de los estudiantes en distintos
grados y áreas temáticas del currículum;
d) Conocer las tendencias a lo largo del tiempo del aprendizaje de las Matemáticas, el Español,
las Ciencias Naturales y las Ciencias Sociales;

e) Analizar variables de contexto que influyen de manera importante en el logro escolar;
f)Identificar el crecimiento o estancamiento de los aprendizajes en las disciplinas evaluadas
Más aún, los objetivos no corresponden exactamente con los que aparecen en el manual téc-
nico, ni se definen o diferencian claramente entre sí (e.g. a. desegregación por estratos y mo-
dalidades vs. b. comparaciones entre modalidades; o d. Conocer tendencias vs. f. Identificar
crecimiento).
La falta de claridad, especificidad y consistencia en la definición de usos y consecuencias de la

prueba, vuelve difícil la evaluación de fortalezas y limitaciones en su diseño en relación con sus
objetivos. La documentación presenta limitaciones si se pretende evaluar no sólo el grado en
que se producen los usos y consecuencias previstas, sino incluso el grado en que éstos están
adecuadamente construidos con base en fundamentos teóricos, lógicos y prácticos.
2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previs-

tas y/o deseables de la prueba.
La Tabla 5.4 presenta estadísticas de acceso a reportes y publicaciones en la página del INEE
en un periodo de 9 meses (de julio de 2013 a abril de 2014). El reporte de la aplicación 2009
de E XCALE en 6º grado recibió el mayor número de consultas (1879). Otros reportes generaron
menor interés, con consultas que fluctúan entre las 300 (3º de primaria 2010, y resumen ejecu-
tivo 2009), y menos de 100 (varios reportes como estudios de factores asociados, y expresión
escrita en 6º de primaria y 3º de secundaria, entre otros).
No se cuenta con información que permita especular sobre las razones del alto interés en el
reporte de 6º grado de 2009, comparado con otros de E XCALE y otras publicaciones del INEE .
Finalmente, no existen datos sobre el perfil de los usuarios que consultan estos reportes y, por
tanto, es difícil interpretar estas estadísticas en relación con los objetivos de diseminación y
uso que se persiguen. Sin embargo, los datos en principio revelan que al menos algunos de
los reportes de resultados que genera el INEE están siendo consultados por ciertos sectores
de usuarios. Lo anterior sugiere la necesidad de hacer un seguimiento y mantener un registro
de los usuarios que consultan las publicaciones que se derivan de E XCALE para conocer mejor
su perfil, intereses, y necesidades. Por ejemplo, se podría requerir el llenado de una breve
encuesta anónima antes de descargar publicaciones de la página del INEE (como es común en
organismos internacionales como NCES y OCDE ).
100
Tabla 5.4 Número de visitas a publicaciones del INEE (07/2013-04/2014)
Publicación Visitas
El aprendizaje en 6º de primaria en México. Informe sobre resultados del EXCALE aplicación 2009
1879
Español, Matemáticas, Ciencias Naturales y Educación Cívica.
El aprendizaje en 3º de primaria en México Informe de resultados EXCALE 03 Aplicación 2010
318
Español, Matemáticas, Ciencias Naturales y Educación Cívica.
Estudio comparativo del aprendizaje en 3º de secundaria en México 2005-2008
290
Español y Matemáticas.
El aprendizaje en 3º de secundaria en México. Informes sobre los resultados
167
de EXCALE 09 aplicación 2008.
Factores asociados al aprendizaje de estudiantes de 3º de primaria. 93
La ortografía de los estudiantes de educación básica en México. 110
El aprendizaje en 3º de preescolar en México. Lenguaje y comunicación. Pensamiento matemático. 173
El aprendizaje en 3º de preescolar en México. Lenguaje y comunicación.

83
Pensamiento matemático. Resumen ejecutivo.
Estudio comparativo del aprendizaje en 6º de primaria 2005-2007. Español y matemáticas. 93
El aprendizaje en 3º de primaria en México. Español, Matemáticas,

73
Ciencias Naturales y Ciencias Sociales
El aprendizaje en 3º de primaria en México. Español, Matemáticas,
38
Ciencias Naturales y Ciencias Sociales. Resumen ejecutivo.
Factores escolares y aprendizaje en México: el caso de la educación básica. 98
El aprendizaje del Español y las Matemáticas en la educación básica en México.

87
6º de primaria y 3º de secundaria.
El aprendizaje de la expresión escrita en la educación básica en México.
53
6º de primaria y 3º de secundaria.
El aprendizaje de Español, Matemáticas y expresión escrita en la educación básica en México.
332
6º de primaria y 3º de secundaria. Resumen ejecutivo.
Fuente: Instituto Nacional para la Evaluación de la Educación
Uso por entidades estatales
Los resultados de la encuesta realizada a personal de las secretarias estatales de educación se

condensan en el ANEXO 5.1 al final de este documento. En total se recibieron 29 respuestas de
personal en 20 estados del país. Los resultados revelan inconsistencias entre los estados respec-
to del grado y mecanismos de uso de los resultados de E XCALE, pero en general apuntan a un
uso limitado para el análisis de las debilidades y fortalezas de los sistemas educativos estatales.
De los 20 estados que reportaron datos en la encuesta, sólo la mitad hace llegar los resultados
de E XCALE a coordinadores (11) o docentes (10) y tres cuartas partes (14) hacen llegar los resul-
tados a supervisores. Sólo 1 de cada 5 estados difunde sus resultados entre las familias, y menos
de la tercera parte (6 estados) utiliza la prueba para diagnosticar la labor y gestión escolares, y
orientar intervenciones pedagógicas.
La encuesta parece reflejar algunos patrones de uso que podrían ser interesantes; por ejemplo,
seis estados (30%) reportan que se usa la prueba EXCALE para evaluar políticas y programas edu-
cativos. Un grupo nutrido de estados reporta utilizar los resultados para orientar la capacitación
docente (45%), y la intervención pedagógica (30%). Sin embargo, la encuesta también refleja
usos que son improbables dado el diseño de la prueba, como estados que reportan utilizarla

para la rendición de cuentas a nivel de la escuela (5) o el maestro (2). Finalmente, sólo 10% apro-
vecha EXCALE para orientar a las familias para apoyar el aprendizaje de sus hijos, y tres estados
(15%) para fortalecer a la comunidad escolar. La encuesta también incluye preguntas abiertas
que abordaron las consecuencias positivas y negativas del uso de EXCALE pero éstas por lo ge-
neral no resultaron de mucho interés. Muchas de las respuestas proporcionadas son genéricas y
simplemente reiteran los objetivos que se mencionan (por ejemplo, “se han generado esfuerzos
de mejora”), sin proporcionar una descripción específica o evidencia concreta.
En cuanto a las consecuencias del uso, muy pocos estados reportaron alguna significativa para
los estudiantes a nivel individual. En relación con los maestros, las consecuencias positivas re-
portadas con mayor frecuencia vuelven a tomar un tinte genérico, pues se reporta que E XCALE
está motivándolos hacia la mejora y el desarrollo profesional (40% de estados), ayudando a
redirigir la enseñanza hacia contenidos que los alumnos no dominan (45%), alinear la enseñan-
za a los estándares y apoyar el diagnóstico de las fortalezas y debilidades del currículo (35%).
Nuevamente, no es del todo clara la apropiada interpretación o incluso la confiabilidad de estas
respuestas. En este sentido debe mencionarse que una limitación de la encuesta es que ésta
no se ajustó específicamente a los usos y consecuencias previstas de E XCALE , sino que se
derivó de una lista creada originalmente para ENLACE . Lo anterior hace sospechar que el uso
de E XCALE es aún más limitado que el que reflejan los resultados de la encuesta, puesto que
algunos de los usos que se mencionan no corresponden a los de una prueba de tipo matricial
sin resultados por escuela (e.g. diagnosticar fortalezas y debilidades del alumno para orientar
la práctica docente).
Entre las consecuencias negativas se menciona la moral baja por resultados negativos (25% de
los estados) y un enfoque excesivo en los contenidos de la prueba por encima del aprendizaje
(25%). En cuanto a las autoridades educativas, 45% de los estados reportó que EXCALE ha mo-
tivado la revisión y evaluación de programas y políticas, incluidas la relativas a la calidad de la en-
señanza; 40% que se ha mejorado el monitoreo del desempeño del sistema; y 35% que mejoró
la toma de decisiones en cuanto a asignación de recursos en la entidad. En 35% de los estados
se implementaron medidas específicas o se asignaron recursos para aumentar los puntajes de
los alumnos en E XCALE, y en 20% se ofrecieron incentivos con base en tales puntajes; también
20% señaló que las autoridades han privilegiado la mejora de los resultados a expensas de otras
necesidades y problemas importantes.
Las entrevistas en profundidad con personal de 10 entidades y del INEE , aunados al estudio de
Silva (2012), presentan información más detallada que corrobora que el uso de E XCALE en los
estados es bastante limitado y, por norma general, no informa directamente las políticas o pro-
gramas educativos locales. La mayoría de los entrevistados (6 de 10) reportó que en su estado
se analizan los resultados de E XCALE y se hacen llegar a autoridades estatales. Sin embargo, el
mecanismo de diseminación más común es a través de una presentación de los reportes que
se reciben del INEE , y no se mencionan esfuerzos adicionales para contextualizar y analizar en
profundidad los resultados y factores asociados al rendimiento a nivel estatal. En sólo dos de los
diez estados se reportó algún uso específico: en Nuevo León para informar la capacitación do-
cente y en Colima para complementar la información generada por ENLACE y el examen estatal
de fin de año, a fin de corroborar tendencias. En cuatro estados las autoridades reportaron que
conocen los resultados de la prueba pero no los difunden ni los usan. Más aún, las respuestas
de algunos de los entrevistados reflejan incluso conocimiento limitado de las características de
la prueba (pretenden usos o consecuencias que no pueden lograrse con el diseño matricial de la
prueba, o simplemente la confunden con ENLACE). Las razones que se mencionan para explicar
102
el bajo uso de los resultados de EXCALE incluyen el carácter muestral de la prueba, su baja pe-
riodicidad, la difusión poco oportuna de los resultados, la falta de claridad sobre su utilidad para
autoridades estatales, y la falta de vinculación con presupuesto estatal (ver también Silva, 2012,
p. 42). La entrevista con personal del INEE sugiere que hay mucho potencial no aprovechado
para vincular los resultados y bases de ENLACE y E XCALE . Por ejemplo, algunos estados han
solicitado al instituto empatar la base de datos con información existente a nivel estatal, pero
esto normalmente no es posible por el diseño matricial de E XCALE, el uso de valores plausibles
para la calificación, y la falta de identificadores a nivel del estudiante en las bases. Por ultimo
esta entrevista sugiere que la falta de vinculación entre los resultados de E XCALE y los mapas
curriculares de progreso podría ser otro factor que limita su aprovechamiento.
Por lo que hace al objetivo de contribuir a fortalecer la rendición de cuentas, ningún informante
o fuente de información consultada refiere un uso concreto de E XCALE como parte de meca-
nismos de rendición de cuentas. Aunque es evidente que la información que se deriva de esta y
otras pruebas del INEE , contribuye en cierta medida a fortalecer la rendición de cuentas, resulta
difícil evaluar de forma más específica y objetiva el grado en que este objetivo se cumple en la
práctica. Las entrevistas con personal estatal en cambio refieren una falta de vinculación de los
resultados de E XCALE con mecanismos concretos de rendición de cuentas incluyendo la asigna-
ción de recursos (ver también Silva, 2012). Con resultados que se reportan únicamente a nivel
estatal en realidad parece poco realista esperar un uso extendido para rendición de cuentas
excepto en el sentido más general (y casi se podría decirse cultural) del término.
Aún en un contexto de uso limitado, el estudio de Silva (2012) y algunas de las entrevistas rea-
firman la percepción de los usuarios de que la prueba EXCALE ofrece información más confiable
que ENLACE , porque el instrumento es más sólido técnicamente y su aplicación es más rigurosa
(p. 40). Silva (2012, p. 58) señala que un resultado de E XCALE ha sido el promover una cultura
de la evaluación que ya está llevando a replicar la lógica de las pruebas nacionales en pruebas
diagnósticas a nivel estatal orientadas por los altos estándares técnicos del INEE . El reporte de
Silva menciona que existen otros ejemplos aislados de mayor uso de E XCALEla, aunque éstos
se limitan a ciertos nichos del espectro educativo y no han recibido suficiente atención (como
ejemplo se menciona el uso en el nivel de preescolar en Jalisco; Silva, 2012, p. 64).
Uso por entidades federales
En la entrevista con personal del INEE (diciembre 2013) se señala que uno de los usos más be-
neficiosos de E XCALE a nivel federal se ha dado en la Dirección General de Desarrollo Curricular
(DGDC), que participó activamente en el desarrollo de las pruebas, colaborando para la creación
de tablas de especificaciones y la conformación de los comités académicos. El personal del Ins-
tituto reportó que la DGDC utiliza ahora los resultados de E XCALE para la revisión y adaptación
del currículo nacional:
… mirar los resultados da claridad sobre lo que es curricularmente, no sé si llamarlo exigible

o no, pero lo que se puede pedir que los alumnos aprendan o no mirando lo que ha suce-
dido en el pasado y que eso ha orientado muchas reflexiones curriculares.
El informe de Silva (2012, p. 57) en principio corrobora esta idea al afirmar que EXCALE es una
de “las fuentes principales de las que se extrae información sobre las áreas a fortalecer, y en
función de las cuales se atiende a dichas necesidades por medio de estrategias tales como el

diseño de cursos.” Sin embargo, la entrevista con el director de la DGDC realizada para este
reporte refleja un uso más limitado, donde E XCALE representa en el mejor de los casos una de
varias fuentes de información que toma en cuenta la dirección para sus trabajos.
Durante los primeros años de E XCALE se realizaron trabajos muy extensos con los estados para
informarles de los resultados y apoyarlos en la mejora de planes, programas, y herramientas.

Más recientemente, éste ha ido perdiendo relevancia en contraste con la mayor importancia
de los resultados de ENLACE y PISA , al punto que en la actualidad, E XCALE es explícitamente
identificada como la menos importante de las tres pruebas para los trabajos de la dirección
(Balbuena, 2014). Se identifican dos limitaciones centrales: primera, la DGDCE trabaja inten-
samente con los estados para ofrecer asistencia a escuelas y zonas con bajos resultados, para
lo que es necesario utilizar resultados de ENLACE a nivel de centro escolar. Lo anterior es in-
teresante porque E XCALE sí provee en principio resultados que permitirían analizar el logro de
distintos “tipos” de escuelas o alumnos; sin embargo, los esfuerzos recientes se enfocan a hacer
estudios de caso de escuelas con resultados extremos (altos y bajos). Segunda limitación, para
efectos de rediseñar el currículo, la DGDC se enfoca cada vez más en los tipos de habilidades
y competencias en que se basan las pruebas PISA y TIMSS , que permite evaluar el currículo
nacional en relación con lo que se estudia a nivel internacional. En palabras del director, estas
pruebas son muy útiles para ver no tanto qué aprenden los alumnos sino qué tanto saben usar
lo que aprenden, y tienen una mayor relevancia e implicaciones para efectos de (re)diseñar las
prácticas y materiales pedagógicos que se utilizan en el aula. Una petición expresa del director
de la DGDC para el INEE es que la próxima generación de pruebas “se parezcan más a PISA”
con un número menor de reactivos de mayor complejidad; esto ofrecería una guía sobre lo que
los alumnos deben saber hacer, lo que haría la prueba más relevante para la práctica docente,
y podría ayudar a limitar el fraude y mal uso.
Otro usuario a nivel federal mencionado en el informe de Silva (2012, p. 56-57) es la Dirección
General de Educación Indígena (DGEI ), aunque el ejemplo se refiere específicamente a las pu-
blicaciones “La educación para poblaciones en contextos vulnerables 2007” y los reportes de la
serie “Panorama Educativo”. A partir de esta información se ha rediseñado una fórmula para la
asignación de recursos en el marco del Programa Escuelas de Calidad. El informe habla también
del uso estratégico por la DGEI de la información de las pruebas de logro educativo en general,
y E XCALE en particular, para entender mejor las necesidades, y áreas de oportunidad en el sub-
sistema de educación indígena (p. 68-69).
Por último, el actual Programa Sectorial de Educación (2013-2018) menciona específicamen-

te los resultados de los alumnos en la prueba E XCALE como un indicador clave para propó-
sitos de evaluar los resultados del sistema educativo nacional (ver http://www.dof.gob.mx/
nota_detalle_popup.php?codigo=5326569).
Uso por investigadores
El INEE considera el uso directo de las bases de datos E XCALE por parte de investigadores y espe-
cialistas como un mecanismo importante para propiciar el mejor entendimiento del aprendizaje
de los alumnos en el contexto del Sistema Educativo Mexicano. Por lo anterior, ha buscado
fomentar este tipo de usos por varios canales. El primero se basa en la herramienta Banco de
Indicadores Educativos que permite consultar los indicadores agregados que conforman las pu-
blicaciones Panorama Educativo de México por materia y año. Esta es una herramienta robusta
104
que permite descargar tablas con resultados desagregados para todas las versiones de E XCALE
en formato PDF, permitiendo almacenarlos como archivos para su posterior consulta.
Además, se ha buscado promover el uso de las bases con los datos originales para aprovechar
su riqueza y realizar análisis más sofisticados de resultados, relaciones y tendencias, que comple-
mentan la información que ofrecen los reportes y síntesis estadísticas que regularmente ofrece
el INEE. Este esfuerzo se ha traducido en una serie de trabajos que pueden clasificarse en tres
categorías. Primero están los proyectos que se realiza al interior del Instituto, incluyendo análisis
de factores asociados y varios números de las series Resultados de Evaluaciones y Cuadernos de
Investigación. En segundo lugar está una veintena de estudios especiales encargados a especia-
listas externos nacionales o internacionales, o derivados de colaboraciones entre éstos e investi-
gadores del Instituto, que profundizan en aspectos de los resultados o características técnicas de
la prueba. Algunos de estos estudios aparecen en la serie Cuadernos de Investigación del propio
INEE; otros están disponibles sólo internamente como documentos o reportes de trabajo o se
han publicado en diversas revistas y libros especializados. El tercer grupo está representado por
un número pequeño de estudios publicados que fueron realizados por investigadores o institu-
ciones externos al INEE, utilizando los datos de la prueba EXCALE. Una revisión de la literatura
(Contreras 2014, comunicación personal) encontró 14 estudios de este tipo (ver anexo 2).
En general, la evidencia no apunta a un uso extendido de las bases de E XCALE por parte de
especialistas nacionales o internacionales. El número de estudios que las ha utilizado al nivel
del estudiante es particularmente reducido, aunque están disponibles para consulta y descarga
en el sitio web del instituto. Es notoria también la ausencia casi completa de trabajos o tesis
realizadas por estudiantes de postgrado, un área de oportunidad importante que otros sistemas
en gran escala típicamente tratan de explotar en mayor medida. Aunque la revisión de literatura
que hemos hecho para este reporte puede haber omitido algunos ejemplos relevantes, no hay
motivos para sospechar que el número sea muy grande.. Algunos de los estudios mencionados
utilizan sólo resultados agregados y otros se basan en datos de las pruebas de Estándares Na-
cionales de la SEP publicada por el INEE . Entre algunos investigadores no hay completa claridad
respecto de la distinción entre pruebas e incluso se refieren explícitamente a las de Estándares
como una versión beta de los E XCALE .
Un último ejemplo de uso para investigación se basa en la herramienta Corpus EXCALE de escri-
tura, que ofrece a investigadores acceso a textos producidos por una muestra representativa de
estudiantes de educación básica y media, así como información sociodemográfica sobre ellos.
La herramienta busca apoyar el trabajo de especialistas y académicos interesados en los proce-
sos de escritura. Sin embargo, no existe registro de investigaciones u otros trabajos, publicados
o no, que hayan utilizado los datos que proporciona esta herramienta.
Maestros
Tal como se ha dicho anteriormente, el Plan General de Evaluación y demás documentación

de E XCALE mencionan frecuentemente a los maestros como parte del grupo de usuarios clave
a quienes está dirigida la prueba (INEE , 2005). Sin embargo, no se especifican los usos que se
espera den los maestros a E XCALE en detalle, lo que vuelve difícil evaluar si se han producido
en la práctica. El uso por parte de los maestros es tal vez el ejemplo más claro donde parece
necesario revisar el grado de alineación entre el diseño de la prueba y los objetivos y usos
que se pretenden con ella. El diseño matricial de E XCALE permite maximizar la precisión y

eficiencia de la información sobre el dominio de una amplia variedad de contenidos curricu-
lares a nivel nacional, estatal, y de subsistemas. Sin embargo, este mismo diseño tiene serias
limitaciones si se pretende que el maestro use la prueba dentro del aula para diagnosticar las
fortalezas y debilidades de sus alumnos, y por lo tanto para orientar la práctica docente en su
contexto particular. Considerando que E XCALE no proporciona resultados a nivel de la escuela
o el aula, no es de extrañar por ende que no se cuente con evidencia empírica del uso de esta
prueba por parte de los maestros.
106
Un esfuerzo por fomentar los usos pedagógicos de E XCALE sin la necesidad de proporcionar
resultados a nivel del aula es la publicación de materiales didácticos para el maestro que tienen
como punto de partida los contenidos curriculares con bajos resultados en las pruebas. Estos
materiales son diseñados por expertos curriculares, y maestros de las respectivas disciplinas.
Una publicación reciente (Bonilla Pedroza, 2013) ofrece estrategias para la enseñanza de temas
de nutrición en educación primaria, con base en un análisis de los resultados E XCALE de cien-
cias naturales en 3º de primaria del año 2007. Otro ejemplo (García, 2014) ofrece materiales
para apoyar al maestro en sus prácticas de enseñanza dirigidas a desarrollar el sentido numé-
rico en los alumnos. Finalmente, en la página web del INEE se lista un “Foro de experiencias
en el uso de los MAPE” (sin fecha) donde “los maestros participantes elaboraron un relato del
uso que les dieron a los materiales. Como resultado, 15 maestros presentaron su informe en
el foro de Experiencias en el uso de los MAPE”.
Aunque este tipo de materiales pueden representar una herramienta muy valiosa para apoyar
procesos de mejora de la práctica docente, difícilmente constituyen un uso de E XCALE por parte
de los maestros en el sentido usual del término. Cada una de estas publicaciones toma como
punto de partida los resultados nacionales, y abarca todos los niveles de la prueba EXCALE, des-
de prescolar hasta secundaria. Por ello tal vez es más apropiado concebirlas como documentos
de corte general, que pueden ser útiles para el maestro como material introductorio, pero no
tienen el nivel de detalle necesario para informar la práctica referida a contenidos, grados, y
aulas particulares. Como parte del proceso de diseño de la próxima generación de pruebas,
parece deseable una mayor claridad en los supuestos lógicos y prácticos de funcionamiento de
la prueba E XCALE como motor de cambio de las prácticas pedagógicas en las aulas de México.
Organismos civiles y sociedad en general
En años recientes el interés de la prensa y de los organismos de la sociedad civil se ha enfocado

cada vez más en los resultados de la prueba ENLACE y en la prueba PISA . En contraparte, el
interés social en los resultados de E XCALE parece haber decrecido en el mismo periodo. Una
búsqueda en línea de artículos referidos a las pruebas E XCALE aparecidos en una muestra de
diarios impresos de circulación nacional entre 2010 y 2013 parece reflejar este patrón. En el año
2010, en reacción a los resultados de EXCALE 3º de secundaria se publicaron una veintena de
artículos en la muestra de diarios nacionales que se revisó (ver Anexo 5.3). Sin embargo, estos
mismos diarios reflejaron un interés considerablemente menor frente a los resultados de E XCALE
en 3º de bachillerato y 3º de primaria, aparecidos en 2011 y 2012 respectivamente. En 2011
estos diarios publicaron un total de tres notas referidas a los resultados de E XCALE, mientras
que en 2012 el número se redujo a dos. Durante ese mismo periodo, los diarios consultados
(y cualquier otro de circulación nacional) publicaron docenas de artículos, notas y opiniones sobre
los resultados de ENLACE y PISA .
El interés decreciente en los resultados de E XCALE se explica en parte a partir de dinámicas

de competencia y rendición de cuentas derivadas de la aplicación de la prueba ENLACE cuyo
diseño censal le permite ofrecer resultados y enfocar la atención a nivel de alumnos, aulas,
escuelas y programas específicos; lo anterior la vuelve mucho más interesante desde el punto
de vista periodístico, independientemente de la poca probidad técnica de muchos de estos
usos. Sin embargo, la experiencia en otros países sugiere que las pruebas estatales que ofrecen
resultados por escuela no necesariamente resultan en un menor apetito por resultados a nivel
nacional, en la medida en que se entiende que ofrecen información distinta y complementaria

(por ejemplo la prueba NAEP en los Estados Unidos). Por lo tanto parece deseable una revisión
a fondo que permita determinar si existen otros factores que contribuyen al notorio descenso
en el interés en la prueba E XCALE, particularmente factores bajo el control del INEE . Dada la im-
portancia creciente de las organizaciones sociales como motor impulsor de reformas educativas
es particularmente relevante revisar los mecanismos y estrategias de difusión y discusión de los
resultados de E XCALE, y los conductos de comunicación con los medios y otros actores sociales
en general buscando detectar áreas de oportunidad en cuanto a la oportunidad, relevancia,
detalle y contextualización de la información que se genera.
B. Acceso equitativo y capacidad de interpretación y uso

mos de difusión y acceso para todas las partes involucradas sin discriminación.
En entrevistas con el personal del INEE se mencionan los siguientes canales principales de difu-
sión de los resultados que éste genera: informes escritos, presentaciones públicas, Explorador
EXCALE, Corpus EXCALE, dípticos y trípticos para profesores, talleres con investigadores, e incluso
redes sociales (twitter y Facebook). Las series de reportes de resultados y los informes temáticos
que publica el INEE a partir de los resultados de EXCALE se han establecido como recursos de
referencia que son frecuentemente usados por autoridades, académicos y medios de comuni-
cación.
Como se mostró en la Tabla 5.4, entre julio de 2013 y abril de 2014 se realizaron cerca de 4 mil
consultas o descargas de reportes y publicaciones de la página del INEE . Los números apuntan
nuevamente a un grado importante de interés en los resultados de E XCALE, aunque el desglose
de los documentos consultados sugiere que puede variar grandemente entre distintos tipos
de publicaciones: los reportes anuales y síntesis estadísticas atraen mucho más interés que los
estudios especializados o con enfoque temático específico.
Sin embargo, se observan problemas crecientes en lo que se refiere a la oportunidad con que se
comunican los resultados de la prueba E XCALE . En particular se constató que los informes fina-
les derivados de las aplicaciones realizadas en 2011 aún no habían sido publicados a mediados
de 2014. Esto parece un retraso considerable en la publicación de los análisis que contextualizan
en detalle los resultados de E XCALE, de donde en teoría se deriva su mayor utilidad. Esto puede
afectar las percepciones sobre la relevancia de la prueba, a la vez que reducir sus impactos rea-
les entre los actores y para los usos previstos.
Respecto del conocimiento de los E XCALE por parte de maestros y directores de escuelas, una
encuesta del INEE sugiere que, sin importar el grado o modalidad de atención, éstos tienen
poco conocimiento de la prueba, y sus posibles usos al interior de planteles y aulas. El informe
señala que “… el escaso conocimiento de E XCALE es entendible, considerando que la prueba no
se aplica en todas las escuelas sino que es muestral […]. Por otra parte refleja que no se ha te-
nido el impacto deseado sobre la difusión de E XCALE entre los docentes y directores […]” (p. 7)
Finalmente, no todos los mecanismos de difusión son igualmente útiles o pertinentes. Como
se mencionó anteriormente, el Explorador E XCALE es una herramienta en línea que busca que
108
los maestros, directores, supervisores, tomadores de decisiones, y otros interesados usen los
contenidos y resultados de la prueba para “reflexionar en torno a la calidad de los aprendizajes
y emprender o enriquecer sus proyectos para la mejora educativa”.
Los documentos disponibles no establecen una correspondencia entre el logro de estos ob-
jetivos generales ampliamente concebidos y el tipo de información que ofrece el Explorador.
En particular, las capacidades de consulta y reporte de esta herramienta no parecen estar bien
alineadas con el tipo de información que permitiría a estos actores realizar el tipo de reflexión
que se desea. El Explorador únicamente reporta porcentajes de aciertos por grado y materia,
desagregados a nivel de docenas de contenidos temáticos para cada materia. Los resultados se
pueden consultar a nivel nacional o en comparativos por estado y modalidad, como muestran
las figuras siguientes:

En la práctica las características de esta herramienta hacen difícil imaginar su uso generalizado por
parte de cualquiera de los actores que se pretende. Las limitaciones teóricas y prácticas son apa-
rentes: por un lado los resultados nacionales o estatales son de relevancia muy limitada para infor-
mar la labor del maestro o director de escuela, o los esfuerzos de padres de familia y otros actores
a nivel individual o colectivo. Por otro, las características técnicas y operativas del sistema limitan
su utilidad incluso para un usuario determinado a usar los resultados para la reflexión y mejora
educativa. Los reportes están altamente fragmentados; los resultados nacionales están separados
de las comparaciones por estado o modalidad, que a su vez implican el acceso manual a docenas
de hojas separadas (un contenido temático a la vez), además de que se presentan por separado
para cada año de aplicación. Por último los reportes pueden consultarse únicamente dentro de
la página web del INEE, sin posibilidad de exportarse para su posterior revisión. Por ejemplo, un
usuario interesado en investigar en detalle los resultados de la prueba de español de 6º de prima-
ria se enfrenta a un esfuerzo de varias horas para obtener uno a uno varios cientos de reportes
detallando los más de 100 contenidos de esta prueba, desagregados por estado, modalidad,
o año, y almacenarlos (también uno a uno) en un formato permanente para su posterior consulta.
Algunos mecanismos de difusión no se relacionan con la prueba EXCALE directamente. Por ejemplo
los materiales para maestros en el sitio web del INEE publica trabajos conceptuales sobre temas de
enseñanza y aprendizaje, sin utilizar directamente los resultados de la prueba. Otros documentos
sí se refieren en mayor detalle a usos pedagógicas de la evaluación, pero lo hacen en relación a
otras pruebas como PISA . Finalmente, la sección de textos de divulgación incluye un pequeño
número de materiales sintéticos (trípticos) dirigidos a maestros que, aunque bien concebidos y
diseñados desde un criterio de difusión social, en principio parecen revestir una utilidad limitada
como elemento que informe la práctica docente en aula. La figura siguiente presenta un ejemplo
de este tipo de reporte. Los contenidos agregados podrían en teoría servir para iniciar procesos de
reflexión interna o colegiada entre maestros, pero la información agregada que se presenta solo
podría informar las prácticas de enseñanza de maestros individuales en el sentido más general
e indirecto del término.
La enseñanza Al finalizar
3er
Tercero de Tercero de Sexto de Tercero de
primaria primaria primaria secundaria
de las Ciencias (2006) (2010) (2009) (2008)
Naturales 2 grado de
7
11 Sólo la mitad primaria
23 28
22 de los estudiantes
Con la enseñanza de las Ciencias Naturales se sabe que la función
busca estimular la curiosidad de los niños y ayu- principal del sistema
28 digestivo es transformar
darlos a comprender los fenómenos y procesos 26
63 los alimentos para
de la naturaleza, entre ellos los del cuerpo humano. 44 nutrir al cuerpo; la
La promoción activa del aprendizaje de las ciencias 24 otra mitad tiene
Avanzado 21 ideas erróneas como
a lo largo de la educación obligatoria tiene como
Medio "eliminar la comida
objetivo que los alumnos adquieran conocimientos,
que se almacena en
habilidades y actitudes para tomar decisiones sobre Básico 25 25 27
el cuidado de la salud y del medio ambiente.
24 el intestino" o piensan
que es "la mezcla de
7 de cada
Por debajo del básico
alimentos a nivel diez niños
del estómago". distingue alimentos con
A partir de 2006, para evaluar los aprendizajes de
alto valor nutritivo; la
los estudiantes de educación básica, el INEE co- mitad puede identificar
menzó a aplicar los Exámenes de la Calidad y el
La promoción de la salud como una dieta completa
Logro Educativos (ExcalE), de acuerdo con los si-
una prioridad en la enseñanza tomando en cuenta
guientes criterios:
de las Ciencias Naturales sus nutrimentos, pero
Uno de los objetivos de la enseñanza de las ciencias

8 de cada menos de 50% reconoce
las consecuencias de
es que los alumnos comprendan cómo funciona su
diez estudiantes la falta de frutas en
saben que el agua su dieta.
cuerpo, conozcan las medidas de prevención y los
no potable transmite
NIVEL DE LOGRO ¿QUÉ INDICA? cuidados para mantenerse sanos. La responsabilidad enfermedades al
del propio cuerpo se basa en hábitos y actitudes co- aparato digestivo;
Carencias importantes en el dominio mo la higiene personal, el ejercicio físico, el descanso 70% reconoce que la
de los conocimientos, las habilidades falta de higiene en los
Por debajo
y destrezas escolares que expresan y la correcta alimentación. La prevención de enfer-
del básico alimentos puede causar
una limitación importante para medades, accidentes y adicciones también está rela- enfermedades, y seis
continuar aprendiendo. cionada con el cuidado de la salud; cada uno de estos de cada diez identifican
aspectos contribuye a la construcción de una visión al menos una de las
consecuencias de comer
Poco menos
Un dominio elemental de los
de 50%
¿
del funcionamiento integral del cuerpo humano.
Básico
conocimientos, las habilidades y en exceso.
destrezas escolares que son necesarios de los alumnos conoce
para continuar aprendiendo. el papel que desempeña
el intestino grueso y
?
Un domino adecuado de los solo uno de cada tres
Medio
conocimientos, las habilidades Qué saben los identifica lo que ocurre
y destrezas escolares previstos estudiantes sobre en la boca durante el
por el currículo. proceso digestivo.
la digestión
Un dominio riguroso de los
y la nutrición
conocimientos, las habilidades
Avanzado
y destrezas escolares previstos
por el currículo. Los ExcalE revelan que la mayoría de los alumnos
conoce medidas de higiene relacionadas con el sis-
tema digestivo, identifica alimentos nutritivos, reco-
noce algunas enfermedades y medidas básicas para
Los resultados de los ExcalE en esta asignatura su prevención, pero no reconoce algunos órganos
muestran que casi una cuarta parte de los alum- del cuerpo humano ni sus funciones, tampoco la re-
nos evaluados en tercero y sexto de primaria, así lación entre una dieta correcta y el funcionamiento
como en tercero de secundaria, se ubica en el nivel integral de los sistemas que intervienen en el proce-
Por debajo del básico como se observa en la gráfica. so de nutrición.
110
En síntesis, tanto el modelo lógico, como la implementación de la herramienta Explorador
E XCALE presentan problemas importantes que por el momento limitan su utilidad para los
usos y usuarios previstos. No obstante, las estadísticas de uso de esta herramienta sugieren
que su uso se ha ido incrementando, de alrededor de 2 mil accesos totales en 2011 y 2012,
a cerca de 6 mil en 2013, y 4 mil en los primeros 4 meses de 2014 (ver Tabla 5.5). Desafor-
tunadamente los resultados disponibles no permiten especificar el número de accesos que
corresponden a usuarios únicos, ni el volumen o tipo de consultas que realizaron, lo que
impide tener una visión clara sobre la extensión de uso de esta herramienta. Sin embargo,
el interés creciente que reflejan los números es interesante, en especial considerando las
limitaciones de la herramienta ya mencionadas.
Tabla 5.5 Estadísticas de consulta. Explorador EXCALE y Corpus EXCALE
Accesos
Año
CORPUS EXCALE Explorador EXCALE
2011 930 1948
2012 1164 1724
2013 4154 5884
2014 (Ene-Abr) 3345 4148
Este tema debe ser motivo de estudio detallado por parte del INEE , para permitirle conocer y
monitorear el número real de usuarios únicos, su perfil y la información que buscan obtener; lo
anterior sería muy valioso para tratar de maximizar la utilidad de la herramienta para distintos
propósitos. En ese sentido, una encuesta de usuarios del Explorador E XCALE realizada por el
INEE en 2009 ofrece datos interesantes. Los resultados sugieren que tres cuartas partes de los
encuestados a partes iguales eran académicos de la educación (27%), estudiantes normalistas
(23%), y maestros de grupo (25%), mientras que el 25% restante incluye supervisores y otros
(ver Figura 5.1) Del total de usuarios, 42% visitaba por primera vez la página, mientras que
40% lo había hecho en cinco ocasiones o más. Los objetivos más frecuentes que reportaron
los encuestados fueron la consulta de resultados y reactivos (42%), conocer al INEE y al Ex-
plorador (20%) y, en menor medida, planear la enseñanza (15%) y documentar estudios de
investigación (12.5%).
Estos resultados permiten plantear algunas hipótesis interesantes sobre los usos y usuarios del
Explorador, pero su relevancia directa en el contexto actual es cuestionable o por lo menos
limitada. Por un lado, no se cuenta con datos sobre tasas de acceso y respuesta, lo que difi-
culta evaluar la representatividad de los resultados en relación con la población de usuarios.
Igualmente importante, el incremento en el uso de la herramienta que refleja la Tabla 5.5 hace
probable que los datos de 2009 no reflejen la realidad del sistema en la actualidad. Nuevamen-
te, parece evidente la necesidad de actualizar estos resultados con una encuesta que permita
conocer el perfil de los usuarios actuales del Explorador, el tipo de información que buscan, y la
medida en que la que ofrece esta herramienta se corresponde con los usos esperados.

Figura 5.1 Estadísticas de acceso a Explorador EXCALE por tipo de usuario
¿Quiénes contestaron la encuesta?

Con el propósito de identificar algunas áreas de mejora para la actualización del Explorador EXCALE,
se realiza una encuesta en línea a los visitantes que deseen participar en ella. Los resultados siguientes
muestran el acumulado de mayo 2009 a octubre pasado e integran las respuestas de 196 usuarios*.
Académico
profesional 27%
de la educación
Estudiante
de educación 23%
o normal
Maestro frente
25%
a grupo
Supervisor
o apoyo técnico 10%
pedagógico
Cero 5%
Sin respuesta 10%
* 193 nacionales y tres extranjeros provenientes de 28 entidades del país.
¿Qué uso le dan los usuarios al Explorador EXCALE?
Consultar reactivos
y resultados 47.5%
de las pruebas
Conocer al INEE
y/o el Explorador 20%
EXCALE
Planear la enseñanza,
actividades
15%
de capacitación
y estrategias
Documentar
estudios e 12.5%
investigaciones
Sin respuesta 5%
Finalmente, la sección “Usos de EXCALE para la mejora educativa” del Explorador presenta tra-
bajos propuestos por maestros y directores seleccionados en una convocatoria del INEE sobre
112
usos posibles y prometedores de E XCALE en cuatro áreas: a) estrategias didácticas, b) evaluación
de aula, c) gestión educativa, y d) formación docente. Esta iniciativa representa un esfuerzo
importante que involucra a los maestros en el proceso evaluativo y puede rendir frutos valiosos
en el diseño de mejores estrategias para promover el uso de los resultados. Sin embargo, en
ausencia de información detallada sobre el número y la naturaleza de las propuestas presenta-
das y sus alcances e implementación en la práctica, es difícil valorar si este esfuerzo se puede
considerar como un uso de la prueba propiamente dicho o enmarcarlo en el contexto del marco
conceptual de la prueba.
Por último, los resultados de la encuesta realizada a personal de los estados revelaron inconsis-
tencias entre los estados en el grado y mecanismos de difusión de los resultados de la prueba
E XCALE, que pueden limitar el impacto que busca tener la prueba para el análisis profundo de
las debilidades y fortalezas de los sistemas educativos estatales. Del total de 20 estados, más
de la mitad reportó que los resultados de E XCALE se hacen llegar a supervisores escolares (14)
y coordinadores de región (11); los mecanismos de difusión utilizados son diversos e incluyen
mayoritariamente reuniones, internet y materiales impresos. Sólo 10 estados hace llegar los
resultados de E XCALE a sus maestros, y 4 a las familias de los estudiantes. Los materiales impre-
sos son todavía el medio más común de difusión (9 de 10 estados) y familias (3 de 4 estados).
Sin embargo, es revelador que sólo 5 estados difunden estos resultados a la mayoría de los
maestros, y ninguno los hace llegar a la mayoría de las familias. En general, los resultados de
la encuesta apuntan a limitaciones importantes en los esfuerzos que buscan difundir y usar los
resultados E XCALE al interior de los estados.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la

adecuada interpretación y utilización de los resultados.
Respecto de talleres con usuarios, el personal del INEE nos hizo llegar algunos documentos
que detallan los últimos talleres realizados con periodistas e investigadores. El ultimo taller con
periodistas se realizó en noviembre de 2012 y se enfocó a explicar cuestiones básicas sobre la
prueba (“Qué son los E XCALE”?) y algunas de sus características más relevantes, así como sus
alcances y limitaciones y la manera correcta de interpretar los resultados. También se ofrecie-
ron ejercicios para analizar interpretaciones erróneas de los resultados, asi como discutir sus

implicaciones y consecuencias. Por último, se ofrecio entrenamiento dirigido a la redacción de
notas informativas y análisis de las mismas a partir de tablas de resultados de E XCALE .
Por otra parte, en 2011 y 2012 se ofrecieron talleres dirigidos principalmente a investigadores y
estudiantes de diferentes instituciones, sobre los requerimientos técnicos y usos apropiados de
las bases de datos de PISA y E XCALE . (ver: http://www.inee.edu.mx/index.php/proyectos/excale/

excale-documentos-tecnicos)
No se proporcionó información acerca de talleres dirigidos a autoridades o personal de las áreas

de evaluación en los estados, aunque se sabe que ésta era una práctica común en los primeros
años de la prueba.
Parece deseable hacer una revisión general de los esfuerzos de apoyo y capacitación que pro-
mueve el INEE para facilitar e incrementar el uso apropiado de los resultados de E XCALE (y su
relación e integración con esfuerzos similares enfocados a otras pruebas.)
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que

puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e infor-
mación suficiente sobre la interpretación correcta de los resultados.
En general, los informes de resultados que se derivan de E XCALE son claros en cuanto a los
constructos de aprendizaje que busca medir, y el tipo de inferencias para las que está diseña-
do. Como ejemplifica la Tabla 5.6, los reportes describen en detalle tanto las inferencias y usos
previstos de E XCALE, como las que no se consideran apropiadas o deseables. Los reportes del
INEE históricamente cuidan mucho la apropiada contextualización de los resultados, y los
de E XCALE no son una excepción. Ofrecen información a los usuarios para facilitar la adecuada
interpretación de los resultados y hacen grandes esfuerzos por presentarlos de forma rica,
detallada y contextualizada, para minimizar el riesgo de inferencias o usos simplistas o contra-
indicados. Los reportes se ajustan a las mejores prácticas internacionales al complementar los
resultados con estimados de error estándar que reflejan el grado de precisión de los indicadores
que se presentan, y las comparaciones que de éstos se derivan. Lo anterior reviste particular
importancia si se considera el diseño de la prueba, que combina elementos técnicos complejos
de muestreo estadístico y modelos de medición matricial. Por lo que hace a las consecuencias
previstas del uso de la prueba, los informes de resultados acusan la misma falta de claridad que
fue tema del anterior análisis.
El INEE tiene todavía por delante un esfuerzo para educar e informar a los usuarios sobre los
usos posibles de este tipo de pruebas. A diferencia de los informes de resultados, algunos de
los mecanismos de difusión no reflejan el mismo nivel de cuidado y detalle. Por ejemplo, la he-
rramienta Explorador presenta datos brutos para un gran número de contenidos, con muy alto
grado de desagregación en los datos, y sin información sobre la precisión (error estándar) que
se espera acompañen a estos indicadores en la práctica.
114
Cuadro 5.1 Extracto de Informe de Resultados
Los resultados presentados en este reporte pueden ser utilizados específicamente para
analizar cambios en el logro educativo al paso del tiempo, a nivel nacional y por los estra-
tos escolares reportados. Los cambios detectados pueden mostrar tendencias que sean
esclarecedoras del desarrollo de la educación básica en todo el país. También es posible
comparar los aprendizajes de hombres y mujeres con el propósito de monitorear posibles
inequidades y comparar los aprendizajes de alumnos en edad normativa y con extraedad,
como un insumo para la reflexión de procesos como la reprobación y el ingreso tardío a
la educación básica…
… Debido a los propósitos, diseño, construcción y aplicación de los EXCALE, sus resultados
no pueden ser utilizados para: Evaluar a los estudiantes individualmente, como grupo
escolar de una misma aula, como grupo de estudiantes de una misma escuela o de una
misma zona escolar. Evaluar el desempeño de profesores o escuelas a partir del logro de
los alumnos. Evaluar el efecto de programas de mejora educativa estatales o federales.
Hacer comparaciones entre diferentes asignaturas.
Fuente: Informe sobre los resultados del E XCALE 06, Aplicación 2009 (INEE , 2012)
En la entrevista con personal del INEE se menciona que ha habido peticiones de investigadores
u otras instituciones que pretendían usar los resultados de E XCALE para propósitos de evaluar
programas y políticas educativas a nivel escuela o municipio, lo que hubo que aclarar a los
usuarios era claramente inapropiado y se enfrentaba a un problema infranqueable de validez
de interpretación. Sin embargo, estas limitaciones en principio no impiden que las bases de
datos al nivel del alumno sean utilizadas sin campos que permitan identificar a los alumnos
o las escuelas. Este tipo de análisis es de alta complejidad estadística por el uso de diseños
matriciales y valores plausibles, lo cual hace deseable un esfuerzo adicional para desarrollar
materiales que informen clara y consistentemente a los investigadores capacitados sobre las
características psicométricas y estadísticas de la prueba en general, y los requerimientos téc-
nicos necesarios para analizar las bases en particular. Sería deseable que el INEE tomara la
iniciativa para ofrecer talleres especializados para investigadores que propicien el uso de los
datos de la prueba (que como se menciona anteriormente es un componente fundamental del
modelo lógico de uso de E XCALE).
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos
técnicos en lenguaje claro comprensible para una audiencia general.
En general, los reportes de resultados de EXCALE y la documentación que los acompaña utilizan
lenguaje claro y preciso, a la vez que evitan el uso innecesario de términos especializados. La com-
pleja minucia técnica y estadística de la prueba se aborda por separado en manuales específicos
para etapas relacionadas con en el desarrollo, aplicación y calificación de pruebas. No obstante
esta claridad de propósito y lenguaje en los informes, el volumen de información y el grado de de-
talle con que se presenta pueden ser excesivos para algunos usuarios que no han tenido experien-
cia en métodos estadísticos o psicométricos. El informe de Silva (2012) menciona, por ejemplo, la
falta de comprensión de la información por gran parte de los usuarios, ya que se trata, en general,

de una altamente compleja que se presenta en formatos densos y extensos. El referido estudio
cita un informante que habla de las dificultades de los usuarios, especialmente de los docentes,
para entender la información de los EXCALE: “… algunos maestros me han manifestado que no
les queda claro cuando se manejan las escalas. Les es difícil entender las escalas de los resultados
de los EXCALE, los datos numéricos como los presentan.” (p. 37).
Otros tipos de informes más especializados como el de Factores asociados al aprendizaje de

tercero de primaria en México, está dirigido de inicio a una audiencia de investigadores y, por
tanto, puede ser justificable que se use un lenguaje más técnico. Para este público, podría
afirmarse que la documentación de E XCALE no incluye la información técnica necesaria en sufi-
ciente grado de detalle y que ésta se dispersa entre un número de manuales y textos de distinto
tipo que, de inicio, es bastante difícil organizar. No obstante lo anterior, es importante recoger
el mensaje de Silva (2012) que confirma que las autoridades educativas encuentran complicado
entender la información que se presenta en los reportes e informes de resultados de E XCALE
(p. 39) y hacer los esfuerzos necesarios para presentarlos de la forma más accesible posible.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se des-

cribe el perfil y características de la población de referencia.
Tanto los informes de resultados como los manuales técnicos que acompañan a la prueba E XCALE,
proporcionan información detallada que ofrece una base sólida para identificar y evaluar el
marco normativo que se usa para codificar (calificar) y evaluar el desempeño de los estudiantes.
El manual de establecimiento de niveles de competencia (INEE , 2006a) detalla los componentes

del modelo de evaluación criterial subyacente a la prueba, y el proceso que se sigue para esta-
blecer y validar los niveles de logro de los estudiantes en cada grado. Por su parte, el manual de
muestreo poblacional (INEE , 2006b) da cuenta de los parámetros del marco muestral, las carac-
terísticas de la población de referencia, los estratos, unidades primarias y últimas de muestreo,
y los procedimientos que se siguen para seleccionar la muestra de examinados en cada estado,
escuela y grado.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas.

Se notan limitaciones y errores comunes de interpretación al comparar diferentes
pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas
que no den lugar a estigma.
Los informes de resultados y los manuales técnicos que acompañan a la prueba ofrecen infor-
mación amplia y detallada, así como recordatorios frecuentes que buscan minimizar la ocurren-
cia de interpretaciones injustificadas o incorrectas de los resultados (ver, por ejemplo, Tabla 5.6).
De inicio, la naturaleza muestral y diseño matricial de la prueba reducen significativamente —o

incluso eliminan— la posibilidad de que se presenten algunos usos más perniciosos y no funda-
mentados de las pruebas en gran escala. Evidentemente, al reportarse resultados únicamente al
nivel de entidades federativas y subsistemas, se elimina la posibilidad de que se emitan de juicios
de valor de alto impacto que no se corresponden con el diseño de la prueba.
116
Existe evidencia de que los reportes de resultados por estado y subsistema son interpretados
con frecuencia de forma simplista y reduccionista por diversos actores dentro del sistema, en
particular medios de comunicación y organizaciones políticas y civiles. Aunque la experiencia
internacional sugiere que es imposible evitar completamente este tipo de interpretaciones, es
evidente el esfuerzo que hace el INEE por promover el uso apropiado de los resultados de E XCA-
LE , y acotar aquellos que no están justificados con base en el diseño de la prueba.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque
no pueden preverse todos los usos o interpretaciones inapropiadas, se busca identifi-
car y acotar los más factibles o probables).
La evidencia existente a nivel internacional sugiere que, en principio, no se espera que una
prueba de las características de E XCALE tenga consecuencias imprevistas negativas importantes.
El diseño de la prueba es muestral y matricial y se enfoca a inferencias de bajo impacto cuyo
objetivo primordial es el diagnóstico amplio de la calidad educativa a nivel nacional y estatal.
Sin embargo, en las encuestas y entrevistas con autoridades educativas algunas reportaron usos
imprevistos, como son los rankings de estados como incentivo o indicador a nivel estatal.
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/

positivas, o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados, estos se investigan en grado
y detalle adecuado. Si estos usos persisten, se informa a los usuarios y se intenta
tomar acciones correctivas.
En la entrevista con el INEE se señala que un efecto inesperado positivo de EXCALE ha sido que
algunos estados están diseñando e implementado pruebas similares a nivel preescolar (por ejem-
plo, en Yucatán y Michoacán). Estos desarrollos se desprenden en parte de una colaboración
estrecha con el INEE a partir de talleres que éste imparte (véase Silva, 2012).
Por otro lado, como se discutió anteriormente, la evidencia de la encuesta y las entrevistas es
consistente y sugiere que el uso de E XCALE ha sido limitado en años recientes y sus efectos son,
en general, reducidos. Esto no es sorprendente dado el bajo impacto y consecuencias de la
prueba, así como el gran interés que se generó alrededor de ENLACE .
Es interesante notar que algunos encuestados identificaron el bajo impacto de la prueba como
una consecuencia negativa puesto que quita relevancia a E XCALE y reduce la motivación de los
estudiantes para participar en la prueba, y el interés de los maestros en usar sus resultados.
La baja motivación de los examinados para participar en pruebas de bajo impacto es un proble-
ma persistente a nivel internacional que debe considerarse con cuidado en el caso de E XCALE .
Es deseable buscar mecanismos que mantengan la confiabilidad de los resultados a la vez que
la confianza y el interés de los usuarios en la relevancia de los mismos.

Por último, en algunos estados la encuesta y entrevistas sugieren que se puede estar dando
una reducción en el currículo que se implementa en las escuelas, para enfocarlo a los conte-
nidos y asignaturas que cubre la prueba, en detrimento de otros que no se incluyen o reciben
menor peso.
CONCLUSIÓN
Nuestro análisis de la documentación disponible y las entrevistas con desarrolladores y usua-

rios produjo resultados en cierta medida contradictorios sobre el uso y consecuencias de las
pruebas E XCALE, con relación a sus objetivos y diseño. Encontramos que existe una abundante
documentación para fundamentar nuestro trabajo; específicamente, está disponible una gran
cantidad de manuales técnicos que detallan todos los aspectos del desarrollo, aplicación y califi-
cación de las pruebas. Sin embargo, nuestros análisis revelan una preocupante falta de claridad
y especificidad en el marco teórico de la prueba, sobre todo en lo que se refiere a sus objetivos
y a los usos principales que propone, a los usuarios específicos involucrados, y los resultados y
consecuencias esperadas de esos usos (por esos usuarios). La documentación acusa una notable
falta de diferenciación entre los objetivos y usos de la prueba E XCALE .
Advertimos también una cierta debilidad en el modelo lógico que justifica algunos de los usos
propuestos, particularmente en el caso de docentes. Los usos pedagógicos que se pretende
éstos den a los resultados de E XCALE en su aula y con sus alumnos, parecen no corresponderse,
en principio, con los de una prueba de diseño matricial y que solo ofrece resultados agregados
a nivel regional.
Esto no constituye una crítica a los materiales de apoyo pedagógico que ha desarrollado el INEE
con expertos en cada materia, los cuales son de alta calidad y pueden ser un elemento valioso
para los maestros. Sin embargo, parece claro que estos materiales: 1) no representan un uso di-
recto alineado al diseño de la prueba, ni un uso pedagógico de ésta por parte de los docentes, en
el sentido tradicional; 2) podrían basarse en una prueba de diseño muy diferente al de EXCALE,
o incluso no usar directamente los resultados de alguna.
A diferencia de ENLACE , donde se encontró un uso “generalizado pero no sistematizado” de la

prueba, con E XCALE encontramos poca evidencia de uso consecuente a nivel estatal o federal
para informar políticas educativas y procesos de mejora. Por ejemplo, por medio de la encuesta
y entrevistas se constató una difusión de tipo primordialmente pasivo de resultados a supervi-
sores, maestros y padres de familia en la mayoría de los estados del país.
Como consecuencia, muchos maestros y familias simplemente no están familiarizados con la

prueba, no conocen sus resultados y, por supuesto, no los utilizan para ningún propósito discer-
nible. Aún en el caso del personal de las secretarias de educación y otras autoridades estatales,
las respuestas con frecuencia reflejan un cierto grado de confusión sobre los objetivos de EXCALE
y la diferencia con ENLACE.
A nivel federal se encontró también un uso limitado y decreciente. Aunque las áreas respon-
sables del currículo estuvieron involucradas de cerca en el desarrollo de E XCALE, e inicialmente
utilizaron los resultados para esfuerzos de difusión y mejora en los estados, en años recientes
118
la tendencia ha sido hacia una mayor utilización de las pruebas ENL ACE y PISA , y un rol cada
vez menor para E XCALE . Es notorio e interesante que las razones principales que se mencio-
naron para explicar este patrón es que los resultados de esta prueba no están desagregados
y no son muy valiosos para informar las practicas pedagógicas de los docentes en aula. Esto
coincide con algunas de las limitaciones y sugerencias que se mencionan en nuestro reporte y
merece ser tomado en cuenta en el diseño de la próxima generación de pruebas.
En el mismo patrón, se encontró un uso limitado por parte de los investigadores y expertos
interesados. Esto es lamentable porque refleja que E XCALE no ha tenido impacto en una de las
áreas más importantes de una prueba de su tipo, es decir en el desarrollo y evaluación de teorías
e investigaciones. Nuestro estudio apunta a una falta de claridad en la difusión y promoción
de la prueba y sus resultados, y ausencia de apoyo a investigadores para el uso de las bases de
datos de las aplicaciones. El uso limitado de la prueba ciertamente también refleja una falta de
capacidad en temas técnicos y estadísticos entre los investigadores. Sin embargo, la difusión y
promoción del uso de los resultados y la capacitación de investigadores, son precisamente las
áreas donde el INEE podría tener mayor impacto, sin estar sujeto a las condiciones y presiones
del contexto del sistema educativo. Por tanto nos parece que en este rubro puede asignarse
al INEE un mayor grado de responsabilidad directa tanto para explicar unos resultados a todas
luces no satisfactorios, como para elaborar un plan que permita avanzar en este sentido.
Para concluir, es importante destacar y aclarar que a pesar de las limitaciones importantes de
EXCALE que se han discutido aquí, los resultados de nuestro estudio también son claros en cuan-
to reflejan impacto y consecuencias importantes del trabajo del INEE . en la cantidad y calidad
de los trabajos de evaluación educativa que se realizan en los estados. En este sentido, tanto
los informes de resultados que publica el Instituto, como el proceso mismo de desarrollo de las
pruebas EXCALE, están teniendo un impacto y un beneficio importantes al modelar y promover
el trabajo riguroso de evaluación en las entidades.
Sin embargo, la evidencia en este informe también genera dudas sobre el valor agregado es-
pecífico de E XCALE en el escenario actual de pruebas estandarizadas en México. Por diversos
motivos, justificados o no, los actores y usuarios del sistema prestan más atención a las pruebas
ENLACE y PISA para informar diversos esfuerzos de mejora. Independientemente de su calidad,
ENLACE es la única prueba que ofrece información a nivel de estudiantes, escuelas, y programas
específicos; esa información es preponderante cuando se trata de diagnóstico, intervención y
apoyo para el mejoramiento escolar con escuelas y subsistemas concretos a nivel estatal.
Por otro lado, las pruebas PISA adquieren mayor relevancia para juicios más gruesos a nivel
sistema, aún si no se basan directamente en el currículo nacional. Como punto de referencia
para un diagnóstico sistémico, las competencias del siglo X XI que comprende PISA se perciben
como más importantes incluso que el currículo; lo anterior alude a un problema estructural de
uso que si bien no es responsabilidad de E XCALE, ciertamente forma parte del contexto para el
diseño de la próxima generación de pruebas.
En el futuro será importante mantener el impacto positivo del INEE en las prácticas de evalua-
ción del país, a la vez que mejorar el diseño de cada prueba para sus propósitos específicos. En
particular, será necesario adaptar y mejorar el diseño de las pruebas para asegurar que aportan
el mayor valor agregado posible para usos específicos relevantes para el sistema educativo; ade-
más, habrán de mejorarse sus esfuerzos de comunicación para informar a los diversos actores
acerca de los usos apropiados de cada prueba.

Conclusiones y recomendaciones
En este apartado se retoman las conclusiones de cada uno de los cinco apartados
principales anteriores, en los términos siguientes.
SOBRE ALINEACIÓN A LOS REFERENTES
Hay evidencia de que las pruebas E XCALE se han ajustado a los requerimientos metodológicos
necesarios para asegurar suficiente validez de contenido y representatividad del currículo de re-
ferencia. Existe un marco de referencia que guía todos los procesos de desarrollo de las pruebas,
dándoles unicidad a la vez que se atienden las especificidades que derivan de las características
propias de las asignaturas a que se refiere cada una.
Se han desarrollado manuales y protocolos de trabajo específicos para cada tarea a realizar en
el diseño de las pruebas: marcos de referencia; tablas de especificaciones; niveles de demanda
cognitiva; composición de comités de análisis del dominio educativo y de desarrollo de especi-
ficaciones; y diseño y revisión de reactivos. En todos los casos, se ajustan a las pautas interna-
cionales reconocidas de calidad metodológica, exigibles para el diseño de este tipo de pruebas.
No obstante, aún son necesarios estudios sobre: 1) los análisis de especialistas que llevan a
cabo operaciones de juicios, que deben documentarse para mostrar los grados de acuerdo y su
posterior dictamen con algún modelo de medición de consenso entre jueces o con un análisis
de facetas; 2) análisis de tipo factorial que identifiquen “agrupaciones” de reactivos similares a
las áreas o a los temas propuestos; 3) la alineación de las pruebas respecto de las metodologías
didácticas y evaluativas que habitualmente se desarrollan en las aulas, lo que puede crear un
factor de error no controlado.
Para cada edición de E XCALE deberá elaborarse un manual técnico actualizado, que permita te-
ner evidencias sobre su calidad técnica; es deseable que éstas se integren en un solo documento
que remita a manuales específicos y otros textos para tratar puntos particulares.
SOBRE ASPECTOS PSICOMÉTRICOS
El INEE ha producido gran cantidad de estudios y materiales informativos en relación con E XCALE .
El Plan General de Evaluación sirve de base para la mayoría de los documentos técnicos y ma-
nuales de procedimientos, en el sentido de que todos lo utilizan para definir los propósitos de
120
las pruebas y justificar los procesos. Es necesario producir un manual técnico actualizado, cohe-
rente y debidamente documentado, que opere como una sola fuente de referencia.
El modelo matricial utilizado permite cubrir una gama amplia de contenidos, y facilita el piloteo,
la equiparación, las comparaciones y descripciones a nivel nacional y estatal. Se usa el modelo
de Rasch y la técnica de valores plausibles, por tratarse de pruebas aplicadas a muestras de la
población. Hay varias revisiones sobre sesgo, con datos relevantes, así como aproximaciones
metodológicas a través de comités de validación, definición de criterios para revisar sesgos de
diseño, comparación entre grupos focales y otros enfoques.
Las especificaciones de ítems describen detalladamente los elementos requeridos para dar
calidad a la elaboración de las preguntas, su ubicación en los constructos y el desempeño
medido. Esta descripción parece demasiado exhaustiva y podría reducirse para agilizar su uso
entre diseñadores y analistas. En cambio, es importante ampliar la descripción de los cons-
tructos de cada subescala, detallando el procedimiento mixto y dando resultados empíricos
derivados de aplicaciones.
Se cuenta con documentos normativos para el diseño, revisión y validación de reactivos, útiles
para los comités; destaca el marco teórico-metodológico que justifica los niveles de desem-
peño, con apoyo de expertos, con esquemas de tipo Bookmark y Angoff, o con base en los
resultados de las pruebas.
Dentro de los aspectos a mejorar debe citarse nuevamente la necesidad de contar con una nue-
va edición del manual técnico que incluya los avances y resultados obtenidos hasta el momento.
Dicho manual deberá recopilar e integrar la información actualmente contenida en trabajos de
investigación y documentos muy diversos. En el manual debe describirse también el diseño de
las muestras o la especificación para seleccionar los reactivos para los bloques en el diseño ma-
tricial. Conviene llevar a cabo el análisis de diversos factores que inciden en el dimensionamien-
to de las pruebas y en sus resultados, como la fatiga de los estudiantes, entre otros aspectos.
El diseño muestral debe mejorarse o detallarse pues la información disponible es limitada, y hubo
un cambio de modelo a partir de 2013, sin una justificación clara.
Convendrá elaborar un manual específico o un capítulo en el manual técnico que haga explícitos
los criterios de aceptación de los ítems utilizando el modelo de Rasch y el modelo clásico. Junto
con ello, será de utilidad contar con los datos métricos de las subescalas aprovechando los repor-
tes que produce el software de análisis de Rasch, así como con precisiones sobre la confiabilidad
obtenida con el modelo logístico. También se esperaría disponer de manuales sobre el diseño
muestral; el sistema informático para administrar los bancos de reactivos; su almacenamiento; y
la forma de generar pruebas a partir de los bancos de ítems.
Por otra parte, deberán hacerse otros trabajos de investigación citados en el Plan General de
Evaluación, como análisis de constructos en función de los niveles de desempeño; análisis fac-
toriales para identificar constructos y dimensiones de pruebas y subescalas; estudios de validez
de criterio respecto de otras pruebas; el error de medida como información necesaria sobre la
precisión de las pruebas; de equiparación entre versiones de un mismo año y longitudinalmente;
y análisis multinivel para describir variables explicativas anidadas por aula, escuela y entidad,
entre otros posibles.
Conclusiones y recomendaciones 121

SOBRE ATENCIÓN A LA DIVERSIDAD
Hace falta un documento formal con el marco conceptual de la prueba, y otro sobre el marco
muestral de la población estudiantil mexicana. Estos marcos deberán abordar explícitamente la
diversidad socio-económica, étnica, lingüística y cultural de la población estudiantil, incluyendo

el análisis del error de medición resultante de la heterogeneidad poblacional, y la generalización
de los resultados de las pruebas.
La implementación adecuada de tales acciones implica la inclusión de muestras de grupos indí-

genas y grupos sociales marginados en todo el proceso de desarrollo de la prueba, la realización
de estudios de generalizabilidad en los que se examine el grado en que las calificaciones en las
pruebas varían como efecto de la diversidad mencionada, y la desagregación por grupos étni-
cos, lingüísticos y socioeconómicos en los análisis de confiabilidad y validez.
La diversidad cultural y lingüística de la población mexicana y las limitaciones de recursos hacen

imposible incluir en estudios piloto, muestras de estudiantes de todos los grupos étnicos y lin-
güísticos del país. La recomendación de atender de manera adecuada la diversidad lingüística,
por otra parte, no se debe entender como la propuesta de traducir las pruebas E XCALE a len-
guas indígenas, lo que es largo, costoso y muy difícil de implementar adecuadamente. Adicio-
nalmente hay evidencia de que la mayoría de los alumnos indígenas no reciben instrucción en
su lengua materna, aún si asisten a escuelas del subsistema de educación indígena; también se
sabe que muchos maestros que trabajan en escuelas bilingües no hablan la lengua materna de
sus estudiantes. Por todo ello, evaluar a estudiantes indígenas en su lengua materna sería una
política inadecuada.
Para atender adecuadamente la diversidad cultural y lingüística deberán hacerse estudios espe-
ciales que permitan desarrollar modelos evaluativos y estrategias muestrales basados en teorías
socioculturales y lingüísticas y en el conocimiento actual de las características de los grupos
étnicos y lingüísticos del país. Se podría iniciar con estudios de una o dos lenguas de cada una
de las principales familias lingüísticas de México, para determinar si hay alguna influencia del
tipo de gramática en la manera en que los estudiantes construyen el conocimiento en el espacio
escolar. Otra vertiente de este tipo de estudios podría consistir en incluir a comunidades con
diferentes tipos y grados de bilingüismo y así explorar el impacto de la escolarización en el uso
de las distintas lenguas en espacios escolares bilingües.
SOBRE APLICACIONES
La verificación de la muestra de escuelas es fundamental para asegurar la calidad de EXCALE .

Hay previsiones para obtener los datos básicos de cada escuela participante y el archivo resul-
tante se remite vía correo electrónico. Dada la importancia de la validación, y para evitar tener
que reprocesar casos con errores, conviene tener un sistema de información en línea que capture
directamente los datos verificados por el coordinador estatal.
En general, el diseño de la muestra parece sólido y hay verificaciones externas en varios puntos
del proceso para asegurar que concuerde con lo planificado.
122
Las funciones de cada actor del proceso, y particularmente de los aplicadores, deben contri-
buir a asegurar la calidad de la aplicación. Los procedimientos al respecto son suficientemente
detallados antes, durante y después del proceso, y considerando su tamaño, no se advierten
riesgos mayores.
Respecto del procesamiento de datos y verificación de la calidad existe un proceso documen-

tado, con reportes de la estadística descriptiva para conocer el resultado de cada ítem y sobre
verificaciones de datos (duplicados, omisión de respuesta, valores permitidos, folios y revisiones)
e incidencias reportadas durante empaque y recepción, así como un listado de otras ocurridas.
El control de la aplicación y la toma de decisiones acerca de ella podría optimizarse mediante

la adopción de tecnologías que, en línea, permitan contar con información procedente directa-
mente de la fuente, antes, durante y después de la aplicación, manteniendo soportes impresos
o correos electrónicos como mecanismos alternos para casos de carencia de infraestructura.
Dada la escala de la aplicación, parece posible —y sin duda, deseable— contar con un operador
para distribución de los materiales desde la imprenta hasta la escuela y su posterior recolección
y retorno al INEE , a efectos de obviar instancias intermedias y optimizar la cadena de custodia
de los instrumentos.
SOBRE USOS Y CONSECUENCIAS
El análisis revela una preocupante falta de claridad y especificidad en el marco teórico de la

prueba, sobre todo en cuanto a los objetivos y usos propuestos, los usuarios específicos in-
volucrados y los resultados y consecuencias esperadas de esos usos. También apunta a cierta
debilidad en el modelo lógico que justifica algunos de los usos propuestos, particularmente en
el caso de maestros. Los usos pedagógicos que se pretende den los docentes a los resultados
de E XCALE en su aula y con sus alumnos, parecen no corresponderse con los de una prueba de
diseño matricial y que ofrece solo resultados agregados a nivel regional. Aunque los materiales
de apoyo pedagógico desarrollados con expertos, son de alta calidad y pueden ser un elemen-
to valioso para los maestros, no representan un uso directo previsto alineado al diseño de la
prueba; tampoco constituyen un uso pedagógico en el sentido tradicional pues bien podrían
basarse en una prueba de diseño muy diferente al de E XCALE, o incluso no usar directamente
los resultados de alguna.
Encontramos poca evidencia de uso consecuente de E XCALE a nivel estatal o federal para infor-
mar políticas educativas y procesos de mejora. Por la encuesta y entrevistas que se realizaron, se
constató una difusión de tipo primordialmente pasivo de resultados a supervisores, maestros y
padres de familia en la mayoría de las entidades federativas. Como consecuencia muchos maes-
tros y familias simplemente no están familiarizados con la prueba, no conocen sus resultados y,
por supuesto, no los utilizan para ningún propósito discernible. Aún en el caso del personal de
las secretarías de educación y otras autoridades estatales, las respuestas con frecuencia reflejan
cierto grado de confusión sobre los objetivos de E XCALE y la diferencia respecto de ENLACE .
A nivel federal se encontró también un uso limitado y decreciente. Aunque los responsables del
currículo en la SEP estuvieron involucrados en el desarrollo de EXCALE, e inicialmente utilizaron
los resultados para esfuerzos de difusión y mejora en los estados, en años recientes la tendencia
Conclusiones y recomendaciones 123

ha sido hacia una mayor utilización de ENLACE y PISA , y un rol cada vez menor para E XCALE .
Es notorio que las razones mencionadas para explicar este patrón es que los resultados de
E XCALE no están desagregados y no son muy valiosos para informar las prácticas pedagógicas
de los docentes en aula.
Se encontró también un uso limitado por investigadores y expertos. Esto refleja que EXCALE no
ha tenido impacto en una de las áreas más importantes de una prueba de su tipo, es decir, en el
desarrollo y evaluación de teorías e investigaciones. Nuestro estudio apunta a una falta de cla-
ridad en la difusión y promoción de la prueba y sus resultados, y ausencia de apoyo para el uso
de las bases de datos de las aplicaciones por parte de investigadores. El uso limitado también
refleja falta de capacidad en temas técnicos y estadísticos entre investigadores. El INEE deberá
proponerse avanzar en este sentido.
Pese a las limitaciones que se han discutido, los resultados de nuestro estudio también reflejan
que el trabajo del INEE ha tenido un impacto significativo y positivo en la cantidad y, sobre todo,
calidad de los trabajos de evaluación educativa que se realizan en las entidades federativas.
Tanto los informes de resultados que se publican, como el proceso mismo de desarrollo de las
pruebas E XCALE, han tenido un impacto importante al modelar y promover un trabajo riguroso
de evaluación.
Sin embargo, la evidencia también genera duda sobre el valor agregado de E XCALE en el esce-
nario actual de pruebas estandarizadas en México. Por diversos motivos —justificados o no—,
los actores y usuarios del sistema prestan más atención a ENLACE y PISA para informar diversos
esfuerzos de mejora. ENLACE es la información preponderante cuando se trata de diagnóstico,
intervención y apoyo para el mejoramiento en escuelas y subsistemas estatales. Independiente-
mente de la calidad de la información que produce, es la única prueba que ofrece información
a nivel de estudiantes, escuelas, y programas específicos.
Por otro lado, las pruebas PISA adquieren mayor relevancia para juicios más gruesos a nivel sis-
tema, aún si no se basan directamente en el currículo nacional. Las competencias del siglo X XI
que comprende PISA , por ejemplo, se perciben como más importantes incluso que el currículo,
como punto de referencia para un diagnóstico sistémico. Este problema estructural de uso no
es responsabilidad de E XCALE, pero ciertamente forma parte del contexto para el diseño de la
próxima generación de pruebas.
En el futuro será importante mantener el impacto positivo del INEE en las prácticas de evalua-
ción del país, a la vez que mejorar el diseño de cada prueba para sus propósitos específicos. Por
un lado, será necesario adaptar y mejorar el diseño de las pruebas para asegurar que aportan
el mayor valor agregado posible para usos específicos relevantes al sistema educativo; por otro,
habrá de mejorar sus esfuerzos de comunicación para informar a los diversos actores sobre los
usos apropiados de cada prueba, tanto por separado como de forma complementaria.
124
Referencias bibliográficas
Aguilar R., M. A.; Torreblanca N., O. y Flores V., D. L. (2005). Estudio comparativo de la educación básica en
México 2000-2005. México: INEE . Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/
Reportes_investigacion/Estudio_comparativo/Completo/estudio_comparativo_2000-05b.pdf
American Educational Research Association, American Psychological Association, National Council on
Measurement in Education (1999). Standards for educational and psychological testing. Washington,
Authors.
Backhoff Escudero, E., Monroy, L., Peón, M., Sánchez, A. y Tanamachi, M. L. (2005) Exámenes de la calidad
y el logro educativos (E XCALE): nueva generación de pruebas nacionales. Cuadernos de Investigación,
N° 17. México, INEE . Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Cuadernos_
investigacion/diecisiete/Completo/ci17excale.pdf
Backhoff Escudero, E. y Díaz G., M. A. (2005) Plan general de evaluación del aprendizaje. Proyectos na-
cionales e internacionales. México: INEE . En: http://www.inee.edu.mx/images/stories/Publicaciones/
Documentos_tecnicos/De_pruebasymedicion/plan_general/Completo/plan_general.pdf
Backhoff Escudero, E., Andrade M., E., Sánchez M., A. y Peón Z. M. (2008) El aprendizaje en 3° de pre-
escolar en México. México: INEE . Disponible en: http://www.inee.edu.mx/archivosbuscador/2007/04/
INEE-20070466-preescolar08_completoa.pdf
Backhoff Escudero, E., Bouzas R., A., González M., M., Andrade M., E., Hernández P., E. y Contreras
B., C. (2008) Factores asociados al aprendizaje de estudiantes de 3º de primaria en México. Méxi-
co: INEE . Disponible en: http://www.inee.edu.mx/index.php/publicaciones/informes-institucionales/
resultados-del-aprendizaje/72-publicaciones/resultados-de-aprendizaje-capitulos/559-factores-
asociados-al-aprendizaje-de-estudiantes-de-tercero-de-primaria-en-mexico
Backhoff Escudero, E., Peón Z., M. y Sánchez M., A. (2005) Manual Técnico para el Diseño de Exámenes
de la Calidad y el Logro Educativos. México, INEE . Disponible en: http://www.inee.edu.mx/images/
stories/Publicaciones/Documentos_tecnicos/De_pruebasymedicion/diseno_excale/Completo/
mtdisenoexamexcalemarca.pdf
Backhoff Escudero, E., Peón Z., M., Andrade M., E. y Rivera L., S. (2006) El aprendizaje de la expresión escrita en la
educación básica en México. Sexto de primaria y tercero de secundaria. México, INEE. Disponible en: http://
www.inee.edu.mx/images/stories/Publicaciones/Resultados_aprendizaje/expresion_escrita/Completo/
aprendizajecompleto.pdf
Backhoff Escudero, Eduardo y Díaz G., M. A. (2005) Plan general de evaluación del aprendizaje. Proyectos
nacionales e internacionales. México: INEE . En: http://www.inee.edu.mx/images/stories/Publicaciones/
Documentos_tecnicos/De_pruebasymedicion/plan_general/Completo/plan_general.pdf
Backhoff Escudero, Eduardo, Andrade M., E., Sánchez M., A. y Peón Z. M. (2008) El aprendizaje en 3°
de preescolar en México. México: INEE . Disponible en: http://www.inee.edu.mx/archivosbuscador/
2007/04/INEE-20070466-preescolar08_completoa.pdf
Backhoff Escudero, Eduardo, Contreras N., L. A. y Solano F., G. (2012) Pertinencia de la traducción y adap-
tación de los Exámenes para la Calidad y el Logro Educativos (E XCALE) de preescolar a la lengua maya.
Reporte final del proyecto. México, INEE . 27 pp.
Backhoff Escudero, Eduardo, Peón Z., M., Andrade M., E. y Rivera L., S. (2006) El aprendizaje de la expresión
escrita en la educación básica en México. Sexto de primaria y tercero de secundaria. México, INEE . Dis-
ponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Resultados_aprendizaje/expresion_
escrita/Completo/aprendizajecompleto.pdf
Bormouth, J. R. (1970). On the theory of achievement test items. Chicago, Illinois: University of Chicago Press.
Brennan, R. L. (1995). The conventional wisdom about group mean scores. Journal of Educational
Measurement, 14, 385-396.
Referencias bibliográficas 125

Brennan, R. L. (2005). Some test theory for the reliability of individual profiles. (Research Report 12).Center
for Advanced Studies in Measurement and Assessment.
Campbell, D. T. (1975).Assessing the impact of planned social change. In G. Lyons (Ed.), Social research
and public policies: The Dartmouth/OECD Conference. (Chapter 1, pp 3-45). Hanover, NH : Dartmouth
College, The Public Affairs Center. (p. 35)
Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos
de evaluación educativa. México, Autor.
Cizek, G. J. (2007). Introduction to modern validity theory and practice. Invited presentation to the National
Assessment Governing Board, McLean, VA .
Cizek, G., D. Bowen y K. Church (2010).Sources of Validity Evidence for Educational and Psychological
Tests: A Follow-up Study. Ponencia en la reunion annual del National Council on Measurement in
Education, Denver.
Crocker, L., & Algina, J. (2004). Introduction to classical and modern test theory. 2nd Ed. New York: Hott,
Rinehart, and Winston.
Downing, S. M. & Haladyna, T. M. (Eds). (2006) Handbook of test development. Mahwah, NJ : Lawrence
Erlbaum Associates.
Educational Testing Service (2000). ETS Standards for Quality and Fairness. Princeton, Author.
González-Montesinos, M. (2010). Modelo para detección de funcionamiento diferencial de reactivos (DIF )
en pruebas del INEE . Reporte técnico. INEE .
Guion, R. M. (1977). Content validity-The source of my discontent. (Applied Psychological Measurement,
1, 1-10.)
Guttman, L. (1969). Integration of test design and analysis. In Proceedings of the 1969 invitational confe-
rence on testing problems. Princeton, New Jersey: Educational Testing Service.
Haberman, S.J. (2008).When can subscores have value? Journal of Educational and Behavioral Statistics,
33, 204-229.
Haladyna TM , Downing SM (1988) A taxonomy of multiple-choice item- writing rules. Applied Measure-
ment in Education, 1, 37-50
Hambleton, R. K. & Jones, R. (1993). Comparison of Classical Test Theory and Item Response Theory and
their applications to Test Development. An National Council on Measurement in Education Instructio-
nal Module. Consultado el 3 de octubre de 2007 en: http://www.ncme.org/pubs/items.cfm
Hambleton, R. K. (1994). Guidelines for adapting educational and psychological tests: A progress report.
European Journal of Psychological Assessment, 10, 229-244.
Hambleton, R.K., & Jones, R.W. (1994). Comparisons of empirical and judgemental methods for detecting
differential item functioning. Educational Research Quarterly, 18 (1), 21-36.
Haynes, S., Richard, D. & Kubany, E. (1995). Content Validity in Psychological Assessment: A Functional
Approach to Concepts and Methods. Psychological Assessment, Vol. 7, No. 3, 238-247.
Hively, W. (1974). Introduction to domain referenced testing. Educational Technology, 14, 5-9.
Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para
el Aplicador.
el Delegado.
el Coordinador de Salón.
el Rector.
Instituto Nacional para la Evaluación de la Educación (2005a). Manual Técnico: Especificaciones de Reacti-
vos. México, D.F., Instituto Nacional para la Evaluación de la Educación, Dirección de Pruebas y Medición.
126
Instituto Nacional para la Evaluación de la Educación (2005b). Plan general de evaluación del aprendizaje:
Proyectos nacionales e internacionales. México, D.F., Instituto Nacional para la Evaluación de la Educación,
Dirección de Pruebas y Medición.
Instituto Nacional para la Evaluación de la Educación (2006). Plan maestro de desarrollo 2007-2014. México,
D.F.: Instituto Nacional para la Evaluación de la Educación.
Instituto Nacional para la Evaluación de la Educación (2011). Análisis reticular para la definición de líneas
de evaluación de programas de estudio SEP (1992, 2011): Examen de la calidad y el logro educativos
(EXCALE), Matemáticas, tercer grado, Educación Básica Primaria. México, D.F., Instituto Nacional para la
Evaluación de la Educación, Dirección de Pruebas y Medición.
Instituto Nacional para la Evaluación de la Educación (2012a). Piloteo EXCALE -09 2012: Resultados del aná-
lisis psicométrico de reactivos de opción múltiple. Instituto Nacional para la Evaluación de la Educación,
Instituto Nacional para la Evaluación de la Educación (2012b). Piloteo EXCALE -09 2012: Análisis de reacti-
vos. Instituto Nacional para la Evaluación de la Educación, Dirección de Pruebas y Medición.
Instituto Nacional para la Evaluación de la Educación (2013). Reporte técnico de la aplicación definitiva de
los Exámenes de la Calidad y el Logro Educativos en el sexto grado de primaria (EXCALE 06). México,
D.F. Julio de 2013, Instituto Nacional para la Evaluación de la Educación Dirección de Relaciones
Nacionales y Logística.
Instituto Nacional para la Evaluación de la Educación (2014). Exámenes para la calidad y el logro educativos
(EXCALE), Sexto año de primaria 2012-2013: Diseño Muestral (Versión preliminar). Última actualización,
viernes, 20 de febrero de 2015. México, D.F., Instituto Nacional para la Evaluación de la Educación,
International Association for the Evaluation of Educational Achievement (2001) Technical Standards for IEA
Studies: An Annotated Bibliography.
Jornet M., J. y Backhoff E., E. (2006) Manual técnico. Establecimiento de niveles de competencia. México,
INEE . Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Documentos_tecnicos/
De_pruebasymedicion/establecimiento_competencia/Completo/mtestanivelcompmarca.pdf
Jornet Meliá, Jesús M. y Suárez, J. M. (1989a). Conceptualización del Dominio educativo desde la perspec-
tiva integradora de la Evaluación Referida al Criterio. Bordón. 41, pp. 237-275.
Jornet Meliá, Jesús M. y Suárez, J. M. (1989b). Revisión de modelos y métodos en la determinación de
estándares y en el establecimiento del punto de corte en evaluación referida a criterio (ERC). Bordón,
41, 2, 277-301.
Juárez C., E., Ramírez A., R. y Rodríguez J., J. G. (2006) Manual Técnico para el Muestreo Poblacional. México.
INEE . Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Documentos_tecnicos/De_
pruebasymedicion/muestreo_poblacional/Completo/mtmuestpoblamarca.pdf
Li, S. & Sireci, S.G. (2005). Evaluating the Fit between Test Content, Instruction, and Curriculum Frame-
works: A Review of Methods for Evaluating Test Alignment. Center for Educational Assessment MCAS
Validity Report No. 9. (CEA -558). Amherst, MA : University of Massachusetts, Center for Educational
Assessment.
Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte, NC: Information Age Publishing.
Madaus, G.F. & Kellaghan, T. (1992). Curriculum Evaluation and Assessment. Pp. 119-154. In P. W Jackson
(ed). Handbook of Research on Curriculum. New York: Macmillan.
Nichols, P. & Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibili-
ties. Educational Measurement: Issues & Practice, 28(1), 3-9.
Nitko, A. (1994). A Model for Developing Curriculum-Driven Criterion-Referenced and Norm-Referenced
National Examinations for Certification and Selection of Students. Ponecia presentada en la Confe-
rencia Internacional sobre Evaluación y Medición Educativas, de la Asociación para el Estudio de la
Evaluación Educativa en Sudafrica (ASSESA ).

Nitko, A. (1995). Curriculum-based Continuos Assessment: a framework for concepts, procedures and
policy. Assessment in Education, Vol. 2, No. 3.
Organization for Economic Cooperation and Development (2000-2012). National Project Manager’s Ma-
nual for the PISA Survey.
Organization for Economic Cooperation and Development (2000-2012). Technical Standards for PISA .
Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. (2nd Edition). MA .

Allyn and Bacon.
Roid, G. H. and Haladyna, T. M. (1982). A technology for test-item writing. New. York: Academic Press.
Ruiz-Primo, A., Jornet, J. M. y Backhoff, E. (2006). Acerca de la Validez de los exámenes de la calidad y el
logro educativos (E XCALE). México: Instituto Nacional para la Evaluación de la Educación (INEE ). Extraído
el 15 de octubre de 2010 de: http://www.inee.edu.mx/index.php/component/content/article/3666
Sánchez, M.A. y Andrade, M.E. (2013) El aprendizaje en sexto de primaria en México. Instituto Nacional
para la Evaluación de la Educación. México. Disponible en Internet: http://publicaciones.inee.edu.mx/
buscadorPub/P1/D/310/P1D310.pdf
Sánchez, M.A. y Andrade, M.E. (2013) El aprendizaje en sexto de primaria en México. Instituto Nacional
para la Evaluación de la Educación. México. Disponible en Internet: http://publicaciones.inee.edu.mx/
buscadorPub/P1/D/310/P1D310.pdf
Santiago P. et al. (2012). OECD Reviews of Evaluation & Assessment in Education Mexico 2012, OECD.
http://dx.doi.org/10.1787/9789264172647-3-en
Secretaría de Educación Pública (2008-2013). Evaluación Nacional del Logro Académico en Centro Escolares
ENLACE : Manual Técnico.
ENLACE : Normas Operativas.
ENLACE : Guía para el docente aplicador.
ENLACE : Manual para el Coordinador de Aplicación.
Sireci, S. G. (2009). Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again. In:
Lissitz. R. W. The Concept of Validity: Revisions, New Directions, and Applications. Information Age
Publishing.
Solano-Flores, G. (2011) Adaptación lingüística y cultural de pruebas de logro académico. En INEE una
década de evaluación. Instituto Nacional para la Evaluación de la Educación. México. Disponible en:
http://www.inee.edu.mx/images/aniversario2012/informe%20anual.pdf
Solano-Flores, G. (1993). Item structural properties as predictors of item difficulty and item association.
Educational and Psychological Measurement, 53(1), 19-31. Sage Publications, Inc.
Solano-Flores, G. (2004). El uso de tareas de evaluación en la evaluación del logro académico: Métodos y
posibilidades. En S. Castañeda (Ed.), Educación, aprendizaje, y cognición: Teoría en la práctica. México:
El Manual Moderno.
Solano-Flores, G. (2011). Assessing the cultural validity of assessment practices: An introduction. Basterra,
In M. R., Trumbull, E., & Solano-Flores, G. (Eds.). Cultural validity in assessment: Addressing linguistic
and cultural diversity (pp. 3-21). New York: Routledge.
Solano-Flores, G., & Nelson-Barber, S. (2001). On the cultural validity of science assessments. Journal of
Research in Science Teaching, 38(5), 553-573.
Solano-Flores, G., & Trumbull, E. (2003). Examining language in context: The need for new research and
practice paradigms in the testing of English-language learners. Educational Researcher, 32(2), 3-13.
Tiemann, P. W., & Markle, S. M. (1990). Analyzing instructional content: A guide to instruction and evalu-
ation. Seattle, WA : Morningside Press.
128
Viveros, M. J., Contreras, L. A. y Caso, J. (2013). Development and preliminary evaluation of an academic
density index, as a quantitative indicator to determine the relative importance of curricular contents.
26 th International Congress for School Effectiveness and Improvement. Santiago, Chile.
Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to
Policy Tools. Teachers College Record, 115(9).
Wu, M. (2004) Plausible Values. Rasch Measurement Transactions, 18 (2): 976-978.
Wu, M. L., Adams, R. J. y Wilson, M. R. (1997). ConQuest: Multi-Aspect Test Software. Camberwell:
Australian Council for Educational Research.

Anexos
1. Criterios y subcriterios de evaluación
2. Microanálisis de reactivos de eXCALE

3. Resultados de encuesta de autoridades estatales
4. Lista de estudios que utilizan datos de eXCALE
5. Cobertura de prensa 2010-2013.
Anexo 1. Criterios y subcriterios de evaluación
SOBRE LA ALINEACIÓN A LOS REFERENTES
Análisis del currículo cuyo dominio se evalúa
1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco
teórico que orienta el desarrollo de la prueba.
tt El documento incluye un análisis de las áreas del currículo que evaluará la prueba,
que precise los subdominios y contenidos, así como competencias y niveles de de-
manda cognitiva que se deberán cubrir.
Alineación de la prueba con el currículo
2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en

términos de objetivos, competencias u otro referente curricular.
tt Se presenta estructura del dominio curricular completo del que se muestrea el con-
tenido de la prueba, y la estructura del dominio curricular evaluado.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio
curricular y su densidad diferencial.
tt Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.
tt Se justifica metodológicamente tamaño de la prueba y sus partes (número de ítems)
cumpliendo la ponderación indicada en tablas de especificaciones. Si se maneja
justificación administrativa esta debe definirse claramente.
4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios
y el dominio curricular definidos.
tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de
la representación de ítems y subescalas respecto a los subdominios evaluados y al
dominio curricular completo.
5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.
tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de
los ítems en relación con lo establecido en el currículo.
tt Se refiere el uso de protocolos verbales con examinados para verificar que la com-
plejidad cognitiva real corresponda a la esperada.
130
Especificación, generación y escritura de ítems
6. existe un manual o guía de redacción o diseño de reactivos, en el que se especifican y

justifican los procedimientos para formularlos. El manual:
tt Describe y da ejemplos de todos los tipos de reactivo que tendrá la prueba, indican-
do cómo clasificarlos y justificarlos, con referencia a la relevancia de las respuestas
para el dominio pretendido.
tt Usa tablas o modelos de especificación precisos para homogeneizar el diseño de los
tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos
hagan la captura y la modificación.
tt Fue desarrollado especialmente para la prueba con sus particularidades; no es acep-
table un manual genérico o tomado de otro sistema de evaluación.
7. Los ítems son diseñados por un comité seleccionado teniendo en cuenta la especializa-
ción académica, laboral y su representatividad respecto a la diversidad del país, y estuvo
coordinado por una persona calificada.
tt El comité fue formado específicamente para realizar su labor, considerando todos los
elementos característicos del tipo de prueba a diseñar.
tt La capacitación del comité incluye procesos metodológicos y referencias a taxono-
mías o sistemas de clasificación cognitiva para especificar dominio.
Control de la calidad de los ítems
8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-
ción, revisión y modificación.
tt Se presentan estructura y funciones representadas en el comité evaluador.
tt El manual describe procedimientos/criterios para revisar ítems por jueceo.
tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preci-
so y con representatividad de la diversidad del país.
tt El comité de revisión está formado por jueces diferentes al del de escritura.
tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.
10. El sistema de revisión lógica de cada ítem incluye análisis de:
tt Calidad técnica: claridad en la formulación, adecuación al marco de prueba
tt Congruencia ítem-contenido o ítem-objetivo (subdominio).
tt Posibles fuentes de sesgo de cada reactivo: género, diversidad cultural…
tt Concordancia de juicio para la selección de reactivos o procedimientos para estimar
la confiabilidad de los juicios de los evaluadores.
tt Se verifica que contenido de pruebas corresponda al dominio curricular en todos los
aspectos y niveles de demanda cognitiva planeados.
tt Se cuida la alineación de ítems y prueba con el currículo, los estándares de interpre-
tación y, de ser posible, con la enseñanza y la evaluación en aula.
tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa
y cuantitativa) de la prueba.
tt Se muestran evidencias para fundamentar la validez de contenido.
Anexo técnico 131

A SPECTOS PSICOMÉTRICOS
Calidad de las pruebas

1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran
usualmente en la medida en que sean aplicables.
tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos
en una de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan
los valores obtenidos en los estudios de validez de criterio.
tt Hay evidencia documental del análisis de validez de escala y su pertinencia en rela-
ción con el constructo y el modelo del perfil a evaluar.
tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la
validez de constructo y se presentan los resultados.
2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especi-
ficaciones y del banco de ítems.
tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vi-
gencia en el tiempo o según sedes o localidades.
tt Se cuenta con metodología para hacer versiones equivalentes y se reportan los valo-
res de diseño y experimentales que lo demuestren. No es aceptable reportar resul-
tados sin evidencias de equivalencia entre versiones o formas.
tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logís-
ticos sustantivos, distinguiéndolos de criterios políticos o de opinión.
tt Se especifica y justifica el marco metodológico que integra en forma coherente los
procesos y métodos que guían el desarrollo de la prueba.
tt Se especifica y justifica el modelo psicométrico usado.
tt Hay manuales técnicos que orientan de manera detallada todos los procesos involu-
crados en el desarrollo de la prueba.
3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para
el análisis psicométrico.
tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo,
funcionamiento diferencial e impacto adverso de la prueba.
tt Se describen los análisis efectuados para detectar influencias de factores diversos en
la calidad de la medición, como la habilidad de lectura o escritura, la comprensión
espacial, la ansiedad, etcétera.
4. Se ofrece información sobre la confiabilidad de las pruebas.
tt Se describen los procedimientos usados para calcular la confiabilidad de las subes-
calas y versiones de la prueba. En particular se reportan resultados del cálculo de
consistencia interna de la prueba y sus subescalas.
tt Se dispone de resultados de correlación con aplicaciones repetidas.
tt Hay un reporte con valores de separación del modelo logístico empleado.
tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus sub-
escalas y se reportan los resultados obtenidos en las aplicaciones.
tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de
sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de es-
tudios hechos para determinar posibles sesgos.
132
Calidad de ítems y bancos de reactivos
5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el

cuidado de su calidad.
tt Se cuenta con un documento que describe el modelo de calibración de reactivos y
los criterios para su aceptación, revisión y modificación.
tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificul-
tad, discriminación, ajuste [fit], distractores, dimensiones, etcétera.)
6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.
tt Hay normativa para revisar, corregir y desechar reactivos en función de los resultados
de la calibración, considerando varios parámetros y evidencias.
tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y
con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de
inventario o que haya reactivos sin calibración.
tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en
el banco o en las versiones, forma de almacenamiento en medio informático o físico
y forma de actualización para uso posterior.
Calificación y niveles de desempeño
7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que
responden las pruebas.
tt Está disponible el documento que explica la forma en que se asignó calificación a
estudiantes (normativa, criterial u otra).
tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de cal-
cular los puntajes en dicha escala (por modelo clásico o logístico), con penalización
o sin corrección por azar, entre otros posibles criterios.
tt Se explica el procedimiento para obtener la calificación global como combinación
de diversos instrumentos o partes de la prueba. No es aceptable la asignación global
como promedio de promedios.
8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación
de resultados de las pruebas.
tt Existe el marco teórico-metodológico basado en currículo que justifica la organi-
zación en niveles de desempeño como estándares o sistema de interpretación de
puntajes, junto con el procedimiento de asignación del valor del punto de corte en
la escala.
tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mix-
to) para determinar los niveles de desempeño o estándares.
tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis
del dominio curricular y/o tienen en cuenta consecuencias empíricas de la identifica-
ción de puntajes de corte.
tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se
demuestra experimentalmente su ubicación y se reporta el intervalo de confianza
correspondiente.
tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y
discriminan bien en relación a contenido de prueba.
Anexo técnico 133

tt Se cuenta con la metodología y evidencia del proceso realizado para describir el
significado de los niveles de desempeño o del conjunto de competencias por nivel
en términos de los puntos de corte.
tt Se tiene el documento que detalla los desempeños por nivel para las competencias
y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a
partir de los resultados de las pruebas.

tt Los integrantes de los comités encargados de definir los niveles de desempeño son
seleccionados por sus perfiles académicos y/o laborales y por su representatividad
dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de
capacitación orientado al manejo de la metodología a utilizar.
ATENCIÓN A LA DIVERSIDAD
1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje,

la enseñanza y la evaluación de un contenido están influidos por la experiencia socio-
cultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se
administran las pruebas
2. Como parte del desarrollo de la prueba, se establecen las características de la población
objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples con-
textos y escenarios culturales y ambientales.
3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen
procedimientos para tomar en consideración la diversidad, cultural, lingüística y socioe-
conómica del estudiantado mexicano.
4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar
que la información gráfica y contextual sea familiar para la mayoría del estudiantado y
refleje amplia variedad de contextos culturales.
5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en
contenido incluyen a profesionales con especialidades en el área de cultura (antropólo-
gos, lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y de
nivel socioeconómico bajo.
6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-
nómicas del país.
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si es-
tudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de
igual manera el contenido de muestras representativas de los ítems de la prueba.
8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüís-
tico y socioeconómico en muestras representativas de los ítems de la prueba.
9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos
focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioe-
conómico bajo y de zonas rurales.
10. Se efectúan análisis de generalizabilidad para determinar la solidez de las generalizacio-
nes de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de
estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico.
11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consi-
deración la diversidad cultural, lingüística y socioeconómica son razonables y factibles.
134
12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en
la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de
sesgo y los estudios de generalizabilidad.
APLICACIONES
Selección de muestra
2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos se
definirán con base en argumentos teóricos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se
planificó.
tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra, si se mane-
jarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-
cuelas de reemplazo si hay, y porcentajes aceptables de exclusiones y no respuesta.
tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué
se hace en ese caso.
aceptables.
tt Se documentan en detalle los pasos para la selección de la muestra.
tt Hay una verificación de la muestra por una instancia externa.
tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.
Planeación de las aplicaciones
5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales

que aseguren comparabilidad de los datos.
tt Hay manuales de aplicación probados en campo que precisen actividades a desarro-
llar por cada participante; se describen las variaciones aceptables.
tt Hay un cronograma detallado de todos los pasos del proceso.
tt Se identifica a personal de las escuelas que tendrá que ver con la aplicación (directo-
res, maestros) para contar con su cooperación.
tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas.
tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación
y las incidencias que se puedan presentar.
tt Hay procedimientos de aseguramiento de la calidad de la aplicación.
Selección y capacitación del personal de aplicación
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-
ción de datos, en todos los niveles.
Anexo técnico 135

tt Hay criterios para reclutar y entrenar aplicadores y apoyos.
tt Se recluta y capacita a suficiente personal de reemplazo.
tt La capacitación incluye oportunidad de practicar con los instrumentos.
tt La formación de capacitadores y/o el entrenamiento del personal que asegurará la
calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma
que se asegure su adecuado funcionamiento.

tt Se llevan registros de las sesiones de entrenamiento de aplicadores.
tt Se monitorean las actividades en campo por personal de la instancia central y/o
externo, y se registran problemas detectados.
tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que
recojan la experiencia del personal en campo.
Minimización de carga, motivación, no respuesta y fraude
7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto

para que no sea excesiva tomando en cuenta los sujetos.
tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de
carga sean realistas y aceptables.
tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre
buscando minimizar la carga para los sujetos.
tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que pue-
den obtenerse de otras fuentes.
tt Se agenda la aplicación en horarios convenientes para los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del
estudio y cómo se utilizarán sus datos.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a
la prueba y se entrena al personal de aplicación para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude
y se entrena al personal de aplicación para seguirlos.
Procedimientos de control de calidad en las aplicaciones

tt Se recluta y entrena a monitores que lleven a cabo actividades de control de calidad,
observando la recolección de datos en una muestra de sitios.
tt Si no es viable, se hacen entrevistas presenciales o por teléfono de control de calidad
con aplicadores y demás personal involucrado en la aplicación.
tt Se hace revisión de control de calidad en muestra aleatoria de los datos recolectados
para asegurar llenado completo y correcto.
tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de
las actividades y para identificar y corregir causas de problemas.
136
Preparación del procesamiento de los datos
12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según
normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-
maestros-escuelas; variables a incluir, códigos válidos de datos faltantes o respuestas no
aplicables; formato de datos; estructura de archivos; y limpieza, entre otros.
13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los
aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos acep-
tados y que comprende la importancia de recolectar y capturar la información con el
cuidado necesario para que los análisis posteriores se hagan sobre información de la
mejor calidad posible.
concentran los resultados de la aplicación. Se asegura que:
tt La estructura de los datos se apegue a la de los instrumentos.
tt Los datos tengan suficientes redundancias para permitir control de calidad.
tt Las bases tengan identificadores únicos consistentes para que alumnos y escuelas y,
en su caso, maestros o directores, puedan relacionarse.
tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para
verificar que se cumplan los puntos anteriores.
tt Se documenten todas las actividades de preparación de datos.
Procesamiento y verificación de los datos
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificación de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática
para garantizar la confiabilidad del proceso.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que
se cumplan los estándares en todos los sitios.
tt Se revisa que la estructura de bases se apegue a la acordada, las variables estén en
rangos válidos y los identificadores sean únicos e íntegros.
tt Se contrastan archivos de datos con instrumentos y cuestionarios.
tt Se calculan estadísticas analíticas para cada ítem.
tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya
valores extremos o faltantes; si hay se reportan para revisión.
tt Se documentan todos los pasos del proceso.
Notificación de irregularidades
16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los
datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser
aprobada y documentada.
Anexo técnico 137

USOS Y CONSECUENCIAS
Soporte de interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo teórico o empírico.
2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o
deseables de la prueba.
Acceso equitativo y capacidad de interpretación y uso

mos de difusión y acceso para todas las partes involucradas sin discriminación.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-
cuada interpretación y utilización de los resultados.
Comunicación que facilite interpretación de resultados
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-
de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información
suficiente sobre la interpretación deseable (o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos
técnicos en lenguaje claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se descri-
be el perfil y características de la población de referencia.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se
notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas,
años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no
den lugar a estigma.
Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no
pueden preverse todos los usos o interpretaciones inapropiadas, se busca identificar y
acotar los más factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/
positivas, o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y
detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
138
Anexo 2. Microanálisis de reactivos de EXCALE
M ATEMÁTICAS, TERCERO DE PRIMARIA
La forma reflexiva en “se reventaron” y “se regalaron” (los globos) puede ser difícil de entender
para estudiantes de tercer grado. Hay errores de puntuación y uso de mayúsculas (“… invitados,
¿cuántos…”). El contexto es un tanto inverosímil, pues implica que no se reventó ninguno de
los globos que Rosa regaló, o bien que Rosa regaló los globos al final de la fiesta, cuando ya se
habían reventado 28 globos.
La forma reflexiva en “se plantaron” puede ser poco familiar para estudiantes de tercer grado.
Anexo técnico 139

Por la manera en que está planteado, el problema presenta algunos retos para su comprensión.
En primer lugar, no hay “una balanza” sino varias. En segundo lugar, el problema trata “objeto” y
la categoría de un objeto determinado como intercambiables. De tal suerte, aunque la respuesta
correcta es la segunda opción, el saco de arroz, en realidad hay tres objetos (tres sacos de arroz)
en la segunda balanza. Debido a que objeto y categoría de objetos se tratan como intercam-
biables, la selección cuarta opción (la taza), podría considerarse como una respuesta correcta.
Una posible forma de plantear el problema es:
“¿En cuál de las balanzas hay objetos que pesan 1 kg cada uno?”
M ATEMÁTICAS, SEXTO DE PRIMARIA
El ítem es claro. A menos que en el currículo nacional se emplee otro sistema notacional, se
debieran usar comas para separar períodos de tres dígitos.
140
Uso incorrecto de puntuación (“… amigas, Ana…”).
El ítem no parece tener ningún problema, excepto que sería mejor que dijera: “… tiene la forma
y las medidas…”
Anexo técnico 141

M ATEMÁTICAS, TERCERO DE SECUNDARIA
El formato es difícil de interpretar, probablemente porque la redacción de la pregunta tiene que

ser refinada. La pregunta sería más fácil de entender en la siguiente forma:
“¿Cuál opción muestra las mensualidades a pagar si se desea hacerlo en 40 y en 20 meses?”
Ningún comentario.
142
Ningún comentario.
Este es un buen ejemplo de reactivo que explota al máximo el potencial de un texto para cono-
cer la comprensión lectora de los estudiantes, así como su manejo de vocabulario académico.
En comparación con dos de los reactivos analizados en este ejercicio, este ejemplo proporciona
más información sobre el dominio del español de los estudiantes, su familiaridad con textos
expositivos de carácter académico y su comprensión lectora. Este tipo de reactivos posee mayor
potencial diagnóstico sobre temas de interés para mejorar la calidad en la enseñanza de habili-
dades lingüísticas que otros analizados en este breve ejercicio.
Anexo técnico 143

ESPAÑOL, TERCERO DE PRIMARIA
El humor es un tema sensible a las diferencias culturales y no forma parte del currículo escolar.
En este reactivo se asume que los estudiantes conocen un tipo de serpientes que tienen un
cascabel y que ese cascabel puede ser visto como una sonaja. La comprensión del “chiste” no
depende únicamente de la habilidad lectora o del manejo del vocabulario por parte de quien
lo lee. También asume un cierto conocimiento del mundo que probablemente no haya sido
socializado en el espacio escolar.
Se aprecia un error de formato: la sustitución de comillas por cuadrados. No se sabe si este error
aparece solamente en la copia del material que se le dio a los evaluadores o si aparece en el
material que se le da a los estudiantes.
144
Este reactivo parece evaluar la capacidad de los estudiantes para ordenar, siguiendo la secuen-
cia alfabética, una lista de nombres. La formulación es correcta y la información que se pide
corresponde al conocimiento que debe tener un estudiante al que se ha enseñado a organizar
listas nominales con base en el alfabeto.
Por una cuestión formal, hubiera sido conveniente utilizar una coma para separar los apellidos
del primer nombre. Es importante recordar que en muchas regiones de México —en especial
en pueblos indígenas— las personas tienen como apellido un nombre propio. Nombres como
“Juan” o “Hernán” forman parte del inventario de apellidos en nuestro país, lo que podría
volver confuso el reactivo.
Anexo técnico 145

En este reactivo se evalúa el conocimiento de vocabulario de adquisición más o menos tardía en

el desarrollo lingüístico infantil. La relación entre el texto y las preguntas puede no ser clara para
el estudiante, pues no se retoma información directa del argumento del texto, sino solamente
del conocimiento de dos ítems léxicos. Sin embargo, el ítem parece ser efectivo para conocer el
manejo de vocabulario, no tanto de comprensión lectora.
En la línea 3 la puntuación no es óptima, debiera decir: “¿Cuál?—pregunté.”
146
ESPAÑOL, SEXTO DE PRIMARIA
Ningún comentario, excepto que el uso de sangrías en los dos párrafos del texto no es consistente.
Anexo técnico 147

La capacidad para resumir un texto es una habilidad que no solo refleja la comprensión lectora
de un estudiante sino que también busca explorar su capacidad de síntesis, pero implica que el
estudiante puede conocer cuál de la información es prioritaria dentro de un texto expositivo.
A partir de esos criterios podría haber más de una respuesta correcta en el reactivo anterior en
función de la información que se considere más relevante. El hecho de que se incluyan líneas en
blanco para los subtítulos que no están asociadas a las preguntas también resulta confuso, pues
no es claro si el concepto de “párrafo” se refiere a la presencia de puntos y aparte o a los tres
bloques del texto divididos por estas líneas. Eso determinaría si el estudiante se centra sólo en
la primera parte del texto (que incluye dos puntos y aparte), o lo analiza todo (separado en tres
bloques). Este formato no es consistente con otras partes de la prueba en las que, después de
cada punto y aparte, se incluye un espacio para la división de los párrafos. En este reactivo en
particular, después de la marca de puntación se utiliza sangría (tipografía que no se utiliza en el
resto de los reactivos analizados).
148
Anexo técnico 149
Desafortunadamente la imagen de la carátula del libro es muy borrosa y no se alcanza a ver

parte de la información que permitiría hacer un análisis sobre las posibles respuestas. Sin em-
bargo resulta un poco sorprendente que, después de la lectura de un texto expositivo largo y
con vocabulario infrecuente, no se retome nada del texto y solo se exploren aspectos formales
de la portada. Esta observación se hace porque el texto utiliza algunos términos que no corres-
ponden al español de México como “puerro” o a vocabulario muy arcaico como “enjundias”,
los cuáles muy probablemente no forman parte del léxico de los escolares mexicanos.
150
ESPAÑOL, TERCERO DE SECUNDARIA
Anexo técnico 151

Este es un buen ejemplo de recuperación de información en un texto expositivo para explorar la

comprensión lectora. Además de incluir vocabulario de uso frecuente en el español de México,
el texto aborda un tema cercano a la gran mayoría de los estudiantes del país. Utilizar para este
tipo de pruebas diferentes géneros, como el periodístico, ayuda no sólo a conocer la capacidad
de un estudiante para extraer el argumento central de un texto, sino también a familiarizarlo
con diversos tipos de textos, más allá de los escolares.
152
Este reactivo incluye el fragmento de un texto en formato de diálogo que utiliza un español
arcaico. Más allá de las formas de conjugación verbal que ya no se usan actualmente en el
español de México, algunos ítems léxicos tampoco son ya vigentes. Sin embargo la pregunta
sólo implica inferir una conclusión del fragmento. Es un buen ejercicio de exploración de la
comprensión lectora, pero se corre el riesgo de que los estudiantes se concentren en la distancia
entre el registro utilizado en el texto y el suyo, más que en la información que puede inferirse
de su lectura.
Anexo técnico 153

Anexo 3. Resultados de encuesta de autoridades estatales
(%) n=20 Comentarios

¿A cuáles de las siguientes audiencias se han hecho llegar los resultados de EXCALE en su entidad?
Autoridades municipales 1 (5) Reunión, Internet, Impresos
Coordinadores de región o jefes de sector 11 (55) Reunión (10), Internet (7), Impresos (6)
Reunión (7), Internet (7), Impresos
Supervisores de escuela 14 (70) (9, solo en 4 estos alcanzan a la mayoría
de supervisores)
Reunión (3), Internet (4), Impresos (9, solo en
Docentes 10 (50)
5 estos alcanzan a la mayoría de docentes)
Reunión (2), Internet (2), Impresos (3; en los
Madres y padres de familia 4 (20)
3 alcanzan a menos de la mitad de padres)
Otra audiencia 4 (20) Directores (2), Investigadores (1) N.A (1)
Diagnosticar el trabajo de la escuela; Reuniones (2); Plan autoevaluación (2);
6 (30)
informar autoevaluación y gestión escolar No (2)
Consecuencias positivas en su entidad Genéricas (4), No (2)
Consecuencias no deseadas en su entidad Estrés para alumnos/docentes (1)
Complemento a ENLACE (2), Materiales INEE
Orientar intervención pedagógica 6 (30)
(1), “Análisis” (2), No (1)
Consecuencias positivas en su entidad Genéricas (7)
Consecuencias no deseadas en su entidad Reducción del currículo (1); No (4)
Orientar capacitación de docentes 9 (45) Enviar Impresos (2) Genéricas (6)
Capacitación docente (3); Genéricas (2),
Consecuencias positivas en su entidad E
No (3)
Consecuencias no deseadas en su entidad No (no se usa, no se conoce) (11)
Orientar a padres para apoyar
2 (10) Genéricas (2)
a sus hijos para reforzar contenidos
Consecuencias positivas en su entidad Genéricas (2)
Consecuencias no deseadas en su entidad Quitan atención a alumnos (1); No (1)
Socializar el trabajo de la escuela
3 (15) Genéricas (2)
y fortalecer la comunidad escolar
Consecuencias positivas en su entidad Genéricas (2) No (1)
Consecuencias no deseadas en su entidad No (2)
Corroborar ENLACE /PISA (2),
Evaluar políticas y programas educativos 6 (30)
Plan de desarrollo (2) Genéricas ( 2)
Verificar ENLACE /PISA (1), Genéricas (4),
Consecuencias positivas en su entidad
No (1)
Reducción del currículo (1), Desinterés en
Consecuencias no deseadas en su entidad
alumnos/docentes (2), No (3)
Rendición de cuentas: evaluación de escuelas 5 (25) Genéricas (2)
Consecuencias positivas en su entidad Interés en escuelas (2), Genéricas (2), No (2)
Desinterés en escuelas por irrelevante (1),
Consecuencias no deseadas en su entidad
Manipulación (1), No (5)
Rendición de cuentas: evaluación docente 2 (10) No (2)
Consecuencias positivas en su entidad Genérica (1), No (1)
Consecuencias no deseadas en su entidad Descalificación de docentes (1), No (1)
Otro uso 6 (30) Ampliar perspectiva en evaluación (1), No (5)
154
Consecuencias de Uso
Consecuencias en relación a los estudiantes
Desmotivación a los alumnos para intentar
2 (10) Múltiples
mejorar sus resultados
Dar a estudiantes mejor información acerca
3 (15) Múltiples/Generalizado
de su propio conocimiento y habilidades
Enviar señales claras a los alumnos
sobre lo que deben estudiar
Mayor competencia entre alumnos 2 (10) Múltiples/Generalizado
Ayudar a estudiantes a asociar los esfuerzos
personales con los resultados que obtienen
Motivar a los estudiantes a trabajar más
fuertemente en la escuela
Otra consecuencia en relación a los estudiantes 4 (20) Sentido de comunidad (1), No (4)
Consecuencias en relación a los maestros: Múltiples/Generalizado
Apoyar a docentes en un mejor diagnóstico
de las necesidades de los estudiantes
Desvalorización de las calificaciones
que asignan los docentes
Maestros se enfocan al contenido de la prueba
más que estándares y aprendizajes
Prácticas pedagógicas que reflejan
los formatos de respuesta de la prueba
Ayudar a los docentes a identificar
las fortalezas y debilidades del currículo
Desvalorización de los exámenes
que se aplican en las escuelas
Prácticas docentes que buscan preparar
a los alumnos para esta prueba
Moral baja de docentes debida a resultados
negativos obtenidos en la prueba
Moral baja de directivos escolares por
resultados negativos obtenidos en la prueba
Identificar contenidos que aún no dominan
los estudiantes y redirigir la enseñanza
Desvalorización del sentido del valor
profesional de los maestros
Motivar a los maestros para mejorar su trabajo 8 (40) Múltiples/Generalizado
Ayudar a maestros a alinear la enseñanza
con los estándares planteados en el currículo
Maestros que hacen trampas
cuando preparan para la prueba
Maestros que hacen trampas cuando
se aplica la prueba
Motivar a los maestros a participar
en actividades de desarrollo profesional 6 (30) Múltiples/Generalizado
para mejorar sus prácticas de enseñanza
Docentes que privilegian factores
4 (13.7) Múltiples/Generalizado
externos para motivar el aprendizaje
Presión, ansiedad y estrés elevados
en docentes
Presión, ansiedad y estrés elevados
en directores de escuela
Otra consecuencia en relación a los maestros No (3); 1 ENLACE o EXCALE? (1)
Anexo técnico 155

Consecuencias en relación a las autoridades
Motivar a autoridades educativas a examinar
9 (45)
las políticas relacionadas con la enseñanza
Implementar medidas institucionales dirigidas
6 (30)
a aumentar puntajes de la prueba
Ayudar a las autoridades educativas a valorar
8 (40)
la calidad de los programas
Implementación de incentivos institucionales
4 (20)
para alumnos con base en puntajes obtenidos
Implementar incentivos institucionales para
3 (15)
docentes con base en puntajes de su grupo
Promover el cambio de políticas para mejorar
5 (25)
la enseñanza
Asignar recursos para mejorar los resultados
7 (35)
de las asignaturas evaluadas en la prueba
Implementación de medidas institucionales
3 (15)
para preparar a los alumnos para la prueba
Enriquecer la toma de decisiones de
las autoridades en cuanto a la asignación 7 (35)
de los recursos en la entidad
Énfasis de autoridades en la mejora
de los puntajes de la prueba a expensas de 4 (20)
otras necesidades y problemas de las escuelas
Ayudar a tomadores de decisiones a juzgar
9 (45)
la efectividad de las políticas educativas
Provisión de información confusa
que lleve a tomar decisiones equivocadas 3 (15)
a los administradores educativos de la entidad
Mejorar la habilidad de los tomadores
de decisiones para monitorear el desempeño 8 (40)
del sistema educativo
Promoción de una visión simplista o
2 (10)
reduccionista de la educación y sus objetivos
Fortalecer la asignación de recursos
5 (25)
educativos en la entidad
Otra consecuencia en relación
5 (25) No (4), Comparaciones con otros estados (1)
a las autoridades
156
Anexo 4. Lista de estudios que utilizan datos de EXCALE
1. La desigualdad de oportunidades de lectura. Un análisis de la distribución de libros y

lecturas entre los alumnos mexicanos, a 50 años de los primeros libros de texto gratuitos.
2. Achievement Gap in México: Present and Outlook.
3. Evaluación de la eficacia del gasto gubernamental en México. El caso de la primaria.
4. Hacia la elaboración de un Índice de educación para México.
5. El SNTE y la calidad educativa. Una agenda de investigación.
6. Competencias matemáticas en educación primaria.
7. Efectos escolares sobre los aprendizajes en México: una perspectiva centrada en la inte-
racción escuela-entorno.
8. Análisis comparativo de la pertinencia del diseño del Acuerdo Educativo por el Derecho
Social a la Educación de Alta Calidad en Michoacán y de la pertinencia del Acuerdo por
la Calidad de la Educación en Guerrero.
9. Towards a Realist methodology for School Effectiveness Research: A Case Study of Edu-
cational inequality from Mexico.
10. Learning inequality among indigenous students in Mexico.
11. Modelo de ecuación estructural que evalúa las relaciones entre el estatus cultural y
económico del estudiante y el logro educativo.
12. Factores asociados al aprovechamiento en español en la telesecundaria mexicana.
13. Violencia en el interior y al exterior de las escuelas primarias y secundarias un acerca-
miento a través de los profesores.
14. Muscle, Timing, and Priorities: Teacher Unions and Education Quality in Mexico.
15. Ana María Soto Rodríguez. Factores escolares que influyen en el rendimiento académico
de estudiantes de tercer año de secundaria con niveles socioeconómicos bajos. Tesis de
Maestría en Ciencias Educativas. Universidad Autónoma de Baja California (1/12/2010).
16. Backhoff, E., Contreras-Niño, L.A. y Solano-Flores, G. (2011). Sobre la pertinencia de
evaluar a los estudiantes indígenas en su propio idioma: una propuesta metodológica.
Diálogos sobre educación. Temas actuales en investigación educativa, 2(3), 1-13.
17. Backhoff, E. (2011). La inequidad educativa en México: Diferencias en el aprendizaje
de la comprensión lectora en educación básica. Profesorado. Revista de Currículum y
Formación de Profesorado, 15 (3), 1-16.
18. Backhoff, E., Sánchez, A., Peón, M. y Andrade, E. (2010). Comprensión lectora y habili-
dades matemáticas de estudiantes de educación básica en México: 2000-2005. Revista
Electrónica de Investigación Educativa, 12 (1), 1-29. Consultado en: http://redie.uabc.
mx/vol12no1/contenido-backhoffsanchez.html
19. Backhoff, E. (2013). Validity in International Large Scale Assessment Applications in
Developing Countries. En: M. Chatterji, Validity and Test Use An International Dialogue
on Educational Assessment, Accountability and Equity. USA : Emerald.
20. Backhoff, E., Bouzas, A. y Larrazolo, N. (2012). Variables escolares y resultados de apren-
dizaje: el caso del 3° de secundaria en México. En M. Castro (Ed.) Elogio a la Pedagogía
Científica: Liber Amicorum para Arturo de la Orden. Madrid: Creapress.
21. Backhoff, E. y Larrazolo, N. (2011). Las brechas educativas en México como producto
de la desigualdad social. En SEP, Educación pública: patrimonio social de México.
Temas de nuestro tiempo (vol. II ). pp. 37-44. México: Fondo de Cultura Económica.
Anexo técnico 157

22. Backhoff, E., Peón, M. y Jornet, J. (2011). Método empírico-conceptual para determinar
estándares de ejecución de expresión escrita. En E. Luna (Ed.) Aportaciones de la inves-
tigación a la evaluación de los estudiantes y docentes. México: Porrúa.
23. Backhoff, E., Bouzas, A. y González-Montesinos, M. (2011). ¿Cómo se evalúa la calidad
educativa de un país? Algunos desarrollos recientes. En E. Luna (Coord.) Aportaciones
de la investigación a la evaluación de los estudiantes y docentes. México: Porrúa.

24. Backhoff, E. (28-29/3/2012). Comments on Validity Issues in International Large Scale
Assessments. Accountability and Equity: Conversations on Validity Around the World.
Educational Testing Service. ETS y Teachers College of Columbia University.
158
Anexo 5. Análisis de cobertura de prensa 2010-2013
Año Medio Tema

2010 La Jornada Calidad de la educación y evaluación (EXCALE y otras pruebas)
El Periódico de México EXCALE 3º secundaria, resultados generales
El Universal EXCALE 3º secundaria, violencia escolar (error: ESCALE )
Diario de México EXCALE 3º secundaria, violencia escolar (error: ESCALE )
El Sol de México EXCALE 3º secundaria, resultados generales (página principal)
El Economista EXCALE 3º secundaria, resultados generales
La Jornada EXCALE 3º secundaria, violencia escolar
El Financiero EXCALE 3º secundaria, resultados generales
Excelsior EXCALE 3º secundaria, resultados generales
La Jornada EXCALE 3º secundaria, resultados generales
Excelsior EXCALE 3º secundaria, biología
Excelsior EXCALE 3º secundaria, Telesecundarias Veracruz
Excelsior EXCALE 3º secundaria, educación cívica
El Economista EXCALE 3º secundaria, educación cívica
2010 Vértigo Compara niñas y niños con base en EXCALE
La Jornada EXCALE 3º secundaria, motivación escolar
2011 Grupo Reforma Calidad educativa, relata algunos resultados EXCALE
Grupo Reforma EXCALE 3º bachillerato expresión escrita y ed. cívica, con PISA
Sociedad y Justicia EXCALE 3º bachillerato expresión escrita, junto con PISA
2012 El Universal EXCALE 3º primaria, cuestionario de contexto para alumnos
Sociedad y Justicia EXCALE 3º primaria, cuestionario de contexto para alumnos
2013 La Jornada de Oriente Aplicación EXCALE en Puebla, objetivos EXCALE
El Universal Mención de EXCALE junto con otras pruebas
El Universal Mención de EXCALE junto con otras pruebas
Anexo técnico 159

L AS PRUEBAS E XCALE PARA EDUCACIÓN BÁSICA
UNA EVALUACIÓN PARA EL INSTITUTO NACIONAL PARA LA EVALUACIÓN
DE LA EDUCACIÓN
En su formación se utilizaron las familias
tipográficas: Frutiger Lt Std y Museo.

Prueba Excale

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Prueba Excale

Cargado por

Copyright:

Formatos disponibles

ANEXO

Las pruebas EXCALE

Felipe Martínez Rizo

Luis Ángel Contreras Niño • Eugenio González

Universidad Autónoma de Aguascalientes

Luis Ángel Contreras Niño, Eugenio González,

D.R. © Instituto Nacional para la Evaluación de la Educación

Impreso y hecho en México.

Consulte el catálogo de publicaciones en línea: www.inee.edu.mx

La elaboración de esta publicación estuvo a cargo de la Dirección General

Martínez Rizo, F. (Coord.) (2015). Las pruebas EXCALE para educación

Alineación a los referentes .......................................................................................... 15

Conclusiones y recomendaciones ............................................................................. 120

Referencias bibliográficas.......................................................................................... 125

Sylvia Irene Schmelkes del Valle

Eduardo Backhoff Escudero

Gilberto Ramón Guevara Niebla

Margarita María Zorrilla Fierro

Teresa Bracho González

En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA ) y el Instituto

Se precisa que el Estudio deberá comprender al menos cinco aspectos:

1. La alineación al currículo de la educación básica de México, revisando el grado en que

Felipe Martínez Rizo

En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la pro-

Tabla 1 Criterios y subcriterios utilizados

Áreas Criterios Subcriterios

La lista de los 58 criterios es la siguiente:

ALINEACIÓN A LOS REFERENTES

país, y está coordinado por una persona calificada.

1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje,

La lista completa de criterios y subcriterios pude verse en el anexo 1.

En el apartado relativo al análisis de las pruebas ENLACE presentamos el modo en que

El análisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:

basadas en formas o versiones de la prueba.

A NÁLISIS DEL CURRÍCULO CUYO DOMINIO SE EVALÚA

La documentación revisada da cuenta de varios productos derivados del análisis independiente

Alineación a los referentes 17

19 (en http://publicaciones.inee.edu.mx/detallePub.action?clave=P1C117), así como los ma-

Tabla 1.1 Programa de Evaluación del Aprendizaje del INEE

• Los manuales técnicos de E XCALE se ajustan a un proceso riguroso de carácter metodoló-

Alineación a los referentes 19

General de • Asesores 2. Seminarios del Aprendizaje (con el Marco

20 Fuente: Backhoff et al., 2006, págs. 5-6.

Alineación a los referentes 21

2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

prueba en términos de objetivos, competencias u otro referente curricular.

Como señalamos en el apartado referido al análisis de las pruebas ENLACE:

Otro factor imprescindible que permite trabajar en favor de la consecución de la validez de

En el diseño de E XCALE se dio este modo de trabajo. Se muestran evidencias en:

En la documentación existente se aprecia un elevado grado de coherencia con los procesos

3. Se explica el procedimiento usado para determinar la importancia relativa de conte-

Como señalamos en el informe anterior respecto a las pruebas ENLACE:

La composición de cualquier prueba referida a un diseño curricular se debe apoyar en cri-

Generalmente, se basan en valoraciones que realizan comités de especialistas que indican

Así, la determinación de la importancia relativa de los contenidos curriculares es un proce-

Alineación a los referentes 23

• Finalmente, en los manuales técnicos, marcos de referencia y documentos internos de

• Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.

No hay estudios experimentales para realizar ajustes o demostrar la pertinencia de los

El tamaño de la prueba se justifica metodológicamente con base en dos dimensiones. La pri-

Fuente: Manual técnico para el diseño de las pruebas, pág. 11.

Alineación a los referentes 25

Tabla 1 Criterios y subcriterios utilizados

Tabla 1.1 Programa de Evaluación del Aprendizaje del INEE

General de • Asesores 2. Seminarios del Aprendizaje (con el Marco

Tabla 1.3 Relación entre tipos de conocimientos y requerimientos cognoscitivos,

Estructura de la base del reactivo: