Evaluacion Aprendizaje

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/273450042
Evaluación del aprendizaje en el nivel universitario: elaboración de exámenes y

reactivos objetivos
Book · January 2006
CITATIONS READS
4 90
1 author:
Sandra Castañeda Figueiras

Universidad Nacional Autónoma de México
180 PUBLICATIONS 466 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Significancia del sentido de agencia académica y derivación tecnológica en educación superior View project
Variables asociados con el logro académico View project
All content following this page was uploaded by Sandra Castañeda Figueiras on 13 December 2016.
The user has requested enhancement of the downloaded file.

EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
ELABORACIÓN DE EXÁMENES Y REACTIVOS OBJETIVOS
FACULTAD DE PSICOLOGÍA, UNAM
Responsable de la edición: Ma. Elena Gómez Rosales.

Diseño: Teodoro Mareles Sandoval y Aurelio Graniel Parra
Colaboración en el diseño: Elisa Soto Sevilla
Portada y revisión técnica del diseño: Aurelio Graniel Parra.
Evaluación del Aprendizaje en el Nivel Universitario.
Elaboración de Exámenes y Reactivos Objetivos
Sandra Castañeda Figueiras

(Coordinadora)
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

MÉXICO 2006
Proyecto CONACyT 40608-H

Comité Editorial:
Dra. Lucy María Reidl Martínez

Dra. Amada Ampudia Rueda
Lic. Silvia Teresa Lizárraga Rocha
Dra. Gloria Silvia Macotela Flores
Dra. Feggy Ostrosky Shejet
Dra. Sofía Rivera Aragón
Dr. Carlos Santoyo Velasco
Dr. Jesús Felipe Uribe Prado
Psic. Ma. Elena Gómez Rosales
Primera edición: 2006
DR©2006. Universidad Nacional Autónoma de México

Ciudad Universitaria 04510, México, D.F.
FACULTAD DE PSICOLOGÍA
Impreso y hecho en México
ISBN 970-32-3960-9
Índice?
Presentación de la obra
Sandra Castañeda F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix
Colaboradores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi
SECCIÓN I.
Medición del aprendizaje y fortalecimiento de evidencias
en apoyo a la toma de decisiones en educación
Capítulo 1. Evaluación del aprendizaje en educación superior
Sandra Castañeda F.
Universidad Nacional Autónoma de México. . . . . . . . . . . 3
Capítulo 2. Preparación y calibración de reactivos:
medición de y para el aprendizaje
Miguel López O.
Universidad Nacional Autónoma de México . . . . . . . . . . 29
SECCIÓN II.
Hallazgos de investigación en estudios de validación
de constructo en el proceso de responder
Capítulo 3. Efectos de fuentes de contenido sobre dificultades
apriorística y empírica de ítems objetivos
Sandra Castañeda, Raquel García, María de Lourdes
Pineda, Miguel López e Isaac Ortega
Universidad Nacional Autónoma de México . . . . . . . . . . 59
Capítulo 4. Validando puntajes de bancos de Ítems de
exámenes de egreso de licenciatura
Sandra Castañeda, Daniel González y Cesar Varela
Universidad de Sonora . . . . . . . . . . . . . . . . . . . . . . . 75
vi EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
Capítulo 5. Variables personales relacionadas con el promedio

académico, la atribución de éxito y la construcción
de teorías del desempeño académico
Aldo Bazán Ramírez, Rafael Félix Verduzco y
Helena Gaviño Sánchez
Universidad Autónoma del Estado de Morelos,
Instituto Tecnológico de Sonora y Universidad de
Sonora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
SECCION III.
Diseñando la evaluación objetiva de resultados de aprendizaje
Introducción
Universidad Nacional Autónoma de México . . . . . . . . . 141
Capítulo 6. Diseñando exámenes
Sandra Castañeda, Raquel García y Rosa Elsa González
Capítulo 7. Elaboración de ítems objetivos

Raquel García, Sandra Castañeda, Rosa Elsa González,
María de Lourdes Pineda y Cecilia Arredondo
Capítulo 8. Escala de valoración de fuentes de contenido
de reactivos objetivos
Sandra Castañeda, Isaac Ortega, Daniel González,
Miguel López, Raquel García, María de Lourdes Pineda y
Rodrigo García.
Capítulo 9. Análisis de reactivos
Miguel López O.
Capítulo 10. Calificando, interpretando y realimentando al
aprendizaje
Sandra Castañeda, Rosa Elsa González y
Cecilia Arredondo
Universidad Nacional Autónoma de México . . . . . . . . 247
ÍNDICE vii
SECCION IV.
Guías para elaborar ítems objetivos
Capítulo 11. Guía general de elaboración de reactivos
Sandra Castañeda, Miguel López, Raquel García y
Rosa Elsa González
Salvador Ruiz de Chávez Consultores en Educación . . 271
Capítulo 12. Guía específica de Contaduría
Salvador Ruiz de Chávez
Consultores en Educación. . . . . . . . . . . . . . . . . . . . 313
Capítulo 13. Guía específica de Pedagogía
Rosa Elsa González y Raquel García
Capítulo 14. Guía específica de Psicología
Raquel García y Rosa Elsa González
Glosario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
Presentación
En tanto la evaluación es un proceso de obtención de información, esen-
cial para la toma de decisiones en cualquier esfera del comportamiento
humano, incluyendo la educativa, instrumentar acciones que optimicen
las maneras en las que se realiza en la Educación Superior constituye un
objetivo prioritario cuando lo que se desea es asegurar la calidad del co-
nocimiento que se construye en los escenarios formativos. Con esto en
mente, desarrollar habilidades docentes para seleccionar, construir y
evaluar instrumentos útiles para diagnosticar el logro de los alumnos,
así como para derivar acciones que fomenten aprendizajes exitosos ha-
ría más explícita y, sobre todo, más efectiva la relación entre la evalua-
ción y la instrucción en las asignaturas que se enseñan. También,
aseguraría las condiciones bajo las cuales conocimientos, habilidades y
valores deberían ser mostrados como evidencia contundente de que el
alumno realmente domina lo requerido por el aprendizaje complejo.
En este sentido, la investigación en aprendizaje complejo enfatiza la im-

portancia de diseñar adecuadamente las tareas en las que deberían ser
evaluados los aprendizajes. Subraya medirlos en secuencias progresi-
vas, de mayor nivel de complejidad, detalle y precisión, a todo lo largo
de la formación. Así, conocimientos declarativos (hechos, conceptos y
principios); procedimentales (acciones para resolver un procedimiento o
para reconocer patrones) y estratégicos (establecer metas, seleccionar
acciones y controlar avances), deberían ser incluidos en las demandas
de la tarea a ser medida, al nivel de pericia esperado y en cada una de
las capas que constituyen la formación profesional.
La investigación, también ha acumulado extensa evidencia del profundo

impacto que la evaluación tiene sobre el aprendizaje, en todos los nive-
les y sectores educativos. En la actualidad se sabe que la evaluación
puede guiar: a) la cantidad del esfuerzo invertido por el estudiante para
aprender -las tareas requieren de tiempo y esfuerzo en su preparación;
x EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
b) la calidad y la cantidad del compromiso intelectual del aprendiz con el

conocimiento, -siempre y cuando las tareas evaluativas requieran apli-
car estructuras de conocimiento complejas, procesos intelectuales su-
periores y procesamiento estratégico habilidoso y c) la calidad y
cantidad de la realimentación para modelar en los estudiantes habilida-
des de control personal -en tanto evaluaciones normativas, general-
mente de naturaleza sumativa, pueden afectar negativamente la auto
eficacia y el auto concepto del estudiante, las evaluaciones informativas
suelen estimular en los estudiantes el desarrollo de creencias positivas
sobre su capacidad de aprender y sobre su percepción de la controlabili-
dad personal sobre el éxito y el fracaso.
Pero, a pesar de la evidencia recabada, en el ámbito de la Educación Su-

perior nacional hace falta una gran cantidad de investigación educativa,
de buen nivel, que permita poner en la agenda de la investigación uni-
versitaria el fomento y la evaluación del aprendizaje complejo. Evalua-
ción que supere la práctica de medir, con indicadores simplistas,
conocimientos y ejecuciones complejos, o bien y, en el mejor de los ca-
sos, que sólo utiliza indicadores de ejecución basados en rasgos superfi-
ciales de habilidades y competencias. Esta práctica ha representado,
lamentablemente, una pobre comprensión psicológica de lo que es el
aprendizaje complejo, tanto como un inadecuado entendimiento de lo
que significan los logros académicos en los ámbitos personal y social.
Refleja, más bien, una miope concepción administrativa donde los datos
generados por una evaluación simplista y parcializada no tienen capaci-
dad para influir, retroactiva y significativamente, sobre las formas de
aprender y de enseñar, pero, sobre todo, muestra desconocimiento del
potencial que la evaluación del aprendizaje tiene sobre lo que los estu-
diantes aprenden (Entwistle, 1996).
Con base en esta cualidad, la evaluación del aprendizaje representa un

poderoso artefacto para fomentar aprendizajes de calidad, toda vez que
brinda oportunidades para extender y profundizar el aprendizaje y las
habilidades autorregulatorias que controlan la ejecución de los estudian-
tes. Y, en la medida en la que las nuevas reglas del juego de la Sociedad
del Conocimiento exigen generar nuevos capitales culturales en la Edu-
cación Superior (Knight, 2002 y Knight y Yorke, 2003), sus egresados
necesitan mostrar habilidades generales y específicas, suaves y técni-
cas, relevantes a su actividad profesional y a su desarrollo personal, con
habilidades de razonamiento, de solución de problemas y un estilo cog-
nitivo - motivacional positivo para mejorar, profundizar y extender el al-
cance de sus capacidades, día a día. Esta demanda es cada vez más
creciente. Un claro ejemplo lo encontramos en economías del conoci-
PRESENTACIÓN xi
miento como la europea. En ella, los graduados deben mostrar niveles

de pericia sobresalientes dado que no nada más compiten por el merca-
do de trabajo nacional, sino por el regional (Leadbeater, 2000).
Bajo esta perspectiva, las instituciones de Educación Superior (IES) na-

cionales necesitan planear, seriamente, el fomento y la evaluación de
mecanismos que favorezcan logros altos en aprendizajes complejos. De
otra manera, correrán el riesgo de que sus egresados sean desplazados
por otros mejor preparados. En tanto las nuevas reglas de juego le exi-
gen a las IES generar nuevos capitales culturales en sus egresados, se
hace necesario transformar la función que cumplen, donde más que ad-
ministrar el conocimiento disponible se gestione el capital intelectual de
los estudiantes.
Atender esta exigencia nos demanda, como comunidad de aprendizaje,

analizar profundamente fundamentos y estrategias con los que hemos
operado, en vías de transformarlos. Pero, también demanda ampliar la
investigación y el rango de fenómenos a ser investigados para ganar un
mejor entendimiento de los mecanismos responsables del aprendizaje
efectivo. Lamentablemente, la realidad de nuestras IES nos muestra
que la investigación de la complejidad del aprendizaje está “en pañales”,
en la medida en la que los aprendizajes complejos no han sido satisfac-
toriamente fomentados y, por ende, poco evaluados y menos investiga-
dos.
Con base en las reflexiones expuestas, dos razones alentaron el desa-

rrollo de la obra que aquí presentamos. La primera, reconocer que si
bien es cierto que las ciencias del comportamiento han tenido avances
considerables en el campo de la medición, también es cierto que su im-
pacto ha sido mínimo sobre la práctica cotidiana de la evaluación en la
Educación Superior nacional. Sus prácticas evaluativas han sido más ju-
dicativas que formativas, más punitivas que oportunidades para exten-
der el aprendizaje, sea éste el abstracto o el práctico, el académico o el
de control personal. De aquí que la segunda razón para desarrollar esta
obra fuera el deseo de poner a disposición de docentes e investigadores
fundamentos teóricos contemporáneos y evidencia empírica nacional
que los apoye en el diseño de mediciones válidas y confiables, donde la
evaluación no es sólo del aprendizaje sino para el aprendizaje. Procedi-
mientos y evidencias que validen los puntajes obtenidos en los exáme-
nes, en vías de ganar confianza en las inferencias a ser hechas.
Procedimientos que alienten, en alguna medida, el desarrollo instru-
mental en el campo de la evaluación de resultados de aprendizaje. La-
mentablemente, en nuestras IES este desarrollo es precario y, más lo es
xii EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
la difusión de marcos de trabajo locales y procedimientos útiles que apo-

yen la construcción del instrumental requerido.
De esta manera, la obra que presentamos se enfoca a familiarizar a los

docentes con un lenguaje cognitivo para educadores, con terminología
útil, ampliamente basada en evidencia de investigación, que les permita
identificar y operar mecanismos -cognitivos y de autorregulación- re-
queridos por sus estudiantes para aprender los contenidos de las asig-
naturas que enseñan. También, interesa familiarizar a los docentes con
marcos de trabajo y procedimientos que apoyen su participación activa
en una cultura de evaluación moderna y bien sustentada, donde el desa-
rrollo de las competencias evaluativas más que la simple utilización pa-
siva de servicios preestablecidos apoyen la mejora en la calidad de la
evaluación y, en consecuencia, la del mismo aprendizaje.
Cabe aquí hacer explícitas las consideraciones generales en las que esta
obra se fundamenta. La primera refiere al hecho de que no es posible
que un solo método evalúe todas las áreas de pericia que un estudiante
universitario debe mostrar. Por ello, el sistema de evaluación debe con-
tener todos aquellos métodos que permitan reflejar, con suficiente am-
plitud, todas las áreas de competencia involucradas. Así, a mayor
cantidad y variedad de métodos de evaluación, mayor posibilidad de for-
mular juicios certeros sobre el aprendizaje y desempeño de los estu-
diantes. Si bien el volumen que ahora presentamos se enfoca a la
evaluación mediante ítems objetivos, no se deja de reconocer y reco-
mendar el uso de formas alternativas de evaluación. En términos gene-
rales, las formas alternativas son pruebas que requieren que el
examinando elabore, de una manera más activa, su propia respuesta a
partir de demandas cognoscitivas mayores lo que promueve las habili-
dades intelectuales de orden superior (Shavelson, Carey y Webb, 1990).
Por estas razones, ya está en preparación un volumen que las describe.
La segunda consideración nos alerta a concebir de manera integral y

profesional el desarrollo de exámenes. En la examinación, la “casa no se
empieza por el tejado”, es decir, no se empieza elaborando los ítems.
Hay mucho camino por andar antes de empezar a elaborar o seleccionar
los ítems del examen. Se requiere tomar la decisión acerca de qué es lo
que se va a incluir en el examen, es decir, seleccionar las muestras de
conocimientos y habilidades, con base en su importancia relativa, dado
que no es posible preguntar todo lo que fue revisado en clases en un sólo
examen. Así, la naturaleza y extensión de las muestras elegidas deter-
minarán la extensión en la cual lo estimado será reproducible (confiable,
generalizable) y preciso (válido). Cualquier falla de representatividad
PRESENTACIÓN xiii
producirá sesgo en la evaluación y error en las inferencias a ser hechas

y, en consecuencia, perjuicio para el examinando y terceros interesa-
dos. De aquí que en esta obra dediquemos una parte importante a pro-
cedimientos que permiten identificar, en primer lugar y elegir, después,
el universo de contenido y las muestras de conocimientos y habilidades,
así como las tareas que los eliciten, de manera razonada y sistemática.
La tercera consideración atañe al propósito del examen y a la decisión

que se tome con base en sus resultados. En la medida en la que los re-
sultados del examen sean utilizados para ingresar a una universidad o
para la promoción de un curso a otro, o para la titulación o la certifica-
ción de profesionales (los llamados “high-stakes” tests, por su aplicación
masiva), es la medida en la que los exámenes deberán ser razonable-
mente reproducibles (válidos, confiables y generalizables). De aquí que
en la obra nos preocupara mostrar la importancia de la validación de
constructo en exámenes de este tipo (véase capítulo 5). En tanto que
para aquellos exámenes que se usan para evaluar en el salón de clases
(llamados “low-stakes” tests), las consideraciones son menos exigentes
en cuanto a sus características psicométricas, pero mucho más en cuan-
to a su capacidad para diagnosticar y guiar el aprendizaje del estudian-
te. De aquí que en esta obra se priorice revisar componentes de examen
del salón de clases pero, también, los conceptos y evidencias de investi-
gación referidos a exámenes a gran escala, en vías de ilustrar líneas in-
teresantes a ser desarrolladas en la Educación Superior.
Finalmente, la cuarta consideración tomada en cuenta en esta obra re-

fiere a la aproximación teórica que guía el desarrollo de la examinación.
En tanto la evaluación tradicional del aprendizaje, herencia de teorías
psicométricas de principios del siglo pasado, ha carecido de modelos ex-
plícitos sobre mecanismos cognitivos responsables de la ejecución exi-
tosa en dominios de conocimiento diversos y a que, en consecuencia,
ata la interpretación de los puntajes a los contenidos (sylabus) más que
a los mecanismos que generan el aprendizaje, en este trabajo se priori-
za la revisión de nuevas teorías del aprendizaje que explican procesos
superiores. En este campo, la aproximación cognitiva ha sido la más exi-
tosa. En los últimos veinte años el trabajo de construcción teórica ha
sido impresionante. En lo que toca al tema de esta obra, se han investi-
gado diferencias experto - novato en una extensa variedad de procesos
y se han desarrollado técnicas de análisis que han permitido una mejor
comprensión de los mecanismos que generan diferencias cualitativas en
la ejecución, en una variedad extensa de dominios de conocimiento. De
aquí que en esta obra se describan índices de cambio sensibles al diag-
nóstico de niveles de logro en aprendizajes complejos.
xiv EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
En síntesis, la obra que aquí presentamos tiene tres secciones. La pri-

mera presenta información que enmarca fundamentos contemporáneos
de la medición del aprendizaje, en vías de fortalecer la generación de
evidencia en apoyo a la toma de decisiones en Educación. En esta sec-
ción, el lector encontrará principios teóricos, procedimientos y técnicas
útiles a la evaluación del aprendizaje. En el capítulo 1, Sandra Castañe-
da reflexiona sobre la “sabiduría convencional” que ha guiado la práctica
evaluativa y propone cambiarla radicalmente en tanto interese desarro-
llar las capacidades humanas y no solamente frustrarlas. El capítulo re-
visa principios subyacentes a la evaluación que pueden servir de guía
para que los docentes formen opinión informada acerca de instrumentos
de evaluación del aprendizaje y alienta la preparación docente en las
nuevas teorías del aprendizaje y la evaluación. Comparte con Bass y
Glaser (2004), la necesidad de que los docentes dominen un lenguaje
cognitivo para educadores que les permita identificar mecanismos cog-
nitivos y de autorregulación necesitados para aprender las asignaturas
que enseñan. Finalmente, describe un procedimiento para modelar el
dominio a ser evaluado en un marco operativo para evaluar, basado en
el análisis cognitivo de tarea. Miguel López O., en el capítulo 2, revisa
constituyentes del modelo de medición y del instrumento (y sus indica-
dores) y explica una base metodológica que toma como ejes a la planea-
ción y preparación de los reactivos que forman los instrumentos de
medición. También, revisa la calibración de ítems, es decir, el estableci-
miento conjunto de los parámetros de los rasgos o atributos de las per-
sonas y de las propiedades psicométricas de los ítems, siguiendo el
modelo propuesto por la Teoría de Respuesta al Ítem, conocida como
TRI.
La segunda sección de la obra incluye tres capítulos referidos a hallazgos

de investigación en estudios de validación de constructo en el proceso
de responder. En el capítulo 3, Castañeda, García, Pineda y Ortega pre-
sentan un estudio que identificó la magnitud con la que cuatro fuentes
de contenido de los ítems co ocurren con el Puntaje Global de Dificultad
Apriorística del reactivo y los efectos que los tipos de conocimiento me-
didos en esas fuentes tienen sobre su dificultad empírica. Ambas evi-
dencias aportan al elaborador de ítems conocimientos y sensibilidad
acerca de las fuentes de contenido incluidas en los ítems a fin de apoyar
su manejo durante la elaboración de los reactivos. En el capítulo 4, Cas-
tañeda, González y Varela abordan el tema de la validez en el ámbito de
los exámenes de egreso de licenciatura. Los autores muestran eviden-
cias que claramente liga la interpretación de los puntajes de la evalua-
ción a una red teórica de hipótesis que apoyan o no las interpretaciones
PRESENTACIÓN xv
deseadas. En particular, tales evidencias de validez se relacionan con in-

terpretaciones de puntajes de bancos de ítems de exámenes de egreso,
en tres disciplinas profesionales: Contaduría, Pedagogía y Psicología. El
capítulo 5 de Bazán, Verduzco y Gaviño revisa variables personales que
intervienen en el aprendizaje y en la ejecución de los examinandos en la
evaluación. Aporta modelos de regresión y estructurales que dan evi-
dencia de la relación entre este tipo de variables y la ejecución de los
examinandos.
La tercera sección se aboca a la puesta en práctica de la evaluación obje-

tiva de resultados de aprendizaje. El capítulo 6 de Castañeda, García y
González, describe pasos para la planeación de exámenes y revisa, al
detalle, procedimientos para el primero y segundo, es decir, para el es-
tablecimiento del universo de medida y para la selección y estableci-
miento de las tareas que darán al examinando la oportunidad de
mostrar lo que sabe y sabe hacer. Brinda al lector un marco operativo
para analizar objetivos instruccionales que concretizan verbos y sustan-
tivos de los objetivos, en operaciones cognitivas y tipos de conocimien-
tos que hacen más transparentes las demandas que las diversas tareas
evaluativas les deben exigir a los examinandos. Finalmente, orientan la
generación de medidas significativas del aprendizaje mediante la identi-
ficación de cambios cualitativos en diversos mecanismos responsables
de cambios en el aprendizaje. En el capítulo 7, García, Castañeda, Gon-
zález, Pineda y Arredondo ilustran, en primer lugar, la aplicación del
Análisis Cognitivo de Tareas a un dominio de conocimiento particular,
con la finalidad de aportarle al docente ideas y ejemplos de cómo operar
esta técnica al establecimiento del universo de medida, después presen-
tan lineamientos generales útiles a la elaboración y redacción de reacti-
vos, entre otros, criterios para la clasificación de reactivos de opción
múltiple (por su forma de respuesta y por su estructura), las ventajas y
desventajas de este tipo de ítems, las dimensiones a ser consideradas
en la redacción de un ítem, en términos de los siete tipos de formatos
más utilizados y de dos fuentes de contenido que han mostrado afectar
sensiblemente el grado de dificultad de los reactivos (la operación cogni-
tiva subyacente a la ejecución y el tipo de conocimiento evaluado). Fi-
nalmente, presentan reglas técnicas para escribir reactivos que
atienden a seis aspectos básicos de la estructura del ítem y una escala
para que el docente autoevalúe la calidad de los ítems por él elaborados.
En el capítulo 8, Castañeda, López, González, García, Pineda, Ortega y

García ponen a disposición del lector una escala que lo apoya a valorar
cómo diversas fuentes de contenido incluidas en los ítems pueden afec-
tar la facilidad o dificultad apriorística de un ítem. Este aspecto resulta
xvi EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
importante cuando el lector anda en búsqueda de un instrumento que le

permita identificar posibles fuentes de error sistemático en los ítems.
El capítulo 9 de Miguel López presenta procedimientos de análisis de

reactivos, de suma utilidad para el docente interesado en el tema y el
capítulo 10 de Castañeda, González y Arredondo revisa componentes de
la calificación, la interpretación de resultados de evaluación y la reali-
mentación.
Con los capítulos de esta sección, se cumple la revisión de los compo-

nentes de las etapas de pre elaboración, elaboración y post elaboración
de la evaluación.
Finalmente, los capítulos 11 al 14 ponen a disposición del lector guías de

elaboración de reactivos objetivos. En el capítulo 11 se presenta una
guía general cuyo contenido es aplicable a un basto rango de dominios
de conocimiento, las tres restantes son de dominio específico en Conta-
duría, Pedagogía y Psicología. Los docentes encontrarán en ellas linea-
mientos y ejemplificación en la redacción de reactivos.
En síntesis, la obra refleja la experiencia obtenida por sus autores a lo

largo de más de 15 años en el desarrollo de exámenes de salón de cla-
ses. Como, también, la derivada de construir los de gran escala, como
han sido los exámenes de ingreso a instituciones de Educación Superior,
entre otras, la Universidad Nacional Autónoma de México, así como exá-
menes de egreso de licenciatura en diversas disciplinas, realizados en el
Centro Nacional de Evaluación para la Educación Superior. Durante es-
tos años, hemos construido y revisado miles de ítems de diversos tipos,
los más, los de opción múltiple, también hemos construido, validado y
confiabilizado decenas de exámenes objetivos a gran escala y un poco
más de exámenes de salón de clases universitario.
Durante estos años, hemos dictado cursos en pregrado y posgrado acer-

ca de marcos de trabajo e instrumentación de la evaluación de resulta-
dos de aprendizaje en la Educación Superior, así como diseñado y
dictado varias decenas de talleres para preparar a profesores en el dise-
ño de exámenes y la elaboración de reactivos, tanto en agencias evalua-
doras internas a la UNAM como externas a ella, en todo el país.
Confiamos que cada una de estas actividades nos haya ayudado a acu-
mular suficiente pericia para estar en capacidad de comunicarla a los do-
centes interesados en la mejora de la evaluación del aprendizaje en la
Educación Superior.
Esperamos que este esfuerzo fructifique en ítems y exámenes útiles a la

comunidad académica y estudiantil de las IES y sólo nos resta agradecer
PRESENTACIÓN xvii
al lector su interés y, en la medida de lo necesario, la puesta en práctica

de lo aquí sugerido.
Cabe aquí extender nuestro más amplio agradecimiento al Consejo

Nacional de Ciencia y Tecnología por el apoyo brindado para realizar las
investigaciones aquí reportadas, al igual que para la realización de las
guías y del resto de trabajos académicos contenidos en esta obra. De
igual manera, gracias al financiamiento del proyecto CONACyT 40608–H,
el grupo de investigación pudo poner a prueba sus inquietudes,
comunicar los resultados de las pesquisas en foros nacionales e
internacionales y preparar a un buen número de académicos interesados
en el campo de la evaluación. Asimismo, se extiende un amplio
agradecimiento al Centro Nacional de Evaluación para la Educación Supe-
rior por darnos el acceso a la mayoría de los datos utilizados en las
investigaciones.
Referencias
Bass, K. M. y Glaser, R. (2004). Developing assessments to inform tea-

ching and learning. (Reporte 628). EE. UU.: Centro de Investiga-
ción del Aprendizaje y el Desarrollo, Universidad de Pittsburg.
Entwistle, N. (1996). Recent research on student learning. En The Ma-
nagement of Independent Learning. J. Tait y P. Knight eds. pp.
97-112. Londres: Kogan Page.
Knight, P. T. (2002). A systematic approach to professional develop-
ment: Learning as practice. Teaching and Teacher Education 18(3):
229-241.
Knight, P. T. y Yorke, M. (2003). Employability and Good Learning in
Higher Education. Teaching in Higher Education 8(1): 4-16.
Leadbeater, C. (2000). Living on Thin Air. Londres.: Penguin.
Shavelson, R. J., Carey, N. B. & Webb, N. M. (1990). Indicators of scien-
ce achievement: Options for a powerful policy instrument. Phi Delta
Kappan, 71(9), 692-697.
Agradecimientos
Deseo expresar mi agradecimiento al CONACyT, tanto por su apoyo fi-
nanciero, como institucional para el adecuado desarrollo del proyecto
40608-H “El proceso de responder a exámenes objetivos a gran escala.
Validación de constructos”, del cual esta obra es un producto.
Así mismo agradezco al CENEVAL por su invaluable apoyo y las facilida-

des brindadas a lo largo del proceso de la mencionada investigación.
Por otra parte agradezco a la UNAM, alma mater que ha brindado su

apoyo técnico, administrativo y la infraestructura necesaria para hacer
realidad estos logros.
Gracias, también, a quienes dictaminaron la obra y a los que hicieron

posible su edición.
Colaboradores
Cecilia Guadalupe Arredondo Esqueda. Licenciada en psicología por
la Universidad Nacional Autónoma de México y colaboradora del
Laboratorio de Evaluación y Fomento del Desarrollo Cognitivo y el
Aprendizaje Complejo del Posgrado de la Facultad de Psicología
de la UNAM. Fue distinguida con mención honorífica por su traba-
jo recepcional de licenciatura acerca de los efectos de demandas
conceptuales y de operaciones cognoscitivas sobre el logro de
sustentantes de exámenes de egreso de Contaduría, Pedagogía y
Psicología. Fue becaria del proyecto de investigación 40608–H fi-
nanciado por CONACyT.
Aldo Bazán Ramírez. Licenciado en Psicología, área: Psicología Edu-

cacional por la Universidad Nacional Federico Villarreal de Lima,
Perú (1993). Obtuvo el grado de Maestro en Psicología, en la
Universidad Nacional Autónoma de México, Campus Iztacala
(1998), y obtuvo el grado de Doctor en Psicología, campo de
aplicación: Educativa y del desarrollo, en la Universidad Nacio-
nal Autónoma de México, Facultad de Psicología (2004). Es pro-
fesor-investigador titular “B” en la Universidad Autónoma del
Estado de Morelos, Facultad de Psicología. Es miembro del Sis-
tema Nacional de Investigadores desde el año 2002. Las líneas
de investigación que trabaja son: Evaluación educativa, lengua
escrita, habilidades metodológicos-conceptuales, e intercultura-
lidad. Fue autor/compilador de cuatro libros, autor o coautor de
23 artículos en Revistas y 14 capítulos de libros en las áreas de
Psicología y Educación.
Sandra Castañeda Figueiras. Doctora en Psicóloga Experimental por

la Universidad Nacional Autónoma de México. Ha sido distinguida
con Menciones Honoríficas por sus trabajos recepcionales de li-
cenciatura, maestría y doctorado; la Medalla “Gabino Barreda”,
reconocimiento al mérito universitario por sus estudios de pos-
xxii EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
grado; la Cátedra Especial “José Gómez Robleda” de la UNAM

por su trabajo en in no va ción edu cati va y el “Premio Nacional
2004 a la Ense ñan za de la Psi colo gía” que otor ga el Con sejo
Nacional de Enseñanza e Investigación en esta área. Pertene -
ce al Sistema Nacional de Investigadores desde 1994, donde
actualmente tiene el nivel II. Pertenece a las principales aso -
ciaciones europeas y americanas de investigación en aprendi-
zaje, instrucción y medición psicológica. Es profesora titular
del posgrado en la Facultad de Psicología e invitada en diver-
sas dependencias de la UNAM y en universidades nacionales y
extranjeras. Ha dictado cursos y seminarios sobre su especia-
lidad en Europa y Latinoamérica. Es secretaria académica del
Consejo Editorial Internacional y árbitro de la Revista Latina
de Pensamiento y Lenguaje y miembro del comité editorial del
International Journal of WEB based communities. Ha sido edi-
tora invitada de números monográficos para las Revistas Me -
xicana de Psicología; Intercontinental de Psicología y
Edu cación y de la Latina de Pensamiento y Lenguaje. Ha publi-
cado más de 120 trabajos de docencia, investigación y difu-
sión en revistas y libros especializados en Psicología,
nacionales e internacionales. Ha coordinado la publicación de
libros, números monográficos, manuales y guías de auto ins -
trucción en las áreas de Psicología Educativa y Cognitiva, en-
tre otros: el libro La Psicología cognoscitiva del aprendizaje.
Aprendiendo a Aprender (1989); el número monográfico La
Psicología Instruccional en el contex to Internacional (1992);
el Manual so bre Psicología Cog nitiva (1992) y el Ma nual so bre
Psicología de la Educación (1993), con 4 reimpresiones am-
bas; el fascículo Procesos Cognitivos y Educación Médica
(1993); 20 Guías para la preparación de exámenes de ingreso
y egre so, en di ver sos do mi nios de co no ci mien tos, ni ve les edu-
cativos y universidades (1994-2002); el libro Evaluación y fo -
mento del Desarrollo Intelectual en la Enseñan za de Ciencias,
Artes y Técnicas en los umbrales del siglo XXI (1998), que for-
ma parte de la colección Pro ble mas Edu ca ti vos de Mé xi co de la
UNAM; del nú me ro mo no gráfi co Cognición, Educación y Eva -
luación (1999) y del libro Educación, Aprendizaje y Cognición.
Teoría en la prác tica (2004), coe dita do por El Manual Mo der-
no, la UNAM y la UdG.
La Dra. Castañeda coordinó dos exámenes de egreso para el Cen-

tro Nacional de Evaluación para la Educación Superior. En el pe-
COLABORADORES xxiii
ríodo comprendido entre 1993 y 1995 diseñó modelos,

procedimientos y técnicas aplicados a los exámenes de ingreso a
la UNAM.
Correo electrónico sandra@servidor.unam.mx
Rafael Félix Verduzco. Pasante de la carrera de Psicología en el Insti-

tuto Tecnológico de Sonora, Sus áreas de interés son: métodos
cuantitativos y psicología educativa.
Raquel García Jurado Velarde. Profesor Titular de la Facultad de

Estudios Profesionales (FES) Acatlán. Licenciada en Letras Ingle-
sas, maestra y candidata a doctor en el campo de la Psicología
Educativa. Imparte clases en la Licenciatura de Enseñanza de
Inglés (LEI) y en el Departamento de Inglés del Centro de Ense-
ñanza de Idiomas (CEI) de la FES Acatlán. En el CEI estuvo a car-
go de la validación de los exámenes departamentales y a la fecha
es responsable de la elaboración de los materiales y de los exá-
menes departamentales para los niveles 2 y 3 del curso de com-
prensión de lectura en inglés y de los exámenes de requisito de
comprensión de lectura en inglés aplicados por el Departamento
de Inglés. Ha dirigido tesis la sobre elaboración de exámenes.
Coordina y colabora en proyectos de investigación en la UNAM so-
bre validación, evaluación y enseñanza del inglés; ha publicado
artículos y presentado ponencias en eventos académicos en Méxi-
co y Europa sobre estos temas.
Daniel González Lomelí. Doctor en psicología por la Universidad Na-

cional Autónoma de México. Es profesor titular en la Universidad
de Sonora (UniSon) y en la Maestría en Innovación Educativa de
la misma universidad. Ha publicado 23 artículos en revistas arbi-
tradas y es editor del libro Modelamiento Estructural en Ciencias
Sociales. Es miembro del Consejo Técnico y del Comité Académi-
co del CENEVAL, investigador nacional Nivel II, miembro del co-
mité de evaluación del Programa Nacional de Posgrados 2006 y
dictaminador de Fondos-Mixtos de CONACYT. Su línea de investi-
gación incluye estudios sobre evaluación y modelamiento de ha-
bilidades y estrategias de aprendizaje en escenarios educativos.
Es miembro de la Sociedad Iberoamericana de Pensamiento y
Lenguaje, recibió el premio de Profesor Distinguido y de Investi-
gador Distinguido por la UniSon. Ha dirigido tesis que han recibi-
do reconocimiento al mérito académico otorgado por el Consejo
Nacional de Enseñanza e Investigación en Psicología y del Institu-
to Sonorense de la Juventud. Es dictaminador de la Revista Mexi-
xxiv EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
cana de Psicología, de la Revista Interamericana de Psicología y

del Anuario de Investigaciones Educativas, miembro asociado del
Consejo Mexicano de Investigación Educativa y tutor del Progra-
ma Interinstitucional de Doctorado en Ciencias Sociales
(UAS-UNISON,CIAD,UABC).
Rosa Elsa González Ramírez. Maestra en Psicología con Residencia en

Evaluación Educativa por la Facultad de Psicología de la Universi-
dad Nacional Autónoma de México. Diseñó e instrumentó la eva-
luación de una sala de UNIVERSUM y del curso de formación para
becarios de la Dirección General de Divulgación de la Ciencia; dic-
taminó módulos de diversos programas educativos del CONALEP;
realizó la planeación y desarrollo de un proceso de evaluación de
la docencia en la ESIME Culhuacán del IPN y fue asistente de in-
vestigador para el proyecto “Vinculación de la investigación con la
práctica educativa” patrocinado por la Fundación Ford. Actual-
mente, es evaluador analista del Comité de Ciencias Sociales y
Administrativas y del Comité de Artes, Educación y Humanidades
de los Comités Interinstitucionales para la Evaluación de la Edu-
cación Superior de la ANUIES, colabora en el Laboratorio de Eva-
luación y Fomento del Desarrollo Cognitivo y el Aprendizaje
Complejo en el posgrado de la Facultad de Psicología de la UNAM
y es consultora independiente sobre evaluación educativa. Correo
electrónico: rossael@correo.unam.mx.
Helena Gaviño Sánchez. Pasante en la licenciatura en Enseñanza del

Idioma Inglés en la Universidad de Sonora, su área de interés es
la enseñanza bilingüe.
Miguel López Olivas. Cursó licenciatura, maestría y doctorado en la

Facultad de Psicología de la UNAM. En esta institución es Profesor
Titular C de Tiempo Completo. Forma parte del padrón de tutores
del Programa de Maestría y Doctorado en Psicología y participa en
los programas docentes de licenciatura, maestría y doctorado, en
el campo de la Psicología Educativa. En sus líneas de investiga-
ción se encuentran: Innovaciones Tecnológicas en la Investiga-
ción y Evaluación Psicológica; Cognición y Fomento Intelectual;
Desarrollo y Prueba de Instrumentos de Medición Psicológica. Ha
publicado como autor y coautor en libros y revistas sobre temas
de educación, medición y evaluación y ha dirigido numerosos tra-
bajos de tesis en licenciatura y posgrado. En su desarrollo acadé-
mico y profesional ha ocupado diversos cargos en la UNAM: Jefe
de la Sección de Psicopedagogía del Centro de Enseñanza de Len-
COLABORADORES xxv
guas Extranjeras, Secretario Académico de la División de Estu-

dios de Posgrado, Jefe de la División de Ciencias Sociales y
Humanas de la ENEP-Zaragoza, Jefe del Departamento de Maes-
tría en Psicología Educativa de la División de Estudios de Posgra-
do, Coordinador Académico de los Programas de Evaluación de
Ingreso al Bachillerato (PEIB) y de Evaluación de Ingreso a la Li-
cenciatura (PEIL) y Asesor Académico de la Secretaría de Servi-
cios Académicos. Actualmente es asesor académico del Instituto
Internacional del Derecho y del Estado y forma parte del Consejo
Técnico del Centro Nacional de Evaluación para la Educación Su-
perior, Examen General de Egreso de la Licenciatura en Psicolo-
gía. Correo electrónico: lomiguel@servidor.unam.mx
María de Lourdes Pineda Gómez. Realizó sus estudios de Psicología

en la Universidad Nacional Autónoma de México, cuenta con estu-
dios de educación musical por la Escuela Nacional de Música de la
UNAM. Ha colaborado en investigación y docencia con la Dra.
Sandra Castañeda en el Laboratorio de Evaluación y Fomento del
Desarrollo Cognitivo y el Aprendizaje, del Posgrado de la Facultad
de Psicología de la UNAM. Ha colaborado en la organización y de-
sarrollo de reuniones nacionales e internacionales de la Sociedad
Iberoamericana de Pensamiento y Lenguaje, de la que es miem-
bro activo. Ha presentado ponencias en congresos nacionales e
internacionales y ha colaborado en la edición de libros y revistas
nacionales e internacionales y en la elaboración de monografías
editadas por la UNAM. Colaboró con la Dra. Castañeda en el
CENEVAL, en el desarrollo de dos exámenes de egreso de licen-
ciatura. Cuenta con experiencia en docencia a nivel básico, medio
superior y superior de más de 20 años.
Salvador Ruiz de Chávez. Maestro en Administración por la Universidad

Nacional Autónoma de México. Desde hace diez años es director
general y presidente del Consejo de Administración del Grupo
Mexicano de Consultores en Educación, S.C. (a tiempo completo
desde junio de 2004). En septiembre de 2005 asumió la presidencia
de la Asociación de Profesores de Contaduría y Administración de
México, de la cual es socio fundador. De abril de 2000 hasta mayo
de 2004 fue vocal ejecutivo del Comité de Ciencias Sociales y
Administrativas de los Comités Interinstitucionales de Evaluación
para la Educación Superior (ciees), del cual fue par titular de 1993 a
1998. De 1994 a 2002 fue coordinador fundador de los exámenes
para contaduría y administración del Centro Nacional de Evaluación
para la Educación Superior (CENEVAL).
xxvi EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
Cesar Walterio Varela Romero. Profesor de la escuela de Psicología y

Ciencias de la Comunicación de la Universidad de Sonora, obtuvo
el grado de Doctor en Ciencias Sociales en la Universidad Autóno-
ma de Sinaloa. Ha realizado trabajos sobre la construcción y vali-
dación de instrumentos en estrategias de aprendizaje y
autorregulación y el efecto de estas en el rendimiento académico
en educación superior así como propuestas de la psicología am-
biental.
Sección I
Medición del aprendizaje y
fortalecimiento de evidencias en
apoyo a la toma de decisiones
en educación
Capítulo 1 ?
Evaluación del aprendizaje en educación superior
Aun cuando en el ámbito nacional de la educación superior se reconoce

que existen conceptos, principios y procedimientos de la evaluación del
aprendizaje que todo docente debe conocer y aplicar eficientemente en
su práctica diaria, los programas que desarrollan competencias docen-
tes para seleccionar, diseñar y construir herramientas de evaluación,
acordes a las características de los aprendizajes a ser evaluados, conti-
núan siendo insuficientes, en calidad y cantidad, y el problema de for-
mar docentes en habilidades estratégicas de medición del aprendizaje
permanece vigente.
La génesis de esta problemática es entendible en el contexto de la prác-

tica tradicional de la evaluación en el subsistema de educación superior.
En él, difícilmente se trabajan modelos teóricos, marcos de trabajo e
instrumentación apropiados al diagnóstico del logro alcanzado por los
estudiantes en mecanismos responsables del aprendizaje complejo. En
pocas palabras, no es usual que los exámenes en este nivel midan logros
en grupos integrados de metas de aprendizaje, es decir, en aprendizajes
complejos. Éstos, poco tienen que ver con habilidades aisladas, más
bien coordinan e integran habilidades aisladas que constituyen la base
de la ejecución exitosa en tareas de la vida real. El aprendizaje complejo
es un proceso lento que demanda de los estudiantes niveles progresivos
de desarrollo de pericia, estados motivacionales positivos y autorregula-
ción que deben ser tomados en cuenta en la evaluación. Por el contrario,
lo que usualmente se mide en la práctica evaluativa tradicional es el do-
minio de cientos de conceptos, principios, reglas, procedimientos y otros
componentes curriculares, de manera atomizada y aislados unos de
otros.
4 EVALUACIÓN DEL APRENDIZAJE EN EL NIVEL UNIVERSITARIO.
Y, en la medida en que la información que se transmite en los salones

de clase y otros escenarios de la formación superior no es aprendida
per se, sino porque es útil para resolver problemáticas sociales (de sa-
lud, educación, vivienda, economía, etcétera), se hace necesario gene-
rar medidas de aprendizaje complejo que permitan diagnosticar si los
estudiantes fueron capaces de crear conocimiento al ligar esa nueva in-
formación con sus experiencias pasadas -en vías de elaborar significa-
dos- y si éstos les permiten, progresivamente, diferenciar conceptos
aislados en comprensiones cada vez más complejas y significativas
para resolver problemas.
De la misma manera y dado que en el aprendizaje complejo el todo es

más que la suma de sus partes (incluye habilidades para coordinar e in-
tegrar esas partes), es importante medir si el alumno fue capaz de esta-
blecer las conexiones entre él, sus experiencias previas y el contexto
específico en el que se aplican los conocimientos y las habilidades para
resolver problemas particulares.
Una de las características más importantes del aprendizaje complejo es

que los estudiantes deben aprender a manejar materiales que incorpo-
ran una enorme cantidad de elementos interactuantes. Por ejemplo, en
lo conceptual, hay muchas estructuras de conocimiento, interactuantes,
que deben ser procesadas simultáneamente para ser bien entendidas y
en cuanto a las habilidades existen componentes procedimentales que
deben ser coordinados, en la memoria de trabajo, para que la ejecución
sea coherente.
Entonces, se hace necesario diseñar modelos y procedimientos de eva-

luación que al mismo tiempo que evalúan la aplicación adecuada de co-
nocimientos, habilidades y valores para resolver problemas de manera
precisa y oportuna, valoren su adecuación a las demandas del contexto.
Sólo así podremos estimar si el alumno fue capaz de dar una respuesta
decisiva a una tarea, de otra manera sólo estaríamos evaluando conoci-
miento inerte.
Pero, medir el logro en mecanismos subyacentes al aprendizaje comple-

jo (profesional), es bastante más complejo y toma mucho más tiempo
de lo que, usualmente, los diseñadores curriculares y los docentes supo-
nen (Castañeda, 2004a). Por esto, los retos que afronta la evaluación en
la Educación Superior obligan reconceptualizar la noción de aprendizaje
en la que se basa la práctica formativa y, por ende, al contenido de lo
que debe ser enseñado y las maneras en cómo debe ser enseñado, como
también, y de particular importancia para este trabajo, a reflexionar
acerca de lo que significa evaluar resultados de aprendizaje en el nivel
EVALUACIÓN DEL APRENDIZAJE EN EDUCACIÓN SUPERIOR 5
superior. En particular, de aquella evaluación que asegure que la calidad

de los conocimientos y las habilidades generados sea la mejor y más útil.
En breve, obligan a diseñar y utilizar mediciones de aprendizaje com-
plejo que permitan hacer las inferencias requeridas para certificar váli-
damente los conocimientos y las habilidades desarrolladas durante la
formación profesional inicial.
Asegurarle a la sociedad del conocimiento una ciudadanía competente

demanda, entonces, asegurar la calidad del conocimiento que se ad-
quiere pero lograrlo no es asunto fácil. Si bien es cierto que en las insti-
tuciones de educación superior podemos brindar a los estudiantes un
flujo continuo y rico de información, también lo es que no todos los estu-
diantes tienen las habilidades intelectuales para seleccionar lo importan-
te, ni para procesarlo eficientemente o para ejercer el control personal
para mantenerse interesado.
Por esta razón, desarrollar en los estudiantes las habilidades que les
permitan construir, validar e integrar el conocimiento y tomar decisiones
en un mundo cambiante, representa, hoy día, uno de los retos más im-
portantes del subsistema. El desafío es algo más que poner información
disponible en la mente de los estudiantes, es necesario fomentar en los
estudiantes las habilidades cognitivas y de control ejecutivo que les per-
mitan construir conocimientos de la mejor calidad, validarlos con evi-
dencias fuertes, adaptarlos a situaciones imprevisibles y transmitirlos
apropiadamente.
Sin embargo, limitaciones de la formación docente en el campo de la

evaluación e inadecuaciones en las prácticas evaluativas institucionali-
zadas han favorecido que la medición de resultados de aprendizaje en
educación superior resulte ineficiente en la identificación de riesgos deri-
vados de programas formativos mal diseñados o peor implementados y
que, en consecuencia, la toma de decisiones para asegurar la calidad de
la formación se apoye en información parcial, imprecisa o poco pertinen-
te para realimentar el proceso.
Así, el que la sociedad civil cuente con ciudadanos autónomos, capaces

de mejorar el servicio o producto y de adaptarse flexible y creativamen-
te a situaciones imprevisibles queda, más bien, en el terreno de los bue-
nos propósitos que en el de la realidad. En este contexto, los datos
arrojados por las evaluaciones del aprendizaje difícilmente aportan in-
formación útil para realimentar al trabajo en el aula, más bien, están al
servicio de decisiones administrativas que, por lo regular, son judicati-
vas más que de realimentación para el control de calidad. De aquí la ur-
gencia de reformar la organización y el contenido de lo que se evalúa en

la educación superior si lo que se desea es evaluar para el aprendizaje.
Cualquier evaluación del aprendizaje está inmersa en un escenario cul-

tural y se dirige a propósitos sociales, explícitos o implícitos, que reflejan
creencias, valores y expectativas de ese escenario. En este contexto, en
México ha sido práctica común que la evaluación de resultados de
aprendizaje enfatice la función administrativa y descuide el control de
calidad que la evaluación debe ejercer sobre ellos. Esto ha generado, por
una parte, desconocimiento sobre qué es lo que realmente aprenden los
estudiantes en las escuelas, en particular, desconocimiento acerca de
los niveles en los que conocimientos y habilidades cognitivas, responsa-
bles de aprendizajes significativos y para toda la vida, son desarrollados
en la práctica educativa (gran zozobra despertó la evidencia generada
por los resultados de las comparaciones internacionales realizadas con
estudiantes de educación básica) y, por la otra, la imposibilidad de utili-
zar la evaluación como artefacto privilegiado para orientar al aprendiz
en aspectos significativos del aprendizaje. En tanto la evaluación de re-
sultados de aprendizaje es un componente central del proceso de apren-
der, su potencial para valorar y potenciar conocimientos y habilidades
significativos, es indiscutible.
Pero, ¿todos los exámenes pueden fomentar el éxito? o, más bien y en el

mejor de los casos, ¿sólo pueden predecir el fracaso? Lograr predecir el
éxito requeriría que los exámenes pudieran reflejar, oportunamente, ni-
veles de logro alto en componentes que hubieran mostrado determinar
el éxito académico o, al menos, fueran buenos predictores del mismo.
Un ejemplo de lo anterior lo constituye la capacidad predictiva identifica-

da en una de las siete competencias profesionales incluidas en un exa-
men de egreso de la licenciatura en Psicología (Castañeda, 2004d). Los
modelos de predicción obtenidos a partir del análisis de las respuestas
de 1245 egresados de la licenciatura de Psicología, que tomaron volun-
tariamente el examen citado, mostraron que la Competencia Integrativa
explicó el logro Alto en el puntaje global del examen. En la formación clí-
nica explicó el 66% de la varianza y en la Educativa y la del Trabajo ex-
plicó el 73% y el 75% de la varianza, respectivamente. En todos los
casos, esta dimensión obtuvo el coeficiente de regresión parcial más
alto. En términos generales, la consistencia en las co ocurrencias de la
dimensión Integrativa al explicar el logro Alto en el Puntaje General del
examen, hace posible establecer su importancia sobre la ejecución efi-
ciente. Los resultados sugieren que una buena cantidad de las diferen-
cias individuales entre examinandos pueden estar siendo causadas por
esta dimensión. Lo que se evaluó en ella fue la capacidad del egresado

para integrar conocimientos teóricos, metodológicos y técnicos para re-
solver problemas de la profesión.
Bajo esta óptica, la evaluación es vista en este capítulo como una práctica
privilegiada que apoya, desde el escenario educativo, una de las finalida-
des prioritarias de la sociedad actual, producir y distribuir aprendizajes de
calidad. En esta empresa, el cuerpo del trabajo retoma avances del en-
tendimiento de la Cognición Humana para apoyar examinación que refle-
je, oportunamente, riesgos en estructuras de conocimiento, procesos
cognitivo - motivacionales y estrategias de procesamiento para, en con-
secuencia, estar en capacidad de prescribir acciones que fomenten hábi-
tos de excelencia académica.
Tales avances refieren al entendimiento del funcionamiento de las capa-

cidades intelectuales superiores y al de los procesos de control ejecuti-
vo. Gracias a una manipulación eficiente de estos elementos, el docente
estará en capacidad de alimentar auto creencias positivas en sus estu-
diantes, fundamentales para generar y mantener hábitos de excelencia,
a todo lo largo de la vida.
En breve, avances con fuerte sustento empírico que permitan desarrollar

evaluaciones que le den al estudiante la oportunidad para consolidar lo
aprendido, en la que tenga oportunidad de desarrollar sus habilidades de
control ejecutivo, que le informe de la dirección de su aprendizaje futuro
(sea éste, una trayectoria remedial o la ampliación de lo aprendido) y en
la que pueda identificar los beneficios de utilizar ciertas estrategias y no
otras. En otras palabras, evaluación que genere más oportunidades para
que el estudiante extienda su aprendizaje, donde se superen prácticas
evaluativas basadas en observaciones inmediatistas, de dudoso efecto
retroactivo sobre el aprendizaje y sus asociados autorregulatorios.
Pero, desarrollar estas habilidades plantea cuestionar la “sabiduría con-

vencional” que ha guiado nuestras prácticas evaluativas. Adoptar cono-
cimientos nuevos, sin haber cambiado lo que creemos acerca de lo que
son las prioridades y las prácticas de la evaluación del aprendizaje lleva-
ría al fracaso. Necesitamos cambiarlas radicalmente, en tanto nuestro
interés sea desarrollar las capacidades humanas y no solamente frus-
trarlas.
Nuestras creencias
Cuando enseñamos, al igual que en cualquier otra actividad, estamos in-
fluidos por creencias, son fundamentales. Afectan lo que suponemos de
los estudiantes, lo que percibimos como aprendizaje y lo que entende-

mos como conocimiento, asimismo, afectan nuestra percepción del pro-
pósito de la educación y, en consecuencia, el enfoque que damos a la
enseñanza. Permítaseme ilustrar, sólo en sus polos opuestos, cómo
ciertas creencias influyen sobre la manera de evaluar el aprendizaje.
Para algunos, aprender significa reproducir conocimiento “puro”, es de-

cir, conocimiento que no esté contaminado con la subjetividad del
aprendiz; para otros, aprender significa construir significados progresi-
vamente diferenciados en comprensiones cada vez más complejas. En el
primer caso, la evaluación enfatiza evaluar el logro en términos de la
precisión del conocimiento esperado, en el segundo, evaluar representa
identificar cambios cualitativos en resultados graduales donde la trans-
formación de significados imprecisos a comprensiones adecuadas esta-
blecen avances significativos en el aprendizaje.
También, en la cotidianidad del salón de clases, algunos profesores tie-

nen la creencia de que sólo algunos estudiantes pueden aprender, lo que
conduce a prácticas de enseñanza inequitativas que generan aprendiza-
jes pobres; en tanto que otros aceptan que todos pueden aprender, res-
petan la diversidad y se responsabilizan de intentar aquellas técnicas
que fomenten aprendizajes eficientes, esto ha mostrado superioridad en
los aprendizajes evaluados. La investigación aporta evidencias sólidas
de que el aprendizaje es un proceso natural y en desarrollo continuo que
ocurre en todos los aprendices (Alexander y Murphy, 1998).
De la misma manera, la concepción que se tenga del conocimiento en

los escenarios educativos también está influida por creencias: algu-
nos creen que es el resultado de la indagación individual y, por esta
razón, se enfocan al diseño de escenarios que favorecen la construc-
ción de conocimientos (y al de las evaluaciones diagnósticas que les
informen si se lograron o no); otros creen que el conocimiento es el
resultado de muchas indagaciones individuales que llegaron a la mis-
ma conclusión, es decir, el “conocimiento verdadero”, el que existe
fuera de las mentes ingenuas (los estudiantes) y para el que sólo al-
gunos (los docentes) están capacitados. El docente se preocupa, en-
tonces, por transmitirlo y no por desarrollar los procesos cognitivos
que lo construye. Dado que el interés es transmitir “conocimiento ver-
dadero”, la evaluación enfatiza el producto más que su agente “el
aprendiz”. La evaluación, generalmente sumativa, sirve para infor-
mar el logro obtenido en los conocimientos más que la indagación que
permitió construirlos.
Las creencias acerca del conocimiento y del aprendizaje se ligan a creen-

cias acerca del propósito de la educación y, en consecuencia, al enfoque
de la enseñanza. Así, docentes que conciben el propósito de la enseñan-
za como transmisión de conocimiento, se preocupan poco por atender
las diferencias individuales de sus estudiantes, sean éstas, las experien-
cias previas, la orientación motivacional al estudio y hasta las derivadas
de la herencia. El estudiante es sólo un número en la lista y todos son
tratados por igual. Los profesores creen que la función del estudiante es,
simplemente, ligar la información que recibió con las salidas que le pide
la evaluación y toda organización personal del conocimiento no es toma-
da en cuenta en la evaluación. En cambio, para otros docentes, el propó-
sito de la educación es algo más que administrar el conocimiento
disponible, más bien, significa gestionar el capital cultural del estudian-
te, es decir, fomentar en el estudiante individual habilidades intelectua-
les para seleccionar lo importante, para procesarlo eficientemente y
para ejercer el control personal para mantenerse interesado. Reconocen
la necesidad de cambiar el enfocamiento de su enseñanza: de objetos e
ideas inanimados a las personas involucradas con esas ideas y objetos.
Así, la evaluación del aprendizaje atiende a diferencias y necesidades in-
dividuales del desarrollo cognitivo, más que al número de objetos de co-
nocimiento inanimados.
Ejemplos como los presentados hasta aquí instan a revisar la evaluación

del aprendizaje como parte integral de los procesos de aprendizaje y en-
señanza, dado que aporta información valiosa en apoyo al aprendizaje
de los estudiantes y le demanda mejor preparación a los docentes. En
tanto la evaluación tiene el potencial de mejorar el aprendizaje, es me-
nester cambiar la evaluación si queremos cambiar el aprendizaje de
nuestros estudiantes. Ha sido más una barrera que puente de oportuni-
dad educativa.
Caracterizando la evaluación
En otras latitudes existen esfuerzos importantes para fomentar la pe-
ricia docente para evaluar resultados de aprendizaje. Se han estable-
cido estándares profesionales para habilidades de evaluación para
profesores (vg., Standards for Teacher Competence in Educational
Assessment of Students, 1990), se han generado códigos, el de Res-
ponsabilidades Profesionales en Medición Educativa (1995) y el de
Prácticas Justas de Examinación (1988), asimismo se han publicado
varias actualizaciones de los Estándares de Examinación Educativa y
Psicológica (1999).
En nuestro país, los “grandes conceptos” que subyacen a éstas y otras

publicaciones importantes en evaluación del aprendizaje han sido poco
trabajadas en la formación docente en educación superior. Para Díaz B.
(en prensa), el problema de la formación de recursos en evaluación es
tan serio que no sólo “existe un desfase en la mayoría de los planes de
estudio respecto a la incorporación de las nuevas perspectivas en la for-
mación de las futuras generaciones en el campo de la evaluación sino
que el docente es visualizado como un consumidor tangencial de esta in-
formación y no como un importante destinatario”.
De aquí que en este trabajo resulte importante clarificar algunos princi-

pios que subyacen a la evaluación, en vías de resaltar sus principales ca-
racterísticas y proporcionar una guía inicial para que el docente pueda
identificarlos al seleccionar y/o diseñar sus exámenes o para formarse
opinión acerca de otros instrumentos. La presentación que se hace en
este trabajo de los principios de la evaluación no es exhaustiva, solo se
retoman los más importantes de la obra de McMillan (2000). Fueron en-
riquecidos y discutidos con aportaciones de diversos autores y con evi-
dencia empírica generada en estudios nacionales.
Principios
La evaluación debe apoyar la enseñanza. Al igual que la evaluación im-
pacta al aprendizaje y la motivación del estudiante, también influye en
la enseñanza del salón de clases. De aquí que la evaluación deba ser una
actividad integrada a la enseñanza, más que simplemente auditar el
aprendizaje (Shepard, 2000). Cuando sí se la integra, informa al docen-
te acerca de qué actividades y contenidos serán más útiles, qué nivel de
enseñanza es el más apropiado y cómo diseñar evaluación formativa
que provea información diagnóstica. Así, el docente podrá identificar
cuándo hacer más preguntas, de qué nivel de dificultad deben ser, en
qué tipos de conocimientos, en qué formato deberían ser presentadas y,
desde luego, a elaborar las respuestas más apropiadas a las preguntas
de los estudiantes.
La evaluación no está exenta de error. En toda evaluación, sea de salón

de clases o a gran escala, existe error. Así, estimar la cantidad de error
contenida en las mediciones constituye una necesidad a ser satisfecha
dado que el error de medición es el principal responsable de la falta de
precisión de los puntajes. Si como dijo Messick (1989), la validez del
atributo que se mide es una propiedad de las mediciones, entonces los
puntajes reflejan una intricada relación entre el atributo que se mide y el
error de medición. Se sabe que el término error refiere a componentes

ajenos al atributo medido pero forma parte del puntaje.
Puede generarse desde la misma elaboración del reactivo, por ejemplo

-incluir componentes que demanden habilidades superiores de com-
prensión de lectura en ítems cuyo objetivo es la resolución de problemas
algebraicos-. Así, una pobre habilidad en comprensión de lectura produ-
ciría una baja puntuación en el atributo medido aun cuando el examina-
do poseyera habilidad alta para resolver ese problema. Estos son
errores que sistemáticamente afectan los puntajes de los exámenes.
Por ello, es importante que el docente esté al tanto de cuánta confiabili-

dad tiene la medida y cuánto error genera. La confiabilidad se define
como la proporción de varianza de las puntuaciones observadas que de-
pende de la varianza del atributo puro. Los especialistas la estudian me-
diante información de las propiedades de los instrumentos, de las
condiciones que los afectan y de la manera como son utilizados. Cuando
se identifica la precisión con la que se mide la característica deseada, se
hace pública a la comunidad mediante el porcentaje de error asociado al
instrumento.
En exámenes interpretados normativamente, la confiabilidad indica el

grado de precisión con que la prueba mide un atributo de interés. A ma-
yor precisión en la medición, menor cantidad de error en las puntuacio-
nes que se derivan. Cuando los exámenes son interpretados con base en
un criterio, la confiabilidad refiere el grado de consistencia de las deci-
siones tomadas.
Las características de los examinados incorporan, también, errores de

medición que propician la subestimación o sobreestimación del atributo.
Por ejemplo, la ansiedad de examen baja la puntuación haciéndola me-
nor a lo que debería de ser, en contraste, la adivinación hace que las
puntuaciones sean mayores a lo que debieran de ser.
Y, en la medida en la que el énfasis actual se centra en exámenes a gran

escala utilizados para promoción, graduación, rendición de cuentas y
certificación, es crítico que todos los docentes entiendan conceptos
como error estándar de medida, coeficientes de confiabilidad, intervalos
de confianza y establecimiento de estándares.
Para interpretar los valores de los coeficientes de confiabilidad se deben

tomar en cuenta el tipo de decisiones por tomar y el comportamiento de
otros instrumentos de medición afines a los estudiados. Con respecto al
tipo de decisión, éstas se pueden dividir en decisiones individuales y de-
cisiones grupales. En tanto las primeras, afectan importantemente a
una persona (certificar o no su competencia, aprobarla o no en una asig-

natura, darle ingreso o no a la universidad), la exigencia en cuanto a su
confiabilidad debe ser mayor: En cambio, las decisiones grupales tienen
consecuencias menos drásticas para las personas (v. gr., mejorar la en-
señanza, retroalimentar el currículo) y su nivel de exigencia es menor.
Una valoración justa del coeficiente de confiabilidad contempla la com-

paración del estimado con estimados de pruebas similares. Por ejemplo,
una prueba de inteligencia con un estimado de confiabilidad obtenido
por el método alfa igual a 0.78 es considerada menos precisa que otra
prueba afín cuyo estimado de confiabilidad sea de 0.89 (Arce y Borges,
2004).
En resumen, es recomendable tomar decisiones individuales únicamen-

te cuando el coeficiente de confiabilidad sea lo suficientemente grande
(muy cercano a 1) para garantizar la seguridad del examinando y cuan-
do esta condición no es satisfecha, las únicas decisiones que se pueden
tomar son las de carácter grupal.
Una buena evaluación debe ser válida. La validez es un concepto que ne-
cesita ser entendido a profundidad. La validez es vista como un concep-
to unitario de los factores que determinan responder a la examinación
(Messick 1994; Embretson 1999). Al igual que con la confiabilidad, com-
prender los asociados técnicos que acompañan a la noción de validez es
esencial para elaborar inferencias apropiadas y razonables de los punta-
jes del examen. La validez de constructo refiere a la integración de cual-
quier evidencia en apoyo a la interpretación o significado de los
puntajes obtenidos en un examen o prueba, incluyendo evidencias de
contenido y de criterio. Un rasgo fundamental de la validez de cons-
tructo es el de la representación del constructo, en ella se establecen
los mecanismos teóricos subyacentes a la ejecución en una tarea parti-
cular, previamente identificados mediante análisis lógico de los proce-
sos, estructuras y estrategias cognitivas subyacentes a la ejecución
meta o por investigación empírica de funciones profesionales a ser for-
madas en la educación superior.
Dada la importancia de la validez de constructo para la interpretación

del puntaje del examen, es de vital importancia que el docente entienda
el concepto y sus asociados técnicos y esté en posibilidad de valorar
cuándo se puede o no confiar en los puntajes que teóricamente repre-
sentan el constructo que se desea medir.
De igual manera importante es que esté al tanto de dos amenazas que

atentan contra la validez, por una parte, la sub representación del cons-
tructo debida a mediciones vagas que dejan fuera importantes aspectos

del constructo y, por la otra, la varianza irrelevante del constructo donde
existe varianza confiable asociada a constructos diferentes al que se
está midiendo o a propensiones debidas a la adivinación. En pruebas es-
tandarizadas, al igual que en las de salón de clases, es posible encontrar
dificultad irrelevante del constructo o su caso contrario, facilidad irrele-
vante del constructo, ambas son fallas que sesgan los puntajes y, en
consecuencia, la interpretación que se les da. El capítulo Validando Pun-
tajes de Bancos de Ítems de Exámenes de Egreso de Licenciatura, en
esta misma obra, presenta estudios de validez de constructo en exáme-
nes de egreso a gran escala. El docente encontrará en él ilustraciones de
fuentes de invalidez, a partir de datos nacionales.
Una buena evaluación debe ser justa y ética. Una evaluación justa es
conceptuada en términos de: a) ausencia de sesgos por género o cual-
quier otra diferencia, b) tratamiento igualitario a los examinandos, c)
igualdad de resultados y d) oportunidad para aprender. Incluye dere-
chos y responsabilidades de los sustentantes, la influencia de contextos
lingüísticos diferentes y de sujetos con necesidades especiales.
Una buena evaluación usa métodos múltiples. La evaluación que es jus-

ta permite inferencias válidas con un mínimo de error, de aquí que las
evaluaciones tendrán mejor precisión y serán más útiles en tanto utili-
cen las medidas más sensibles a lo que se quiere evaluar en el exami-
nando, de aquí que se necesite la utilización de métodos múltiples
donde, por una parte, se optimice el diseño y validación de las pruebas
objetivas y se fomente, por la otra, el diseño y validación de pruebas al-
ternativas. Este aspecto parece violarse frecuentemente tanto en exá-
menes a gran escala, aplicados local y nacionalmente, como en las
evaluaciones del salón de clases. No debe olvidarse que cada tipo de
medición tiene sus propias ventajas pero, también, sus limitaciones. En
tanto las pruebas objetivas pueden limitar la evaluación a meras habili-
dades de reconocimiento y memorización de información, a pesar de sus
innegables ventajas técnicas y de aplicación, las pruebas alternativas
permiten evaluar habilidades intelectuales de orden superior, sin em-
bargo, presentan dificultades técnicas y prácticas de costo y tiempo im-
portantes.
En resumen, lo que es importante entender en estos principios de la

evaluación del aprendizaje es su importancia para mejorar la práctica
docente en lo que refiere a la selección, diseño y construcción de evalua-
ciones que extiendan el aprendizaje de los estudiantes. En la medida en
la que los docentes requieran tomar decisiones acerca de qué es lo que
van a evaluar, de cómo construir los reactivos y las tareas, de la elección

del formato más adecuado, del establecimiento de los criterios de ejecu-
ción y de las reglas de asignación de puntajes, así como de la elección de
la manera en la que interpretarán los puntajes del examen, de la demos-
tración o de las evidencias contenidas en el portafolios, es la medida en
la que el proceso evaluativo se vuelve un proceso de juicio profesional,
en esencia, útil para hacer interpretaciones y tomar decisiones. Enten-
derlo ayudará a los docentes a darse cuenta de la importancia de eva-
luar la calidad de la evaluación, así como el significado de los resultados
arrojados por ella.
Caracterizando al aprendizaje
Hablar de la evaluación del aprendizaje sin analizar qué es lo que se en-
tiende por aprender resultaría poco prudente. Actualmente, el aprendi-
zaje es caracterizado como un proceso complejo que involucra la
construcción de nuevo conocimiento (Castañeda, 2004a). El nuevo co-
nocimiento se construye sobre la base del conocimiento actual. Los co-
nocimientos previos (aún concepciones intuitivas), así como los
conocimientos a ser aprendidos, son articulados por el aprendiz en es-
tructuras de conocimiento que los integra, significativamente, a su base
de conocimientos para que el aprendizaje sea exitoso.
Con base en esta noción, el aprendiz es visto como un activo constructor

de conocimientos del ambiente, por lo que evaluar su aprendizaje se en-
foca a evaluar pensamiento de alto nivel para resolver problemas rele-
vantes del ambiente, donde no existe una única respuesta correcta.
Se evalúan grupos de habilidades, por ejemplo, habilidades de carácter

general (comprender o producir textos) y habilidades dependientes de
contenidos específicos (traducir lenguaje coloquial a una ecuación cua-
drática), de manera conjunta y en tareas que frecuentemente proveen
medidas de habilidades metacognitivas, colaborativas e intrapersona-
les, tanto como los más usuales productos intelectuales. Las tareas mi-
den actividades significativas de la instrucción y pueden ser individuales
y colaborativas. Por esta razón, la evaluación que se basa en el aprendi-
zaje como proceso constructivo se enfoca a diagnosticar desarrollos gra-
duales que favorecen construcción de conocimiento.
En esta concepción, el aprendizaje es visto, también, como un proceso

dependiente del pensamiento y la solución de problemas. Atender esta
noción ha generado dos tendencias en la evaluación: abandonar medi-
ción de productos memorísticos (sólo evalúan conocimiento inerte, inca-
paz de apoyar a los estudiantes a resolver problemas) y anclar la

evaluación en tareas de solución de problemas que apoyen a los estu-
diantes a entender los tipos de problemas y darle oportunidad de obser-
var cómo los expertos usan conocimientos y habilidades para identificar,
representar y solucionar problemas en áreas diversas.
El aprendizaje también es concebido como un proceso estratégico.

Implica un cambio substancial en las prácticas de enseñanza: de una
mera transmisión de información al diseño de ambientes de aprendizaje
que tomen en cuenta la participación activa de los estudiantes para
construir metas, enfrentarse a problemas, establecer criterios de éxito,
tanto como desarrollar conocimiento y habilidades específicas (desde las
de búsqueda exitosa de información, hasta las que permiten un razona-
miento apropiado y tomar decisiones). En este aspecto, se evalúa el lo-
gro en estrategias cognitivas con el fin de promover hábitos de
procesamiento activo. Con base en esta cualidad del aprendizaje, el do-
cente puede fomentar la auto evaluación como un poderoso recurso
para evaluar el desarrollo de sus estudiantes, en componentes estraté-
gicos del aprendizaje. Este tipo de evaluación fomenta el que los apren-
dices se transformen a sí mismos en “arquitectos expertos de su propio
conocimiento” (Glaser y Baxter, 2002, pp. 1).
Un proceso socialmente distribuido. En un ámbito social responsable, los

aprendices pueden adoptar el criterio de competencia que ven en otros y
usar esta información para juzgar y perfeccionar la adecuación de su
propia ejecución. La ejecución compartida con otros estudiantes pro-
mueve un sentido de orientación a la meta en la medida en la que el
aprendizaje se ajusta a requerimientos y recursos del ambiente. Gracias
a la interacción social, los estudiantes desarrollan y cuestionan sus defi-
niciones de competencia, en la medida en la que observan como razo-
nan los otros y reciben realimentación sobre sus propios esfuerzos para
resolver problemas, asimismo aprenden la facultad de dar y aceptar
ayuda y estimular la de los demás. Esta noción ha aportado aspectos in-
teresantes al campo educativo: la promoción del aprendizaje, vía la in-
teracción, tanto para aprender y solucionar problemas, y aprender a
interactuar con los otros.
De aquí que una parte crucial del trabajo del docente sea diseñar inte-
racciones que promuevan internalizar estrategias particulares, formas
de razonamiento y estándares conceptuales, asociados al dominio del
conocimiento específico que se está aprendiendo. En este contexto, la
evaluación por pares juega un papel central. La co evaluación de pares
representa un artefacto privilegiado para apoyar a los estudiantes a fa-
miliarizarse con los criterios, valores y metas del aprendizaje y para de-
sarrollar habilidades de discusión y argumentación, en una comunidad
de aprendizaje y práctica en la que se compartan metas, tareas y res-
ponsabilidades.
Un pro ce so que in clu ye una in ter fase afec ti vo-motivacional. El

aprendizaje, como actividad cognitiva compleja, requiere de una in-
terfase afectivo - motivacional que lo energetice, es decir, que dispa-
re, mantenga y controle la actividad del estudiante. Dada esta
característica del aprendizaje, la evaluación del salón de clases le
debe informar al docente la orientación motivacional con la que sus
estudiantes se aproximan al aprendizaje. Así, dispondrá de informa-
ción que le permita fomentar habilidades autorregu latorias del estu -
diante, sean las de con trol ejecu ti vo (para eva luar, pla near y re gu lar
si se han cumplido las metas de aprendiza je, evaluar el grado en el
que se han logrado y, si es el caso, establecer la modificación, selec-
ción o construc ción de las estrategias necesarias para el logro de las
metas deseadas), o las atribucionales que comprometen valoracio-
nes sobre su auto eficacia para el estu dio en general; su competen -
cia subjetiva en tareas específicas y sobre la controlabilidad de la
atribu ción del éxito y el fra caso.
Gracias a las primeras, el estudiante podrá estar consciente de la

com pleji dad del apren di za je (me ras re pro duc cio nes o re so lu ción de
problemas), transferir lo aprendido o aplicarlo a nuevas situaciones;
también lo hará sobre sus preferencias sobre la tarea y la flexibilidad
que necesita desarrollar para identificar su utilidad potencial, así
como para valorar el impacto que sobre sus características indivi-
duales como aprendiz tiene la dificultad de la tarea (Schunk y Zim-
merman, 1998). Gracias a las segun das, el estu diante podrá
establecer criterios diferenciales de éxito -depen dientes de metas a
corto, mediano y largo plazo- y valoraciones sobre sí mismo más
realis tas.
Por todo lo an te rior, las prác ticas for mativas y las de evaluación de -
ben incluir diversos tipos de conocimiento, el declarativo (referido a
qué son las cosas), el conocimiento procedimental (referido a cómo
se hacen las cosas) y el conocimiento condicional (referido a las con -
diciones bajo las cuales se hacen las cosas) para que el estu diante
construya y reconstruya los conocimientos, para que los experimen-
te y los valide a partir de las experiencias educativas y de la vida real
y para que los integre a su estruc tu ra cognitiva, más que sólo eva-
luar conceptos aislados, independientes unos de otros.
La preparación de los docentes

Resulta obvio que implementar cambios en la evaluación a partir de lo
planteado requiere anclarla a teorías del aprendizaje cuyo sustento teó-
rico y empírico sea sólido. Pero, aun cuando la investigación ha genera-
do avances importantes en el entendimiento del aprendizaje, la realidad
de las actividades ordinarias de alumnos, profesores y tomadores de de-
cisiones educativas no muestra que se haya alcanzado la mejora desea-
da (Castañeda, Lugo, Pineda y Romero, 1998).
Se reconoce que la práctica cotidiana en los salones de clase es de cali-

dad cuestionable, producto de carencias en la formación docente que,
en términos de este trabajo, es exigua en fundamentos y prácticas de
evaluación para el aprendizaje. Ante esta realidad, la preparación de los
docentes juega un papel central. Con el paso del tiempo, nuevas teorías
sobre el aprendizaje y la evaluación han surgido y se necesita que los
docentes dominen, por una parte, un lenguaje cognitivo para educado-
res (Bass y Glaser, 2004), con terminología que les permita identificar
los mecanismos cognitivos y de autorregulación que se requieren en las
asignaturas que enseñan y, por la otra, que hagan explícitas las relacio-
nes entre la evaluación y la instrucción para reforzar expectativas razo-
nables sobre lo que se enseñanza y lo que se aprende.
Dada la necesidad de preparar docentes en fundamentos específicos del

aprendizaje cognitivo, que los acerque al nivel del discurso que relaciona
los procesos de aprendizaje con las prácticas formativas y de evalua-
ción, se desarrolló el programa “Enseñanza Estratégica” (Castañeda,
2004b y c). En él, el docente aprende a guiar las actividades constructi-
vas del aprendiz, en vez de sólo decirle que es lo que debe hacer; a dise-
ñar ambientes de aprendizaje en los que sus estudiantes puedan
construir sus propios significados (en vez de recibirlos pasivamente) y a
fomentar que el estudiante exponga sus avances en un ámbito libre que
más que juzgar lo correcto o incorrecto de una ejecución, favorezca el
desarrollo de sus habilidades de autorregulación.
Este programa asume que el docente debe ser un estratega en la toma

de decisiones sobre qué enseñar (contenidos, habilidades y estrategias
específicos); cómo enseñar (procedimientos particulares para implantar
una habilidad determinada); cuándo aplicar lo requerido (condiciones
bajo las cuales es útil aplicar cierta estrategia); por qué enseñar, (habili-
dades reflexivas sobre opiniones, actitudes y valores relacionados con la
disciplina), cómo evaluar conocimientos, habilidades y valores asocia-
dos al programa y cómo desarrollar autorregulación en él y en sus estu-
diantes.
El programa se organiza en porciones y la evaluación del aprendizaje co-

rre a todo lo largo del mismo. El docente aprende que la función de la
evaluación es dar al estudiante la oportunidad de consolidar, validar e
integrar lo aprendido; a informarle la dirección de su aprendizaje futuro;
a conocer los beneficios de utilizar ciertas estrategias y a fomentar sus
habilidades de autorregulación.
Técnica para establecer componentes críticos del universo

de medida
A continuación, se presenta una técnica (Castañeda, 1993, 1998 y
2002), que auxilia al docente a identificar, con cierta precisión, mecanis-
mos subyacentes al desarrollo gradual del aprendizaje deseado. Gracias
a esta técnica, el evaluador identifica complejidad creciente en: a) los
conocimientos a ser evaluados, b) las tareas criterio en las que serán
evaluados, c) los procesos cognitivos hipotetizados que subyacen a la
ejecución, d) los contextos de evaluación en los que las tareas implica-
das serán evaluadas y d) las estrategias que permiten resolver las de-
mandas planteadas por la evaluación.
El docente comienza analizando la capa más incluyente de los conteni-

dos y resuelve, progresivamente, las capas inferiores accediendo a nive-
les cada vez más específicos. Los datos de una etapa anterior arrojan
ideas e identifican los requisitos para los niveles siguientes. En todo este
proceso analítico, el componente central lo constituye el Modelo Mental
responsable de la ejecución exitosa, dado que éste es la abstracción fun-
cional que los estudiantes necesitan haber desarrollado para resolver
problemas. Integra conocimiento declarativo y procedimental, con habi-
lidades de toma de decisiones y conocimiento estratégico acerca de
cuándo y por qué deben usarse diferentes conocimientos, procedimien-
tos y decisiones.
El procedimiento se basa en un Análisis Cognitivo de Tareas. Descompo-

ne una tarea global en sus componentes críticos. Apoya al evaluador a
identificar y revisar fallas potenciales que puedan presentar los estu-
diantes y a prescribir la instrucción necesaria dentro de un contexto in-
tegrado, planeado, sistemático, dinámico e interactivo entre evaluación
e instrucción.
Mediante el Análisis Cognitivo de Tareas (ACT), el evaluador analiza va-

rios componentes:
ü al estudiante (conocimientos previos, estructuras de conocimiento,

orientación motivacional a la tarea, creencias epistemológicas sobre
la materia y atribucionales sobre su capacidad de aprender, así

como sus habilidades autorregulatorias);
ü las tareas criterio (simples o complejas; su modalidad -verbal, vi-

sual, motora, combinada, etc.; si son aisladas o contextualizadas y
la forma en que será valorada la ejecución del sujeto);
ü el contexto o condiciones bajo las cuales se ejecuta la tarea (identi-

fica si se requiere usar contextos de reconocimiento o recuerdo y si
los contextos deben ser situados o aislados, si requieren equipo es-
pecializado o no, etcétera...);
ü el contenido (se analizan el tipo y nivel de demanda de los contenidos,

se identifica si éstos son declarativos, procedimentales o si incluyen
modelos mentales y se identifica el código más adecuado -verbal,
imaginal, motor o combinación posible-) para representarlos;
ü los procesos cognitivos que subyacen a la ejecución (de entrada:

atencionales e intencionales; de transformación de la información a
ser aprendida: categoriales e inferenciales y los de salida: produc-
ción convergente o divergente) y
ü las estrategias a ser aplicadas (de procesamiento: heurísticas que

conectan procesos y estructuras cognitivas con demandas de la ta-
rea y de autorregulación: de control ejecutivo y atribucionales rela-
cionadas con la tarea (véase figura 1).
Figura 1. Modelo para identificar componentes y diseñar evaluación informativa.

Toda vez que el docente identificó los componentes requeridos por la ta-
rea, los organiza en un espacio tridimensional cartesiano (Castañeda,
1993 y 1998), como el ejemplificado en la figura 1. La representación
tridimensional lo guía, a manera de metáfora viso espacial, a organizar
los componentes de “procesos” (discriminación, generalización, etc…),
los de “tipos de conocimiento” (factual, conceptual, procedimental) y los
de “contextos” (reconocimiento y recuerdo), en términos de los niveles
de complejidad creciente comprometidos en la ejecución de la tarea.
La primera dimensión representada en la figura 1 está constituida por

los procesos subyacentes a la ejecución solicitada. El docente diseña su
arreglo con base en los objetivos del curso y, en congruencia, elige algu-
nos de los siguientes procesos:
l discriminación, para poner a prueba que el estudiante es capaz de

diferenciar dimensiones o elementos particulares entre clases dife-
rentes;
l generalización, para dar oportunidad de que el estudiante muestre

su dominio en establecer el rango en el que lo diferenciado es apli-
cable a dimensiones o instancias de la misma clase,
l la categorización (horizontal y vertical), a fin de que el estudiante

muestre su dominio para establecer clases y organizar la informa-
ción con base en ejemplares de categorías;
l estructuración del conocimiento, para dar oportunidad de que el es-

tudiante muestre su dominio para integrar la información aprendida
con su estructura cognitiva y con el contexto específico en el que
aparece;
l resolver problemas en niveles variados de complejidad con el fin de

probar diversas estrategias de solución de problemas (medios-fines,
hacia delante, entre otras).
Considerar los procesos subyacentes es útil porque permite tener una

apreciación de la progresión del estudiante en tareas que requieren pro-
cesos cognitivos simples y complejos.
El segundo factor son los conocimientos a evaluar, clasifica los conteni-

dos a ser evaluados en tipos de conocimiento con niveles de dificultad
creciente:
l el nivel de conocimiento factual (nombres, lugares, datos, fórmulas,

entre otros similares), es el nivel más concreto, puede evaluarse en
tareas de reconocimiento y / o recuerdo, simples o complejas.
l el nivel conceptual, incluye conceptos y principios (o reglas), impli-

ca tareas y reactivos que pongan a prueba los contenidos concep-
tuales en un amplio rango de procesos (desde discriminación y
generalización, hasta categorización, deducción e inducción, así
como resolución de problemas), dependiendo del objetivo particular
de medición. Pueden ser medidos tanto en reconocimiento como en
recuerdo.
l el nivel procedimental, incluye la aplicación de procedimientos para

el reconocimiento de patrones (sensorio-motrices, perceptuales o
semánticos) y la realización de secuencia de acciones (resolver una
suma, una ecuación cuadrática o una derivada; tocar el piano, jugar
tenis, conducir un automóvil; elaborar un diagnóstico o indicar un
tratamiento, entre otros similares), implica tareas y reactivos que
evalúen la precisión lograda en la etapa de descomposición (la pri-
mera etapa de desarrollo de habilidades), así como otros que eva-
lúen la habilidad (precisión y velocidad) lograda en las etapas de
composición y refinamiento de la habilidad deseada (etapas fina-
les), puede ser evaluado en reconocimiento y recuerdo,
l el nivel de modelos mentales, son de complejidad alta porque inte-

gra diversos tipos de conocimiento (declarativo, procedimental y
condicional), permiten la solución eficiente de problemas (en vez de
ensayo y error) y aprendizajes complejos (continuos) Implica ta-
reas y reactivos que evalúen solución de problemas en contextos de
reconocimiento y recuerdo.
La clasificación por niveles de complejidad del contenido resulta útil para

identificar no nada más los tipos de conocimiento en los que se presenta
la información, sino también los efectos que sus niveles crecientes de di-
ficultad tienen sobre la ejecución del sustentante.
Y el tercer factor lo constituye contextos de medición, entre los más

usuales encontramos:
l el de reconocimiento, asume mecanismos de memoria a los que

subyace un proceso de comparación de la respuesta correcta con
una huella almacenada en memoria, sea esta literal o parafraseada,
este contexto ofrece indicador(es) externo(s) para la recuperación
de la información, v. gr., los reactivos de opción múltiple donde la
respuesta correcta constituye una de las opciones a ser elegidas.
l el de recuerdo, usa también el mecanismo de comparación de la

respuesta correcta con una huella almacenada en memoria pero,
para cumplir con esto, el estudiante requiere generar, en primer lu-

gar, sus propios indicadores de recuperación dado que el contexto
de medición no ofrece un indicador externo que muestre la respues-
ta correcta; toda vez construidos los indicadores el sujeto debe ele-
gir el más adecuado a la tarea solicitada y, en segundo lugar, el
estudiante necesita aplicar procesos de construcción de respuesta,
en esto participan procesos de categorización, razonamiento y solu-
ción de problemas, entre otros (Castañeda, 1997). Le demanda al
alumno mayor involucramiento de recursos cognitivos para respon-
der ante tareas e ítems y, en esa medida, se considera como de ma-
yor complejidad.
La clasificación por niveles de complejidad del contexto de medición re-

sulta útil para identificar los efectos diferenciales de los formatos de me-
dición (objetiva y respuesta construida, por ejemplo) y de los tipos de
contextos de medida (lápiz y papel, portafolio, demostraciones, entre
otras) sobre la ejecución de los sustentantes. Las evidencias muestran
mayor dominio de los sustentantes, en una variedad extensa de tareas
(de simples a complejas), cuando se les mide en el contexto de recono-
cimiento. En cambio, cuando la medición se realiza en el contexto de re-
cuerdo, el dominio en una proporción importante de tareas se restringe,
particularmente ante tareas complejas (Castañeda, 1993).
Las cualidades generales del marco de trabajo y las de su representa-

ción viso espacial permiten al docente diferenciar, con bastante nivel de
certidumbre, la eficiencia de la ejecución entre contextos más o menos
complejos y entre individuos más o menos competentes.
Toda vez identificadas las dimensiones y sus complejidades, el docente

elige las situaciones de evaluación más congruentes a partir de un lista-
do de opciones posibles que le son facilitadas como andamiaje. Cada op-
ción presenta: a) una descripción de la situación específica, b) ejemplos
que la ilustran, c) los tipos de conocimiento que se pueden evaluar, d)
apoyos para definir “criterios de ejecución”, e) el rango de variables que
describen las situaciones y las condiciones a las cuales se aplican los cri-
terios de ejecución y f) una guía para identificar evidencias de cuando un
estudiante puede ser considerado como competente y los contextos
(ambientes y equipo requerido) para establecer la ocurrencia de la habi-
lidad con la que ejecuta.
Con base en los resultados de la técnica ACT y en el procedimiento de

análisis de objetivos instruccionales (puede consultarse en el capítulo
Diseño de exámenes, en esta misma obra), el profesor planea las eva-
luaciones en una secuencia detallada de metas y logros, más que aisla-
damente, en vías de reforzar la sincronía entre medición e instrucción.

Las relaciones las hace explícitas con base, al menos, en las metas del
curso y en la jerarquía que éstas tienen en el programa integral.
Tratando de resumir los efectos del programa de formación docente, se

puede decir que los docentes desarrollan habilidades en dos aspectos de
la evaluación:
l El diseño de observación. El docente analiza el dominio a ser eva-

luado para identificar y justificar:
a) los conocimientos importantes (simples y complejos, factuales,

conceptuales, procedimentales y estratégicos que configuran el
modelo mental que da cuenta del aprendizaje complejo);
b) los rasgos de las tareas más representativas (su naturaleza y

complejidad, el canal(es) en el que se presenta(n) y en el que se
demanda la ejecución);
c) las relaciones entre los conocimientos y las tareas (individuales,

combinadas, de transferencia a situaciones nuevas o cambian-
tes, de manejo contingencial para responder ante irregularida-
des);
d) las demandas del trabajo real (control de la situación, responsa-

bilidad y cumplimiento de expectativas) y
e) los resultados de ejecución esperados (globales, generales, parti-

culares y específicos), en un esquema que los integra con base
en su importancia relativa y lugar que ocupan en la estructura
del dominio de conocimiento.
Es el paso inicial más importante en la construcción de una evaluación

porque provee la base racional donde se establecen los límites de la ge-
neralización de la evidencia a ser recabada, los mecanismos cognitivos
hipotetizados que el examinando deberá usar para responder y las ta-
reas criterio importantes.
l El modelamiento del dominio en un marco operativo para evaluar.

Toda vez establecido el diseño de observación, el docente está en
capacidad de diseñar las unidades de análisis y los medios de eva-
luación en función de la importancia y el tipo del conocimiento impli-
cado en cada aprendizaje, los contenidos que requieren un
tratamiento adicional o más cuidadoso, en virtud de que agrupan
los aprendizajes que plantean mayores dificultades y el procedi-
miento para asignar un valor o categoría a un objeto de medida.
Se especifica la interpretación potencial permitida, se establecen las

normas de calidad y ejecución mensurables, se determinan parámetros
de desempeño para juzgar el grado de dominio, se describen ejecucio-
nes y atributos específicos que puedan observarse cuando alguien de-
muestra un desempeño efectivo, se especifican ejecuciones que
probablemente estarán presentes si no se demuestra la capacidad y se
evalúa el desarrollo de la comprensión no sólo de la tarea a realizar, sino
también de la importancia de que su realización sea óptima.
En términos generales, para recolectar y combinar las respuestas de los

examinados, de tal manera que permita identificar los mecanismos que
ellos utilizaron para responder y se pueda dar la realimentación en reco-
mendaciones útiles al aprendizaje de los estudiantes y la enseñanza de
los profesores.
Se puede decir, sin temor a equivocarse, que la calidad del aprendizaje

puede mejorarse substancialmente introduciendo en la práctica educa-
tiva aquella evaluación que permita identificar problemas y prescribir
mejora, mediante índices que reflejen cambios cualitativos en la cons-
trucción gradual de conocimientos, habilidades y valores significativos.
En la medida en la que la evaluación para el aprendizaje está cambian-
do lo que es medido, cuándo y dónde se debe medir y cómo diseñar la
medición, la calidad de la oferta educativa generada podrá ser incre-
menta (Castañeda, 1998).
Queda, sin embargo, institucionalizar reformas que permitan confiar en

los datos que arroja la evaluación del aprendizaje en la educación supe-
rior. Este aspecto requiere una comprensión a profundidad de lo que se
va a medir, es necesario diseñar las medidas con base en los mecanis-
mos cognitivos de responder, buscando que correspondan tan cercana-
mente como sea posible a las actividades que se utilizarían en la
aplicación a situaciones de la vida real. Sin embargo, generar estas me-
didas requiere superar una importante limitación, el que los exámenes
estén construidos más por especificaciones acerca del sylabus y de for-
matos de ítems y no en principios teóricos, con amplia base empírica
acerca de los procesos cognitivos que el sustentante debe satisfacer
para resolver las tareas. El cambio en la evaluación del aprendizaje es
mucho más que un simple reemplazo de métodos. Supone una nueva
concepción del aprendizaje donde la comprensión, el pensamiento, la
solución de problemas y el conocimiento reflexivo sobre sí mismo y el
entorno son componentes críticos.
Referencias
Alexander, P. A. y Murphy, P. K. (1998). The research base for APA’s
Learner-Centered Psychological Principles. En N. Lambert y B. L.
McCombs (Eds.), How students learn: Reforming schools through
learner-centered education. Washington: American Psychological
Association.
American Federation of Teachers, National Council on Measurement in Edu-
cation, National Education Association. (1990). Standards for teacher
competence in educational assessment of students. 1990. Disponible
en el sitio web http://ericae.net/scripts/ft/ftget.asp?want=http://www
.unl.edu/buros/article3.html
Arce, A. & Borges, I. (2004). Métodos para estimar confiabilidad de me-
diciones basadas en normas y en criterios. En S. Castañeda (Ed.),
Educación, Aprendizaje y Cognición. Teoría en la práctica (pp.
189-202). México: UNAM, U. de G. y Manual Moderno.
Castañeda, S. (1993). Procesos Cognitivos y Educación Médica. Serie
Seminarios Institucionales de la Facultad de Medicina. México:
UNAM
Castañeda, S. (1997). El rol de la enseñanza estratégica en el estudio
independiente. En P. Ávila (Ed.), Estudio independiente, (pp.
107-146). México: Instituto Latinoamericano de la Comunicación
Educativa y O E A.
Castañeda, S. (1998). Evaluación de resultados de aprendizaje en esce-
narios educativos. Revista Sonorense de Psicología. 12(2): 57- 67.
Castañeda, S. (2002). A cognitive model for learning outcomes assess-
ment. International Journal of Continuing Engineering Education
and Life-long Learning, 12(1-4), 94-106.
Castañeda, S. (2004a). Educación, Aprendizaje y Cognición. En S. Cas-
tañeda (Ed.), Educación, Aprendizaje y Cognición. Teoría en la
práctica (pp. 49-74). México: UNAM, U. de G. y Manual Moderno.
Castañeda, S. (2004b). Enseñanza estratégica: guía abreviada para el
docente y el tutor. En S. Castañeda (Ed.), Educación, Aprendizaje y
Cognición. Teoría en la práctica, (pp. 393-422). México: UNAM, U.
de G. y Manual Moderno.
Castañeda, S. (2004c). Evaluando y fomentando el desarrollo cognitivo

y el aprendizaje complejo. Revista de Psicología desde el Caribe,
13(1), 109-143.
Castañeda, S. (2004d). Estudio Exploratorio de la Formación del Licen-

ciado en Psicología en México. Revista Mexicana de Psicología,
21(4), 131-141.
Castañeda, S., Lugo, E., Pineda, L. y Romero, N. (1998). Evaluación y

fomento del desarrollo intelectual en la Enseñanza de Ciencias,
Artes y Técnicas: un estado del arte. En S. Castañeda (Ed.), Eva-
luación y fomento del desarrollo intelectual en la enseñanza de
ciencias, artes y técnicas en el umbral del siglo XXI, (pp. 17-137).
México: UNAM-CONACYT-PORRÚA.
Díaz B. A. (en prensa). Las pruebas masivas. Análisis de sus diferencias

técnicas. Por aparecer en Revista Mexicana de Investigación Educa-
tiva. Consejo Mexicano de Investigación Educativa.
Embretson, S. E. (1999). Cognitive Psychology Applied to Testing. En F.

T. Durso, R. S. Nickerson, R. W. Schvaneveldt, S. T. Dumais, D. S.
Lindsay & M. T. Chi (Eds.), Handbook of Applied Cognition (pp.
629-660). UK: John Wiley e hijos.
Glaser, R. & Baxter, G. P. (2002). Cognition and Construct Validity: Evi-

dence for the Nature of Cognitive Performance in Assessment Si-
tuations, En H. I. Braun, D. N. Jackson y D. E. Wiley (Eds.), The
Role of Constructs in Psychological and Educational Measurement
(pp. 179-227). N. J.: LEA.
Joint Com mit tee on Tes ting Prac ti ces. Ame ri can Psycho lo gi cal
Asso cia tion. (1988). Code of fair tes ting prac ti ces in edu ca -
tion, 1988. EE. UU: Wa shing ton, DC: Dis po ni ble en http://eri-
cae.net/scripts/ft/ftget.asp?want=http://ericae.net/code.htm
McMillan, J. H. (2000). Fundamental assessment principles for teachers

and school administrators. Practical Assessment, Research & Eva-
luation, 7(8). Recuperado el 11 de febrero del 2006 de
http://PAREonline.net/getvn.asp?v=7&n=
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Edu cational mea -

surement (3a ed.). N. Y.: American Council of Edu cation &
McMillan.
Messick, S. (1994). The interplay of evidence and consequences in the

validation of performance assessments. Educational Researcher,
32(2), 13-23.
National Council on Measurement in Education. (1995). Code of profes-
sional responsibilities in educational measurement, 1995. EE. UU.:
Washington, DC Disponible en el sitio web http://ericae.net/scripts
/ft/ftget.asp?want=http%3A%2F%2Fwww%2Eunl%2Eedu%2Fbu
ros%2Farticle2%2Ehtml
Shepard, L. (2000). The Role of Assessment in a Learning Culture. Edu-
cational Researcher, 29(7), 4-14.
Schunk, D. H. y Zimmerman, B. J. (1998). Self-Regulated Learning.
From Teaching to Self reflective Practice. N. Y.: Guilford Press.
Capítulo 2 ?
Preparación y calibración de reactivos:
medición de y para el aprendizaje
Miguel López Olivas
Introducción
Este capítulo pretende contribuir a la adopción de una práctica compe-
tente de la evaluación educativa, partiendo de un marco conceptual diri-
gido a la revisión y discusión de aspectos que son relevantes en la
medición y fomento del aprendizaje. Con esta base se orienta el empleo
de estrategias metodológicas y procedimientos psicométricos, que son
útiles para diseñar y elaborar ítems y pruebas, tanto para medir el de-
sempeño o aprovechamiento en los alumnos, como para fortalecer su
logro académico, aplicando un modelo de medición. Se analiza la impor-
tancia de que esta práctica se realice con compromiso profesional y con-
ciencia social de la responsabilidad que se desprende de su ejercicio.
La base metodológica que se revisa y explica, toma como ejes a la pla-

neación y preparación de los reactivos que forman los instrumentos de
medición y a su aplicación en un proceso formal de validación, siendo
ambos pasos necesarios para poder proceder a su calibración, es decir,
al establecimiento conjunto de los parámetros de los rasgos o atributos
de las personas y de las propiedades psicométricas de los ítems, si-
guiendo el modelo propuesto por la Teoría de Respuesta al Ítem, conoci-
da como TRI.
Marco conceptual
Los tiempos actuales definitivamente son de transición y cambio. Mu-
chas formas de pensar acerca de lo que nos rodea y de nuestro conoci-
miento están cambiando. Y con ello han estimulado otras formas de

actuar, por ejemplo en el caso de la alimentación, la salud, el medio am-
biente. Tal es también el caso de la educación en general y de la evalua-
ción educativa en particular. Los cambios tienen que ver con la forma en
que puede entenderse a la evaluación, a lo que se evalúa, a cómo se
evalúa y al porqué de la evaluación.
El sentido del cambio, afortunadamente, es de evolución, por lo que las

concepciones dominantes hasta hace algunas décadas están cediendo
espacios a posiciones de apertura.
Nuestro sistema educativo, en general, puede beneficiarse de aquellas

propuestas que permiten utilizar marcos conceptuales, criterios y proce-
dimientos, que ofrecen evidencia suficiente y creíble de los resultados
del aprendizaje y que contribuyen a incrementar su calidad (López y
Castañeda, 1990).
La invitación que se nos ofrece es para procurar una concepción que per-
mita entender cómo se dan las relaciones entre los componentes y va-
riables que participan en la evaluación y la medición educativas; y
acerca de cómo pueden éstas aportar información que apoye esclarecer
la medida en que se están alcanzando los resultados esperados después
de un proceso de aprendizaje y, con ello, valorar el grado en que una
meta formativa propuesta se está cumpliendo.
En la evaluación y la medición educativas participan innumerables varia-

bles. Algunas están relacionadas con las personas que se examinan;
otras con instrumentos y procedimientos utilizados; también son impor-
tantes las que tienen que ver con cómo se organiza y analiza la informa-
ción que se obtiene, así como los estándares que se aplican para
verificar la calidad del proceso. En todo momento conviene tener claro
cómo participan estos factores y qué efectos están generando, pues son
la base para poder advertir lo que está ocurriendo y para poder planear y
ajustar cursos de acción (Castañeda y López, 1999).
Si no se pudiera determinar el porqué de un resultado ¿en qué se podría

basar una decisión, por ejemplo para intervenir o para aplicar una solu-
ción a un problema educativo?
Esta intervención podría consistir en cambiar una técnica o un procedi-

miento, por ejemplo, cuando un profesor en su aula nota que algo de lo
que se está haciendo no funciona bien. Pero esta intervención también
podría manifestarse a gran escala, por ejemplo cuando se pretende
efectuar cambios curriculares o reformas educativas.
PREPARACIÓN Y CALIBRACIÓN DE REACTIVOS: 31
MEDICIÓN DE Y PARA EL APRENDIZAJE
El producto que un sustentante genera en una prueba, cuando se en-

frenta a los ítems, es la evidencia para valorar el logro alcanzado. Por
ello, para poder entender los productos de la medición es necesario
comprender lo que sucede en el proceso de responder reactivos en un
examen. Esta comprensión es necesaria para diseñar mediciones que
permitan determinar lo que los sustentantes saben y son capaces de ha-
cer. Pero también para ubicar en qué partes del proceso formativo de los
alumnos se requiere incidir, para mejorarlo. Por ejemplo:
q si no se contara con un marco teórico o conceptual de referencia,

para ubicar el conocimiento con que se cuenta acerca del fenómeno
que interesa explorar;
q si no hubiera preguntas a responder, para orientar la medición pro-

positivamente, ya sea acerca de las causas, los efectos o las inte-
racciones entre las variables;
q si no hubiera hipótesis a probar, para determinar su relevancia y

plausibilidad en las explicaciones alternativas acerca del objeto de la
evaluación;
q si se careciera de un diseño de observación, para hacer explícito qué

es lo que deberá medirse;
q si no se tuviera un diseño de medición, para especificar cómo se de-

bería medir;
q si no se dispusiera de un diseño para analizar con suficiencia los re-

sultados;
q si no se aplicara un método para calibrar los reactivos antes de su

utilización formal, de manera que se tuviera evidencia empírica
acerca de su funcionamiento;
q si no se hicieran inferencias adecuadas para poder concluir válida-

mente.
¿Cómo podría irse más allá de una descripción superficial e

incompleta de los datos que se hayan obtenido como re-
sultado de la aplicación de un instrumento?
Certificar un grado de dominio, establecer un perfil de desempeño
escolar, determinar un nivel de riesgo en el apren dizaje, son algunas
de las responsabilidades que se asignan a los evaluadores en el ám-
bito educativo.
El compromiso profesional inherente a estas actividades va más allá del

ámbito particular (aula, escuela, alumno) en que tenga lugar la práctica
evaluativa, ya que el impacto real trasciende a la sociedad: promover o
no a un alumno al siguiente nivel de estudios, aceptar o rechazar a un
alumno en una universidad, dar o no la aprobación para el ejercicio de
una profesión, o aceptarlo o no para un empleo, son todas ellas respon-
sabilidades sociales, que por su importancia exigen competencia del
más alto nivel.
El bajo desempeño escolar y el alto nivel de reprobación, que año tras

año se reportan como tendencias históricas y sostenidas, de hecho en
todos los niveles educativos y en todas las modalidades de educación
formal, podrían estar relacionados, al menos parcialmente, con las prác-
ticas que se utilicen para evaluar el aprendizaje.
Hay preguntas que demandan claridad en la respuesta, para establecer

nexos e implicaciones entre los niveles macro y microeducativo. Por
ejemplo: ¿qué se evalúa? ¿cómo se evalúa? ¿quiénes construyen los
instrumentos de evaluación? ¿con qué criterios y procedimientos se ela-
boran pruebas y exámenes de uso corriente en contextos educativos?
¿qué uso se da a la información que se obtiene?
La evaluación del aprendizaje se realiza en las aulas, en las instituciones

educativas y en los centros especializados locales o nacionales; y ya sea
que ocurra en pequeña o en gran escala, en lo esencial no difieren en sus
funciones y su responsabilidad es también igual.
Todas estas razones hacen necesario que los reactivos e instrumen-

tos, que se emplean en la eva lua ción del apren diza je, se prepa ren
con el mayor esmero y competencia profesional. Y es imprescindible
conocerlos a fondo y analizarlos muy cuidadosamen te, para estable -
cer sus propiedades psicométricas, sobre todo cuando los reactivos o
instrumentos de medición estén en proceso de validación, pues la in-
formación que suele obtenerse empíricamente, por ejemplo a partir
de aplicaciones piloto, podría ser distinta y no siempre confirmatoria
de las conclusiones que expresan los jueces o expertos durante la
va li dación in ter na, cuan do aún se está cons tru yen do el ins tru mento.
En contextos en que es cotidiano el uso de instrumentos de medición

educativa, hay también muchos factores de riesgo, que podrían indu-
cir a errores u omisiones que lesionarían severamen te varios atribu -
tos deseables y necesarios en la evaluación, como podrían ser
equidad, precisión, consistencia, veracidad y objetividad, con lo cual
se estaría dando lugar a cuestionamientos, también severos, acerca

de los beneficios y utilidad de la práctica evaluativa.
Entre las deficiencias más lamentables que podrían ocurrir en diferentes

momentos del proceso de medición y evaluación educativas, podrían ci-
tarse (López, 1994):
q Aplicar instrumentos cuyo origen, fundamentos y propiedades psi-

cométricas se desconozcan o estén apenas en vías de establecerse.
q Mezclar reactivos procedentes de instrumentos cuyos diseños, usos

y utilidad no sean compatibles.
q Analizar los resultados siguiendo procedimientos que no aporten in-

formación que proporcione evidencia suficientemente confiable
para tomar decisiones válidas.
q Privilegiar la inclusión de preguntas de examen atendiendo más a la

influencia o el estatus del autor y menos a la calidad ostensible del
producto.
q Dar mayor peso a contenidos o áreas temáticas que impongan gru-

pos que ejerzan más presión en los centros de estudio y dejar fuera
otros que permitirían tener una visión más completa e integrada del
dominio en el campo de conocimiento.
q Aplicar instrumentos siguiendo criterios arbitrarios, en la medida en

que no tengan nada que ver con los rasgos o atributos que se pre-
tendan medir y que se expresen en decisiones acerca de la exten-
sión de una prueba, el número de opciones para responder, el
tiempo para contestar y el peso que tendrá cada acierto.
q Descuidar las condiciones en que se efectúe la aplicación de los ins-

trumentos, introduciendo una variabilidad capaz de afectar la con-
fiabilidad de la medición.
q Delegar la aplicación de los instrumentos (pruebas, escalas) a per-

sonas que no garanticen que se hará un trabajo responsable.
q Utilizar claves de respuestas o plantillas que no corresponden al

examen aplicado.
q Equivocar registros y otorgar puntuaciones o calificaciones que no

coincidan con la persona examinada.
q Alterar respuestas, puntuaciones, listas o registros.
q Manipular los resultados para beneficiar o perjudicar a un sustentante.

q Poner a disposición de algunos sustentantes la prueba o clave de

respuestas que será aplicada en una evaluación formal.
Algunas de estas deficiencias, fallas u omisiones podrían pasar desaper-

cibidas, hasta que una revisión cuidadosa las descubriera; o bien, ser
generadas por presiones de trabajo incidentales. Otras podrían inducir-
se por la carencia de conocimientos, experiencia o competencia. Pero no
por ello serían menos impactantes, ni sus efectos menos graves.
Cabe asumir que todas las partes y pasos del proceso de evaluación son
igualmente importantes y que, de alguna manera, están involucrados en
las decisiones que se toman a partir de los resultados de una medición,
por lo que es obligatorio ser cuidadoso en todo momento. Cualquier
paso que se realice en forma deficiente debilitará la validez, confiabili-
dad y objetividad de la medición y con ello atentará también contra su
utilidad y credibilidad, reduciendo la calidad y maximizando efectos in-
deseables.
Por lo general, a los sustentantes sólo les interesa conocer el resultado

de su evaluación, pero algunas veces también preguntan acerca de la
confianza que amerita la evidencia obtenida mediante las pruebas o ins-
trumentos que les fueron aplicados. A los examinadores les interesa,
más que un resultado en particular, asegurar que lo que están presen-
tando como evidencia de la medición merece toda la credibilidad. Por
ello también se interesan en capacitarse y acercarse a técnicas y proce-
dimientos que les orienten en sus tareas.
Las pruebas o exámenes escolares constituyen en sí mismos modelos

que definen los tipos de conocimiento y de habilidades que las institucio-
nes asumen que deben poseerse, los niveles de dominio que se deben
exhibir, así como las actividades que los alumnos deben efectuar exito-
samente (López, 1996).
Algunos estudios (por ejemplo, Bransford, 1979), han dejado claro que
el desempeño de un alumno en una prueba está ligado a la forma como
se le evalúa, al tipo de respuesta que se le demanda, al tiempo que se le
otorga para responder y a las condiciones bajo las cuales ocurre la eva-
luación.
Esto indica que cuando no se incluyen formas variadas de presentar las

preguntas y no se muestrean diferentes demandas en las tareas, se está
privando al alumno de oportunidades para que exprese lo que sabe y lo
que sabe hacer, en distintos contextos de recuperación y aplicación. La
medición que se realiza bajo estas condiciones muestra sólo un segmen-
to o porción del desempeño, que estaría ocultando logros y capacidades
que el alumno ha adquirido, pero que no son considerados en la medi-

ción (Gagné, 1985).
Por ejemplo, si en vez de limitarse a someter al alumno a tareas de reco-

nocimiento y discriminación, se abriera también un espacio en las prue-
bas para las habilidades de relacionar, categorizar, inferir, aplicar
procedimientos y solucionar problemas, se estaría favoreciendo que
quien responde se desempeñe en tareas de distinto valor y peso cognos-
citivo, que difieren en dificultad y complejidad. Con ello el valor informa-
tivo de los resultados se incrementaría significativamente y podría
apoyar el aprendizaje (Castañeda y López, 1989).
Las evidencias de la literatura internacional en el campo, señalan Casta-

ñeda, Lugo, Pineda y Romero, (1998) no reflejan que la visión optimista
de De Corte (1999) sobre Una nueva concepción de la enseñanza y el
aprendizaje para el siglo XXI, sea la realidad de alumnos y profesores en
la mayoría de los niveles educativos y en las diferentes partes del mun-
do. Es más, afirman que temas tan importantes como “Aprendiendo a
Aprender”, “Enseñanza Efectiva” y “Perspectiva Multidimensional de la
Medición del Aprendizaje”, raramente están presentes en las actividades
de los expertos de las instituciones educativas.
Lo que se encuentra tiene que ver, más bien, con la aproximación tradi-
cional a la enseñanza y a la evaluación del aprendizaje, difícilmente
compatibles con los cambios requeridos para lograr la aceleración inte-
lectual y la modificación continua del conocimiento planteadas por los
nuevos objetivos formativos.
Castañeda y López (1999) consideran que es necesario impulsar un

cambio que vaya más allá del simple reemplazo de los modelos, pro-
cedimientos y estrategias actuales y afirman que el lograrlo plantea
retos importantes a los expertos en evaluación, ya que los diseñado-
res de exámenes requieren de una formación teórica y no sólo técnica
para poder construir exámenes que incorporen los aspectos substan-
ciales e interrelacionados del diseño de observación y del diseño de
medición.
En conclusión, se trataría de desarrollar una visión renovada y fortaleci-

da, capaz de integrar componentes teóricos, metodológicos y técnicos
para definir y conciliar los dos modelos de mayor interés en la evaluación
institucional: el del alumno destinatario de las pruebas y el de las prue-
bas que se emplean para determinar en cada estudiante cuáles son sus
fortalezas y debilidades y en qué debe apoyarse a quienes no han alcan-
zado los resultados deseados.
La preparación de los reactivos tanto para su aplicación, como para su

calibración, requiere fundamentarse en la elaboración o en la adopción
de un modelo de medición, como se expone a continuación.
El modelo de medición
Es conveniente analizar cómo puede entenderse un modelo de medi-

ción. Un modelo es una forma de representación pensada para mostrar
alguna parte de la realidad. Por ejemplo, una maqueta, un dibujo, un
diagrama, son útiles en la medida en que, al permitir mediante un mo-
delo la representación de una casa, un objeto o un procedimiento, ayu-
den a lograr una meta, como podría ser comunicar una idea, expresar
cómo es un aparato, etc.
Por su parte, medir, dicho en forma simple, es el procedimiento por el cual

se establecen las dimensiones de un objeto, por ejemplo atributos o rasgos
de una persona (su inteligencia, su motivación, sus aptitudes), de acuerdo
con ciertas reglas y con base en unidades de una escala que permitan ha-
cer estimaciones precisas. El resultado de las mediciones son números y
éstos expresan cantidades o magnitudes. La medición es de naturaleza
descriptiva y es muy importante para la evaluación cuantitativa.
Evaluar es un término que en educación se emplea de manera muy am-

plia y flexible, usándose en ocasiones como sinónimo de valorar, valuar,
validar, estimar. No es sinónimo de medición, ni de observación y es un
proceso interpretativo, por el cual puede llegarse a un juicio, basado en
evidencia disponible. La evaluación puede ser cuantitativa (apoyada en
la medición) o de tipo cualitativo (apoyado en valoraciones y evidencias
de naturaleza no cuantitativa). Se evalúa, en general, para formular un
juicio, tomar una decisión, al adquirir información confiable que funda-
menta llegar a una conclusión.
Hay una relación estrecha entre medición y evaluación: con un instru-

mento, por ejemplo un “metro”, podemos determinar cuál es la altura de
una silla. Pero la medición no indica si dicha silla es alta o baja, útil o inú-
til para ciertos fines, por ejemplo, si su altura es adecuada para la esta-
tura de un niño de dos años. En cambio, al juzgarse si es o no adecuada,
se está ya en el terreno de la evaluación, porque la evidencia: altura de
la silla expresada en una escala tan objetiva como inobjetable de centí-
metros y milímetros y el problema que se pretende resolver (que sea
adecuada para la estatura de un niño de dos años), con base en la evi-
dencia, permite llegar a un juicio: es o no útil para ese fin. La evaluación
cualitativa podría llevar a conclusiones de otro tipo, por ejemplo, acerca
de si la silla tiene valor estético. En conclusión, un modelo de medición,
en su sentido más amplio, es un plan que permite expresar qué deberá

medirse y qué evaluaciones serán necesarias, para poder determinar
con exactitud las dimensiones y atributos del objeto que interesa cono-
cer.
Siguiendo a Thorndike (1989), un modelo de medición conjunta tres

componentes:
1. Los atributos de las personas que contestan las pruebas.
2. Las pruebas que intentan medir esos atributos.
3. Los reactivos o preguntas de examen que componen las pruebas.
q Por una parte, se trata de determinar la forma en que los atribu-

tos se relacionan entre sí, midiendo la capacidad o el dominio que
se tiene en cuanto a los conocimientos y las habilidades de inte-
rés.
q Por la otra, se trata de dar cuenta de las relaciones que existen

entre las propiedades de los reactivos componentes y la prueba,
así como de las relaciones entre la calificación de la prueba y la
propiedad del atributo subyacente.
El modelo propuesto por Thorndike indica que es necesario definir o

identificar cuáles atributos interesa medir en las personas. Las posibili-
dades son muy amplias, ya que incluye a todas las habilidades, los tipos
de conocimiento y destrezas, como podrían ser la comprensión de la lec-
tura, la solución de problemas matemáticos, ubicar la posición geográfi-
ca de un conjunto de países, ordenar una serie de eventos de acuerdo a
su cronología, identificar los pasos de un procedimiento y muchos más.
Son también rasgos o atributos de las personas, usualmente alumnos,
los que tienen que ver con la actitud, interés o motivación para apren-
der, las diferencias en estilos de aprendizaje, intereses, creencias, hábi-
tos, costumbres, etc.
Los rasgos o atributos de las personas, particularmente en contextos

educativos, podrían englobarse en conductuales, cognitivos, afectivos y
sociales, ya que son categorías amplias en que pueden ubicarse las nu-
merosas variantes.
La fundamentación teórica de un modelo de medición puede partir del

reconocimiento de que en el aprendizaje que ocurre en las aulas conflu-
yen distintos procesos psicológicos complejos (pensamiento, lenguaje,
memoria, atención, etc.), que interactúan con diversas variables ins-
truccionales y contextuales (por ejemplo, las formas como se estructu-
ran y se aplican los planes y programas de estudio, los estilos de

enseñanza, los énfasis y omisiones en la revisión de los temarios, las
condiciones docentes, etc.), que se hacen presentes en los resultados de
la evaluación de los sustentantes (López, Castañeda y Álvarez, 1995).
Entre los componentes de un diseño de medición cabe considerar que

son relevantes a aquellas variables instruccionales presentes en contex-
tos educativos, como son las muchas opciones de examen existentes
para una diversidad de propósitos. Lo mismo ocurre con las tareas que
pueden incluirse (demandas de respuesta solicitadas por los reactivos) y
con los contenidos del examen, que difieren en naturaleza, estructura y
complejidad. Todo lo cual es fuente de variabilidad en los instrumentos
específicos y requieren que las decisiones que se tomen estén muy bien
fundamentadas.
Otro aspecto importan te en la definición de un modelo de medición es

reconocer que el aprendizaje estudiantil, desde todos los puntos de
vista, plantea a los evaluadores retos en la toma de decisiones ade-
cuadas que, como señalan Castañeda y López (1999), básicamente se
derivan:
1o. De la naturaleza propia del aprendizaje, por demás compleja, que

hace difícil definirlo y medirlo. Aprender es, sin duda, un proceso muy
complejo y dinámico, que puede tomar muchas formas en su realización
(observando, imitando, efectuando actividades, oyendo, leyendo, refle-
xionando, etc.). Es sensible a diversas variables, por ejemplo: a la ma-
teria que se aprende y a su estructura, a las actividades o tareas que
requiere su adquisición, a las habilidades y conocimientos previos del
aprendiz y a las condiciones bajo las cuales tiene lugar el proceso de
aprendizaje, entre otros factores importantes.
2o. De la dificultad para observar los procesos que acompañan al apren-

dizaje, de una manera directa, y para evaluarlos adecuadamente. Cabe
recordar que el aprendizaje constituye un proceso de naturaleza conti-
nua y que por razones de instrumentación, la evaluación se ha dirigido a
unidades discretas de tiempo, lo que de alguna manera ha llevado a me-
diciones de tipo estático, y
3o. De la innegable variedad y extensión de tipos diferentes de aprendi-

zaje, a los que se asocian metas propias, criterios específicos e instru-
mentación diversa, y para los cuáles se requieren diseñar las mejores
maneras de evaluarlos.
Cabe señalar que la aplicación de estrategias poco apropiadas a la natu-

raleza de lo que se pretende medir, han sido causas importantes de que
la evaluación falle en sus propósitos, alcances y confiabilidad. En gene-

ral, rara vez los procedimientos de evaluación del aprendizaje logran re-
flejar los niveles de complejidad en forma integral, de manera que
muestren un perfil realista y adecuado de los conocimientos, habilida-
des, aptitudes o cualquier otro rasgo que interese (Embretson, 1983).
Los siguientes pueden ser indicadores apropiados para explorar el logro

del aprendizaje en los alumnos (López, 1994):
Ø ¿Qué grado de dominio debe exhibirse en la prueba para demostrar

un manejo deseable sobre el contenido temático?
Ø ¿Qué habilidades, generales o específicas, es importante medir para

determinar el grado en que se hayan desarrollado?
Ø ¿Qué nivel de pericia deberá exhibirse en el manejo de las habilida-

des?
Ø ¿Qué clase de problemas se deberá ser capaz de resolver?
Ø ¿Qué grado de dificultad deberán tener los problemas a resolver?
Ø ¿Bajo cuáles condiciones deberá exhibirse ese dominio? Por ejem-

plo: tiempo para responder, extensión de la prueba, estructura de
la prueba, etc.
El segundo componente del modelo que propone Thorndike (1989), tie-

ne que ver con los instrumentos que se utilizan para medir los rasgos de
interés. Instrumento de medición es un término de uso amplio en con-
textos instruccionales y hace referencia a una herramienta que se utiliza
para realizar un trabajo (es lo que se emplea para alcanzar un resulta-
do). En evaluación educativa es sinónimo de prueba (lo que se usa para
demostrar algo o para dar testimonio) y de examen (lo que se usa para
observar y conocer); puede ser también un opinario (se emplea para
sondear o explorar opiniones) y también una escala (que en sentido es-
tricto significa graduación de un instrumento de medida), por ejemplo,
una escala de actitudes o de motivación. Un instrumento, entonces, se
aplica a una población o a una muestra de ella, para medir característi-
cas, atributos o rasgos de interés que se desprenden del constructo (los
rasgos o atributos de las personas) que operacionaliza la medición de
esos rasgos.
Un instrumento de medición es más confiable mientras menor sea el

error de medición. La confiabilidad de un instrumento de medición es el
grado hasta el cual las medidas sean estables. En conclusión, los instru-
mentos para realizar la medición son las pruebas, los cuestionarios y los
reactivos. Los ítems o reactivos aportan la definición operacional de las

variables, porque se asume que son indicadores precisos y objetivos del
constructo que se desea medir (Wright y Masters, 1982).
Los constructos que se pretende medir son los conceptos o formulacio-

nes verbales que se expresan mediante definiciones o enunciados teóri-
cos, para guiar la evaluación y la construcción de instrumentos que
hagan posible medirlos, utilizando los descriptores o indicadores que los
caracterizan. Son ejemplos de constructos la “inteligencia”, la “com-
prensión”, la “habilidad”, la “competencia”; y los indicadores del cons-
tructo podrían ser: capacidad para tomar decisiones acertadas, hacer
inferencias, resolver problemas, elegir procedimientos adecuados para
llegar a una solución (Embretson, 1985).
El tercer componente del modelo propuesto por Thorndike (op. cit.), son
los reactivos que componen las pruebas. Un reactivo es aquello que pro-
duce una respuesta o reacción, como efecto de un estímulo; aquello que
sirve para conocer las propiedades de un cuerpo por las reacciones que
provoca. Ítem es un trozo, una parte de, un segmento, un elemento. Es
el término que también se emplea para identificar cada una de las pre-
guntas o enunciados que se formulan en un examen o prueba, al pre-
sentar tareas o actividades que deberá efectuar quien lo responde.
Reactivo se emplea como sinónimo de ítem, porque en el contexto de la
evaluación educativa significan lo mismo.
En las evaluaciones escolares, por lo general los reactivos de una

prueba suelen tener sólo una respuesta que se considera correcta o
más exacta, mientras que las que se ofrecen como opciones o distrac-
tores no lo son, por lo que la simple comparación de cada respuesta
del sujeto con una clave o plantilla, permitirá contar el número de
aciertos alcanzado y asignar la correspondiente puntuación o califica-
ción. Pero la tarea de analizar los reactivos y de evaluar los resultados
no termina aquí.
Una consideración pertinente al elaborar los reactivos es no fijar como

meta la construcción de un instrumento o prueba como tal, sino más
bien diseñar esta tarea como la construcción de un banco de reactivos.
Las razones prácticas son que un banco de reactivos es un conjunto de

ítems, que puede ser manejado libremente, al añadir, modificar o elimi-
nar reactivos y que de él pueden derivarse muchas versiones de instru-
mentos, ya sean pruebas o escalas de medición, dependiendo del
interés que pudieran tenerse para algunos fines. Por ejemplo, armar
versiones paralelas, pruebas sólo con reactivos de dificultad alta o baja,
que midan sólo conocimiento factual, o para medir recuerdo guiado, etc.
Hay entonces muchas posibilidades (Embretson, 1985).
En cambio, la prueba o examen es ya un instrumento terminado, defini-

do para que su aplicación sea invariante para todas las personas que lo
respondan, ya que así se logra homogeneidad necesaria, para asegurar
condiciones de comparabilidad y confiabilidad.
Los bancos de reactivos suelen estar siempre en revisión, ya sea porque

se requiere sustituir ítems que han sido aplicados en múltiples ocasio-
nes, o porque los fenómenos que se investigan y miden son dinámicos y
hacen necesario que las fuentes para obtener evidencia sean también
dinámicas.
Los reactivos, formulados en cualquiera de las muchas formas que

pueden tomar, son los ladrillos para armar la construcción de una
prueba y de un banco de ítems. De la cantidad y calidad de los ladrillos
disponibles dependerán en gran parte la fortaleza de la construcción y
la medida en se satisfagan las necesidades que desde el diseño o pla-
no de la obra se pretendían resolver. La prueba representa un espacio
similar, en donde la calidad del diseño y de los materiales empleados,
así como del procedimiento seguido, condicionarán la calidad del pro-
ducto final. Cada reactivo debe cumplir una función específica y el que
forme parte de la prueba debe estar perfectamente justificado, de
manera que si no estuviera incluido habría una omisión clara e impor-
tante (Wright y Masters, 1982).
El pun to im por tan te en el mo delo de medición tiene ver con la re la-

ción que es necesario establecer entre los rasgos o atribu tos de las
personas y las características o parámetros de los reactivos que res-
ponden. Algunas preguntas pertinentes para evaluar esta relación
son:
q ¿Qué formato deberá tener la prueba?
q ¿Qué contenido temático deberá incluirse, para muestrear con sufi-

ciencia el campo de conocimiento representado en las asignaturas,
unidades y temas?
q ¿Cuántos reactivos deberán incluirse para explorar con suficiencia

el campo de conocimiento representado en las asignaturas, unida-
des, temas y subtemas?
q ¿Qué demandas cognoscitivas impondrá la prueba al sustentante

para ser indicativas de las habilidades generales o específicas de in-
terés?
q ¿Qué formas de conocimiento (declarativo, procedural, condicional)

se explorarán para valorar su manejo por los alumnos?
q ¿Qué tipos de conocimiento (factual, conceptual, etc.) se medirán

para determinar cómo es su manejo por los estudiantes?
q ¿Cuántos reactivos serán necesarios para muestrear con suficiencia

las clases de habilidad y de conocimiento?
q ¿Su distribución será homogénea en los campos temáticos que se

evalúen, o será diferencial dependiendo del campo de que se trate?
q ¿Cuál será el grado de dificultad óptimo a graduar en los grupos de

reactivos y en la prueba como unidad?
q ¿Qué indicadores psicométricos de dificultad o complejidad serán

apropiados?
q ¿Cuánto tiempo deberá asignarse al examinando para resolver la

prueba?
q ¿Qué instrucciones e información deberá proporcionarse para ase-

gurar que el examinando entienda en qué consiste la prueba y cómo
debe responder?
q ¿Qué condiciones deberán mantenerse para asegurar que el exami-

nando esté libre de distractores o interrupciones al resolver la prue-
ba?
Una vez que han sido obtenidos los resultados (datos tales como pun-
tuaciones, frecuencias de respuestas, etc.), mediante los instrumentos
aplicados (pruebas, exámenes) y sea posible describir con objetividad
y precisión la situación explorada, se fundamentará entonces afirmar o
confirmar la existencia de relaciones, significativas o no, mediante un
juicio valorativo (evaluación), entre los antecedentes (los rasgos o atri-
butos de las personas) y los consecuentes (sus respuestas a los reacti-
vos del instrumento). También se tendrán elementos necesarios para
predecir resultados futuros, si no cambian las condiciones ahora pre-
sentes.
El siguiente paso a dar consistiría en tomar decisiones adecuadas para

intervenir, esto es, para introducir medidas orientadas a resolver el pro-
blema planteado y cuya efectividad pueda determinarse con nuevas me-
diciones y evaluaciones.
Calibración de reactivos: una visión general

Calibrar un conjunto de reactivos, es un procedimiento psicométrico
para poner en su punto de funcionamiento óptimo a los ítems de un ins-
trumento, con base en un modelo de medición, de manera que al apli-
carse a una población meta, aporten con adecuación, confiabilidad y
utilidad la información necesaria para tomar decisiones o medidas que,
por ejemplo, conduzcan a la atención de un problema o a la formulación
de un diagnóstico.
El proceso de análisis de ítems es un medio complementario e indispen-

sable para la calibración y el producto resultante es información esencial
acerca de cómo funcionaron los reactivos (sus niveles de dificultad, po-
der de discriminación, etc.), como se describe en un capítulo de esta
obra. Pero, como se explica más adelante, es también diferente del pro-
ceso de calibración, en objetivos e instrumentación.
En psicometría es reciente el uso del término calibración y ahora se em-

plea con mayor frecuencia. Se aplica a cada uno de los reactivos incor-
porados en un instrumento, al banco de reactivos que forma el conjunto
con el que se construyen instrumentos y a una prueba en lo específico
(no se refiere a las personas). La condición necesaria, en cualquiera de
los casos, es que los reactivos se hayan utilizado al menos en una oca-
sión, ya sea como parte de una aplicación piloto para validación, o for-
malmente (López, 1996).
Al trabajar en la elaboración de exámenes y en analizar sus resultados

para determinar las características psicométricas de los instrumen-
tos, es necesario tener respuestas a preguntas que tocan los concep-
tos básicos de validez y confiabilidad. Por ejemplo, si la prueba midió
lo que interesaba medir, qué tan bien lo midió; qué tan consistentes
serán los resultados en el tiempo; qué tanta relación habrá entre el
resultado en la prueba y los indicadores que podrían obtenerse me-
diante otros procedimientos o instrumentos, y cuál será su posible va-
lor predictivo. La confiabilidad de un instrumento de medición es el
grado hasta el cual las medidas sean estables y el error de medición
sea muy bajo (Embretson, 1983).
La calibración de reactivos respalda, en particular, la validez de cons-

tructo, que es la forma de validez que identifica en un modelo el espacio
cognitivo contemplado en la evaluación, como base para definir las
pruebas y determinar los niveles de complejidad de la ejecución, en tér-
minos de habilidades académicas, ya sea generales o específicas y de ti-
pos y niveles de conocimiento.
En la calibración, el punto de interés central es atender al grado de ajus-

te, tanto de los reactivos que forman el instrumento, como de los patro-
nes de respuesta que muestran los atributos de las personas. La relación
de ajuste a un modelo de medición se establece conjuntamente con los
parámetros de ambos: las personas y los reactivos.
En contextos de evaluación instruccional, el término habilidad se emplea

comúnmente, de manera convencional, para englobar las característi-
cas que se miden en las personas; y, para identificar un aspecto que es
muy significativo en los reactivos, se emplea el término dificultad.
Habilidad y dificultad, desde un punto de vista psicométrico, son las dos

variables que, en la Teoría de Respuesta al Ítem (TRI), se adoptan como
marco explicativo y procedural en la medición del aprendizaje en con-
textos educativos y son esenciales para diseñar pruebas y procedimien-
tos psicométricos (Wright y Stone, 1979; Embretson, 1985; Baker,
2001). La dificultad y la habilidad dependen de una tercera variable que
las interrelaciona: el reactivo o la prueba que se aplique, es decir, la ta-
rea a realizar y sus características.
Acertar o fa llar en la respues ta a cada pre gun ta de una prue ba es un

asunto de probabilidad: a mayor habilidad, mayor probabilidad de
acertar; a mayor dificultad, mayor demanda de habilidad y menor
probabilidad de acertar. Estos puntos, simples y directos, pocas ve-
ces, o en muy pocos reactivos se cumplen cabalmente. La razón es
que en las pruebas hay muchos componen tes o variables que con ta-
minan el logro del objetivo principal de una prueba que intenta medir
el aprendizaje: determinar la capacidad o la aptitud que tiene un es-
tu dian te.
La dificultad de los reactivos que miden habilidades de aprendizaje pue-

de provenir de distintas fuentes. En esta obra se hace revisión exhausti-
va de ellas. En particular, como señalan López, Castañeda y Álvarez
(1995) es correcto percibirla como una interacción de:
1) los dominios de conocimiento definidos por las materias o contenidos,

que se muestrean para ser evaluados en la prueba;
2) el nivel de conocimientos, actitudes y habilidades con que cuenta la

persona;
3) la complejidad cognoscitiva de los reactivos, expresada en las de-

mandas que se imponen a quien responde, para realizar las tareas
señaladas en la prueba, y
4) El contexto de evaluación de lo aprendido, que conjunta: el tipo de

examen, el formato del reactivo, las instrucciones para responder, el
contenido particular, etc.
Por otra parte, el concepto de habilidad suele ser de uso muy común. En
un sentido general, habilidad es la destreza y capacidad para aplicar lo
aprendido, por lo que no se reduce a tener “conocimientos”. Esta distin-
ción se establece explícita o implícitamente, cuando los alumnos se que-
jan de que una prueba exploró sólo lo que manejaban de ”memoria"
(conocimientos). De igual manera, los profesores pretenden que, como
resultado de sus cursos, los alumnos desarrollen habilidades y no sólo
“almacenen” la información.
Mientras que las habilidades son formas concretas que pueden tomar los
procesos cognoscitivos, el contenido es la información sobre la cual ope-
ran dichos procesos. El contenido se refiere a dominios o campos del co-
nocimiento, que pueden ser tan generales como “materias” (español,
física, matemáticas), o de mayor nivel de especificidad e inclusividad,
como las unidades, temas y subtemas (De Sánchez, 1991).
Los conocimientos y las habilidades pueden clasificarse o categorizarse

para establecer distinciones finas en su utilización. Por ejemplo, los co-
nocimientos pueden subdividirse en hechos, conceptos, principios, re-
glas, procedimientos, datos, etc. Y las habilidades pueden enunciarse
como verbos activos: analizar, describir, definir, inferir, resolver, com-
parar, etc...
De esta manera, cuando en los reactivos se emplean formas de clasifica-

ción que pueden incluir especificaciones claras acerca del contenido y de
las habilidades para su manejo, se enriquece la información disponible
para analizar las respuestas (Gagné, 1985).
Puede advertirse que, en un tipo de prueba o tarea, la magnitud de la

habilidad muestra ciertos valores y que en otro tipo de examen puede
variar. La habilidad, como tal, es un rasgo que suponemos que tendería
a ser estable en la persona y que puede mejorar con el ejercicio, el
aprendizaje, las estrategias para usarla. Pero sus variaciones ocurren en
función de las tareas a realizar, entre otros factores que afectan una eje-
cución (Castañeda y López, 1986).
Habilidad y dificultad parecen ser términos un tanto relativos. En unas

tareas la habilidad y la dificultad son altas y en otras son bajas. No es
que la habilidad o la dificultad sean susceptibles de variaciones bruscas
o impredecibles en la misma tarea. Lo que ocurre es que cada reactivo
representa un tipo particular de tarea, que a su vez demanda un tipo o
grado de habilidad específico, que se asocia a un grado de dificultad en

el reactivo y en la prueba. Si el muestreo de habilidades y de dificultades
en una prueba es amplio, habrá mayor variabilidad en las respuestas
(Bransford, 1979).
Cabría agregar una consideración necesaria: la dificultad para individua-

lizar o abstraer el peso absoluto de la habilidad y de la dificultad en sí
mismas, prescindiendo de todo punto de referencia. Es como tratar de
determinar el tamaño de un objeto. El tamaño ¿es una propiedad inhe-
rente al objeto? ¿depende de cómo y con qué se le mida? ¿varía de
acuerdo con el instrumento que se utilice? ¿puede establecerse sin un
punto de comparación?
Linacre (1998) señala que se hace referencia a los reactivos como “fáci-
les” y “difíciles”. Así es cómo se ven desde el punto de vista de las perso-
nas que toman la prueba. Estos ítems existen con la intención de
representar alguna área de contenido, una construcción teórica o una
variable psicológica. Un reactivo fácil debería representar un nivel infe-
rior, más elemental o una primera fase de una variable. Un reactivo difí-
cil debería representar un nivel superior, más avanzado o una última
fase de una variable. ¿Pero es así?
En la Teoría de Respuesta al Ítem (Wright y Stone, 1979, Embretson,

1985, Baker, 2001), la medición de una persona es el estimado de su
posición en la línea que representa una variable de interés, por ejemplo,
comprensión de la lectura. Y la calibración de un reactivo es el estimado
de su posición en la línea de esa misma variable, a lo largo de la cual las
personas son medidas. Es necesario medir a las personas y calibrar a los
reactivos sobre la variable que definen conjuntamente.
Wright (1977) y Wright y Stone (1979), exponen los siguientes puntos:
q Las preguntas de examen definen las líneas que representan las va-
riables; y las respuestas a esas preguntas ubican en dichas líneas a
las personas. Cuando una persona es sometida a una medición, el
propósito es estimar su localización en la línea representada. Para
que esto sea posible se debe contar con un instrumento que defina
la línea. También debe disponerse de un procedimiento para con-
vertir las respuestas de una persona a una localización en la línea
que representa la variable de interés.
q Esta línea debe tener una dirección que permita determinar los va-
lores que corresponden a las observaciones, para poder examinar
con facilidad la magnitud del dominio del rasgo (ya sea un conoci-
miento o una habilidad) que se mide.
q Cuando se hacen marcas en esta línea, en unidades iguales, se hace

posible comparar la distancia entre dos puntos. Las marcas son la
calibración de los ítems a lo largo de la variable y estas preguntas
calibradas constituyen la definición operacional de lo que la variable
mide.
q Las marcas en la línea representan a cada uno de los reactivos y su

ordenamiento obedece a niveles de dificultad crecientes de las pre-
guntas de examen.
q Las preguntas más difíciles permitirán identificar a las personas más

hábiles y definirán el extremo más alto, a la derecha de la línea. Asi-
mismo, las preguntas más fáciles identificarán los niveles de habili-
dad más bajos, en la porción izquierda.
A continuación se aborda el procedimiento psicométrico que, con base

en la TRI, aporta la base procedural para la calibración de los reactivos.
Calibración de Reactivos: enfoque psicométrico

Rasch (1960), un matemático danés que aportó contribuciones muy sig-
nificativas a la psicometría moderna, desarrolló un Modelo Logístico de
Probabilidad y lo propuso para analizar reactivos de pruebas escolares,
con el propósito de ofrecer un procedimiento práctico que permitiera te-
ner reactivos equivalentes cuando se requieren varias versiones de exa-
men, de manera que se midieran los mismos rasgos, conocimientos o
habilidades, sin importar cuál versión de examen se utilizara o cuáles
reactivos se emplearan para ese fin.
Embretson (1985) señala que esta línea inició una corriente psicométri-
ca que pronto empezó a reconocerse como innovadora. Se trata de la
TRI: Teoría de Respuesta al Ítem, que afirma que lo único que se puede
estimar con consistencia y suficiencia, a partir del análisis de las res-
puestas en cada reactivo, en una prueba típica de desempeño escolar,
es el parámetro de dificultad del reactivo; y que de él se puede inferir
con precisión y estabilidad la habilidad de una persona.
La psicometría que tradicionalmente ha sido dominante en los medios

educativos, basada en la corriente metodológica que ahora se considera
como clásica: Teoría de Respuesta a la Prueba, entre cuyos exponentes
principales puede citarse a Anastasi (1966), Cortada (1968), Gronlund
(1974), Sax (1980), Nunnally (1987), Adkins (1990) y Aiken (1996),
también considera importante el parámetro de dificultad de los ítems,
pero lo ha asociado al total de aciertos que las personas obtienen en la
prueba, tomando las puntuaciones brutas para obtener sumas. El indi-

cador de habilidad se deriva sobre esa base: más aciertos igual a más
habilidad.
Este último punto debe revisarse con cuidado. Si el número de aciertos

es la medida de la habilidad, sin distinguir o sin importar cómo se obtuvo
esa suma, hay un problema serio. En contextos escolares hay una regla
invariante, que además se asume como justa y objetiva: todos los alum-
nos que obtienen igual número de aciertos en un examen deben tener
igual calificación. Pero es también frecuente observar que se obtienen
las mismas sumas, aunque se respondan acertadamente diferentes
reactivos.
Supóngase un examen final de Lógica I, formado por 30 reactivos de op-

ción múltiple, que se aplica a los alumnos del primer semestre, asignan-
do una hora para responder. De acuerdo con el profesor que imparte el
curso, la prueba estuvo formada por 10 preguntas de dificultad baja, 10
de dificultad media y 10 de dificultad alta. Dos alumnos obtuvieron la
puntuación más alta: 20 aciertos.
Uno de los alumnos contestó acertadamente los 10 reactivos más fáciles

y los 10 de dificultad media; el segundo alumno acertó en los 10 ítems
de dificultad media y en los 10 difíciles. Estos alumnos ¿deben tener la
misma calificación? ¿Tienen la misma habilidad?
¿Puede afirmarse que esta serie de respuestas representa con exacti-

tud la habilidad de cada persona? No, es claro que el segundo alumno
podría pasar los reactivos más fáciles y es probable que la primer per-
sona podría pasar los más difíciles, si no se limitara el tiempo para con-
testar.
Bajo estas circunstancias, señala Linacre (1998), las medidas son ambi-
guas y generan incertidumbre. Dicen: “éste es el nivel de rendimiento
de la persona bajo estas condiciones de la prueba”, pero también dicen:
“no espere este nivel de rendimiento bajo otras condiciones”.
En la Teoría de Respuesta al Ítem se evita tomar las puntuaciones brutas

-la suma simple de aciertos-, como indicadores de la habilidad y para
asignar calificaciones. La pregunta clave no es cuántos, sino cuáles
reactivos se resuelven acertadamente, lo que sólo puede contestarse si
se examinan las trayectorias de respuestas; y los parámetros de dificul-
tad de cada reactivo sólo pueden obtenerse transformando los aciertos
en unidades estandarizadas llamadas “logits”. El número de aciertos
efectivamente se asocia a la habilidad de los alumnos, pero qué se res-
ponde, es un mejor indicador (Wright, 1977).
¿Por qué es un problema la puntuación bruta en una prueba? De acuerdo

con Linacre (op. cit.), porque la puntuación bruta es ordinal, ambigua y
específica de un contexto. Señala que desde 1925, Louis Thurstone se
dio cuenta de que existe un elemento de azar en todos los rendimientos.
Por ello, lo único que se puede decir es que las personas más hábiles tie-
nen más probabilidades de pasar que las personas menos hábiles, no
que deben pasar. Aquí hay un elemento de incertidumbre. Y ¿cuál es la
implicación de tener incertidumbre? La sospecha de que puede existir
algún otro factor, además de la habilidad, que está constriñendo las res-
puestas de la persona. Por ejemplo, la prueba puede tener límite de
tiempo y esto afecta al desempeño.
El modelo de Rasch no puede resolver el problema de la ambigüedad,

pero puede indicar dónde y hasta qué punto existe y ayuda a diseñar
pruebas menos susceptibles de producir resultados ambiguos y a produ-
cir medidas más exactas, aplicables a una gama más amplia de situacio-
nes distintas.
En general, los modelos psicométricos basados en la Teoría de Respues-

ta al Ítem ofrecen la posibilidad de poder estimar el nivel de la habilidad
de un examinando sobre el rasgo que está siendo medido, independien-
temente de la prueba específica que responda, asegurando que lo que
se mide no dependa de con qué o a quién se mida (Baker, 2001).
En estos modelos psicométricos la habilidad se establece por la trayec-

toria de respuestas en una prueba. Importa el análisis de los aciertos y
errores en cada reactivo, permitiendo ubicar el ajuste de cada reactivo y
cada persona al modelo teórico presente en la prueba, al individualizarse
los patrones respectivos.
Un aspecto muy crítico en el tratamiento y análisis tradicional de los re-

sultados que se obtienen en las pruebas que se emplean para medir el
aprendizaje, reside en la falta de unidades regulares a lo largo de la línea
que representa a las variables de interés, es decir, habilidades y conoci-
mientos que se pretenden medir. Esto impide que se pueda comparar
con precisión la distancia entre dos puntos y, por ende, el ubicar a cada
sustentante por su desempeño en un examen (Wright y Stone, 1979 y
Embretson, 1985).
Como explica Linacre (1998), la construcción de medidas lineales de la

dificultad de un reactivo significa que los reactivos pueden colocarse en
línea según su dificultad. Esta línea tiene las mismas propiedades que se
espera observar cuando observamos una regla métrica. Las distancias
iguales implican diferencias iguales.
Escala lineal significa que “una unidad más” en la escala es la misma

cantidad adicional donde sea que ocurra en la escala. Esto es cierto
para gramos y metros. Un gramo más que se añade a un gramo es la
misma cantidad adicional que un gramo más que se añade a un kilogra-
mo.
En cambio, para otras escalas, como la de Rich ter, se ña la Lina cre,

“una uni dad más” no tiene un signi fica do cons tan te. La di feren cia
en tre cin co y seis es diez ve ces su perior a la que exis te en tre cuatro y
cinco. Para las puntuaciones brutas en los exámenes escolares, el
valor de “una uni dad más” causa aún más perplejidad. En primer lu -
gar, no existe el con cep to de “una unidad más” más allá de la máxi-
ma puntua ción de una prueba. Las puntua ciones de pruebas tienen
un ran go res trin gido. Pero el área del tema o la va riable sub ya cen te
que re pre sen tan no tienen tal restric ción. Siempre se puede imagi-
nar un reactivo más difícil que cualquiera de los que se hayan pre-
sentado, o una persona más hábil que cualquiera de las que se hayan
encontrado.
El análisis de Rasch permite descubrir los valores de ajuste como indi-

cadores del funcionamiento de cada reactivo. El supuesto principal es
que, al responderse un reactivo, el resultado dependerá por completo
de la diferencia entre la habilidad de la persona y la dificultad del ítem.
Esta suposición requiere que ningún otro factor intervenga, por lo que
cualquier agente extraño deberá considerarse como fuen te de error.
Una prueba que sea muy fácil o muy difícil suele tener poco valor expli-
cativo acerca de las características de la población, porque arroja muy
poca variabilidad. Así que una pregunta importante es: ¿cuál debería ser
un nivel de dificultad adecuado? La respuesta dependerá en gran parte
de los propósitos del examen y ayuda mucho para esta decisión el contar
con reactivos calibrados.
Rasch (1960) planteó la necesidad de convertir puntuaciones brutas or-

dinales en medidas lineales y percibió que la forma ideal para represen-
tar la curva característica de un reactivo, que muestra la relación entre
dificultad, habilidad y la probabilidad de acertar, es la ojiva logística.
Consideró que con este procedimiento se hacía posible estimar la habili-
dad de una persona, con independencia del reactivo particular de la
prueba. También que era la única forma para poder estimar la dificultad
de un reactivo, independientemente del grupo de personas que tomaron
la prueba. El modelo de Rasch se expresa en una formalización matemá-
tica que propone la relación siguiente:
El logaritmo de la probabilidad de éxito, dividido entre el logaritmo de la

probabilidad de fallo, es igual a la habilidad de la persona, menos la difi-
cultad del reactivo (Wright y Stone, 1979 y Baker, 2001).
Estas probabilidades deben ser determinadas a partir de los datos, pero

se requiere emplear programas computarizados especializados, que re-
suelven las complejidades matemáticas del proceso de estimación.
Actualmente hay una variedad amplia de programas.
A continuación se exponen los componentes principales del modelo ma-

temático de Rasch, aplicando la notación siguiente:
I = información.
e = exponente de una constante y equivale a 2.72828 (logaritmo

natural)
b = habilidad.
u = persona
La habilidad de la persona se expresa mediante un subíndice: bu
d = dificultad
i = ítem
La dificultad de un reactivo se expresa con un subíndice: di
X = respuesta
La respuesta de una persona en un reactivo se escribe: Xui y puede to-

mar únicamente dos valores:
Xui = 0 cuando la respuesta es incorrecta
Xui = 1 cuando la respuesta es correcta
La diferencia entre la habilidad de una persona y la dificultad de un ítem

se expresa: (bu - di ). La diferencia puede variar desde menos infinito
hasta más infinito, en tanto que la probabilidad de una respuesta acerta-
da permanece entre cero (error) y uno (acierto).
Para resolver esta indefinición se aplica la diferencia como un exponente

de la constante natural y se escribe el resultado como:
( bu - di )
e = exp ( bu - di )
Esta expresión exponencial varía entonces entre cero y más infinito y se

puede situar dentro del intervalo entre cero y uno a través de formar la
razón:
exp ( bu - di ) / [1+ exp ( bu - di )].
La expresión tiene una forma muy parecida a una ojiva (forma de s) y

puede ser utilizada para especificar la probabilidad de una respuesta
exitosa como:
P { Xui = 1½bu , di } = exp ( bu - di ) / [1+ exp ( bu - di )], que es el modelo

de Rasch ya descrito.
A las unidades matemáticas bu y di definidas por este modelo se les llama

logits. La habilidad de la persona en logits es la probabilidad de su loga-
ritmo natural de tener éxito en ítems seleccionados para definir el punto
“cero” de la escala. Y la dificultad de un ítem en logits es la probabilidad
del logaritmo natural de suscitar respuesta fallida de personas con habi-
lidad cero. (Wright y Stone, 1979).
El modelo básico de Rasch de un solo parámetro (dificultad) es el ya des-

crito y es el más empleado para estimar bu y di con independencia uno
del otro. La función logística que muestra la ecuación proporciona un
modelo de respuesta útil, para hacer que sean posibles la linealidad de la
escala y la generalidad de la medida.
Cuan do una perso na (u) es más hábil (b) que la dificultad (d) del ítem
(i), en ton ces b u es ma yor que di , su diferencia es positiva y la proba-
bilidad de éxito en el ítem es mayor que un me dio. Mientras más so -
brepase la habilidad de la persona a la dificultad del ítem más grande
será su diferencia positiva y más cerca de 1 estará la probabilidad de
éxito.
Sin embargo, cuando el ítem es muy difícil para la persona, entonces bu

es menor que di, su diferencia es negativa y la probabilidad personal de
éxito es menor que un medio. Mientras más demande un ítem a una per-
sona, más grande será la diferencia negativa y más cerca estará la pro-
babilidad de éxito de llegar a 0.
En conclusión, la posición relativa de bu y di, sobre la variable que se está

midiendo, se establece mediante la relación que definen conjuntamente
la habilidad de la persona y la dificultad del reactivo, con base en la dife-
rencia (bu - di).
Consideraciones Finales
Una vez expuestas las formalidades matemáticas del modelo de Rasch,
que sustentan la calibración de los reactivos, es conveniente ahora re-
saltar su valor práctico.
Cuando se utiliza un programa especializado en análisis de Rasch, como

RASCAL (1994), se obtiene información de cada ítem aplicado en la
prueba, acerca de sus parámetros. Lo esencial se refiere a la dificultad
de los reactivos y a la habilidad de las personas, estimadas por el modelo
en una escala común.
Estos parámetros indican el valor que les corresponde en unidades logit

y para determinar su significado se consideran dos puntos de referencia:
uno de ellas se refiere a la probabilidad de responder exitosamente, que
se fija en un rango entre 0 y 1. El segundo punto se presenta en unida-
des logit y tiene un rango que va de -3.0 a 3.0, con un valor medio de 0.
Se aplica tanto a la dificultad como a la habilidad.
La fuente para el análisis la aportan los resultados en alguna prueba típi-

ca, como son las que se aplican a los alumnos, con la única salvedad de
que las respuestas sea dicotómicas (acierto o fallo), como son los reacti-
vos de opción múltiple, que tienen varios distractores y sólo una res-
puesta correcta. De forma convencional puede registrarse: error = 0 y
acierto = 1. En el capítulo análisis de reactivos, en esta obra, se desarro-
lla un ejemplo completo.
La probabilidad de éxito, como ha sido ya explicado, aumenta en rela-

ción directa con la habilidad de las personas: a mayor habilidad, mayor
probabilidad de éxito, teniendo como punto más alto a la unidad. Tam-
bién se da la relación: mayor dificultad, menor probabilidad de éxito. La
diferencia entre habilidad y dificultad es la fuente de la calibración.
Un valor de 0 en habilidad, a diferencia de como se interpreta en la ge-

neralidad de los casos, no indica ausencia de habilidad, sino que la habi-
lidad de la persona se encuentra en el punto medio, si se tiene presente
que el rango de ajuste va de -3.0 a 3.0. Por lo tanto, si la habilidad tiene
un valor cercano al extremo de -3, entonces la carencia de habilidad es
extremadamente alta; en el valor de -2 se tiene más habilidad; en el va-
lor -1 la habilidad es mayor y en el valor 0 está justo en la mitad. Así, la
habilidad cercana a 1 es un valor alto moderado; 2 es muy alto y 3 es al-
tísimo, prácticamente sin errores. Sin embargo, como los valores muy
extremos suelen asociarse a algunas deficiencias en los reactivos, los
parámetros que muestran los mejores ajustes en la calibración de los
reactivos van de -2 a 2.
En el caso de la dificultad el razonamiento es muy similar. El punto me-

dio es 0 y el rango del mejor ajuste es de -2.0 a 2.0, por lo que se va de
un valor de ausencia de dificultad (-2) a una dificultad muy alta (2). Los
ítems fuera de estos valores están desajustados y deben ser objeto de
una revisión muy cuidadosa para determinar si ameritan alguna modifi-
cación para mejorar su funcionamiento, o si deben desecharse.
Los valores de calibración de los reactivos permiten que con toda preci-
sión se construyan instrumentos objetivamente balanceados, por ejem-
plo para incluir un muestreo óptimo de la dificultad en una prueba,
porque ya se conocen los parámetros de cada ítem. Es también muy útil
para formar dos o más versiones equivalentes de examen.
Los supuestos con que trabaja el modelo de Rasch y que admiten prueba
empírica de la estabilidad de las medidas son: (1) que la habilidad de los
sustentantes puede determinarse de manera confiable, sin importar los
reactivos específicos que se utilicen en una prueba en particular, por lo
que se rompe la dependencia hacia el instrumento empleado, el que se
use para hacer la medición, que es una de las debilidades mayores de la
teoría clásica de Respuesta a la Prueba, siempre y cuando los ítems ha-
yan pasado por un proceso cuidadoso para su calibración. Y (2) que los
reactivos calibrados tendrán también un comportamiento muy estable
en sus valores de dificultad, independientemente de los sujetos particu-
lares a los que se aplique el instrumento, en poblaciones que sean razo-
nablemente similares.
El acceso a estas ventajas puede favorecerse con las sugerencias plan-

teadas acerca de los dos tópicos revisados en este capítulo: la prepara-
ción óptima de los bancos de reactivos y la calibración competente de los
ítems.
Referencias
Adkins, W. D. (1990). Elaboración de Tests (Desarrollo e Interpretación
de los Tests de Aprovechamiento). México: Trillas.
Aiken, L. R. (1996). Tests Psicológicos y Evaluación. (8a. ed.). México:
Prentice-Hall.
Annastasi, A. (1966). Tests Psicológicos. Madrid, España: Aguilar.
Baker F. (2001). The Basics of Item Response Theory. [Los básicos de la
teoría de la respuesta al item]. EE. UU.: ERIC Clearinghouse on
Assessment and Evaluation.
Bransford, J. D. (1979). Human Cognition. Belmont, CA.: Wadsworth,

Inc.
Castañeda, F. S. & López, O. M. (1986). Contribución a la Evaluación de
Conductas de Estudio, a partir de Instrumentos de Auto-reporte. La
Psicología Social en México. 1, 527-534.
Castañeda S. y López M. (1989). La psicología del aprendizaje escolar.
En S. Castañeda y M. López, (Eds.). La Psicología Cognoscitiva del
Aprendizaje. Aprendiendo a Aprender. (pp. 25-56). México: UNAM.
Castañeda, S y López, M (1999). Elaboración de un instrumento para la
medición de conocimientos y habilidades en estudiantes de Psicolo-
gía. Revista Intercontinental de Psicología y Educación, 1, 9-15.
Castañeda, S., Lugo, E., Pineda, L. & Romero, N. (1998). Evaluación y
fomento del desarrollo intelectual en la Enseñanza de las Ciencias,
Artes y Técnicas. México: UNAM-CONACyT-PORRÚA.
Cortada, N. (1968). Manual para la Elaboración de Tests Objetivos de
Rendimiento. Buenos Aires, Argentina: Paidós.
De Corte E. (1999). Una nueva concepción de la enseñanza y el aprendi-
zaje para el siglo XXI. Revista Latina de Pensamiento y Lenguaje
4(28), 229-250.
De Sánchez, M. (1991). Programa de Desarrollo de Habilidades del Pen-
samiento (DHP). Revista Intercontinental de Psicología y Educa-
ción, 5(2), 207-236.
Embretson, S. E. (1983). Construct validity: Construct representation
versus nomothetic span. Psychological Bulletin, 93, 179 - 197.
Embretson, S. E. (1985). Introduction to the problem of test design. En
S. E. Embretson (Ed.). Test Design Developments in Psychology
and Psychometrics. (pp. 3-17). Orlando, FL.: Academic Press.
Gagné, E. (1985). The cognitive psychology of school learning. Boston,
MA.: Little Brown.
Gronlund, N. E. (1974). Elaboración de Tests de Aprovechamiento. Mé-
xico: Trillas.
Linacre, J. M. (1998). Ponencia Magistral III Foro Nacional de Evaluación
Educativa. CENEVAL, México.
López, M. (1996). Una contribución tecnológica al diagnóstico psicoedu-
cativo, basada en la simulación neurocomputacional. Tesis de Doc-
torado. UNAM, Facultad de Psicología. México.
López, O. M. & Castañeda, F.S. (1990 Mayo). Investigación en Psicolo-

gía Cognoscitiva. Nematihuani. Revista de Psicología y Ciencias So-
ciales, 7, 19-23.
López, O. M., Castañeda, F. S. & Álvarez, J. M. (1995). Procedimiento de
Evaluación para Ingresar al Bachillerato (Memoria Técnica del Pro-
grama). México: UNAM, Secretaría de Servicios Académicos.
Nunnally, J.C. (1987). Teoría Psicométrica. México: Trillas.
RASCAL, (1994). Rasch Analysis Program (Versión 3.5). Users Manual
for the RASCAL (IRT Calibration Program). St. Paul, MN.: Assess-
ment Systems Corp.
Rasch, G. (1960). Probabilistic Models for some Intelligence and Attain-
ment Tests. (ed. ext.). Copenhagen Danish Institute for Educatio-
nal Research. Chicago, IL, EE. UU.: The University of Chicago press.
Sax, G. (1980). Principles of Educational and Psychological Measure-
ment and Evaluation. (2a. ed.). San Francisco, CA.: Wadsworth,
Inc.
Thorndike, R. L. (1989). Psicometría Aplicada. México: Limusa.
Wright, B. D. (1977). Solving measurement problems with the Rasch
Model. Journal of Educational Measurement: 14, 97 - 116.
Wright, B. & Masters, G. (1982). Rating Scale Analysis. University of
Chicago. Chicago: Mesa Press.
Wright, B. & Stone, H. (1979). Best Test Desing. University of Chicago.
Chicago: Mesa Press.
Sección II
Hallazgos de investigación en
estudios de validación de
constructo en el proceso de
responder
Capítulo 3 ?
Efectos de fuentes de contenido sobre dificultades
apriorística y empírica de ítems objetivos*
Sandra Castañeda, Raquel García, Ma. de Lourdes Pineda,
Miguel López e Isaac Ortega
El estudio tuvo dos objetivos, identificar la magnitud con la que cuatro

fuentes de contenido incluidas en los ítems co ocurrirían con el puntaje
global de dificultad apriorística del reactivo y establecer si habría efectos
diferenciales del tipo de conocimiento incluido en esas fuentes sobre la
dificultad empírica de los ítems. Cuatro fuentes de contenido incluidas
en 96 reactivos seleccionados al azar fueron valoradas por 10 jueces.
Con estos datos, se corrió un análisis de regresión múltiple. El modelo de
regresión resultante combinó las cuatro fuentes estudiadas y explicó
2
una proporción importante de la varianza de la variable criterio (R =
.99) puntaje global de dificultad apriorística. El coeficiente de determi-
nación parcial que aportó mayor explicación fue el de la fuente Opera-
2
ción Cognitiva (R =.70), seguido por el coeficiente del Campo de
2 2
Conocimiento (R = 0.16); los del Formato del Ítem (R = 0.10) y Con-
2
texto (R = 0.04) aportaron muy poca explicación. Establecidas las co
ocurrencias con la dificultad apriorística global de los ítems, se corrieron
análisis de varianza simple con los valores de dificultad empírica a partir
de respuestas dadas a los ítems por 612 sustentantes, seleccionados al
azar. Los resultados mostraron diferencias significativas entre los tres
niveles de demanda conceptual derivados de los tipos de conocimiento
incluidos en las fuentes Operación Cognitiva, F(2, 93 gl) = 3.25, p =
0.04 y Campo de Conocimiento, F(2, 94 gl) = 4.51, p = 0.03. Las evi-
_____________________
*
Se agradece al Proyecto CONACyT 40608-H el financiamiento a esta investigación y al
Centro Nacional de Evaluación para la Educación Superior las facilidades para realizarla.
dencias permiten establecer que las fuentes de contenido inciden dife-

rencialmente sobre la dificultad apriorística de los ítems y que, en su
conjunto, representan al constructo medido. También, que la dificultad
empírica de estas fuentes se ve afectada, significativamente, por los ti-
pos de conocimiento que se miden en las fuentes “Operación Cognitiva”
y “Campo de Conocimiento”.
Introducción
La medición de resultados de aprendizaje constituye un área de creci-
miento significativo para los programas de medición a gran escala y, en
la medida en la que su uso se amplía, los cuestionamientos acerca de
su validez y su calidad técnica representan interrogantes teóricas im-
portantes. Identificar cuáles propiedades de las medidas son las más
adecuadas para medir lo que se desea medir y, en consecuencia, am-
pliar el rango de evidencias que permitan elaborar las inferencias a ser
hechas, constituyen retos a resolver en los estudios contemporáneos
de validez. Generar tales evidencias le demanda al especialista en me-
dición educativa indagar, primero, las que se vinculan con las fuentes
de contenido incluidas en los ítems utilizados en la medición para, des-
pués, obtener las derivadas de estudios empíricos del puntaje del exa-
men o prueba.
En este contexto, Castañeda (1993, 1998 y 2002) desarrolló un marco

de trabajo que permite reflejar regularidades observadas en los cons-
tructos a ser medidos y en sus distinciones significativas. Para ello, en el
marco se utilizan dos tipos de análisis, el funcional de desempeños críti-
cos y el cognitivo de tareas. El primero identifica los desempeños o com-
petencias críticos de la ejecución deseada, el segundo descompone una
tarea compleja en sus elementos constitutivos. El procedimiento identi-
fica, también, las demandas cognitivas incluidas en los procesos subya-
centes a la ejecución solicitada en la tarea, las demandas conceptuales
asociadas a los tipos de conocimiento que se evalúan y las estrategias de
solución aplicables a una tarea específica, por ejemplo, la que un ítem
particular requiera.
Con los productos derivados de toda esta actividad, se establecen las

propiedades del continuo facilidad – dificultad incluidas en las tareas cri-
terio. Se considera que hacerlas explícitas permite identificar cómo cier-
tas propiedades del contexto de medición afectan la ejecución del
sustentante y, con base en esto, generar evidencias que den mayor se-
guridad al diseñador de exámenes de que los datos recabados soportan
la medición de lo que los estudiantes conocen y pueden hacer.
EFECTOS DE FUENTES DE CONTENIDO SOBRE DIFICULTADES 61
APRIORÍSTICA Y EMPÍRICA DE ÍTEMS OBJETIVOS
Este aspecto completa lo sugerido por Messick para la validación (1994)

“[...] ¿qué conductas o ejecuciones deberían revelar esos constructos y
qué tareas o situaciones deberían elicitar estas conductas?”
En el establecimiento de las fuentes de contenido incluidas en las ta-

reas criterio, el marco de trabajo describe características de las situa-
ciones en las que los sustentantes deberán ejecutar (Castañeda,
Bazán, Sánchez y Ortega, 2004), en otras palabras, identifica propie-
dades del contexto en las que el sustentante producirá su respuesta,
por ejemplo, las características de los conocimientos que serán eva-
luados (demandas conceptuales); las del uso que se les pide den a los
conocimientos (las operaciones cognitivas solicitadas); las del anda-
miaje utilizado (instrucciones, arreglos o contextos en los que aparece
el ítem -imágenes, gráficas-, etc.), todas ellas atendiendo a gradientes
de dificultad creciente.
En lo general, se asume que una tarea o un ítem particular circunscribe

circunstancias específicas que le dan al examinando la oportunidad para
actuar en formas que producen la evidencia acerca de lo que saben o
pueden hacer. En lo particular y desde una óptica operacional, permite
que para cada tarea o ítem se asignen puntajes a sus variables constitu-
yentes. Así, se obtienen valores que evidencian la situación en la cual el
examinando ejecuta, lo que, a su vez, genera datos susceptibles de ser
sometidos a análisis cuantitativos.
Esto resulta especialmente interesante cuando se desea identificar fuentes

de error sistemático en los ítems. Si como dijo Messick (1989), la validez
del atributo que se mide es una propiedad de las mediciones, los puntajes
obtenidos en los exámenes reflejan una intricada relación entre el atributo
que se mide y el error de medición. Entonces, estimar la cantidad de error
contenida en los puntajes es un asunto prioritario dado que el error de me-
dición es el principal responsable de su falta de precisión.
En este ámbito, el especialista debe estar atento a los efectos que cier-
tas fuentes de contenido pueden generar (errores de medición) que
afecten los puntajes. En especial, de aquellas fuentes que sistemática-
mente generen errores y para las cuales los procedimientos usuales
para estimar la confiabilidad de los puntajes no son sensibles, sólo lo son
para la presencia de errores aleatorios. Es necesario que el especialista
identifique qué fuentes de contenido del ítem podrían aumentar la difi-
cultad o facilidad en el ítem, en vías de identificar elementos que, poten-
cialmente, podrían generar varianza irrelevante de constructo, porque
ninguna información en este sentido se puede desprender del comuni-
céntrico índice de dificultad empírica por sí mismo.
En resumen, estudios que caractericen tareas y reactivos constituye una

importante y deseable línea de generación de evidencia a favor del atribu-
to que se intenta medir, tanto como para apoyar al especialista a identifi-
car fuentes de contenido que generen error sistemático en la medición.
Es común, en el contexto de valoración de ítems, que el especialista en

construcción de exámenes recurra al juicio de expertos para generar
evidencias acerca de lo apropiado de los ítems, sin embargo, esta prácti-
ca no está exenta de limitaciones, entre otras, el hecho de que con cierta
frecuencia los jueces son poco sensibles para identificar errores en gra-
dientes de dificultad creciente en los ítems (García, 2004) o bien, fallas
originadas por la fatiga de analizar bancos extensos de ítems o por nive-
les de rigor diferenciales entre jueces.
Aunado a todo esto, la valoración del ítem se concretiza en un indicador sim-

plista del acuerdo alcanzado entre jueces acerca de algunos rasgos del ítem.
Dado que los ítems son la esencia del examen y a que, rara vez, sus elabo-
radores (y los jueces que generan las evidencias a favor del ítem) tienen la
pericia necesaria para integrar una explicación válida de cómo es que ciertos
rasgos o propiedades de los ítems influyen sobre la ejecución de los susten-
tantes, se requiere generar evidencia empírica que permita construir marcos
de trabajo en apoyo a una generación más sistemática de ítems.
El problema
A partir de lo planteado, un problema a ser considerado -debido a la impor-
tancia que sus efectos revisten sobre la validez- es el hecho de que la medi-
ción a gran escala descanse, mayoritariamente en México, en formatos
objetivos que intentan medir resultados de aprendizajes complejos. En la
actualidad, necesidades prácticas acerca de estandarizar procesos de medi-
ción y abatir costos derivados de la calificación de formatos de respuesta
construida, ha generado el uso masivo de reactivos objetivos. Los exámenes
objetivos son instrumentos conformados por ítems que miden la habilidad
de los sustentantes para ganar puntajes, miden el logro de los sustentantes
para hacer las cosas que los ítems requieren.
Pero ¿cuáles rasgos o fuentes de contenido de los ítems son sensibles para
medir lo que en el ítem se intenta medir? Si la teoría que fundamenta la
construcción de exámenes objetivos no puede explicar por qué determina-
da fuente de contenido incluida en el ítem es más útil que otra para medir
un rasgo particular, entonces no podrá sernos útil para entender el proceso
de responderlos y, menos aún, para derivar certificaciones de aprendizaje
y recomendaciones adecuadas para resolver los problemas detectados.
Un examen bien diseñado debe asegurar que tanto los datos recabados
a partir de los ítems, como sus magnitudes sean los correctos, de otra
manera no sería posible prevenir explicaciones alternativas que resulten
perniciosas para el sustentante y para terceros interesados. De aquí que
indagar los efectos de ciertas fuentes de contenido sobre la dificultad del
ítem sea de interés.
Objetivos de la investigación
l Identificar la incidencia de cuatro fuentes de contenido sobre un

puntaje global de dificultad apriorística de ítems de un banco de
reactivos de un examen objetivo de egreso a gran escala y
l Establecer si hay efectos diferenciales de los niveles de demanda

conceptual incluidos en las fuentes analizadas sobre la dificultad
empírica de sus reactivos asociados.
En otros términos, interesó indagar qué propiedades del reactivo co ocu-

rren para explicar la varianza de su dificultad apriorística global y si di-
versos niveles de dificultad conceptual incluidas en las fuentes
analizadas mostrarían efectos diferenciales sobre la dificultad empírica,
toda vez que los sustentantes hubieran interactuado con los reactivos.
La literatura internacional al respecto de la generación de ítems (Bejar,

2002, Embretson, 2002, Irvine, 2002) marca la necesidad de compren-
der, a profundidad, las fuentes de contenido relacionadas con la dificul-
tad del ítem. Hacerlo aportará fundamentos para validar los constructos
de nuestros exámenes. Esta fue la meta del estudio exploratorio que se
describe a continuación.
Método
Participantes
De una población de 1560 psicólogos, hombres y mujeres, egresados de

41 instituciones de Educación Superior representativas de 21 estados
del país, que sustentaron grupal y voluntariamente, bajo procedimiento
estandarizado, el Examen General de Egreso de la licenciatura en Psico-
logía, en la promoción 2001, se seleccionaron al azar 612.
Escenario
Salones de clase de instituciones de Educación Superior, con ilumina-

ción, ventilación y mobiliario adecuados a la aplicación estandarizada de
un examen objetivo de egreso.
Instrumentos
1. Escala de Valoración de Fuentes de Contenido de Reactivos Objetivos.
Fue construida por Castañeda, González, López, García, Ortega, Pineda

y García (2003) con base en lo que la literatura cognitiva señala acerca
de variables subyacentes a fuentes de contenido incluidas en reactivos
objetivos y al proceso de responder exámenes (Pollit y Ahmed, 1999 y
2000; Mislevy, Wilson, Ercikan y Chudowsky, 2003). Está dirigida a ela-
boradores de reactivos objetivos y fue sometida al juicio de jueces inde-
pendientes. A partir de sus observaciones, la escala fue modificada en
categorías de análisis y criterios de asignación de puntajes, tantas veces
como fue necesario. Su validación final permitió apoyar su validez (Q =
12, gl. = 13, p. = 0.528).
La escala caracteriza al ítem con base en los valores que adquieren las
fuentes de contenido incluidas en el reactivo, por ejemplo, el tipo de for-
mato del ítem, las operaciones o procesos cognitivos requeridos para re-
solverlo, los patrones en los que la pregunta y la respuesta requieren
interactuar para resolver el ítem e, incluso, la dificultad del lenguaje, así
como la claridad y exactitud de los términos teóricos o técnicos que se
utilizan.
La escala consta de cinco dimensiones o fuentes de contenido:
A. Formato del reactivo. Las definiciones de los formatos utilizados en la

escala corresponden a las aceptadas internacionalmente en guías de
construcción de reactivos objetivos (Haladyna, 1989, 1994, 2004).
La escala incluye seis tipos de formato objetivo: -el Simple, el de
Ordenamiento, el de Apareamiento, el Canevá, el Falso Verdadero
Múltiple y el Multi reactivo dependiente de Contexto- que miden tres
tipos de conocimiento -Factual, Conceptual y Procedimental- para
caracterizar el contenido que es evaluado en los formatos incluidos
en la escala. Al interesado en profundizar en este punto se le reco-
mienda consultar el capítulo en el que aparece esta escala, en esta
misma obra.
B. Operación Cognitiva demandada para resolver el reactivo, definida

como el procesamiento cognitivo subyacente a la ejecución requeri-
da para resolver el reactivo. Incluye tres niveles de demanda cogniti-
va:
l De comprensión -capacidad para identificar, clasificar, ordenar

temporalmente y/o jerarquizar información conceptual presenta-
da en el reactivo-.
l De aplicación -capacidad de utilizar, en tareas profesionales ini-

ciales y rutinarias, conceptos, principios, procedimientos, técni-
cas e instrumentación, acordes al nivel científico en el que se les
reconoce-.
l De resolución de problemas -capacidad de evaluar e integrar

conceptos, principios, métodos, técnicas, procedimientos, es-
tructuras de tareas y/o planes de acción en función de los princi-
pios de adecuación y/o valores profesionales requeridos para
resolver situaciones problemáticas, así como para identificar y
corregir errores importantes en soluciones preestablecidas-.
C. Campo de Conocimiento evaluado en el reactivo. Refiere a la cualidad

de la información que se evalúa en el reactivo, incluye tres tipos:
l Sólo Teórico (Factual -fechas, personajes, lugares y fórmulas-,

Conceptual -definiciones de conceptos y reglas- y Procedimental
-definiciones de procedimientos, técnicas e instrumentación-).
l Sólo Técnico (destrezas técnicas dirigidas a la acción

profesional).
l Combinado (conocimiento teórico y destreza técnica integrados).
D. Contexto en el que se presenta el reactivo. Patrón en el que se pre-

senta el contenido del reactivo. Utiliza razonamiento inductivo o de-
ductivo, en combinación con información contexualizada mediante
casos o sin ellos. De las posibles combinaciones, se incluyen cuatro
contextos:
-Ejemplo – regla. En él, la base del reactivo presenta una instancia de

la regla que aparece en una de las opciones de respuesta.
-Regla – ejemplo. En él, la base del reactivo presenta la regla y una

de las opciones de respuesta, varias instancias.
-Caso ejemplo – regla. A partir de un caso a resolver, la base del

reactivo presenta varias instancias de la regla que aparece en una de
las opciones de respuesta.
-Caso regla – ejemplo. A partir de un caso a resolver, la base del

reactivo presenta la regla y una de las opciones de respuesta varias
instancias.
Los tipos de conocimiento que se incluyen son -factuales, conceptuales

y procedimentales- para caracterizar el contenido que es evaluado en
esos patrones de presentación del contenido.
E. Redacción del reactivo. Las reglas de redacción utilizadas en esta

fuente corresponden a las aceptadas internacionalmente en guías de
construcción de reactivos objetivos (Haladyna, 1989, 2004). Incluye
22 indicadores: nueve referidos a la base del reactivo, cinco a las op-
ciones de respuesta y ocho generales.
F. Uso técnico apropiado. Corresponde al uso adecuado de conceptos,

fórmulas, frases técnicas propias del área de conocimiento evaluado,
así como de reglas de ordenación de reactivos a lo largo de la exten-
sión del examen.
Los niveles de dificultad en las fuentes –Operación Cognitiva, Campo de

Conocimiento, Contexto y Formato del Ítem se estiman en interacción
con el tipo del conocimiento evaluado, en función de criterios de asigna-
ción de puntajes diferenciales, donde a mayor complejidad de la dimen-
sión evaluada y del tipo de conocimiento en el que es medida, mayor
puntaje asignado.
Las fuentes Redacción del reactivo y Uso Técnico apropiado no fueron

utilizadas como variables independientes en la investigación que aquí se
describe dado que en ellas no interactúa el tipo de conocimiento, varia-
ble de interés en este estudio.
2. Banco de reactivos objetivos de un examen general de egreso.
De un banco de 300 ítems, previamente calibrado mediante técnica

Rasch de un parámetro-, que mostró satisfacer los parámetros requeri-
dos por la Teoría de Respuesta al Ítem-, fueron seleccionados aleatoria-
mente 96 ítems. Todos los reactivos fueron objetivos, con cuatro
opciones de respuesta de entre las cuáles una y sólo una de ellas era la
correcta.
Procedimiento
El estudio se realizó mediante una investigación de campo, de observa-
ciones pasivas y muestras aleatorias de sujetos y de reactivos. Dado que
el control experimental no era posible por tratarse de observaciones re-
cabadas durante la aplicación de un examen general de egreso de la li-
cenciatura en Psicología en el país, se recurrió al control estadístico de
las variables de interés. Este control se realizó mediante análisis de re-
gresión múltiple hacia adelante, donde la variable criterio fue el Puntaje
Global de Dificultad Apriorística y las predictoras los Puntajes obtenidos
en las cuatro fuentes de contenido estudiadas. Las definiciones de las
variables medidas se presentan a continuación.
l Puntaje Global de Dificultad Apriorística, valor promedio de las difi-

cultades apriorísticas de seis fuentes de contenido. Caracteriza el
nivel global de dificultad - facilidad apriorística del ítem en el que el
examinado ejecutará.
l Puntaje Parcial de Dificultad Apriorística, valor obtenido en cada una de

las fuentes de contenido. Caracteriza el nivel de dificultad - facilidad
apriorística de la fuente del ítem en el que el examinado ejecutará.
l Puntaje de Dificultad Empírica, definido en términos de la probabili-

dad de acertar un reactivo, obtenido con base en el modelo Rasch
de un parámetro mediante calibración automatizada (Rascal, 1992;
versión 3.5.1).
Para el segundo objetivo, se utilizaron los valores de dificultad empírica

de los ítems, obtenidos de las respuestas de los 612 sustentantes selec-
cionados al azar.
Resultados
Con relación al primer objetivo de la investigación, se corrió un análisis
de regresión múltiple hacia adelante donde la variable criterio fue el
puntaje global de Dificultad Apriorística y las variables independientes
los puntajes parciales obtenidos en cada una de las cuatro fuentes de
contenido analizadas. Los valores obtenidos en el modelo se presentan
en la Tabla 1.
Tabla 1
Variables predictoras y coeficientes de determinación de la variable
criterio Puntaje Global de Dificultad Apriorística.
__________________________________________________
Variables predictoras Coeficientes de determinación del
Puntaje Global de Dificultad Apriorística
__________________________________________________
2
Operación Cognitiva (O. C.) R = .70*
2
(O. C.) + Campo de Conocimiento (C. C.) R = .86*
2
(O. C.) + (C. C.) + Formato reactivo (F. R.) R = .96*
2
(O. C.) + (C. C.) + F. R. + Contexto R = .99*
*p <0.0001
__________________________________________________
Se identificó incidencia significativa de cuatro de las seis fuentes de con-

tenido sobre el puntaje global de Dificultad Apriorística de los ítems en
estudio. El modelo de regresión obtenido combinó las cuatro fuentes que
aparecen en la tabla 1 y explicó el 99% de la varianza.
2
El mayor coeficiente de determinación parcial (R = .70) lo obtuvo la
fuente Operación Cognitiva y la co ocurrencia combinada entre ésta y las
otras tres fuentes que configuraron el modelo predictivo mostró buen
poder explicativo dado el coeficiente de determinación múltiple obtenido
2
(R = .99). Sugiere que una buena cantidad de la dificultad apriorística
estimada por los jueces puede deberse a esta fuente. En cambio, la
fuente Campo de Conocimiento explicó sólo el 16 % de la varianza entre
jueces, la de Formato del reactivo un 10% y la del Contexto del reactivo
sólo un 4%.
Los valores del factor de inflación de la varianza de las cuatro fuentes anali-
zadas fueron lo suficientemente pequeños y, por ende, los de tolerancia lo
suficientemente altos, para considerar que no se presentaron problemas
de colinearidalidad entre las variables independientes y la variable criterio.
Con relación a la segunda meta de la investigación, se corrieron análisis

de varianza simple para cada fuente de contenido, utilizando los valores
de las dificultades empíricas de los ítems. Los resultados mostraron dife-
rencias significativas entre los tres niveles de demanda conceptual, co-
rrespondientes a los tipos de conocimientos medidos, en dos de las
cuatro fuentes estudiadas: Operación Cognitiva, F(2, 93 gl) = 3.25, p =
0.04 y Campo de Conocimiento, F(2, 94 gl) = 4.51, p = 0.03. Las Tablas
2 y 3 muestran las fuentes de variación respectivas.
Tabla 2
Valores de F y p de dificultad empírica por niveles de dificultad apriorística
en la fuente Operación Cognitiva.
__________________________________________________
SC gl MC F p
__________________________________________________
Entre grupos 3.471 2 1.735 3.245 0.043
Intra grupos 49.740 93 0.535
Total 53.210 95
__________________________________________________
Tabla 3
Valores de F y p de la dificultad empírica por niveles de dificultad
apriorística en la fuente Campo de Conocimiento.
__________________________________________________
SC gl MC F p
__________________________________________________
Entre grupos 2.437 1 2.437 4.512 0.036
Intra-grupos 50.773 94 0.540
Total 53.210 95
__________________________________________________
Es importante enfatizar que ambas fuentes representan factores intrín-

secos ligados a los reactivos. Formato del ítem, factor extrínseco y Con-
texto del ítem, factor intrínseco, no mostraron diferir significativamente
en los niveles de demanda conceptual incluidos en ellos.
Discusión
A partir de la evidencia recabada es posible establecer que existen co
ocurrencias significativas entre cuatro fuentes de contenido y el cons-
tructo hipotetizado Dificultad Apriorística Global del Ítem. Ganar com-
prensión acerca de lo que mejor explica este constructo implica, en un
inicio al menos, identificar aquellos factores con los cuales co ocurre. Si
bien es cierto que la simple co ocurrencia entre factores puede no ser
concluyente, también lo es que la co ocurrencia entre ellos puede estar
causalmente relacionada. Así, la información de co ocurrencia entre
fuentes comprometidas en la dificultad apriorística de un ítem ayuda, al
menos, a definir las dimensiones significativamente involucradas en el
fenómeno bajo estudio, sobre todo cuando el control experimental no es
posible, como fue el caso que nos ocupó.
El control estadístico de variables nos permitió identificar la dimensión

Operación Cognitiva como la que más explicó la dificultad apriorística de
los ítems en apoyo a lo que Hornke y Habon (1986) han señalado. Tam-
bién, permitió establecer que de su combinación con el resto de dimen-
siones, el modelo de regresión resultante fue eficiente para explicar la
dificultad apriorística global de los ítems analizados.
Con base en los resultados y con fundamento en lo establecido por Cron-

bach (1957), una importante técnica de indagación de fenómenos psico-
lógicos, bajo las condiciones en las que se realizó este estudio, son las
ecuaciones de regresión. Los resultados derivados de este análisis mar-
can, en nuestro trabajo, la sensibilidad de la fuente Operación Cognitiva
como variable predictora importante de la dificultad apriorística del ítem
y abre caminos de replicación de validez en diferentes contextos, inclu-
yendo el experimental.
Cabe enfatizar que la interpretación de las evidencias mostradas en este

trabajo, deberá hacerse tomando en cuenta que se trata de un estudio
exploratorio, por lo que deberán replicarse, cuidadosamente mediante
estudios confirmatorios, las evidencias encontradas. Todo ello sin dejar
de reconocer la utilidad que los datos mostraron.
En el contexto empírico de construir exámenes a gran escala, un proble-

ma a ser resuelto por las agencias evaluadoras es aportarle al especialis-
ta evidencias que le permitan mejorar sus medidas, particularmente en

países cuya tradición en este tipo de medición y para efectos de certifi-
cación de conocimientos, es reciente como es el caso de México.
En vías de resolver lo que le preocupa, el especialista requiere asegurar

que las fuentes de contenido incluidas en sus ítems contribuyan con in-
formación importante acerca de lo que está siendo medido. Pero, fuera
de los acuerdos generados por los jueces, usualmente acerca de facto-
res extrínsecos del ítem, el especialista no cuenta con guías que le per-
mitan, apriorísticamente, integrar una explicación válida de cómo los
rasgos de los ítems influirían sobre la ejecución de los examinandos en
ellos. Posteriormente, cuando el especialista ya dispone de los paráme-
tros del ítem, con una frecuencia mayor a la deseable, él se enfrenta al
problema de desechar un buen número de reactivos, valorados como in-
dispensables por los expertos en contenido, porque su índice de dificul-
tad empírica no satisface el requerimiento psicométrico establecido.
En el análisis de qué fue lo que falló en el reactivo e independiente de la

información que brinda el índice de discriminación, el único apoyo del
especialista ha sido la exploración del comportamiento de las opciones
de respuesta. De aquí que requiera, también, de un marco de trabajo
que le permita identificar cómo ciertas propiedades del ítem influyen so-
bre la ejecución de los sujetos en él.
Es en este campo donde procedimientos, como el usado en esta investi-

gación, permitirían apoyarlo. La predicción del comportamiento del ítem
podría ser puesta a prueba a partir de las fuentes que operacionalizan
demandas cognitivas y conceptuales, reflejadas en variables dependien-
tes como dificultad del ítem y/o su media de tiempo de respuesta. De
esta manera, los ítems podrían ser descompuestos en fuentes que hu-
bieran mostrado contribuir significativamente a su dificultad para, pos-
teriormente, constituir bancos especializados. De otra suerte, los ítems
continuarán informándonos muy poco acerca de lo que causa su dificul-
tad empírica y no podrán ser manipuladas las fuentes significativas de
su dificultad.
La evidencia recabada acerca de los efectos de los tres niveles de deman-

da conceptual incluidos en las fuentes Operación Cognitiva y Campo de
Conocimiento sobre la dificultad empírica de los ítems, constata que estos
factores intrínsecos permiten discriminar, significativamente, la ejecución
de los sustentantes y no nada más la estimación de la dificultad apriorísti-
ca por jueces externos. También, da evidencia del poder de estas fuentes
para, apriorísticamente, poder predecir la ejecución de sustentantes de
bajo y alto logro con base en las demandas conceptuales planteadas en
los ítems. El especialista podrá analizar los ítems o modificarlos para ge-
nerar las medidas más sensibles a lo que desea medir.
Cabe discutir aquí otra aplicación de utilidad al especialista, refiere a la

escala de valoración de reactivos basada cognitivamente. En vías de
acumular evidencias que indiquen la vinculación entre los reactivos y el
constructo medido, el especialista recurre, por lo general, al juicio de ex-
pertos. Y, como ya se describió, esta práctica no está exenta de riesgos.
En un trabajo de indagación empírica, bajo la tesis de que variables del
capital cultural de los jueces podrían influir en la elaboración de los jui-
cios de validación de los expertos, particularmente, en lo que refiere a
las definiciones de las dimensiones que se miden y en la asignación de
los puntajes que se utilizan para esas dimensiones, García (2004) en-
contró, utilizando la misma escala de valoración que utilizamos para
esta investigación, que aun cuando los acuerdos entre jueces validaron
las definiciones de la escala (Q = 20.3, 22 gl., p=0.56), no lo hicieron
con los puntajes asignados a las dimensiones que mide la escala (Q =
40.93, 20 gl., p = 0.004). Los jueces con posgrado en Psicología fueron
los únicos que validaron los criterios de asignación de puntajes, en fun-
ción de la combinación articulada de las demandas cognitivas y concep-
tuales planteadas en los reactivos. Al parecer, variables culturales como
el grado obtenido y la disciplina del experto reflejaron niveles de sensibi-
lidad a la asignación de estos puntajes. De aquí que se recomiende ca-
pacitar a los jueces en modelos cognitivos de generación de ítems y
apoyar su labor de valoración con herramientas que expliciten, con clari-
dad, cómo se reflejan complejidades cognitivas y conceptuales en lo que
le da sustancia a los exámenes, los ítems.
Tanto la validación de los ítems como su diseño dependen de una pro-

funda comprensión de lo que se mide y cómo se mide, de aquí que sea
imprescindible extender nuestra habilidad para establecer fuentes de di-
ficultad apropiadas y para estimar su magnitud relativa.
Debido a que la medición es un proceso inferencial, estudios que validen

diversas fuentes de dificultad constituyen evidencia importante a favor
del atributo a ser medido. Señalan, también, nuevas líneas de investiga-
ción para una mejor caracterización del fenómeno de responder exáme-
nes. Es a través de evidencias sólidas como el especialista tendrá
seguridad de que el dato obtenido apoya las inferencias a ser hechas,
particularmente cuando la examinación está basada en pruebas objeti-
vas a gran escala, como fue el caso que nos ocupó.
Referencias
Bejar, I. (2002). Generative Testing: From Conception to Implementa-
tion. En S. H. Irvine y P. C. Kyllonen. (Ed.). Item Generation for
Test Development. (199-218). EE. UU.: LEA.
Castañeda, S. (1993). Procesos Cognitivos y Educación Médica. México:
UNAM.
narios educativos. Revista Sonorense de Psicología, 12(2). 57- 67.
and Life-long Learning, Vol.12, Nos. (1-4), 94-106. UNESCO: UK.
Castañeda, S., Bazán, A., Sánchez, B. & Ortega, I. (2004). Validez
apriorística y empírica de constructos. Modelamiento estructural de
porciones extensas de exámenes objetivos a gran escala. Revista
Latina de Pensamiento y Lenguaje y Neuropsicología Latina, 12(2),
183-198.
Castañeda, S., González, D., López, O., García-Jurado, R., Ortega, I.,
Pineda, M. L. & García, R. (2003). Escala de valoración de fuentes
de contenido en ítems objetivos. Documento de trabajo del proyec-
to de investigación CONACYT 40608-H. Manuscrito no publicado.
UNAM.
Cronbach, L, J. (1957). The two disciplines of scientific psychology.
American Psychologist, 12, 671-684.
Embretson, S. E. (2002) Generating Abstract Reasoning Items with
Cognitive Theory. En S. H. Irvine y P. C. Kyllonen. (Eds.) Item Ge-
neration for Test Development. (pp. 219-250). EE .UU.: LEA.
García, R. (2004). Efectos de variables asociadas al capital cultural de
los jueces sobre la validación de una escala de valoración de reacti-
vos objetivos. Tesis de licenciatura. UNAM, México.
Haladyna, T. M. (1989). Validity of a Taxonomy of Multiple-Choice
Item-Writing Rules, Applied Measurement in Education, 2(1),
51-78.
Haladyna, T. M. (1994). Developing and Validating Multiple-Choice
Items. EE. UU.: LEA.
Items. (3a. Ed.). EE.UU.: LEA.
Hornke, L. F. y Habon, M. W. (1986). Rule-base item bank construction

and evaluation within the linear logistic framework. Applied Psycho-
logical Measurement, 10, 369-380.
Irvine, S. H. (2002). Item Generation for Test Development: An Intro-
duction. En S. H. Irvine y P. C. Kyllonen. (Eds.) Item Generation for
Test Development. (xv-xxv). EE. UU.: LEA.
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measure-
ment. (3a. Ed.). NY: American Council of Education & McMillan
32(2), 13-23.
Mislevy, R, J., Wilson, M., Ercikan, K., & Chudowsky, N. (2003). Psycho-
metric principles in student assessment. En: T. Kellaghan & D. L.
Stufflebeam (Eds.), International Handbook of Educational Evalua-
tion. The Netherlands: Kluwer Academic Press.
Pollit, A. & Ahmed, A. (1999). A New Model of the Question Answering
Process. Participación presentada en la 1999 International Associa-
tion for Educational Assessment Conference realizada en Bled,
Eslovenia.
Pollit, A. & Ahmed, A. (2000). Comprehension Failures in Educational
Assessment. Participación presentada en la 2000 European Confe-
rence on Educational Research.
RASCAL (1992). Rasch Analysis Program, version 3.5.1 Assessment
Systems Corporation: Minnesota.
Capítulo 4 ?
Validando puntajes de bancos de ítems
de exámenes de egreso de licenciatura*
Daniel González L. y Cesar Varela R.
Universidad de Sonora
El ca pítu lo abor da el tema de la va lidez en el ámbito de los exá menes

de egreso de licenciatu ra. A lo largo de su desarrollo, los autores se
interesaron en mostrar eviden cias que claramen te ligaran la inter -
preta ción de los pun ta jes de la evaluación a una red teó rica de hi pó-
tesis que apoyan o no las in terpretaciones a ser hechas. En
par ti cu lar, ta les evi den cias de va li dez se re lacio nan con in ter preta-
ciones de puntajes de ban cos de ítems de exámenes de egreso, en
tres dis ci pli nas pro fe siona les: Con ta du ría, Pe da go gía y Psi co logía.
La fi na lidad del ca pí tu lo es ha cer le más trans pa ren te al lec tor la im-

portan cia de la validez del construc to en la toma de decisiones deri-
va da de la evaluación del apren diza je y, en el ca mino, alen tar
investigación que nos permita avanzar el conocimiento acerca de
mecanismos responsables del aprendizaje complejo en el nivel supe-
rior, por cierto, insuficientemente estudiados y, por ende, pobre-
mente atendidos. Ningún otro interés guió el desarrollo de los
estudios que el capítulo describe, ni siquiera, validar los exámenes
de egreso de donde fueron extraídos los ban cos de ítems que se utili-
zaron en los estu dios.
_____________________
*
Se agradece al Proyecto CONACyT 40608-H el financiamiento a esta investigación y al
Centro Nacional de Evaluación para la Educación Superior y al Mtro. Salvador Ruiz de
Chávez las facilidades para realizarla.
En este contexto, se conceptualizó la validez como un resumen evaluati-

vo de la evidencia que permite interpretar el puntaje obtenido en un
examen, tanto como de las consecuencias -actuales y potenciales- ge-
neradas por dichas interpretaciones. Así, la validez es el sine qua non de
la evaluación, sin ella carece de significado intrínseco.
Sin embargo, cabe resaltar aquí dos aspectos: a) el que las evaluaciones
no son válidas o inválidas por sí mismas, más bien, son sus resultados,
los puntajes, los que tienen más o menos evidencia para apoyar (o refu-
tar) una interpretación específica y b) el que los datos de la evaluación
serán más o menos validos para algún propósito o interpretación muy
específico, en un punto en el tiempo y para una población bien definida,
dado que la validez siempre es aproximada como hipótesis.
A diferencia de lo que tradicionalmente se asumía, la concepción con-

temporánea de validez establece su naturaleza unitaria y la conceptúa
como un constructo, esencialmente intrínseco, de los factores que de-
terminan responder a la evaluación (Embretson, 1999; Messick, 1994),
en pocas palabras, la concibe como validez de constructo.
Al reconocerse que lo relevante en la examinación es lo que sucede en

la mente del sustentante cuando se enfrenta a resolver las demandas
incluidas en los ítems y no al contenido superficial de los mismos, los
estudiosos de la validez de constructo se ven retados a identificar cuá-
les propiedades de los ítems permiten medir lo que se intenta medir y a
establecer la utilidad de la evidencia generada para derivar inferencias
válidas.
De esta manera, la validez de constructo constituye la base empírica de

la interpretación del puntaje en tanto que el significado del constructo
provee una base racional para hipotetizar resultados potenciales. Y, en
la medida en la que toda evaluación, incluyendo la de egreso, trata con
constructos -colecciones intangibles de conceptos y principios abstrac-
tos, inferidos de la conducta y explicados por la teoría, la validez de
constructo representa complejas interrelaciones de inferencias asocia-
das con el contenido muestreado en lo que se evalúa, en vías de elabo-
rar inferencias significativas y razonables acerca de un dominio de
conocimiento particular o de una población de interés específica.
Se puede decir que en tanto las teorías que subyacen a los exámenes
(cualquiera que sea su aproximación) comprometen modelos para ela-
borar inferencias acerca de lo que los sustentantes conocen y son capa-
ces de hacer (en un dominio de conocimiento particular), estos marcos
de trabajo generan universos de discurso dependientes de los tipos de
VALIDANDO PUNTAJES DE BANCOS DE ÍTEMS 77
DE EXÁMENES DE EGRESO DE LICENCIATURA
aserciones que se elaboran acerca del proceso de responder y de las ma-

neras con las que se colectan los datos que las apoyen.
Así, la teoría subyacente a un examen constituye la maquinaria de infe-

rencias, los razonamientos acerca de lo que conocemos teóricamente y
de lo que observamos en los datos -siempre en presencia de la incerti-
dumbre- dado que la naturaleza de la información con la que se trabaja
en la examinación es típicamente incompleta y susceptible de tener más
de una explicación. Validar constructos supone, en este contexto, esta-
blecer el peso y la cobertura de la evidencia (puntaje) de lo que se está
midiendo.
Pero, cómo establecer lo que se puede considerar como evidencia. Para

Mislevy (1993), los datos generados en los exámenes son pistas que ad-
quieren significado solamente con relación a la red de conjeturas esta-
blecidas; es decir, los datos sólo pueden ser evidencia cuando se
establece su relevancia para una o más hipótesis, es decir, cuando
muestran incrementar o decrementar lo que la hipótesis plantea. De
aquí que establecer las inferencias a ser hechas requiera haber validado,
previamente, las evidencias (puntajes) generadas por los constructos
hipotetizados en la examinación.
Sin embargo, generar tales evidencias requiere superar una importante

limitación de los estudios tradicionales de validación de constructo
(Embretson, 1983) el que los reactivos de examen estén construidos por
especificaciones acerca de formatos y sylabus, más que en fundamentos
teóricos, con amplia base empírica, que permitan representar los cons-
tructos en términos de las demandas cognitivas que el sustentante debe
satisfacer para resolver los ítems.
En este sentido, la revolución cognitiva ha generado evidencia sólida

acerca de mecanismos cognitivos que han mostrado ser responsables
del éxito, en una amplia gama de actividades humanas. Si en la exami-
nación, el constructo es representado como una capacidad para ejecutar
las clases de tareas que especifican las diferencias entre la ejecución
exitosa de la no exitosa (Wiley, 2002) entonces, la representación de los
constructos utilizados en la examinación debería tomar ventaja de la
base empírica provista por la investigación de mecanismos cognitivos
que han mostrado ser responsables del éxito deseado (Hornke y Ha-
bons, 1986). Tal base constituye, hoy día, una fuente de consulta obli-
gada en y para la identificación de los mecanismos que dan cuenta del
proceso de responder a la examinación (constructos) y, también, para
los estudios que los validan.
En este contexto, y a manera de ilustración, Castañeda (1993, 1998 y

2002) desarrolló un marco de trabajo que permite identificar componen-
tes del proceso de responder a examinación variada. El marco utiliza
análisis funcional de desempeños críticos (componentes de macroes-
tructura) y cognitivo de tareas (componentes de microestructura) para
descomponer, recursivamente, los elementos que componen lo que va a
ser evaluado.
El procedimiento analítico comienza por identificar los desempeños críti-

cos de la ejecución esperada en el dominio de conocimiento evaluado
(constituirán la macroestructura de la medición) en términos de la natu-
raleza y relevancia de lo que se desea medir (dimensiones a ser evalua-
das). Toda vez identificados los más generales, se identifican otros más
elementales (subdimensiones) que los componen. Así, el procedimiento
trata de asegurar que la ejecución demostrada por el sustentante cons-
tituya una muestra representativa de lo deseado, donde la anidación, di-
mensiones - subdimensiones, posibilita que la interpretación de los
resultados obtenidos en un examen dado, se haga en el contexto de un
conjunto significativo y comprensible, más que en la mera descripción
de un conjunto atomizado de datos.
Toda vez identificada la macroestructura, el marco de trabajo utiliza el

análisis cognitivo de tareas (ACT) para identificar los microcomponentes
en los que los desempeños críticos serán medidos, por ejemplo: las ope-
raciones cognitivas a ser demandadas en la evaluación, los tipos de co-
nocimiento a ser evaluados y los contextos en los que serán medidos
conocimientos y operaciones cognitivas, todos expresados en gradien-
tes de complejidad creciente.
Este procedimiento apoya al interesado en la evaluación de los aprendiza-

jes a identificar, en un primer paso, conocimientos, habilidades, disposi-
ciones, tareas y resultados de ejecución esperada, asociados al dominio
de conocimiento que se desea medir (análisis del dominio), en una se-
cuencia sistemática y progresiva de mayor nivel de detalle y precisión.
Ya identificados los macro y microcomponentes, el procedimiento auxilia

al interesado a modelar la interrelación entre conocimientos, tareas y ni-
veles de demanda incluidos, lo que facilita construir la estrategia que da
solución a una tarea específica. Así, el interesado está en capacidad de
modelar el dominio a ser medido, en términos de los rasgos de tareas que
elicitan la ejecución esperada, en los niveles de demanda requeridos.
De esta manera, el procedimiento auxilia la identificación de mecanis-

mos subyacentes al proceso de responder a la examinación (construc-
tos), apoya la construcción de las medidas que generarán las evidencias

requeridas y, gracias a éstas últimas, a validar los constructos hipoteti-
zados en la medición. Atiende a la precaución que Messick señaló para la
medición (1994, p. 16) “Una aproximación centrada en el constructo […]
debería empezar por preguntar ¿cuál complejo de conocimientos, habili-
dades y otros atributos debería ser medido? porque, presumiblemente,
está ligado a objetivos instruccionales explícitos o implícitos o a otros
valores de la sociedad”.
El marco de trabajo descrito hasta aquí, también apoya al interesado a

establecer, explícitamente, las fuentes de contenido a ser incluidas en
los ítems, asume que hacerlas explícitas hará más transparente la ma-
nera en la que éstas afectarán la ejecución del sustentante. En otras pa-
labras, hace factible construir o mejorar ítems, dando mayor seguridad
al diseñador de exámenes y al elaborador de reactivos de que los datos
recabados soportan la medición de lo que los estudiantes conocen y
pueden hacer. Este aspecto completa lo sugerido por Messick (op. cit.)
“[...¿qué conductas o ejecuciones deberían revelar esos constructos y
qué tareas o situaciones deberían elicitar estas conductas?]”
En el establecimiento de las fuentes de demanda a ser incluidas en los

ítems, el marco apoya al especialista a identificar propiedades del con-
texto en el que el sustentante producirá su respuesta, por ejemplo, las
de los tipos de conocimientos que serán evaluados y las del uso que se
pide se les dé; de igual manera, apoya la identificación de las propieda-
des que la evidencia debe mostrar para establecer que se domina o no lo
que está siendo medido.
En lo general, el marco asume que una tarea o un ítem particular cir-

cunscribe circunstancias específicas que le dan al examinando la oportu-
nidad para actuar en formas que producen la evidencia acerca de lo que
sabe o puede hacer (Mislevy, Wilson, Ercikan y Chudowsky, 2003). En lo
operacional, permite que para cada tarea o ítem se asignen puntajes a
sus constituyentes, vistos éstos como fuentes de contenido incluidas en
los ítems.
Así, se obtienen valores que evidencian la situación en la cual el exa-

minando ejecutará, es decir, se generan datos susceptibles de análi-
sis cuantitativos (Castañeda, González, López, García-Jurado y
Pineda, 2003) que caracterizan, apriorística y empíricamente, fuen tes
de facilidad - dificultad asociadas a los ítems que pueden generar va-
rianza irrelevante de constructo, una de las amenazas más serias a la
validez.
Los problemas de validez pueden generarse por dos tipos de amenazas,

la primera refiere a varianza irrelevante de constructo y la segunda a
una sub representación del mismo.
La primera amenaza, la varianza irrelevante de constructo, genera dos

problemas, por una parte, el de la dificultad irrelevante del constructo al
poner en juego aspectos de la tarea, extraños al constructo meta, que
hacen a la tarea irrelevantemente difícil para algunos individuos o gru-
pos y donde se generan puntajes del constructo inválidamente bajos
para los examinandos afectados (puntajes de examinados con bajo do-
minio del lenguaje en el que se presentan los ítems, por ejemplo). El
otro problema es el de la facilidad irrelevante de constructo, ocurre
cuando se pone en juego aspectos de la tarea, extraños al constructo
meta, que permiten responder correctamente en formas irrelevantes al
constructo (v. gr., familiaridad alta con lo que va a ser evaluado), la cual
genera puntajes inválidamente altos para los individuos afectados.
La segunda amenaza, la de la sub representación del constructo es ge-

nerada por una medición excesivamente estrecha que falla por no incluir
dimensiones importantes del constructo. Como puede verse, ambas
amenazas a la validez representan usos engañosos de las propiedades
que deben medir los constructos meta que, además de generar errores
en la medición, pueden generar serios efectos sobre el futuro de los exa-
minandos al complicarse con las consecuencias sociales de la interpreta-
ción de los puntajes.
En adición a lo anterior, las ventajas de hacer explícitas las fuentes de

contenido que facilitan o dificultan la ejecución en los ítems se hacen
más evidentes cuando se toma en cuenta que los puntajes obtenidos en
la medición reflejan una compleja relación entre el atributo que se mide
y el error de medición (Messick, 1989). Estimar la cantidad de error con-
tenida en los puntajes es un asunto prioritario dado que el error de me-
dición es el principal responsable de su falta de precisión.
De aquí que el constructor de exámenes, como el elaborador de ítems,

deban estar atentos a fuentes de error en los reactivos, por ejemplo, de-
mandar habilidades lingüísticas complejas en ítems de resolución de
problemas trigonométricos, donde una pobre habilidad lingüística podría
ser la responsable de un puntaje bajo en un examinando que poseyera
una alta habilidad trigonométrica.
Errores como éste son errores que sistemáticamente afectan los punta-
jes y para los cuales los procedimientos usuales para estimar la confiabi-
lidad de los puntajes no son sensibles, sólo lo son para la presencia de
errores aleatorios. Así y ante tal limitación, generar evidencia a favor de

fuentes incluidas en los ítems que generen puntajes representativos del
atributo medido, constituye una importante y deseable línea de genera-
ción de evidencia a favor de lo que se intenta medir, el constructo.
A partir de lo planteado hasta aquí, académicos del Laboratorio de Eva-

luación y Fomento del Desarrollo Cognitivo y el Aprendizaje Complejo,
del posgrado de la Facultad de Psicología de la UNAM e investigadores de
la Universidad de Sonora, se interesaron por validar constructos que hi-
potéticamente subyacen a fuentes de contenido de ítems objetivos de
exámenes de egreso de licenciatura con el fin de entender el proceso de
responder a este tipo de examinación.
El problema de investigación se contextualizó en el ámbito de la evalua-

ción de egreso de la licenciatura, realizada a gran escala mediante ítems
objetivos que intentan medir aprendizaje complejo, como es el aprendi-
zaje profesional. Requerimientos prácticos como estandarizar procesos
de evaluación y abatir costos, así como la aparente facilidad con la que
se construye este tipo de ítems generó un uso masivo de reactivos obje-
tivos en exámenes que evalúan la calidad del egreso en las licenciaturas
en México (Castañeda, 2003).
Bajo estas condiciones, se consideró que cualquier examen debía asegu-

rar que tanto los constructos subyacentes, como la evidencia recabada
reflejaran, válidamente, lo que se deseaba medir, de otra manera, no se
podrían prevenir explicaciones perniciosas para el sustentante y terce-
ros interesados.
Objetivos de investigación
El objetivo principal de los estudios que son descritos en este capítulo
fue la validación de evidencias (puntajes) que hipotéticamente repre-
sentan demandas de dos fuentes de contenido incluidas en ítems de
bancos de exámenes de egreso en las licenciaturas de Contaduría, Peda-
gogía y Psicología. En la última disciplina, se contó con tres bancos dado
que el examen especifica áreas de aplicación particular, entre otras, la
Psicología Clínica, la Psicología Educativa y la Psicología del Trabajo.
Las fuentes de contenido analizadas fueron la Operación Cognitiva re-

querida para contestar al reactivo y el Campo de Conocimiento en el que
se evalúa la información que el reactivo presenta. La literatura interna-
cional referida al estudio de la generación de ítems (Embretson, 2002;
Irvine, 2002), marca la necesidad de comprender, a profundidad, las
fuentes de contenido relacionadas con los ítems. Se asume que hacerlo
aportará fundamentos más defendibles para validar los constructos y

entender el proceso de responder. Esta fue la primera meta de los estu-
dios descritos aquí.
Un segundo objetivo, para el caso del examen de la licenciatura en Psi-

cología, fue avanzar la validación de constructo previamente iniciada.
Dado que toda validez es validez de constructo, vista como concepto
unitario de factores que determinan responder a la examinación, avan-
zarla representaba generar una red de evidencias múltiples, entre otras,
las de contenido y las de la estructura interna de la examinación.
En este sentido, en un primer momento, la validación de constructo

atendió a la generación de evidencia a favor de los puntajes obtenidos
en las competencias medidas en la porción común del Examen General
de Egreso de los licenciados en Psicología (Castañeda, Bazán, Sánchez y
Ortega, 2004). Dado que el interés fue validar los puntajes de las com-
petencias hipotetizadas, se analizaron la validez convergente y diver-
gente del modelo teórico de competencias. Se propuso un modelo de
ecuaciones estructurales y se especificó el cálculo de covarianzas entre
los puntajes de las competencias. En el estudio participaron 682 susten-
tantes, hombres y mujeres, que respondieron de manera grupal y vo-
luntaria, bajo procedimiento estandarizado, la porción común del
Examen General de Egreso para todos los psicólogos.
Los resultados mostraron homogeneidad aceptable entre reactivos y

una configuración dimensional en la que todos los pesos factoriales de
las relaciones entre factores (competencias) y sus indicadores (varia-
bles manifiestas) convergieron significativamente dentro del factor hi-
2
potetizado. El modelo resultante obtuvo bondad de ajuste (X de
140.41, 160 gl, asociada a una p=.16), con indicadores estadísticos y
prácticos aceptables.
Ahora y tomando en cuenta la necesidad de avanzar la red de eviden-

cias, el trabajo que se presenta aquí, valida puntajes derivados de cons-
tructos que hipotetizan demandas de fuentes de contenido incluidas en
los ítems sobre el proceso de responderlos, más que validar el contenido
-competencias de la porción común- del examen. Otra diferencia con re-
lación al estudio anterior, es el haber utilizado bancos de ítems que in-
cluyen tanto reactivos comunes a todos los sustentantes, como
específicos al egreso en cada una de las tres áreas de aplicación de inte-
rés (Psicología Clínica, Psicología Educativa y del Trabajo), de esta ma-
nera, los bancos analizados en la investigación emularon la estructura
establecida para el examen general de egreso en estas áreas.
La solución dada en este estudio también marca diferencia con el estudio

precedente al considerar la aproximación multioperación cognitiva - multi-
campo de conocimiento (MOCMCC) en la validación de constructo. En este
diseño, dos o más rasgos o características son medidos, cada uno, en dos o
más campos de conocimiento. Los rasgos pueden ser habilidades, actitu-
des, operaciones cognitivas, conductas o características de personalidad,
mientras que los campos de conocimiento hacen referencia a los conteni-
dos sólo teóricos, sólo técnicos o combinados que se evalúan.
Con lo anterior no sólo se obtiene una mayor proporción de varianza ex-

plicada para cada observación o reactivo de investigación, sino también
se estiman los indicadores de validez convergente y divergente del
constructo. La validez convergente hace referencia a relaciones altas y
significativas entre variables observadas y las variables latentes corres-
pondientes; mientras que la validez discriminante hace referencia a las
correlaciones menores y tal vez no significativas entre algunas variables
observadas y uno o más factores que no corresponden -según la teoría-
con estas variables observadas (Corral, 1995; Hair, Anderson, Tatham y
Black, 1999).
Aunque entre los investigadores ha existido una tendencia predominan-

te a buscar relaciones únicas entre constructos e indicadores, en la na-
turaleza, la mayoría de las variables se relacionan significativamente
con más de un factor a la vez (Corral, 2002). En el caso particular pre-
sentado en este trabajo, se empleó un sistema de análisis que es capaz
de probar, cuando menos, la existencia de dos tipos de factores expli-
cando el uso de cada operación cognitiva y cada campo de conocimien-
to, con el fin de obtener validez de constructo.
Método
Participantes
Se utilizaron cinco muestras de examinandos que sustentaron grupal y

voluntariamente, bajo procedimiento estandarizado, un examen de
egreso correspondiente a tres licenciaturas profesionales. La primera
muestra se conformó con 313 contadores, la segunda con 225 egresa-
dos de Pedagogía y Ciencias de la Educación, la tercera con 366 psicólo-
gos clínicos, la cuarta con 380 psicólogos educativos y la quinta con 197
psicólogos industriales o del trabajo, todos egresados de universidades
públicas y privadas, hombres y mujeres.
La edad promedio general entre las muestras fue de 25 años, con excep-
ción de Psicología del Trabajo que fue de 21 años. En tanto en Contadu-
ría se incluyó un 58.4% examinandos del sexo masculino, en Pedagogía

(81.1%), así como Psicología Clínica (82.6%), Psicología Educativa
(83%) y del Trabajo (78.4%) el género femenino mostró preponderan-
cia.
En Contaduría, el 70.80% fueron solteros y 78.57% obtuvo promedio

general de licenciatura entre 8 y 9.5 de calificación promedio en la licen-
ciatura. En Pedagogía, 61.40% fueron solteros y el 61% obtuvo un pro-
medio general entre 8 y 9 de calificación, en Psicología Clínica el 71.10%
fueron solteros y el 58% tuvieron un promedio general de 8 a 9 de califi-
cación, en Psicología Educativa sólo el 39.8% fueron solteros y el 53.3%
mostraron un promedio general de licenciatura en el rango de 8 a 9 de
calificación, finalmente en Psicología del Trabajo sólo 33.3% fueron sol-
teros y el 59% mostraron un promedio general de licenciatura en el ran-
go de 8 a 9 de calificación. Más del 80% de los examinandos egresaron
de instituciones públicas.
Escenario
Salones de clase con iluminación, ventilación y mobiliario adecuados a la

aplicación estandarizada de un examen objetivo de egreso.
Materiales y medidas
1. Escala de Valoración de Fuentes de Contenido de Reactivos Objetivos

(Castañeda, González, López, García-Jurado, Ortega y Pineda, 2003).
Es un instrumento de lápiz y papel que caracteriza y asigna valores de
dificultad apriorística a las fuentes de contenido incluidas en los ítems
que se utilizan para medir. Fue construida con base en lo que la literatu-
ra internacional señala acerca de mecanismos responsables del proceso
de responder a la examinación (Mislevy, Wilson, Ercikan y Chudowsky,
op. cit; Pollit y Ahmed, 1999).
La escala caracteriza al ítem con base en diversas fuentes de contenido,

por ejemplo, las operaciones o procesos cognitivos requeridos para re-
solver el ítem, los patrones en los que la pregunta y la respuesta requie-
ren interactuar para resolverlo e, incluso, la dificultad del lenguaje, así
como la claridad y exactitud en los términos teóricos o técnicos que se
utilizan. La escala fue validada por jueces independientes (Q = 12, gl. =
13, p. = 0.528).
En los estudios que se describen en este capítulo, sólo se utilizaron

aquellas fuentes que mostraron predecir una buena proporción de va-
rianza de la dificultad apriorística del ítem, con efectos razonables sobre
la dificultad empírica del ítem (Castañeda, Ortega y García Jurado,

2005), definida ésta como su ajuste a la tendencia latente.
Así, las fuentes de contenido utilizadas para caracterizar los ítems fueron:
m Operación Cognitiva demandada para resolver el reactivo, definida

como el procesamiento cognitivo subyacente a la ejecución requeri-
da para resolverlo. Incluye tres tipos de demanda cognitiva:
l De comprensión -capacidad para identificar, clasificar, ordenar

temporalmente y/o jerarquizar información conceptual presen-
tada en el reactivo-.
l De aplicación -capacidad de utilizar, en tareas profesionales ini-

ciales y rutinarias, conceptos, principios, procedimientos, técni-
cas e instrumentación, acordes al nivel científico en el que se les
reconoce-.
l De resolver problemas -capacidad de evaluar e integrar concep-

tos, principios, métodos, técnicas, procedimientos, estructuras
de tareas y/o planes de acción en función de los principios de
adecuación y/o valores profesionales requeridos para resolver
situaciones problemáticas, así como para identificar y corregir
errores importantes en soluciones preestablecidas-.
m Campo de Conocimiento evaluado en el reactivo. La cualidad de la

información que se evalúa en el reactivo e incluye tres tipos:
l Sólo Teórico (Factual -fechas, personajes, lugares y fórmulas-,

Conceptual -definiciones de conceptos y reglas- y Procedimen-
tal -definiciones de procedimientos, técnicas e instrumenta-
ción).
l Sólo Técnico (destrezas técnicas dirigidas a la acción profesio-

nal),
l Combinado (conocimiento teórico y destreza técnica integra-

dos).
2. Cinco bancos intencionales de reactivos objetivos de exámenes de

egreso, organizados de la manera siguiente:
17 ítems de un examen de egreso de Contaduría,

42 ítems de un examen de egreso de Pedagogía,
38 ítems de un examen de egreso de Psicología Clínica,
22 ítems de un examen de egreso de Psicología Educativa y
29 ítems de un examen de egreso de Psicología del Trabajo
Los bancos se conformaron con ítems que satisficieron el requisito de

calibración logística de un parámetro y el de discriminación (PtBs >.16).
El criterio de elegibilidad de cada reactivo requirió que éste hubiera sa-
tisfecho los requisitos antes dichos y haber sido elegido por tres jueces
independientes, con base en su ajuste a la tendencia latente y a su índi-
ce de discriminación. El tipo de reactivo utilizado en los tres exámenes
es objetivo, de opción múltiple, con cuatro opciones de respuesta de las
cuales sólo una es correcta y el resto son tres distractores verosímiles.
Procedimiento
La recogida de datos se realizó mediante aplicación estandarizada de

exámenes de egreso realizada por aplicadores entrenados, adscritos a
los centros de evaluación.
Calibración de reactivos. Con datos proporcionados por el Centro Nacio-

1
nal de Evaluación para la Educación Superior , para los datos de Peda-
gogía y de Psicología y con datos proporcionados por otro centro de
evaluación privado para el caso de Contaduría, se realizó la calibración.
La calibración utilizó el calibrador Rascal (1992) y el índice de discrimi-
nación se obtuvo de los resultados del calibrador BigSteps (Linacre y
Wright, 1994). De entre éstos, se seleccionaron los ítems que además
de satisfacer los parámetros mostraron, en su mayoría, atender a am-
bas fuentes investigadas. La distribución específica a cada disciplina o
subdisciplina se muestra en las Tablas 1 a 5.
Tabla 1
Distribución de ítems de Contaduría por fuentes de contenido analiza-
das.
__________________________________________________
Campo de Conocimiento
__________________________________________________
Teórico Técnico Combinado total
5 8 4 17
__________________________________________________
Operación Cognitiva
__________________________________________________
Comprender Aplicar Resolver total
10 7 0 17
__________________________________________________
El banco de ítems de Contaduría se conformó mayoritariamente

(47.06%) con reactivos del campo de conocimiento Técnico y donde las
_____________________
1
los ítems son propiedad intelectual del centro de evaluación correspondiente
operaciones de Comprender (58.82%) y Aplicar (41.18%) fueron las

más demandadas. Ningún reactivo que demandara resolver problemas
fue incluido.
Tabla 2
Distribución de ítems de Pedagogía por fuentes de contenido analizadas.
__________________________________________________
Campo de Conocimiento
__________________________________________________
18 13 11 42
__________________________________________________
__________________________________________________
19 23 0 42
__________________________________________________
El banco de ítems de Pedagogía quedó conformado con reactivos cuyo

campo de conocimiento fue mayoritariamente Teórico (42.86%) y don-
de las operaciones de Aplicar (54.76%) y Comprender (45.24%) fueron
las más demandadas. Ningún reactivo que demandara resolver proble-
mas fue incluido.
Tabla 3
Distribución de ítems de Psicología Clínica por fuentes de contenido ana-
lizadas.
__________________________________________________
Ítems Campo de Conocimiento
__________________________________________________
Comunes + Clínica 9 14 15 38
__________________________________________________
__________________________________________________
Comunes + Clínica 10 24 4 38
__________________________________________________
El banco de ítems de Psicología Clínica quedó conformado con reactivos

de dos campos de conocimiento, el Combinado (39.47%) y el Técnico
(38.84) y donde la operación de Aplicar (63.16%) fue la más demanda-
da. Se incluyeron reactivos que demandan Resolver problemas
(10.53%).
Tabla 4
Distribución de ítems de Psicología Educativa por fuentes de contenido
analizadas.
__________________________________________________
Reactivos Campo de Conocimiento
__________________________________________________
Comunes + Educativa 6 10 6 22
__________________________________________________
__________________________________________________
Comunes + Educativa 3 16 3 22
__________________________________________________
El banco de ítems de Psicología Educativa quedó conformado con reacti-

vos del campo Técnico (45.45%) y, en menor medida por los campos de
conocimiento Combinado (27.27%) y el Teórico (27.27) y donde la ope-
ración de Aplicar (72.73%) fue la más demandada. Se incluyeron reacti-
vos que demandan Resolver problemas (13.64%).
Tabla 5
Distribución de ítems de Psicología del Trabajo por fuentes de contenido
analizadas.
__________________________________________________
Reactivos Campo de Conocimiento
__________________________________________________
Comunes + del Trabajo 5 14 10 29
__________________________________________________
__________________________________________________
Comunes + del Trabajo 5 24 0 29
__________________________________________________
Finalmente, el banco de ítems de Psicología del Trabajo quedó confor-

mado con reactivos del campo Técnico (48.28%) y, en menor medida
por los campos de conocimiento Combinado (34.48%) y el Teórico
(17.24) y donde la operación de Aplicar (82.76%) fue la más demanda-
da. No se incluyeron reactivos que demandan resolver problemas.
A partir de las distribuciones mostradas de la tabla uno a la cinco, se cal-

cularon sus índices de consistencia interna, por Alfa de Cronbach, por
tratarse de datos obtenidos una sola vez. Interesó identificar la homoge-
neidad con la que cada banco medía lo que debía medir. Los índices de
consistencia interna se presentan en las Tablas seis a la diez.
Tabla 6
Índices de consistencia interna de las fuentes de contenido del banco de
Contaduría.
__________________________________________________
Alfas para Tipos de Operación Cognitiva Alfas para tipos de Campo de Conocimiento
__________________________________________________
Comprender Teórico
Alfa = 0.68 Alfa = 0.67
Media = 3.96, DS = 2.43 Media = 2.00, DS = 1.55
(diez reactivos) (cinco reactivos)
Aplicar Técnico
Alfa = 0.35 Alfa = 0.68
Media = 1.90, DS = 1.32 Media = 3.03, DS = 2.07
(siete reactivos) (ocho reactivos)
Resolver Combinado
Sin datos porque no se incluyeron ítems Alfa = 0.18
que evaluaran resolver problemas Media = .83, DS = .87
(cuatro reactivos)
__________________________________________________
El banco de ítems de Contaduría mostró que de las tres operaciones cog-

nitivas, sólo la de Comprender obtuvo un índice de consistencia interna
aceptable. De los campos, el Teórico y el Técnico también mostraron ín-
dices aceptables. Al contrario, la homogeneidad de los ítems de la ope-
ración Aplicar y del campo Combinado debe ser mejorada.
Tabla 7
Índices de consistencia interna por fuentes de contenido en Pedagogía.
__________________________________________________
Alfas por cada tipo de Operación Cognitiva Alfas por cada Campo de Conocimiento
__________________________________________________
Comprender Teórico
Alfa = 0.53 Alfa = 0.61
Media = 9.76, DS = 2.73 Media = 11.27, DS = 3.02
(dieciocho ítems) (dieciocho ítems)
Aplicar Técnico
Alfa = 0.66 Alfa = 0.53,
Media = 13.55, DS = 3.70 Media = 6.42, DS = 2.11
(veintitrés ítems) (doce ítems)
Resolver problemas Combinado

Sin datos porque no se incluyeron ítems que Alfa = 0.43,
evaluaran resolver problemas Media = 5.63, DS = 2.03
(once ítems)
__________________________________________________
En el banco de Pedagogía, sólo la operación Aplicar y el campo Teórico

mostraron índices de consistencia interna aceptables. La operación
Comprender y los campos Técnico y Combinado mostraron baja homo-
geneidad entre sus reactivos.
Tabla 8
Índices de consistencia interna por fuentes de contenido en Psicología
Clínica.
__________________________________________________
Alfas para cada tipo de Operación Cognitiva Alfas por cada Campo de Conocimiento
__________________________________________________
Comprender Teórico
Alfa = 0.45 Alfa = 0.44
Media = 5.984, DS = 3.095 Media = 5.12, DS = 1.676
(diez reactivos) (nueve reactivos)
Aplicar Técnico
Alfa = 0.67 Alfa = 0.36
Media = 13.18, DS = 14.46 Media = 8.29, DS = 4.521
(veinticuatro reactivos) (catorce reactivos)
Resolver Combinado
Alfa = 0.69 Alfa = 0.69
Media = 2.15, DS = 1.34 Media = 7.07, DS = 8.299
(cuatro reactivos) (quince reactivos)
__________________________________________________
En el banco de Psicología Clínica, las operaciones Aplicar y Resolver pro-

blemas mostraron índices aceptables, lo mismo se presentó en el campo
Combinado. Comprender y los campos Teórico y Técnico tienen homo-
geneidad baja entre sus reactivos.
Tabla 9
Índices de consistencia interna por fuentes de Psicología Educativa.
__________________________________________________
Alfa para cada tipo de Operación Cognitiva Alfa por cada Campo de Conocimiento
__________________________________________________
Comprender Teórico
Alfa = 0.10 Alfa = 0.30
Media = 1.72, DS = 0.86 Media = 3.42, DS = 1.38
(tres reactivos) (seis reactivos)
Aplicar Técnico
Alfa = 0.38 Alfa = 0.17
Media = 8.25, DS = 5.59 Media = 5.13, DS = 1.61
(dieciséis reactivos) (diez reactivos)
Resolver problemas Combinado

Alfa = 0.01 Alfa = 0.16
Media = 2.15, DS = 1.34 Media = 2.95, DS = 1.22
(tres reactivos) (seis reactivos)
__________________________________________________
En el banco de Psicología Educativa, ninguna operación cognitiva ni

campo mostraron índices de consistencia interna aceptables.
Tabla 10
Índices de consistencia interna por fuentes de Psicología del Trabajo.
__________________________________________________
Alfas para cada tipos de Operación Cognitiva Alfas para cada tipo de Campo de Conocimiento
__________________________________________________
Comprender Teórico
Alfa = 0.35 Alfa = 0.37
Media = 2.94, DS = 1.28 Media = 4.89, DS = 1.64
(cinco reactivos) (ocho reactivos)
Aplicar Técnico
Alfa = 0.73 Alfa = 0.49
Media = 13.35, DS = 4.08 Media = 5.52, DS = 2.12
(veinticuatro reactivos) (once reactivos)
Resolver Combinado
Sin datos porque no se incluyeron ítems Alfa = 0.72
que evaluaran resolver problemas Media = 5.88, DS = 2.42
(diez reactivos)
__________________________________________________
En Psicología del Trabajo, sólo Aplicar y Combinado mostraron consis-

tencia interna aceptable. La operación Comprender y los campos Teó-
rico y Técnico requieren mejorar la homogeneidad entre sus
reactivos.
Especificación del modelo
El modelo a prueba se representa gráficamente en la Figura 1 y está

constituido tanto por la operación cognitiva como por los campos de co-
nocimiento; se teoriza que la ejecución de los sustentantes sobre cada
una de las operaciones cognitivas solicitadas se liga a una dimensión del
constructo Operación Cognitiva, lo que conforma el componente “rasgo”
del modelo y a una dimensión del constructo Campo de Conocimiento, el
componente “campos”. Dada esta adaptación de la estrategia de Camp-
bell y Fiske (1958) podemos hablar de un modelo de multioperación
cognitiva - multicampo de conocimiento (MOCMCC).
1. El modelo MOCMCC está constituido por los constructos Comprender,

Aplicar y Resolver como Operaciones Cognitivas y por los constructos
Sólo Teórico, Sólo Técnico y Combinado, como Campos de Conoci-
miento.
2. Cada variable observada está ligada a dos variables latentes (a un
rasgo o tipo de operación cognitiva y a un campo de conocimiento),
como a continuación se ejemplifica. La figura 1 presenta el modelo
hipotético de relaciones estructurales a través del cual se desean va-
lidar los Tipos de Operación Cognitiva y los Tipos de Campo de Cono-
cimiento. Las variables latentes son seis constructos mientras que
las manifiestas o indicadores son las puntuaciones obtenidas en los
ítems que conforman esa dimensión.
Figura1. Modelo teórico Multioperación Cognitiva – Multicampo de Conocimiento

(MOCMCC).
Construcción de la matriz
A partir de haber especificado el modelo teórico, se clasificaron los reac-

tivos con base en su doble condición de medir alguna de las tres opera-
ciones cognitivas en alguno de los tres métodos posibles. Así se
construyó la matriz MOCMCC y posteriormente se realizó un Análisis
Factorial Confirmatorio (AFC) y la prueba del modelo incluyó la medición
de bondad de ajuste entre el modelo inclusivo y el modelo restringido (o
modelo propuesto). El modelo inclusivo refiere una interrelación total de
factores y variables observadas y a pesar de que se acepte que ese tipo

de relaciones existe, aunque sea en forma mínima en la realidad, en
ciencia se busca sobre la base del principio de parsimonia, modelos sim-
ples que expliquen lo más posible.
2
Para contrastar ambos modelos se utilizó el estadígrafo de X el cual
2
compara el grado de diferencias entre dos modelos. Aquí una X alta y
significativa refiere que los dos modelos son diferentes, por lo cual debe-
2
mos buscar una X no significativa, es decir que su probabilidad asocia-
da sea mayor a 0.05, de tal manera que nos muestre que el modelo
restringido no es diferente del modelo inclusivo, en términos de poder
explicativo. Otros índices de ajuste utilizados fueron el Índice Bent-
ler-Bonet de Ajuste Normado (IBBAN), el Índice Bentler-Bonet de Ajuste
No Normado (IBBANN) y el Índice de Ajuste Comparativo (IAC), inclui-
dos dentro del programa EQS (Bentler, 1993); estos índices producen
resultados que van de 0 al 1.0 y se acepta .90 como índice de ajuste
adecuado.
Posteriormente, se estimaron las correlaciones entre las variables medi-

das y los factores, y las covarianzas de las variables latentes entre sí, así
como de los errores correspondientes a cada factor; se buscó que las re-
laciones entre variables observadas y las variables latentes correspon-
dientes fueran altas y significativas, con el fin de que la teoría y la
validez de constructo convergente de las medidas fueran confirmadas;
además, se buscó validez de constructo divergente o discriminante,
mostrando que las correlaciones entre algunas variables observadas y
uno o más factores que no corresponden -según la teoría- con estas va-
riables observadas, fueran menores y tal vez no significativas (Corral,
2002).
A continuación, se presentan los modelos resultantes de las disciplinas

analizadas. Se comienza con Contaduría, se describen sus índices de
ajuste y se termina con una discusión al respecto de la interpretación de
los puntajes. Así, se continúa con el banco de Pedagogía y, por último,
con los tres bancos de Psicología.
Validación de constructo en un banco intencional de ítems

de Contaduría
El Examen de Egreso de Contaduría es un examen objetivo que evalúa
las competencias establecidas por cuerpos colegiados de expertos como
las esenciales para una práctica profesional inicial de buena calidad.
Está dirigido a los egresados de la licenciatura que hayan cubierto el
100% de los créditos, estén titulados o no. Evalúa el dominio acerca de

los conocimientos, habilidades y valores esenciales, comunes, significa-
tivos y de buena calidad para:
l comprender los fundamentos teóricos de la disciplina;
l utilizar estrategias, procedimientos e instrumentación adecuados

para resolver las demandas planteadas en el campo de aplicación
profesional, así como para recopilar, organizar, analizar e interpre-
tar información útil a la práctica profesional;
l contextualizar su práctica profesional con base en la realidad social

nacional;
l combinar la teoría con las habilidades técnicas requeridas en la

práctica profesional;
l anticipar y ajustarse a cambios importantes que afecten su queha-

cer profesional.
Es un examen objetivo, de opción múltiple con cuatro opciones de res-

puesta cada una de las cuales SÓLO UNA es correcta y el resto son tres
distractores verosímiles. Evalúa la formación general del recién egresa-
do.
El estudio realizado
Se investigó validez de constructo de seis dimensiones hipotetizadas en

examinación de egreso de la licenciatura en Contaduría con el fin de en-
tender el proceso de responder subyacente. Con respuestas de 313 sus-
tentantes a una muestra intencional de 17 ítems objetivos, aplicados a
gran escala, se realizó un análisis factorial confirmatorio, con matriz
multioperación cognitiva – multicampo de conocimiento, donde los ras-
gos representaron tres operaciones cognitivas demandadas para resol-
ver los ítems y los campos, tres tipos de conocimiento del contenido que
se evalúa en ellos. Cada reactivo se ligó a una operación cognitiva y a un
campo de conocimiento.
Resultados
Los datos sociodemográficos de la muestra utilizada (Tabla 11) mues-

tran que la proporción del sexo masculino fue ligeramente mayor, la ma-
yoría son solteros y en un rango de edad de 22 a 25 años y su promedio
en la licenciatura se encuentra en el rango de 8 a 9.5 de calificación.
Tabla 11
Distribución porcentual de las variables sociodemográficas de la mues-
tra.
__________________________________________________
Género Porcentaje Estado Civil Porcentaje
__________________________________________________
Femenino 41.60 Casado / Unión Libre 28.40
Masculino 58.40 Soltero / Divorciado /Viudo 70.80
__________________________________________________
Total 100.00 Total 99.12
__________________________________________________
Promedio de Licenciatura Porcentaje Edad Porcentaje
__________________________________________________
6.0 - 6.5 0.43 21 o Menos 2.16
6.6 - 7.0 0.65 22 - 25 55.19
7.1 - 7.5 2.60 26 - 30 18.40
7.6 - 8.0 11.47 31 - 35 10.61
8.1 - 8.5 28.79 36 - 39 8.01
8.6 - 9.0 29.44 41 o más 5.19
9.1 - 9.5 20.35
9.6 - 10.0 4.33
__________________________________________________
__________________________________________________
Configuración dimensional identificada
La figura 2 representa gráficamente los resultados obtenidos del AFC

empleando la estrategia MOCMCC con las respuestas al banco de ítems
de Contaduría. El modelo multi-operación cognitiva y multi-campo de
conocimiento resultante quedó construido por la Operación cognitiva
Comprender y el Campo de conocimiento Técnico, conformados a partir
de las variables observadas.
Los pesos factoriales significativos entre cada factor y sus indicadores

establecen la validez convergente de cada constructo (Gorsuch, 1983),
así, se pudo establecer que sólo la Operación cognitiva Comprender y el
Campo de conocimiento Técnico, poseen validez de constructo conver-
gente. Al buscar validez de constructo discriminante, los constructos de
operación cognitiva presentaron covarianza significativa, lo que indica
que las ejecuciones de los sustentantes no fueron capaces de discrimi-
nar entre estos constructos. Algo similar se presentó entre los construc-
tos conocimientos Teórico, Técnico y Teórico con Combinado, sin
embargo, no se presentó covariación significativa entre el Técnico y el
Combinado. Así, se puede decir que el modelo no tiene validez diver-
gente.
Figura 2. Modelo Multioperación Cognitiva - Multicampo de Conocimiento

de un banco de reactivos intencional de un examen de egreso de la
licenciatura en Contaduría. La X 2 =30 (gl 52), p=.99; IBBAN=.92,
IBBANN=.99, IAC=.99 y RMSEA=.000. Los pe sos factoriales son
significativos a p<.05. Las líneas discontinuas representan relaciones
no significativas.
Los indicadores de bondad de ajuste muestran que los datos respaldan

2
al modelo. La X resultante fue de 30, con 52 gl, asociada a una p = .99;
el IBBAN fue igual a 0.92, el IBBANN fue de .99 y el IAC, considerado el
índice más preciso para la medida de ajuste fue igual a .99 y RMSEA fue
igual a 0.000, pero no se logró computar su intervalo de confianza. Esto
significa que este modelo teórico no es significativamente diferente -en
cuanto a poder de explicación- del modelo saturado y es teóricamente
plausible (MacCallum y Austin, 2000).
En términos del modelo probado, se mostró que es posible obtener, me-

diante AFC, factores de una operación cognitiva hipotetizada, la de
Comprender, y de un campo de conocimiento, el Técnico. Los factores
identificados explican el proceso de responder a este banco de examina-
ción de egreso en Contaduría sólo cuando los sustentantes enfrentan las
demandas de Comprender conocimiento Técnico, particularmente, en
sustentantes que comprenden conceptos y principios de la disciplina
para responder un examen de egreso en el área.
A pesar de que los puntajes mostraron que los sustentantes ejecutaron

significativamente mejor en Comprender que en Aplicar (t = 6.52, 312
g., p = 0.000), la interpretación de estos puntajes debe tomar en cuenta
que sus constructos no lograron validez discriminante entre ellos. Las
operaciones cognitivas Aplicar y Resolver tampoco se configuraron
como factores, como teóricamente se esperaba, esto puede deberse a
que sus medidas mostraron covariar muy bajo o negativamente con el
constructo correspondiente y a que en Resolver problemas existe un
problema de sub representación de constructo en el banco de ítems ana-
lizado. La sub representación del constructo es una de las dos amenazas
a la validez (Messick, 1995), que pone en riesgo a la medición.
Con referencia a los campos de conocimiento, los puntajes reflejaron di-

ferencias significativas a favor de la ejecución de los sustentantes en el
campo Técnico sobre la ejecución en el Teórico (t = -17.38, gl, 312, p =
0.000) y sobre la del Combinado (t = 2.97, 312 gl, p = 0.000). Con estos
resultados es posible confiar en la interpretación de que en el campo de
conocimiento Técnico, los examinandos ejecutaron significativa y váli-
damente mejor que en los Teórico y Combinado, pero no es posible esta-
blecer otras interpretaciones porque los puntajes de los campos Teórico
y Combinado hipotetizados no validaron los constructos, ni mostraron
validez discriminante entre ellos, en la muestra intencional de reactivos
utilizada en la investigación.
Con base en los datos, el diseñador de exámenes pueda confiar en la in-

terpretación de los puntajes derivados de la medición de conocimientos
Técnicos, pero tomar con precaución los del conocimiento Teórico y los
del Combinado. El índice de consistencia interna (Alfa = 0.18) obtenido
por los ítems que configuraron el método Combinado muestra insufi-
ciente homogeneidad entre los reactivos que lo componen, lo que no
permite confiar en las medidas que lo constituyen. Se requiere resolver
este problema psicométrico y aumentar la representatividad del cons-
tructo para mejorar las medidas a fin de ganar validez en las inferencias
a ser hechas.
Así, el modelo probado mostró fortalezas que deben ser tomadas en

cuenta para interpretar los puntajes pero, también mostró debilidades
que deben ser tomadas en cuenta para que la interpretación de los pun-
tajes sea significativa.
Seis indicadores de la operación Comprender se relacionaron significati-

vamente con el factor hipotetizado y sólo uno de ellos mostró estar in-
fluido significativamente por el conocimiento Teórico, lo que podría estar
mostrando que este factor (Comprender) es más de rasgo (Operación
Cognitiva) que del método Teórico.
En cambio, la proporción de varianza explicada por Comprender en inte-

racción con el conocimiento Técnico (8%), constituye evidencia a favor
de la elección del mejor método para medirlo, que aunque débil, es sig-
nificativa. Un aspecto a favor de la inclusión de la combinación de estas
dos fuentes es el hecho de que la homogeneidad entre los reactivos del
conocimiento Técnico resultó aceptable.
Lamentablemente, en el banco de ítems analizado se mostró que el co-

nocimiento Teórico covaría significativamente con el Técnico al .85 y con
el Combinado al .90, de aquí que el Teórico esté midiendo lo mismo que
el Técnico y el Combinado. El constructor de exámenes deberá resolver
la falta de validez discriminante si su intención es medir los tres tipos de
conocimientos.
Cabe enfatizar que los resultados de este estudio solo pueden ser gene-
ralizados bajo el modelo teórico puesto a prueba y en las condiciones en
las que fueron recolectados los puntajes. Si bien los hallazgos sugieren
mejora en las medidas de Aplicar y Resolver problemas y en los campos
de conocimiento Teórico y Combinado, estos no pueden generalizarse a
la totalidad de la población que ha sustentado el examen de egreso del
cual se extrajeron los datos utilizados en este estudio debido a que las
muestras de ítems y de sustentantes fueron intencionales. Otra limitan-
te del estudio fue que el banco de ítems no incluyó todos los ítems del
banco extenso, lo que hace necesario estudios futuros tomando en
cuenta mayor número de ítems por cada factor.
Validación de constructo en un banco intencional de ítems

del Examen de Egreso de las licenciaturas en Pedagogía –
Ciencias de la Educación
El Examen General de Egreso de la licenciatura de Pedagogía - Ciencias
de la Educación es un examen objetivo que evalúa las competencias es-
tablecidas por cuerpos colegiados de expertos como las esenciales para
una práctica profesional inicial de buena calidad. Está dirigido a los egre-
sados de las licenciaturas en Pedagogía y Ciencias de la Educación que
hayan cubierto el 100% de los créditos, estén titulados o no.
Evalúa el dominio acerca de los conocimientos, habilidades y valores

esenciales, comunes, significativos y de buena calidad para:
l comprender los fundamentos teóricos de la disciplina;
l utilizar estrategias, procedimientos e instrumentación adecuados

para resolver las demandas planteadas en los campos de aplicación
profesional, así como para recopilar, organizar, analizar e interpre-
tar información cuantitativa y cualitativa para traducirla a eventos
educativos;
l seleccionar y aplicar técnicas, instrumentación y procedimientos

educativos para la observación, detección, diagnóstico, interven-
ción, planeación, evaluación, prevención y desarrollo, así como para
interpretar y comunicar los resultados derivados de su función pro-
fesional;

nacional

l anticipar y ajustarse a cambios importantes que afecten su queha-

cer profesional y
l dominar los valores profesionales, el respeto a la diversidad y la

promoción de lo justo y equitativo.
Es un examen objetivo, de opción múltiple con cuatro opciones de res-

puesta cada una de las cuales SÓLO UNA es correcta y el resto son tres
distractores verosímiles. Está constituido por cuatro competencias ge-
néricas: conceptual, metodológico-operativa, integrativa y ética. La
competencia conceptual representa el 50%, la metodológica operativa
el 25%, la integrativa el 20% y la ética el 5% del examen.
Se utilizó un banco intencional de reactivos para establecer validez de

constructo en seis dimensiones hipotetizadas. Con respuestas de 225
sustentantes a una muestra intencional de 42 ítems objetivos, aplicados
a gran escala, se realizó un análisis factorial confirmatorio, con matriz
multioperación cognitiva – multicampo de conocimiento, donde los ras-

gos representaron tres operaciones cognitivas demandadas para resol-
ver los ítems y los campos, tres tipos de conocimiento del contenido que
se evalúa en ellos. Cada reactivo se ligó a una operación cognitiva y a un
campo de conocimiento.
Resultados
Los datos sociodemográficos de la muestra utilizada (Tabla 12) reflejan

que la proporción del sexo femenino fue notoriamente mayor, que la
mayoría de los examinandos son solteros, en un rango de edad de 22 a
25 años y su promedio en la licenciatura se encuentra en el rango de 8 a
9 de calificación.
Tabla 12
Distribución porcentual de las variables Sociodemográficas de la mues-
tra.
__________________________________________________
__________________________________________________
__________________________________________________
__________________________________________________
Promedio de
Licenciatura Porcentaje Edad Porcentaje
__________________________________________________
6.0 - 6.5 0.22 21 o Menos 1.99
6.6 - 7.0 1.44 22 - 25 38.12
7.1 - 7.5 7.51 26 - 30 25.75
7.6 - 8.0 18.23 31 - 35 14.14
8.1 - 8.5 37.57 36 - 39 10.72
8.6 - 9.0 23.98 41 o más 8.95
9.1 - 9.5 8.18 99.67
9.6 - 10.0 1.33
__________________________________________________
__________________________________________________

empleando la estrategia MRMM. El modelo multioperación cognitiva y
multicampo de conocimiento quedó construido por dos operaciones cog-
nitivas Comprender y Aplicar y un campo de conocimiento, el Teórico,

conformados a partir de las variables observadas.
Así, se puede establecer que las operaciones cognitivas Comprender y

Aplicar y el campo de conocimiento Teórico, poseen validez de construc-
to convergente. Al buscar validez de constructo discriminante, los cons-
tructos de operación cognitiva presentaron una covarianza no
significativa, lo que indica que las ejecuciones de los sustentantes fue-
ron capaces de discriminar entre estos constructos. Algo similar se pre-
sentó entre los constructos de los campos de conocimiento Así, se puede
decir que el modelo tiene validez divergente también.
Figura 3. Modelo Multioperación Cognitiva - Multicampo de Conocimiento de un

banco de ítems intencional del Examen de Egreso de Pedagogía - Ciencias
de la Educación. La X2= 82 (gl 101), p = .90; IBBAN=.77, IBBANN=.99,
IAC=.99 y RMSEA=.000. Los pesos factoriales son significativos a p<.05.
Las líneas discontinuas representan relaciones no significativas.

2
al modelo. La X resultante fue de 82, con 101 gl, asociada a una p =
.90; el IBBAN fue igual a 0.77, el IBBANN fue de .99 y el IAC, considera-
do el índice más preciso para la medida de ajuste fue igual a .99. RMSEA
fue igual a 0.000 con un intervalo de confianza de 0.000, 0.032 (Hu y
Bentler, op. cit.). Este modelo teórico no es significativamente diferente
-en cuanto a poder de explicación- del modelo saturado y es teórica-
mente plausible (MacCallum y Austin, op. cit).
En términos del modelo probado, fue posible obtener, mediante AFC,

factores de dos operaciones cognitivas hipotetizadas, la de Comprender
y la de Aplicar, y de un campo de conocimiento, el Teórico. Los factores
identificados explicaron el proceso de responder a esta examinación de
egreso con niveles diferenciales de varianza explicada entre sustentan-
tes: cuando los sustentantes enfrentaron la demanda de Aplicar conoci-
miento Teórico fue del 25% y cuando fue Comprender conocimiento
Teórico, del 12%, todo ello, en sustentantes que comprenden y aplican
fundamentos de la disciplina para responder un banco de ítems de un
examen de egreso en Pedagogía - Ciencias de la Educación.
Con base en la evidencia recaba, es posible confiar en las inferencias a

ser hechas a partir de los puntajes obtenidos por los sustentantes en las
operaciones cognitivas Comprender y Aplicar. Sus pesos factoriales re-
flejan evidencia moderada con el factor hipotetizado.
Los puntajes mostraron que la mejor ejecución de los examinandos se

dio en Aplicar más que en Comprender (t = -7.14, 224 gl, p = 0.000) y
que el índice de consistencia interna de esta operación requiere mejorar
la homogeneidad entre los reactivos que lo componen (Alfa = 0.53).
Con referencia a los campos de conocimiento, la evidencia mostró que

aun cuando los sustentantes ejecutaron significativamente mejor en el
conocimiento Teórico que en el Técnico (t = 12.22, gl, 224, p = 0.000),
los puntajes obtenidos en el campo Técnico no validaron el constructo
hipotetizado en la muestra intencional de reactivos provista por el cen-
tro de evaluación.
De aquí que el diseñador de exámenes pueda tener confianza en la in-

teóricos pero tomar con precaución los del conocimiento Técnico. El índi-
ce de consistencia interna (Alfa = 0.53) en este método también requie-
re mejorar la homogeneidad entre ítems.
Con base en los resultados, el modelo probado aportó evidencia sólida

que permite dar cuenta de la influencia de las dos fuentes de contenidos
investigadas sobre el proceso de responder a este tipo examinación pero

mostró, también, debilidad para entenderlo a cabalidad.
En resumen, la estrategia utilizada permitió recoger varianza que expli-

có la ejecución de los sustentantes en el banco de ítems analizados en
función de los dos rasgos medidos, influidos por uno de los métodos en
los que fueron medidos. También permitió modelar las relaciones es-
tructurales entre los constructos hipotetizados, de manera integral y con
carácter confirmatorio. Así, ha sido factible entender cómo la interacción
entre las diversas fuentes de contenido incluidas en los ítems investiga-
dos explica o no los resultados en un banco intencional de examinación
a gran escala en una disciplina particular.
Finalmente, cabe enfatizar que los resultados de este estudio solo pue-
den ser generalizados bajo el modelo teórico del proceso de responder
puesto a prueba y en las condiciones en las que fueron colectados los
puntajes. Las evidencias empíricas de la estructura de los constructos
sólo describen la utilidad del enfoque utilizado respecto de estos cons-
tructos y con la muestra intencional de reactivos disponibles. Si bien los
hallazgos sugieren mejora en las medidas del campo de conocimiento
Técnico, estos no pueden generalizarse a la totalidad de los puntajes de
la población que ha sustentado el examen de egreso del cual se extraje-
ron los datos debido a que las muestras de ítems y de sustentantes fue-
ron intencionales.
Validación de constructo en tres bancos intencionales de

ítems del Examen General de Egreso de la licenciatura en
Psicología del CENEVAL
Caracterizando el Examen General de Egreso de la licenciatura
en Psicología
Es un examen objetivo que evalúa las competencias establecidas como

esenciales para una práctica profesional inicial de buena calidad. Se
toma por decisión voluntaria, personal o institucional, y es independien-
te de los procesos de evaluación o certificación que realizan las Institu-
ciones de Educación Superior. Evalúa componentes significativos de: a)
la formación básica común a todo recién egresado y b) de la formación
específica en una de cuatro áreas de aplicación: Clínica, Educativa,
Industrial y Social. Está dirigido a los psicólogos que hayan cubierto el
100% de los créditos, estén titulados o no. Evalúa el dominio y la pericia
sobre conocimientos, habilidades y valores esenciales, comunes, signifi-
cativos y de buena calidad para:
ELABORACIÓN DE EXÁMENES Y REACTIVOS OBJETIVOSO
l comprender los fundamentos teóricos de la disciplina, tanto en el

ámbito de la formación básica como en el de la formación específica
del área en la que se desenvuelve el sustentante;
l utilizar las estrategias, los procedimientos y la instrumentación

adecuados para resolver las demandas planteadas en los campos de
aplicación profesional, así como para recopilar, organizar, analizar e
interpretar información cuantitativa y cualitativa para traducirla a
eventos psicológicos;
l seleccionar y aplicar técnicas, instrumentación y procedimientos

psicológicos para la observación, detección, diagnóstico, interven-
ción, evaluación, prevención y desarrollo, así como para interpretar
y comunicar los resultados derivados de su función profesional;

nacional;

l anticipar y ajustarse a cambios que afecten su quehacer profesional y
l dominar los valores profesionales, el respeto a la diversidad y la

promoción de lo justo y equitativo.
Es un examen objetivo, compuesto por 300 reactivos de opción múltiple.

La porción común del examen representa el 62% y la específica el 38%,
en el total del examen. Debido a que el examen incluye una porción co-
mún y una específica, diferente, a las otras, se hizo necesario hacer el
modelamiento estructural por cada área específica.
Validación de constructo en Psicología Clínica

Con respuestas de 366 sustentantes a una muestra intencional de 38

ítems objetivos, aplicados a gran escala, se realizó un análisis factorial
confirmatorio, con matriz multioperación cognitiva – multicampo de co-
nocimiento, donde los rasgos representaron tres operaciones cognitivas
demandadas para resolver los ítems y los campos, tres tipos de conoci-
miento del contenido que se evalúa en ellos. Cada reactivo se ligó a una
operación cognitiva y a un campo de conocimiento.

tran que la proporción de mujeres fue importantemente mayor, que la
mayoría de los examinandos están casados o en unión libre y en un ran-

go de edad de 21 años o menos, con un promedio en la licenciatura que
se encuentra en el rango de 8 a 9 de calificación.
Tabla 13
Distribución porcentual de las variables sociodemográficas de la
muestra.
__________________________________________________
__________________________________________________
__________________________________________________
__________________________________________________
Promedio de
__________________________________________________
6.0 - 6.5 0.50 21 o Menos 53.90
6.6 - 7.0 0.70 22 - 25 23.20
7.1 - 7.5 4.10 26 - 30 10.30
7.6 - 8.0 14.30 31 - 35 6.20
8.1 - 8.5 27.70 36 - 39 5.00
8.6 - 9.0 30.90 41 o más 0.00
9.1 - 9.5 15.70
9.6 - 10.0 4.10
__________________________________________________
__________________________________________________
La fi gu ra 4 re pre sen ta grá fi ca men te los re sul ta dos ob te ni dos del

AFC em plean do la es tra te gia MOCMCC. El mo de lo mul tio pe ra ción
cog ni ti va y mul ti campo de co no ci mien to que dó cons trui do por dos
cons truc tos de ope ra ción cog ni ti va Com pren der y Apli car y dos
cons truc tos del cam po de co no ci mien to, el Teó ri co y el Com bi na do,
con for ma dos a par tir de las va ria bles ob ser va das. Se pudo es ta ble-
cer que las ope ra cio nes cog ni ti vas Com pren der y Apli car y los cam-
pos de co no ci mien to Teó ri co y Com bi na do, po seen va li dez de
cons truc to con ver gen te. Sin em bar go, sólo la ope ra ción cog ni ti va
Apli car in te rac túa con los cam pos de co no ci mien to Teó ri co y Com bi -
na do, no así la ope ra ción cog ni ti va Com pren der que, al pa re cer,
mues tra más un efec to de ras go que de mé to do.

de un banco intencional de reactivos de un examen de egreso de la
licenciatura en Psicología Clínica. La X 2=.53 (gl 61), p = .74;
IBBAN=.66, IBBANN=1, IAC=1 y RMSEA=.000. Los pesos factoriales
son significativos a p<.05. Las líneas discontinuas representan
relaciones no significativas.

2
al modelo. La X resultante fue de .53, con 61 gl, asociada a una p = .74;
el IBBAN fue igual a 0.66, el IBBANN fue de 1 y el IAC, considerado el ín-
dice más preciso para la medida de ajuste fue igual a 1. RMSEA fue igual
a 0.000, con un intervalo de confianza (90%) de 0.000, 0.024. Este mo-
delo teórico no es significativamente diferente -en cuanto a poder de ex-
plicación- del modelo saturado y es teóricamente plausible (MacCallum
y Austin, op. Cit.).
En términos del modelo probado fue posible obtener factores de dos

operaciones cognitivas hipotetizadas, la de Comprender y la de Aplicar,
y de dos campos de conocimiento, el Teórico y el Combinado. Los facto-
res identificados explicaron el proceso de responder en este banco in-
tencional de examinación de egreso en Psicología Clínica con niveles
diferenciales de varianza explicada entre sustentantes: cuando el sus-
tentante enfrentó la demanda de aplicar conocimiento combinado, la va-
rianza explicada fue importante (78%), en tanto que la de comprender
conocimiento combinado (51.2%), aunque considerable, aportó menor
explicación al proceso de responder. Todo ello, en sustentantes que
comprenden y aplican conceptos y principios de la disciplina para res-
ponder un examen de egreso en el área.
Con base en la evidencia recabada es posible confiar en las inferencias a

ser hechas a partir de los puntajes obtenidos por los sustentantes en las
operaciones cognitivas Comprender y Aplicar. Sus pesos factoriales re-
flejan evidencia sólida con el factor hipotetizado. Los puntajes de los
sustentantes mostraron que su ejecución fue mejor en Comprender que
en Aplicar (t = 9.71, 365 gl., p = 0.00) y que en Resolver problemas (t =
4.55, 365 gl., p = 0.00) y no se identificaron diferencias significativas
entre Aplicar y Resolver problemas (t = -1.02, 365 gl, p = .31). Dado
que los puntajes obtenidos por los sustentantes en la operación Resolver
problemas no validaron el constructo hipotetizado, la interpretación a
ser hecha debe ser tomada cautelosamente.
Con referencia a los campos de conocimiento, la evidencia mostró que

aun cuando los sustentantes ejecutaron significativamente mejor en el
conocimiento Técnico que en el Teórico (t = -2.52, gl, 365, p = 0.01) y el
Combinado (t = 8.58, 365 gl, p = 0.00), los puntajes obtenidos en el
campo Técnico no validaron el constructo hipotetizado, en tanto que sí lo
hicieron para los conocimientos Teórico y Combinado, en la muestra in-
tencional de reactivos. De aquí que sólo se pueda confiar en la interpre-
tación de los puntajes derivados de la medición de conocimientos
teóricos y combinados, pero tomar con precaución los del conocimiento
Técnico. El índice de consistencia interna (alfa=.36) en este método

muestra insuficiente homogeneidad entre los reactivos que lo compo-
nen.
A continuación, se discuten las evidencias a favor de los constructos y de

su validez convergente y divergente.
Cuatro indicadores de la operación Aplicar se relacionaron significativa-

mente con el factor hipotetizado y tres de ellos mostraron estar influidos
significativamente por el conocimiento Combinado, y uno por el conoci-
miento Teórico. La proporción de varianza explicada por el rasgo Aplicar,
en interacción con el método conocimiento Combinado constituye evi-
dencia fuerte tanto para el rasgo, como para elegir el mejor método para
medirlo. Su índice global de consistencia interna es bueno (alfa=.72), lo
que permite confiar en las medidas que la constituyen.
Los indicadores del rasgo Comprender se relacionaron positiva y signifi-

cativamente con el factor hipotetizado, y al no recibir ninguna influencia
de los factores asociados al campo de conocimiento, se puede decir que
se trata de un factor, que en una matriz MRMM se considera como un
factor sólo de rasgo.
Las relaciones no significativas entre los rasgos Comprender, Aplicar y

Resolver muestran validez discriminante de constructo; lo mismo ocurre
para los constructos correspondientes a los métodos Teórico, Técnico y
Combinado.
En cambio, no fue posible obtener evidencia sólida en dos de los cons-

tructos hipotetizados. La operación cognitiva Resolver problemas no se
configuró como un factor, como teóricamente se esperaba. Problemas
psicométricos en la calidad de sus medidas (mostraron covariar muy
bajo o negativamente) y la sub representación del constructo en el ban-
co utilizado, atentaron contra su validez (Messick, 1995). Una situación
similar fue encontrada en la dimensión campo de conocimiento Técnico,
que no pudo ser conformada como factor.
Las evidencias empíricas de la estructura de los constructos sólo descri-

ben la utilidad del enfoque utilizado respecto de estos constructos y con
la muestra intencional de reactivos disponibles. Si bien los hallazgos su-
gieren mejora en las medidas de la operación Resolver problemas y en el
campo de conocimiento Técnico, estos no pueden generalizarse a la to-
talidad de los puntajes de la población que ha sustentado el examen de
egreso del cual se extrajeron los datos debido a que las muestras de
ítems y de sustentantes fueron intencionales.
Validación de constructo en Psicología Educativa

Con respuestas de 380 sustentantes a una muestra in tencional de 22

ítems objetivos, aplicados a gran escala, se realizó un análisis facto -
rial confirmatorio, con matriz multioperación cognitiva – multicampo
de conocimiento. Al igual que en los estudios precedentes, cada
reactivo se ligó a una operación cog nitiva y a un campo de co no ci-
miento.
Resultados

tran que la proporción de mujeres fue mayor, la mayoría están casados
y en un rango de edad de 21 años o menos y su promedio en la licencia-
tura se encuentra en el rango de 7.6 a 8.5 de calificación.
Tabla 14
Distribución porcentual de las variables sociodemográficas de la mues-
tra.
__________________________________________________
__________________________________________________
__________________________________________________
__________________________________________________
Promedio de
__________________________________________________
6.0 - 6.5 0.87 21 o Menos 41.99
6.6 - 7.0 4.76 22 - 25 25.11
7.1 - 7.5 17.25 26 - 30 15.15
7.6 - 8.0 31.10 31 - 35 9.52
8.1 - 8.5 25.00 36 - 39 4.76
8.6 - 9.0 17.00 41 o más 0.00
9.1 - 9.5 0.43
9.6 - 10.0 0.10
__________________________________________________
__________________________________________________

empleando la estrategia MOCMCC con las respuestas al banco de ítems
utilizado. El modelo multi-operación cognitiva y multicampo de conoci-
miento quedó construido por una operación cognitiva Comprender y dos
campos de conocimiento, el Teórico y el Combinado, conformados a par-
tir de las variables observadas.

de un banco intencional de reactivos de un examen de egreso de la
Licenciatura en Psicología Educativa. La X 2= 31 (gl 31), p = .43; IBBAN
= .74, IBBANN = .98, IAC = .99 y RMSEA = .007. Los pe sos factoriales
son significativos a p< .05. Las líneas discontinuas representan
relaciones no significativas.
Se pudo establecer que la operación cognitiva Comprender y los campos

de conocimiento Teórico y Combinado, poseen validez de constructo
convergente. Al buscar validez de constructo discriminante, los cons-
tructos de operación cognitiva presentan una covarianza baja y no signi-
ficativa, lo que indica que las ejecuciones de los sustentantes fueron
capaces de discriminar entre estos constructos. Algo similar se presentó
entre los constructos de los campos de conocimiento Así, se puede decir
que el modelo tiene validez divergente.

2
al modelo. La X resultante fue de 31, con 31 gl, asociada a una p = .43;
el IBBAN fue igual a 0.74, el IBBANN fue de .98 y el IAC, considerado el
índice más preciso para la medida de ajuste fue igual a .99. RMSEA fue
igual a 0.000 con un intervalo de confianza (90%) de 0.000, 0.048 (Hu y
Bentler, 1999). Esto significa que este modelo teórico no es significati-
vamente diferente -en cuanto a poder de explicación- del modelo satu-
rado y es teóricamente plausible (MacCallum y Austin, 2000).
Con base en la evidencia recabada, es posible confiar en las inferencias a

ser hechas a partir de los puntajes obtenidos por los sustentantes en la
operación cognitiva Comprender. Sus pesos factoriales reflejan eviden-
cia moderada con el factor hipotetizado. Los puntajes mostraron que su
ejecución fue mejor en Comprender que en Aplicar (t = 2.976, 230 gl., p
= 0.003) y que en Resolver problemas (t = 2.285, 230 gl, p =0.023) y
no se identificaron diferencias significativas entre Aplicar y Resolver pro-
blemas (t = -1.02, 365 gl, p = 0.31). Sin embargo, los puntajes obteni-
dos por los sustentantes en las operaciones Aplicar y Resolver
problemas deben ser tomados con cautela porque no validaron los cons-
tructos hipotetizados.
Con referencia a los campos de conocimiento, la evidencia mostró diferen-

cias significativas a favor del Teórico sobre la ejecución en el Técnico (t =
2.63, 230 gl, p = 0.009) y en el Combinado (t = 6.293, 230 gl, p = 0.000.
La ejecución en el campo Técnico también fue significativamente mejor
que en el Combinado (t = 4.851, 230 gl, p = 0.000). Pero los puntajes ob-
tenidos en el campo Técnico no validaron el constructo hipotetizado, en
tanto que sí lo hicieron para los conocimientos Teórico y Combinado, en la
muestra intencional de reactivos provista por el centro de evaluación. De
aquí que el diseñador de exámenes pueda ganar confianza en la interpre-
tación de los puntajes derivados de la medición de conocimientos teóricos
y combinados, pero tomar con precaución los del conocimiento Técnico. El
índice de consistencia interna (Alfa = 0.17) en este método muestra insu-
ficiente homogeneidad entre los reactivos que lo componen.

para que la interpretación de los puntajes sea relevante.
Cuatro indicadores de la operación Comprender se relacionaron sig-

nificativamen te con el factor hipotetizado. Dos de ellos mostraron
estar influidos significativamen te por el conocimien to Teórico, uno
por el conocimiento Técnico y otro por el Combinado. La proporción
de varianza explicada por el rasgo Comprender, en interacción con el
método conocimiento Teórico constituye evidencia moderada a favor
del rasgo y en apo yo a la elección del mejor méto do para me dirlo. En
cambio, deberá establecerse evidencia suficiente con relación a los
conocimientos Técnico y Combinado Sus índices de consistencia in-
terna son in su ficien tes (alfa = .17 y .16, respectivamente), lo que no
permite confiar en las medidas que los constituyen. Requiere resol-
ver este problema psicométrico, aumen tar la represen tatividad del
cons truc to y me jorar las medidas a fin de ganar va lidez en las in fe -
rencias a ser hechas.

Combinado.
Las operaciones cognitivas Aplicar y Resolver problemas no se configu-

raron como factores, como teóricamente se esperaba, esto puede de-
berse a que sus medidas mostraron covariar muy bajo o negativamente
con el constructo correspondiente y a que en Resolver problemas existe
una sub representación de constructo (Messick, 1995) que pone en ries-
go su medición. Una situación psicométricamente similar fue encontrada
en la dimensión campo de conocimiento técnico, que no pudo ser con-
formada como factor a pesar de ser la dimensión con mayor número de
ítems.
Cabe enfatizar que los resultados de este estudio solo pueden ser ge-
neralizados bajo el modelo teórico puesto a prueba y en las condicio-
nes en las que fueron recolectados los puntajes. Si bien los hallazgos
sugieren mejora en las medidas de las operaciones “Aplicar” y “Resol-
ver problemas” y en el campo de conocimiento “Técnico”, estos no
pueden generalizarse a la totalidad de la población que ha sustentado
el examen de egreso del cual se extrajeron los datos utilizados en este
estudio debido a que las muestras de ítems y de sustentantes fueron
intencionales.
Validación de constructo en Psicología del Trabajo

Con respuestas de 197 sustentantes a una muestra intencional de 29

ítems objetivos se realizó un análisis factorial confirmatorio, con ma-
triz multioperación cognitiva - multicampo de conocimiento, bajo las
mismas condiciones que en los estudios previamente descritos. Cada
reactivo se ligó a una operación cognitiva y a un campo de conoci-
miento.
Resultados

tran que la proporción de mujeres fue mayor, la mayoría de los susten-
tantes están casados y en un rango de edad de 21 años o menos. Su
promedio en la licenciatura se encuentra en el rango de 7.6 a 9 de califi-
cación.
Tabla 15
Distribución porcentual de las variables sociodemográficas de la
muestra.
__________________________________________________
__________________________________________________
__________________________________________________
__________________________________________________
Promedio de
__________________________________________________
6.0 - 6.5 0.00 21 o Menos 48.20
6.6 - 7.0 0.08 22 - 25 25.90
7.1 - 7.5 4.40 26 - 30 11.00
7.6 - 8.0 20.90 31 - 35 6.70
8.1 - 8.5 30.50 36 - 39 7.10
8.6 - 9.0 28.50 41 o más 0.00
9.1 - 9.5 12.00
9.6 - 10.0 2.80
__________________________________________________
__________________________________________________

empleando la estrategia MRMM. El modelo multioperación cognitiva y
multicampo de conocimiento quedó construido por la operación cogniti-
va Aplicar y el campo de conocimiento Técnico. La operación Aplicar y el
campo Técnico, poseen validez de constructo convergente. Al buscar va-
lidez de constructo discriminante, los constructos de operación cognitiva
presentaron una covarianza baja y no significativa, lo que indica que las
ejecuciones de los sustentantes fueron capaces de discriminar entre es-
tos constructos. Algo similar se presentó entre los constructos de los
campos de conocimiento Así, se puede decir que los constructos poseen
validez divergente.
Figura 6. Modelo Multioperación Cognitiva Multicampo de conocimiento de un

banco intencional de examinación de egreso en Psicología del Trabajo. La
X2=17 (gl 20), p = .65; IBBAN=.74, IBBANN=.99, IAC=.99 y RMSEA=.000.
Los pesos factoriales son significativos a p<.05. Las líneas discontinuas
representan relaciones no significativas.

2
al modelo. La X resultante fue de 17, con 20 gl, asociada a una p =
.65; el IBBAN fue igual a .74, el IBBANN fue de .99 y el IAC, considera-
do el índice más preciso para la medida de ajuste fue igual a .99. El
RMSEA fue igual a .000, con un intervalo de confianza (90%) de .000 a
.051 (Hu y Bentler, 1999). Esto significa que este modelo teórico no es
significativamente diferente -en cuanto a poder de explicación- del
modelo saturado y es teóricamente plausible (MacCallum y Austin,
2000).
Los factores identificados explican el proceso de responder a esta

examinación de egreso en Psicología del Trabajo sólo cuando los sus-
tentantes enfrentan las demandas de Aplicar conocimiento Teórico
(58%), Aplicar conocimiento Combinado (37%) y Aplicar conocimien-
to Técnico (9%), bajo las condiciones en las que se realizó este estu-
dio, particularmente, en sustentantes que comprenden y aplican
conceptos y principios de la disciplina para responder un examen de
egreso en el área.
Sin embargo y aun cuando es posible confiar en las inferencias a ser he-
chas a partir de los puntajes obtenidos por los sustentantes en la opera-
ción cognitiva Aplicar, los puntajes que muestran diferencias
significativas a favor de la ejecución en la operación Comprender sobre
la de Aplicar (t =5.427, 197 gl, p=.000) y Resolver problemas (t =
4.708, 197 gl, p =.00) deben ser tomados con cautela porque no valida-
ron los constructos hipotetizados.
Con referencia a los campos de conocimiento, la evidencia mostró dife-

rencias significativas a favor del campo Teórico sobre la ejecución en el
Técnico (t = 2.06, 197 gl, p = 0.04), pero no en el Combinado (t =
0.300, 197 gl, p = 0.764). La ejecución en el campo Técnico fue signifi-
cativamente menor que en el Combinado (t = -2.00, 197 gl, p = 0.047).
Pero los puntajes obtenidos en los campos Técnico y Combinado no vali-
daron el constructo hipotetizado, en tanto que sí lo hicieron para el co-
nocimiento Teórico, en la muestra intencional de reactivos provista por
el centro de evaluación.
De aquí que el diseñador de exámenes pueda ganar confianza en la in-

Técnicos pero tomar con precaución los del conocimiento Teórico y los
del Combinado. El índice de consistencia interna (Alfa = 0.37) en el mé-
todo Teórico muestra insuficiente homogeneidad entre los reactivos que
lo componen.

para que la interpretación de los puntajes sea relevante.
Cuatro indicadores de la operación Aplicar se relacionaron significa-

tivamente con el factor hipotetizado. Uno de ellos mostró estar in-
fluido significativamente por el conocimiento Teórico, otro por el
conocimiento Técnico y otro por el Combinado. La proporción de va -
rianza explicada por el rasgo Aplicar, en interacción con el método
conocimiento Técnico constituye evidencia moderada a favor del ras -
go y en apo yo a la elección del mejor méto do para medirlo. En cam-
bio, deberá establecerse evidencia suficiente con relación a los
conocimientos Teórico y Combinado El índice de consistencia interna
del cam po Teó rico es in su ficien te (alfa = .37), lo que no per mite con -
fiar en las medidas que lo cons titu yen. Requie re resolver este pro -
blema psicométrico, aumentar la representatividad del constructo y
mejorar las medidas a fin de ganar va lidez en las in fe ren cias a ser
he chas.

Combinado.
Las operaciones cognitivas Comprender y Resolver problemas no se

configu raron como factores, como teóricamente se esperaba, esto
puede deberse a que sus medidas mostraron covariar muy bajo o ne-
gativamente con el constructo correspondiente y a que en Resolver
problemas existe una sub representación de constructo (Messick,
1995) que pone en riesgo su medición. Una situa ción psicométrica-
mente similar fue encon trada en las dimensiones Campo de conoci-
miento Teórico y Combinado, que no pudieron ser conformadas
como factores.
Cabe enfatizar que los resultados de este estudio solo pueden ser gene-
ralizados bajo el modelo teórico puesto a prueba y en las condiciones en
las que fueron recolectados los puntajes. Si bien los hallazgos sugieren
mejora en las medidas de las operaciones “Comprender” y “Resolver
problemas” y en los campos de conocimiento “Teórico” y “Combinado”,
estos no pueden generalizarse a la totalidad de la población que ha sus-
tentado el examen de egreso del cual se extrajeron los datos utilizados
en este estudio debido a que las muestras de ítems y de sustentantes
fueron intencionales.
Conclusiones generales
En resumen, la estrategia utilizada permitió recoger varianza que ex-

plicó el proceso de responder en función de dos fuentes de contenido
incluidas en los ítems de la examinación utilizados. También permitió
modelar las relaciones estructurales entre los constructos hipotetiza-
dos, de manera integral y con carácter confirmatorio. Así, se hizo fac-
tible enten der cómo la interacción entre las fuen tes de contenido
investigadas explica o no los resultados del proceso de responder en
un banco intencional de examinación a gran escala en una disciplina
particular.
Los modelos obtenidos, además de verificar la validez de constructo de

las medidas analizadas, permitieron corroborar la pertinencia de estu-
diar el proceso de responder bajo la perspectiva AFC con matriz multio-
peración cognitiva - multicampo de conocimiento.
Y, en tanto la validez es aproximada como hipótesis -del significado in-

terpretativo deseado a partir de los datos generados por la medición-
generar cadenas de evidencias que liguen la interpretación de los punta-
jes a la red de teoría e hipótesis que explican el proceso de responder a
la examinación, facilitará al diseñador de exámenes tomar decisiones
para que los datos generados por los ítems soporten o refuten la racio-
nalidad de la interpretación de los puntajes obtenidos por los sustentan-
tes.
En el contexto empírico de construir exámenes objetivos a gran escala,

las agencias evaluadoras podrán tomar ventaja de evidencias, como las
generadas aquí, que le den al constructor de exámenes confianza en sus
medidas, particularmente en países cuya tradición en este tipo de medi-
ción y para efectos de certificación de conocimientos, es reciente, como
es el caso de México. Si el éxito en las tareas de un examen son una
muestra representativa del éxito en las tareas deseadas en el dominio
de conocimiento, las inferencias a ser hechas podrán sostenerse cuando
los puntajes constituyan evidencia empírica sólida para los constructos
hipotetizados.
Debido a que la medición es un proceso inferencial, estudios que validen

diversas fuentes de contenido constituyen líneas de generación de evi-
dencia importantes a favor del atributo a ser medido. Señalan, también,
nuevas líneas de investigación para una mejor caracterización del fenó-
meno de responder exámenes objetivos aplicados a gran escala. Es a
través de evidencias sólidas como el especialista tendrá seguridad de
que el dato obtenido apoya las inferencias a ser hechas.
Finalmente, cabe enfatizar que los resultados de estos estudios sólo

pueden ser generalizados bajo el modelo teórico del proceso de res-
ponder puesto a prueba y en las condiciones en las que fueron colec-
tados los puntajes. Las evidencias empíricas de la estructura de los
constructos sólo describen la utilidad del enfoque utilizado respecto
de estos constructos y con la muestra intencional de reactivos dispo-
nibles.
Entender el proceso de respon der a examinación de egreso requiere,

indiscutiblemente, validar fuentes de contenido incluidas en los ítems,
donde la complejidad creciente entre las operaciones cognitivas de-
mandadas (desde comprender y aplicar fundamentos disciplinares,
hasta resolver problemas de la vida profesional) y los tipos de conoci-
miento en los que es evaluada la operación, reflejen, como sería de
esperarse en un examen de egreso, la compleja interacción entre ca-
tegorías heterogéneas de conocimientos, habilidades y valores que
caracterizan al aprendizaje derivado de la formación profesional ini-
cial. La examinación objetiva, a gran y pequeña escala, necesita en el
futuro inmediato, representar mejor los constructos subyacentes a la
examinación, construir o seleccionar medidas válidas a esos construc-
tos y validar las evidencias que el arreglo de medición genera para es-
tar en capacidad de elaborar las inferencias a ser hechas. Así,
identificar impactos adversos de varianza relevante (o irrelevante)
del constructo en el examen constituye una pieza clave para apreciar
su valor funcional y justificar su uso.
Referencias
Bentler, P. M. (1993). EQS: Structural Equations Program Manual. CA:
BMPD Statistical Software, Inc.
Campbell, D. T., & Fiske, D. W. (1958). Convergent and discriminant va-
lidations by multitrait-multimethod matrix. Psychological Bulletin.
56, 81-105.
UNAM.
narios educativos. Revista Sonorense de Psicología. 12(2), 57-67.
and Life-long Learning. UK: UNESCO 12, 1-4, 106.
Castañeda, S. (2003). Construyendo puentes entre la teoría y la prácti-

ca. Pensamiento Educativo. Pontificia Chile: Universidad de Chile.
32, 155-176.
Castañeda, S. Bazán, A. Sánchez, B. & Ortega, I. (2004). Validez aprio-
rística y empírica de constructos. Modelamiento estructural de por-
ciones extensas de exámenes objetivos a gran escala. Revista
Latina de Pensamiento y Lenguaje y Neuropsicología Latina, 12(2),
183-198.
Castañeda, S., González, D., López, O., García-Jurado, R. & Pineda, L.
(2003). Escala de valoración de fuentes de contenido en ítems ob-
jetivos. Documento de trabajo del proyecto de investigación
CONACYT 40608-H.
Castañeda, S., Ortega, I. & García Jurado, R. (2005, Julio). Exploring
Aprioristic and Empirical Difficulties in Sources of Content of Large
Scale Objective Exam Items. Trabajo presentado en el Noveno Con-
greso Europeo de Psicología, Granada, España.
Corral, V. (1995). Modelos de variables latentes para la investigación
conductual, Acta comportamental., 3, 171-190.
Corral, V. (2002). Structural equation modeling. En R. Bechtel & A.
Churchman (Eds.), Handbook of Environmental Psychology (pp.
256-270). N.Y.: John Wiley.
Embretson, S. E. (1983). Construct Validity: Construct Representation
Versus Nomothetic Span. Psychological Bulletin. 93(1), 179-197.
Embretson, S. E. (1999). Cognitive Psychology Applied to Testing. En F.
T. Durso, R. S. Nickerson, R. W. Schvanevelt, S. T. Dumais, D. S.
Lindsay & M. T. H. Chi (Eds.), Handbook of Applied Cognition. N.Y.:
John Wiley.
Embretson, S. E. (2002). Generating Abstract Reasoning Items with
Cognitive Theory. En S. H. Irvine y Patrick C. Kyllonen (Ed.), Item
Generation for Test Development. (pp.219-250). EE. UU.: LEA.
Gorsuch, R. L. (1983). Factor Analysis. Hillsdale, NJ: Erlbaum Publishers.
Hair, J., Anderson, R., Tatham, R. & Black, W. (1999). Análisis Multiva-
riante. España: Prentice Hall Iberia.
Hornke, L. F. & Habon, M. W. (1986). Rule-base item bank construction
and evaluation within the linear logistic framework. Applied Psycho-
logical Measurement. 10, 369-380.
Hu, L. & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance
structural analysis: Conventional criteria versus new alternatives.
Structural Equation Modeling, 6, 1-55.
Irvine, S. H. (2002) Item Generation for Test Development: An Intro-
duction. En S. H. Irvine y P. C. Kyllonen. (Eds.) Item Generation for
Test Development. (xv-xxv). EE. UU.: LEA.
Linacre, J. M. & Wright, B. D. (1994). A user’s Guide to BigSteps. Chica-
go, IL: MESA Press.
McCallum, R. C. & Austin, J. T. (2000). Applications of Structural Equa-
tion Modeling in Psychological Research. Annual Review of Psycho-
logy 51, 201–226.
Messick, S. (1989). Validity. En R. L. Linn (Ed.), Educational measure-
ment (3a. Ed.). N.Y.: American Council of Education & McMillan.
32(2), 13-23.
Messick, S. (1995). Validity of Psychological Assessment. Validation on
Inferences From Person’s Responses and Performances as Scienti-
fic Inquiry Into Score Meaning. American Psychologist. 50(9),
741-749.
Mislevy, R. (1993). Foundations of a new test theory. En N. Frederiksen,
R. Mislevy y I. Bejar (Eds.). Test Theory for a New Generation of
Test. Hillsdale, N.J.: LEA.
Mislevy, R., Wilson, M., Ercikan K., & Chudowsky, N. (2003). Psychome-
tric principles in student assessment. En, T. Kellaghan & D. L. Stuf-
flebeam (Eds.), International Handbook of Educational Evaluation.
The Netherlands: Kluwer Academic Press.
Pollit, A. & Ahmed, A. (1999). A New Model of the Question Answering
Process. Participación presentada en la 1999 International Associa-
tion for Educational Assessment Conference realizada en Bled,
Eslovenia.
RASCAL (1992). Rasch Analysis Program (version 3.5). MN.: Assess-
ment Systems Corporation.
Wiley, D. E. (2002). Validity of Constructs Versus Construct Validity of
Scores. En H. I. Braun., D. N. Jackson & D. Wiley (Eds.), The Role Of
Constructs in Psychological and Educational Measurement (pp.
207-227). N.J.: LEA.
Capítulo 5 ?
Variables personales relacionadas con el promedio
académico, la atribución de éxito y la construcción
de teorías del desempeño académico
Aldo Bazán Ramírez
Universidad Autónoma del Estado de Morelos
Rafael Félix Verduzco
Instituto Tecnológico de Sonora
Helena Gaviño Sánchez
Universidad de Sonora
En el capítulo se discute la importancia de variables personales sobre el

desempeño de los estudiantes y se presentan modelos de ecuaciones
estructurales que someten a prueba sus relaciones estructurales, en di-
versos niveles académicos. Se enfatiza la utilidad de estos modelos en la
construcción de teorías a partir de datos de investigaciones empíricas.
Variables motivacionales y desempeño académico

Al aprender las competencias establecidas en los programas formativos,
tanto como al resolver las tareas de evaluación requeridas para mostrar
su dominio, participan diversos componentes que están relacionados
con los estilos y las variables personales de los aprendices. Esto ha deri-
vado en un amplio campo de investigación orientado a describir y expli-
car la influencia de las características personales de los estudiantes
sobre el aprovechamiento escolar. No obstante, la tendencia contempo-
ránea de la investigación educativa muestra que se han realizado menos
estudios sobre variables relacionadas con estrategias de aprendizaje y
componentes motivacionales que en estudios orientados a la medición
del aprendizaje como resultado de la enseñanza. Por ejemplo, Castañe-

da, Lugo, Pineda, y Romero (1998) encontraron que el 60.40% de 700
trabajos publicados de una muestra de 41 países, se orientaron a la eva-
luación del aprendizaje como resultado de la enseñanza y solo el
10.60% se interesaron por realizar investigación acerca del fomento del
aprendizaje mediante estrategias de enseñanza o de aprendizaje, por
ejemplo.
Los resultados de diversas investigaciones orientadas al estudio de los

procesos afectivos, motivacionales y cognoscitivos en estudiantes de ni-
vel superior, dan cuenta de la importancia de estudiar el desempeño es-
colar y su relación con una serie de variables como el aspecto
vocacional, la motivación y el interés, las habilidades y estrategias para
aprender, el autoconcepto académico, la atribución del éxito académico,
entre otras variables personales (Byrne, 1984; Castejón, Navas y Sam-
pascual, 1996; Chartrand, Robbins, Morral y Boggs, 1990; Mavrogenes
y Bezruczko, 1993; Pintrich y de Groot, 1990; Pintrich, 1998 y Weins-
tein, Powdrill, Husman, Roska y Dierking, 1998).
De Corte (1999) afirma que además de la disposición de los niños -moti-

vación e interés- por estudiar y aprender, la investigación ha mostrado
la influencia significativa de las habilidades cognitivas y las creencias de
los estudiantes sobre el aprendizaje y el razonamiento. En primer plano,
las habilidades cognitivas estarían influidas por las estrategias que los
estudiantes utilizan para la adquisición, estructuración y organización
de lo aprendido, así como por las estrategias para la aplicación de los co-
nocimientos adquiridos (Castañeda y Martínez, 1999; Castañeda,
2004).
Para Castañeda (1996), Pintrich (1998) y Weinstein, Powdrill, Husman,

Roska y Dierking (1998), las estrategias cognitivas de aprendizaje son
de tres tipos:
a) Estrategias de ensayo (ayudan al alumno a poner atención, a selec-

cionar la información, y a recordar datos).
b) Estrategias de elaboración (ayudan a hacer paráfrasis o resúmenes

del material a ser aprendido, hacer analogías, apuntar las ideas más
importantes, explicar a otros, y formular y responder preguntas)
c) Estrategias de organización (selección de las ideas principales del tex-

to, esquematización, uso de estrategias específicas de selección y
organización de las ideas en el material).
VARIABLES PERSONALES RELACIONADAS CON EL PROMEDIO 123
ACADÉMICO, LA ATRIBUCIÓN DE ÉXITO Y LA CONSTRUCCIÓN
DE TEORÍAS DEL DESEMPEÑO ACADÉMICO
Al parecer, son los estudiantes expertos y exitosos los que tienen mejo-
res estrategias para analizar problemas y planear un proceso de solu-
ción (De Corte, 1999). Según señalan Weinstein y cols. (1998), estos
estudiantes hacen uso de manera eficaz de sus repertorios de estrate-
gias de aprendizaje para construir significados de manera que la infor-
mación nueva se vuelve una parte de su base organizada de
conocimiento, y que puede en el futuro ser consultada como recordato-
rio, aplicación, o solución de problemas.
Aun cuando los modelos de Aprendizaje Estratégico de Castañeda, Pin-

trich y Weinstein convergen en los tipos de estrategias cognitivas invo-
lucradas en la actividad constructiva de estudiar, cada uno de ellos
diverge en aspectos importantes, por ejemplo, Castañeda incluye en su
modelo multidimensional de Aprendizaje Estratégico, variables autorre-
gulatorias, atribucionales y de control personal, que controlan la activi-
dad metacognitiva y metamotivacional del estudiante como aprendiz,
como también las de las tareas en las que se realiza el aprendizaje y los
materiales a partir de los cuales el aprendizaje se facilita (Castañeda,
2004). Un aspecto a ser resaltado en este modelo es que permite eva-
luar y fomentar las estrategias de interés en los momentos o etapas del
aprendizaje en los que la actividad de estudio se efectúa, por ejemplo,
en la adquisición, la organización, la recuperación, la aplicación o la
transferencia. En otras palabras, incluye componentes que sirven de
base para la toma de decisiones instruccionales, de manera directa. Los
modelos de Pintrich y Weinstein, por su parte, no incluyen este factor
pero sí otros, por ejemplo, la ansiedad en el caso de Weinstein y las es-
trategias para el control de recursos contextuales, en el caso de Pintrich.
De la misma manera, en la educación básica, Kurdek y Sinclair (2000),

en un estudio longitudinal de cinco años, del primero al quinto grado de
primaria, encontraron que el autocontrol cognitivo, las habilidades para
planear, evaluar e implementar soluciones a problemas predicen habili-
dades en lectura y en matemáticas, al igual que lo hacen con la ejecu-
ción en pruebas estandarizadas de lectura y matemáticas y con las
calificaciones escolares en lectura.
Respecto a las creencias de los estudiantes, variables personales tam-

bién, diversas investigaciones presentan evidencias de que las creen-
cias, las expectativas y la autovaloración de los alumnos respecto a su
dominio sobre las materias, sobre sí mismos como agentes de conoci-
miento, y sobre sus capacidades para el aprendizaje y la solución de
problemas, se asocian significativamente con el desempeño académico
(De Corte, 1999 y Pintrich, 1998) e implican al menos tres características:
a) Las creencias relacionadas con la capacidad personal para realizar

una tarea o resolver problemas.
b) Las creencias respecto de la importancia y el valor de la tarea o activi-

dad.
c) Los sentimientos acerca de sí mismo y de las reacciones emocionales

personales hacia la tarea o actividad.
Otra variable de tipo personal, clave para el aprendizaje, tiene que ver
con la propia valoración de los estudiantes con relación a lo que aprende
y como lo aprende. La autovaloración de los estudiantes respecto de sus
propias habilidades académicas y respecto del esfuerzo invertido en la
ejecución de una tarea o solución de problemas, y el dominio percibido
sobre dicha tarea o actividad, constituyen una dimensión fundamental
cuando se analizan los aspectos motivacionales de los estudiantes como
un elemento relacionado con otras variables que influyen en el aprendi-
zaje (Castañeda, 2002). Así por ejemplo, Popham (2000) considera que
evaluar los aspectos afectivos en situaciones de aprendizaje y ejecución
es, tal vez, más importante y más significativo que el evaluar los aspec-
tos cognitivos y el aprendizaje (resultados o logros), puesto que las acti-
tudes, intereses, expectativas y el gusto por los temas que se estudian
influyen, generalmente, en las estrategias de estudio y de solución de
problemas que emplean los alumnos, así como en el desarrollo de estilos
interactivos efectivos para el estudio, en la valoración del estudio y en la
autovaloración respecto al dominio de esos temas.
Con el interés puesto en variables personales, también se han realizado

estudios en la educación básica sobre la relación entre la atribución de
los niños respecto a su éxito o fracaso en el aprendizaje de la lectura y la
escritura y su desempeño académico. Georgiou (1999) encontró que los
estudiantes atribuyen su éxito académico a su esfuerzo, habilidad y
otros factores relacionados con su personalidad, esta autovaloración se
relacionó positivamente con su desempeño académico. En cambio, la
atribución que los niños hacían de su éxito académico a factores exter-
nos y a cuestiones de suerte o el azar, se relacionó negativamente con el
desempeño. El estudio mostró que los niños con bajo rendimiento aca-
démico tienden a atribuir su pobre desempeño a cuestiones de suerte, o
influencia de sus padres o maestros. Cabe enfatizar que diversos estu-
dios han confirmado las relaciones significativas y positivas entre el de-
sempeño académico y la atribución del éxito académico al esfuerzo, la
habilidad y la persistencia -todos factores internos y personales- (Cas-
tejón, Navas y Sampascual, 1996; Miller, 1995 y O’ Sullivan y Howe,
1996).
En este contexto, la atribución de las causas del aprendizaje y del logro

académico tienen que ver con el locus de control, la estabilidad y la posi-
bilidad de control sobre las causas a las que el estudiante atribuye su de-
sempeño y reacción de sus expectativas.
El uso de modelos estructurales

Los cuatro casos que presentaremos en la sección siguiente implican el
uso de modelos de ecuaciones estructurales para la prueba de hipótesis
sobre relaciones entre diversas variables de tipo motivacional, y desem-
peños de estudiantes, en diversos niveles académicos. Estos modelos
son en extremo útiles en la construcción de teorías a partir de datos de
investigaciones empíricas.
Un modelo de ecuaciones estructurales (MEE) permite contrastar un

conjunto de relaciones propuestas - un modelo hipotético - contra las
relaciones manifiestas -los datos- y se conforma por el modelo estructu-
ral y por el modelo de medición (Bazán y Corral, 2001; Corral, 1995;
Bentler, 1995; Schumacker y Lomax, 1996). El análisis de trayectorias y
el análisis de regresión son componentes del modelo estructural de rela-
ciones entre variables manifiestas, mientras que el análisis factorial ex-
ploratorio y el análisis factorial confirmatorio son ejemplos concretos del
modelo de medición, el cual busca establecer relaciones entre un cons-
tructo o variable latente y sus indicadores.
Para este trabajo, presentamos estudios que utilizan como métodos de

análisis de datos, los modelos Path Analysis o análisis de trayectorias,
que plantean relaciones entre variables observables, y el modelo de re-
gresión estructural que plantea relaciones entre variables observables y
variables no observables o constructos; relaciones entre variables no
observables, y relaciones entre estas últimas y sus indicadores. Los mo-
delos de regresión estructural incluyen a su vez, a los modelos de análi-
sis de trayectorias y los modelos de análisis factorial confirmatorio
(Bazán, Sánchez, Corral y Castañeda, 2005 y Raykov y Marcoulides,
2000).
Ejemplos de algunos modelos que involucran variables

personales
Dado que los motivos o actitudes se desarrollan en un largo proceso
complejo de interacciones que regulan y modulan las competencias y
los estilos interactivos de los estudiantes, es muy complicado y costoso
la realización de estudios que describan, de manera secuencial, los pro-
cesos de cambio y de relación entre las variables motivacionales y per-

sonales con el aprendizaje y el aprovechamiento escolar. Por ello es muy
frecuente encontrar en la literatura sobre aprendizaje y desarrollo, estu-
dios que pretenden establecer relaciones de predicción entre variables
motivacionales, de competencias y de personalidad, de características
relativamente invariantes (Corral, 1997 y Ribes, 1990), y variables de
aprovechamiento escolar u otros indicadores de aprendizaje.
Obviamente, sería recomendable el uso de métodos que integren el aná-

lisis de secuencias de desarrollo y análisis de relaciones entre variables
distales y proximales, al estilo de modelos de curvas de desarrollo y de
cambio, pero las condiciones actuales en las que la mayoría de psicólo-
gos educativos en México realizan sus investigaciones, sugieren que los
estudios con modelos latent growth o modelos de curva de desarrollo
(Chan, Ramey, Ramey y Schmittt, 2000; Cribbie y Jamieson, 2000 y
Little, Schnabel y Baumert, 2000) dejen su lugar, temporalmente, a es-
tudios que tratan de probar modelos transversales o de relaciones de
causalidad probabilística entre variables motivacionales y personales,
predictoras de aprendizajes o de actitudes y competencias asociadas
con el aprendizaje.
En el estudio de interacciones y procesos educativos, en el contexto me-

xicano, con excepciones valiosas como las del laboratorio experimental
de Coyoacán de la UNAM, es indudable que los psicólogos educativos
que más han investigado y han contribuido al estudio de los procesos
afectivos y motivacionales relacionados con el aprendizaje y el desem-
peño escolar, han sido los psicólogos que trabajan bajo la perspectiva de
la psicología de la cognición. Los trabajos de los grupos liderados por
Castañeda, por González y por Aguilar son referentes importantes en la
explicación de variables de tipo psicológicas de los estudiantes relacio-
nadas con el aprovechamiento y la certeza vocacional, fundamental-
mente, referidos a componentes del auto sistema del aprendiz. Por una
parte, han sido estudiados conocimientos y habilidades autorregulato-
rios -atribucionales y de control personal- (Aguilar, Martínez, Valencia,
Conroy & Girardo, 1997; Aguilar, Pacheco, Andrade, Vargas, Gutiérrez &
Zetina, 1992; Aguilar, Valencia & Martínez, 2002; Aguilar, Valencia,
Martínez & Vallejo, 2002; Castañeda, 1996; Castañeda, 1998; Castañe-
da & Ortega, 2004; Castañeda & Martínez, 1999; González, Castañeda
& Corral, 2002; González & Maytorena, 2002 y González, Verdugo &
Maytorena, 2002) y por la otra, estilos parentales y aprovechamiento
(Aguilar, Valencia & Romero, 2004 y Aguilar, Valencia, Martínez, Rome-
ro & Lemus, 2003-2004).
A continuación, se describirán algunos modelos de relaciones entre

variables asociadas con el aprovechamiento, la ejecución y la atribu-
ción de éxito y de fracaso, a partir de investigaciones con estudiantes
de diversos niveles educativos. Describiremos, brevemente, una a
una, cuatro investigaciones. Posteriormente, y a manera de conclu-
sión, comentaremos estos estudios en función de dos aspectos rela-
cionados con las variables motivacionales y el desempeño académico
y de ejecución:
a) la influencia del promedio académico en un nivel escolar previo sobre

el aprovechamiento en el siguiente nivel escolar y
b) el papel de la auto evaluación en pruebas de ejecución y atribución de

éxito académico.
Relación entre indicadores de ingreso y permanencia,

promedio académico y habilidades metodológico-concep-
tuales y de análisis de textos científicos
Bazán y García (2002) realizaron un estudio con 113 estudiantes de
segundo, cuarto, sexto, y octavo semestres de una licenciatura en
Ciencias de la Educación de una universidad del Estado de Sonora.
Obtuvieron indicadores proporcionados por la oficina de servicios es-
colares y de los propios estudiantes, mediante un cuestionario de da-
tos personales. También, se evaluaron habilidades metodológicas
conceptuales en la lectura y el análisis de textos científicos.
Un mo de lo de re gre sión li neal múl ti ple aplica do a los da tos re ca ba -

dos mos tró que los me jores pre dic to res del pro me dio es co lar acu -
mu la do en la uni ver si dad fue ron: el se mes tre que cur sa ban los
es tu dian tes (se gun do, cuar to, sex to u oc ta vo se mes tre de edu ca -
ción), el pro me dio aca dé mi co ge ne ral ob te ni do en la pre pa ra to ria y
la edad. Asi mis mo, cuan do se pro bó el mo de lo de re gre sión es truc -
tu ral de in di ca dores de in gre so, pro medio aca dé mi co, auto eva lua -
ción del ni vel de do mi nio de la lec tu ra y ha bi li da des para el aná li sis
de tex tos cien tí fi cos, el mo de lo re sul tan te mos tró que la auto eva -
lua ción del ni vel de do mi nio en la lec tu ra fue el me jor pre dic tor del
do mi nio de ha bi lida des me to do ló gi co-conceptuales (HMC) en la lec -
tu ra y el aná li sis de tex tos. Otro dato im por tan te fue que el pro me -
dio ge ne ral ob te ni do en el ni vel me dio su pe rior (pre pa ra to ria)
pre di jo, de ma ne ra sig ni fi ca ti va y po si ti va, tan to el pro me dio ob te -
ni do en los es tu dios de li cen cia tu ra, como el do mi nio en ha bi lida des
me to do ló gi co-conceptuales.
Análisis de trayectorias de variables relacionadas con ha-

bilidades metodológicas y conceptuales
Esta investigación se realizó con la finalidad de identificar, por un lado,
la organización factorial de habilidades metodológicas-conceptuales en
estudiantes de maestría en educación de una institución de educación
superior del Estado de Sonora, y por otro lado, identificar si estas HMC
están relacionadas con otros factores como el sexo, la experiencia en in-
vestigación, la autovaloración, la edad, y el promedio en licenciatura
(Bazán, García y Borbón, 2005). Los autores evaluaron a 40 estudiantes
de una maestría en Educación (23 estudiantes de primer semestre y 17
estudiantes del cuarto semestre) en once habilidades metodológi-
co-conceptuales en la lectura de un texto especializado de reciente pu-
blicación. Un modelo de análisis estructural de trayectorias mostró que
el promedio obtenido en la licenciatura explicó, de manera significativa,
el dominio de habilidades metodológico conceptuales en estudiantes de
maestría, con relación a variables de edad, sexo, auto evaluación y ex-
periencia en investigación. Asimismo, un análisis de regresión lineal
múltiple que tomó como variable dependiente al dominio de las HMC (el
promedio de las once habilidades evaluadas), y como variables indepen-
dientes, la edad, el sexo, la experiencia en investigación, el semestre
que cursa el estudiante, el promedio obtenido en la licenciatura y la auto
evaluación respecto del nivel de dominio sobre la lectura. Los resultados
mostraron que sólo el promedio obtenido en la licenciatura tiene efectos
positivos en el dominio de las HMC en los estudiantes de maestría en
Educación investigados (p = 0.004).
Regresión estructural entre promedio de preparatoria,

historia de reprobación, estrategias de aprendizaje y el
promedio en licenciatura
Se presentan datos parciales de una investigación realizada con 80 estu-
diantes del último año de la licenciatura en psicología en el Instituto Tec-
nológico de Sonora, Unidad Obregón. Se obtuvieron datos de los
alumnos de servicios escolares y se aplicó un instrumento a la muestra
que indaga las estrategias de aprendizaje, motivación escolar y auto co-
nocimiento, a través de una escala de tipo Likert. La aplicación del ins-
trumento se realizó en los grupos de la materia de Seminario de Tesis.
Previo análisis factoriales, exploratorio y confirmatorio de los ítems del

cuestionario, se identificaron tres factores divergentes, con buenos indi-
cadores de consistencia interna (alfas de Cronbach de .80, .63 y .56
para cada uno de los factores). Con los datos recabados mediante este
cuestionario y los datos obtenidos en servicios escolares, se obtuvo un

modelo de regresión estructural satisfactorio cuyos resultados se pre-
sentan en la Figura 1 (chi cuadrada = 33.65, gl = 22, p = .054, con bue-
na bondad ajuste B-BNFI = 0.92 y CFI = 0.97.
De acuerdo con este modelo, el promedio obtenido en la preparatoria

(PromPre) explica de manera significativa y positiva el promedio acadé-
mico obtenido a lo largo de la carrera de psicología (PromCarr). En con-
traste, el factor (constructo) historia de reprobaciones conformado por
dos indicadores, el índice de reprobación en la carrera de Psicología
(IndiRePs) y el índice de reprobación en toda la carrera académica (Indi-
ReG); el factor estrategias de aprendizaje conformado por indicadores
de estrategias de aprendizaje, motivación escolar y auto conocimiento
respecto de la carrera, y el grupo en el que cursa la materia de seminario
de investigación, no predicen de forma significativa el promedio acadé-
mico acumulado. La figura 1 muestra las relaciones estructurales esta-
blecidas por el modelo generado.
Figura 1. Modelo de regresión estructural de preparatoria, historia de

reprobación, estrategias de aprendizaje, y el promedio en licenciatura.
Atribución de éxito y de fracaso de lectura en inglés en tres

grupos de estudiantes de educación básica
Se reportan datos parciales de un estudio realizado con el propósito de
analizar variables de atribución del éxito y de fracaso en la lectura del
idioma inglés, y otras variables relacionadas con el nivel educativo de los
padres, historia de bilingüismo y autovaloración del dominio en lectura
en inglés. Se investigó a 68 estudiantes varones, de tercero y quinto año
de primaria y primer año de secundaria, de una escuela privada de Ciu-
dad Obregón, Sonora, la cual aplica un programa educativo bilingüe dual
(el tiempo de clases por día se divide en el 50% en inglés y el otro 50%
en español).
Los estudiantes debían responder un cuestionario en inglés adaptado

del cuestionario de atribución causal del desempeño en lectura de O’ Su-
llivan y Howe (1996) que consta de siete preguntas sobre atribución de
éxito en la lectura y las mismas siete preguntas, pero referidas al fraca-
so en la lectura (14 preguntas en total). Las siete variables de atribución
incluidas en el cuestionario, son: esfuerzo, habilidad intelectual, ense-
ñanza (el profesor), gusto por la lectura, ayuda en casa, dificultad del
material de lectura, y el factor suerte. De igual forma, se utilizó un cues-
tionario de 12 preguntas relacionados con el nivel educativo de los pa-
dres, el grado de educación bilingüe de los niños, el número de años que
los niños estudiaron en USA u otro país de habla inglesa, la auto evalua-
ción de los niños sobre el dominio en lectura en inglés, e indicadores de
atribución del éxito y de fracaso en lectura.
En la fi gu ra 2 se pre sen ta un mo de lo de re gre sión es truc tu ral se -

gún el cual, la atri bu ción del éxi to de la lec tu ra en in glés en es tu -
dian tes bi lin gües va ro nes es ex pli ca do, de ma ne ra sig ni fi ca ti va y
po si ti va, por la auto eva lua ción que ha cen los pro pios ni ños res -
pec to del gra do de do mi nio en lec tu ra en in glés. Por otra par te, la
atri bu ción del fra ca so en lec tu ra en in glés es in flui da, sig ni fi ca ti -
va y po si ti va men te, por el gra do de edu ca ción bi lin güe de los ni -
ños, con for ma do por in di ca do res de gra do es co lar y el tiem po
to tal en años de edu ca ción bi lin güe re ci bi do. Asi mis mo, el mo de lo
mues tra que el fac tor “ni vel edu ca ti vo de los pa dres” con for ma do
por in di ca do res de es co la ri dad del pa dre y de la ma dre, tie ne un
efec to sig ni fi ca ti vo y po si ti vo so bre el gra do de edu ca ción bi lin -
güe de los ni ños.
Figura 2. Modelo de regresión estructural de relación entre nivel educativo de

los padres, grado educación bilingüe de los niños, el número de años que los
niños estudiaron, y Atribución del éxito y del fracaso en lectura en inglés.
Sin embargo, llama la atención que el factor “nivel educativo de los padres”
influye de manera negativa y significativa, tanto a la atribución de éxito en
la lectura en inglés, así como a la atribución de fracaso en lectura.
En este modelo, la atribución de éxito y la atribución de fracaso en la lec-

tura, fueron consideradas como variables dependientes. La variable
atribución de éxito en la lectura (ATEXLEC) se obtuvo al promediar los
puntajes obtenidos en seis de los siete indicadores de atribución de éxito
(Esfuerzo, soy inteligente, tengo buen maestro, tengo ayuda en casa,
me gusta leer, tengo suerte) dado que el indicador LEBPLEFA (el mate-
rial de lectura es fácil) fue eliminado porque afectaba la consistencia in-
terna de la variable atribución de éxito. El índice de consistencia interna
alfa de Cronbach para esta serie fue 0.54.
Asimismo, la variable atribución de fracaso en la lectura (ATFRLEC), fue

obtenida al promediar los puntajes obtenidos en los siete indicadores de
atribución de fracaso (Falta de esfuerzo, no soy inteligente, no tengo
buen maestro, no tengo ayuda en casa, no me gusta la lectura, no
tengo suerte, el material de lectura es fácil). El índice de consistencia
interna para esta serie fue buena, con un coeficiente alfa de Cron bach
= 0.73.
En el caso de la atribución del éxito, los estudiantes de tercer grado ob-

tienen mejores promedios que los estudiantes de quinto grado y que los
de primer grado, y por otro lado, se encontró que conforme aumenta el
grado de escolaridad, se incrementa el promedio de los puntajes en atri-
bución al fracaso en la lectura.
En la Tabla 1 se presentan los resultados del análisis de varianza de una

vía para tres muestras independientes. Se puede observar que existen
diferencias significativas entre grupos, sólo en la variable atribución de
éxito en la lectura a favor de los niños de tercer grado, pero no existen
diferencias significativas entre grupos para la variable atribución de fra-
caso en la lectura.
Tabla 1
Comparación múltiple (Chipre HSD) por grado escolar en atribución de
éxito y atribución de fracaso en lectura.
__________________________________________________
Variable (I) Grado (J) Grado Diferencia Error estandar Significancia
Dependiente Escolar Escolar Entre medias
(I-J)
__________________________________________________
Quinto .6522 .28682 .060
ATEXLEC Tercero 1ro Secun .9000 .29782 * .010
Tercero -.6522 .28682 .060
Quinto 1ro Secun .2478 .30352 .694
Tercero -.9000 .29782 * .010
1ro Secun Quinto -.2478 .30352 .694
__________________________________________________
Quinto -.0725 .34253 .976
ATFRLEC Tercero 1ro Secun -.4371 .35566 .440
Tercero .0725 .34253 .976
Quinto 1ro Secun -.3646 .36246 .576
Tercero .4371 .35566 .440
1ro Secun Quinto .3646 .36246 .576
_______________________________________________________
*La diferencia de medias es significativa a un nivel de .05
Discusión
Un primer aspecto a tomarse en cuenta es la influencia del promedio
académico obtenido en un nivel escolar, sobre indicadores de aprove-
chamiento y ejecución en el siguiente nivel escolar. En los estudios uno y
tres, se encontraron relaciones de predicción entre el promedio final ob-
tenido en la preparatoria con los promedios de calificación obtenidas en
la licenciatura, tanto en estudiantes de una licenciatura en Ciencias de la

Educación, como en estudiantes de una licenciatura en Psicología. Inclu-
so en el primer estudio, el modelo obtenido refleja que el promedio de
preparatoria como indicador de ingreso es mejor predictor tanto de indi-
cadores de desempeño escolar en la universidad así como en evaluacio-
nes de ejecución en actividades de lectura y análisis de textos de
naturaleza científica, en contraste con evaluaciones estandarizadas de
aptitudes verbales y de razonamiento. Asimismo, en el estudio dos, el
promedio obtenido en la licenciatura tiene un efecto significativo y posi-
tivo en el dominio de habilidades metodológico-conceptuales en estu-
diantes de posgrado.
Estos datos respaldarían al supuesto de que el promedio escolar como

uno de muchos indicadores de desempeño académico en un nivel educa-
tivo previo puede estar asociado con la ejecución y el desempeño de los
estudiantes en evaluaciones en niveles educativos posteriores. Las com-
petencias y los estilos interactivos (el saber hacer cómo, y la forma de
ser de un estudiante) son relativamente invariantes y se configuran en
un proceso histórico del individuo, por eso es probable que un estudian-
te puede presentar una tendencia a interactuar de manera efectiva y va-
riada, en situaciones y niveles educativos diferentes y cada vez más
complejos, utilizando estrategias, competencias efectivas, creencias y
actitudes, y ajustándose (e incluso modificando), a los criterios de logro
y las demandas de un sistema educativo formal.
Obviamente, estas relaciones que el estudiante establece con los conte-

nidos escolares, los eventos o temáticas, y el maestro y la escuela, no se
dan de manera lineal, ni en forma transversal ni en forma horizontal. Por
ello será necesario profundizar en investigaciones de acompañamiento
del proceso de escolarización, trayectoria escolar, y análisis longitudina-
les de secuencias de situaciones concretas de aprendizaje, entre otros.
Por otra parte, en los estudios que demandan ejecución tanto de estu-
diantes de educación básica (primaria y secundaria), así como de estu-
diantes universitarios, la auto evaluación es una variable altamente
predictora de dichas ejecuciones. En el caso de los estudiantes universi-
tarios, la auto evaluación del grado de dominio sobre un texto proporcio-
nado previamente, predice la ejecución de los estudiantes en una
evaluación de análisis de textos, mientras que en los niños bilingües de
primaria y de secundaria, la auto evaluación del grado de dominio sobre
lectura en inglés (asociado con dominio de una segunda lengua), permi-
te predecir el grado de atribución que hacen de su éxito en la lectura en
una segunda lengua.
A pesar de que se requiere realizar estudios mas profundos que permi-

tan analizar la relación entre la auto evaluación en diferentes niveles de
dominio de determinadas competencias y estilos interactivos y su rela-
ción con desempeños de los estudiantes, nuestros datos respaldan la
importancia de la auto evaluación y autovaloración de los estudiantes
tanto en el dominio de competencias concretas, así como, en relación
con sus valoraciones respecto a las razones de su éxito académico, lo
cual también está asociada con el desarrollo de competencias académi-
cas efectivas y variadas.
Sin embargo, quedan pendientes estudios de análisis secuenciales y de

continuidad entre segmentos interactivos en el proceso educativo que
describan y expliquen la influencia de diferentes variables motivaciona-
les y de valoración, en el desarrollo y dominio de competencias académi-
cas, en diferentes niveles educativos.
Referencias
Aguilar, J., Martínez, M., Valencia, A., Conroy, C. & Girardo, A. (1997). Me-
tas de logro, competitividad y perfiles motivacionales entre estudiantes
universitarios. Revista Latina de Pensamiento y Lenguaje, 5, 25-35.
Aguilar, J., Pacheco, J., Andrade, J., Vargas, J., Gutierrez, M. & Zetina,
G. (1992). Estudio sobre la validez concurrente del inventario de
factores de carrera con estudiantes de licenciatura, México: UNAM.
Aguilar, J., Valen cia, A. & Martínez, M. (2002). Un modelo de las in -
terrelaciones entre disposiciones motivacionales generales y es-
pecíficos. Re vis ta La ti na de Pen samien to y Len guaje, 10,
119-127.
Aguilar, J., Valencia, A., Martínez, M., Romero, P. & Lemus, L.
(2003-2004). Estilos parentales y medidas de desarrollo psicosocial
en estudiantes universitarios. Revista Latina de Pensamiento y Len-
guaje, 12, 69-81.
Aguilar, J., Valencia, A. & Romero, P. (2004). Estilos parentales y desa-
rrollo psicosocial en estudiantes de bachillerato. Revista Mexicana
de Psicología, 21(2), 119-129.
Aguilar, J., Valencia, A., Martínez, M. & Vallejo, A. (2002). Un modelo
estructural de la motivación intrínseca en estudiantes universita-
rios, en A. Bazán y A. Arce (Eds.). Estrategias de evaluación y me-
dición del comportamiento en Psicología (pp. 87-119). Ciudad
Obregón: ITSON-UADY.
Bazán, A., & Corral, V. (2001). Aplicación del modelamiento de variables

latentes en la clasificación funcional de la lectura y la escritura en
niños de segundo grado de primaria. Acta Comportamentalia, 9,
189-212.
Bazán, A. & García, I. (2002). Relación estructural de ingreso y perma-
nencia, y el dominio de habilidades metodológico-conceptuales en
cuatro grupos de estudiantes de educación. Revista latinoamerica-
na de estudios educativos, 32, 105-122.
Bazán, A., García I., & Borbón J. C. (2005). Evaluación de habilidades
metodológico-conceptuales en el análisis de textos científicos: al-
gunos hallazgos empíricos, en C. Santoyo (Comp.). Análisis y
evaluación de habilidades metodológicas, conceptuales y profe-
sionales en la formación del psicólogo (pp.109-127). México:
UNAM.
Bazán, A., Sánchez, B., Corral, V., & Castañeda, S. (2005). Utilidad de
los modelos estructurales en el estudio de la lectura y la escritura.
Revista Interamericana de Psicología, 40 (1).
Bentler, P. (1995). EQS, Structural Equations Program Manual. CA.:
Multivariate Software Inc.
Byrne, B. M. (1984). The General/Academic self-concept nomological
network: Review of construct validation research. Review of educa-
tional Research, 54, 427-456.
Castañeda, S. (1996). Interfase afectivo-motivacional en la compren-
sión de textos: estudio transcultural México-Holanda. Revista Lati-
na de Pensamiento y Lenguaje, 4, 165-185.
narios educativos. Revista Sonorense de Psicología, 12, 57-67.
Castañeda, S. (2002). Diagnosticidad e interpretabilidad: retos a la me-
dición de resultados de aprendizaje, en A. Bazán y A. Arce (Eds.).
Estrategias de evaluación y medición del comportamiento en Psico-
logía (pp. 87-119). Ciudad Obregón: ITSON-UADY.
Castañeda, S. (2004). Evaluando y fomentando el desarrollo cognitivo y
el aprendizaje complejo. Revista de Psicología desde el Caribe,
13(1), 109-143.
Castañeda, S., & Martínez, R. (1999). Enseñanza y aprendizaje estraté-
gicos. Modelo integral de evaluación e instrucción. Revista Latina de
Pensamiento y Lenguaje, 4, 251-278.
Castañeda, S., Lugo, E., Pineda, L., & Romero, N. (1998). Estado del
arte de la evaluación y el fomento del desarrollo intelectual en la en-
señanza de ciencias, artes y técnicas, en S. Castañeda (Coord.).
Evaluación y fomento del desarrollo intelectual en la enseñanza de
ciencias, artes y técnicas (pp. 17-156). México: Porrúa.
Castañeda, S. & Ortega, I. (2004). Evaluación de estrategias de apren-
dizaje y orientación motivacional al estudio. En S. Castañeda Edu-
cación, Aprendizaje y Cognición. Teoría en la práctica (pp.
277-299). México: UNAM, U. de G. y Manual Moderno.
Castejón, J., Navas, L., & Sampascual, G. (1996). Un Modelo estructural
sobre los determinantes cognitivo-motivacionales del rendimiento
académico. Revista de Psicología General y Aplicada, 49, 27-43.
Chan, D., Ramey, S., Ramey, C., & Schmittt, N. (2000). Modeling in-
traindividual changes in children’s social at home and at school: a
multivariate latent growth approach to understanding bet-
ween-settings differences in children’s social skill development.
Multivariate Behavioral Research, 35, 365-396.
Chartrand, J., Robbins, S., Morral, W. & Boggs, K. (1990). Development
and validation of the carrer factory inventory. Journal of Counseling
Psychology, 37, 491-501.
Corral, V. (1995). Modelos de variables latentes para la investigación
conductual. Acta Comportamentalia, 3, 171-190.
Corral, V. (1997). Disposiciones psicológicas: un análisis de las propen-
siones, capacidades y tendencias del comportamiento. Hermosillo:
Unison.
Cribbie, R., & Jamieson, J. (2000). Structural equation models and the
regression bias for measuring correlates of change. Educational and
Psychological Measurement, 60, 893-907.
De Corte, E. (1999). Desarrollo cognitivo de innovación tecnológica. Una
nueva concepción de la enseñanza y el aprendizaje para el siglo
XXI. Revista Latina de Pensamiento y Lenguaje, 4, 229-249.
Georgiou, S. N. (1999). Achievement atributions of sixth grade children
and their parents. Educational Psychology, 19, 399-412.
González, D., Castañeda, S. & Corral, V. (2002). Validación e identifica-
ción de constructos subyacentes a estrategias de aprendizaje uni-
versitario. Aproximación multirasgo-multimétodo (MRMM). Revista
Latina de Pensamiento y Lenguaje, 10, 107-118.
González, D. & Maytorena, M. (2002). Influencia de la orientación moti-

vacional, los estilos de aprendizaje, y los factores de carrera sobre
el desempeño escolar, en A. Bazán y A. Arce (Eds.). Estrategias de
evaluación y medición del comportamiento en Psicología. Ciudad
Obregón: ITSON-UADY, (pp. 201-225).
González, D., Verdugo, M. & Maytorena, M. (2002). Factores de carrera,
certeza vocacional, autoestima y esfuerzo escolar en bachilleres, en
E. Ramos (Comp.). Investigaciones educativas en Sonora. Hermo-
sillo: Red de Investigación Educativa en Sonora, 2, 167-188.
Kurdek, L., & Sinclair, R. (2000). Psychological, family, and peer predic-
tors of academia outcomes in first -through fifth- grade children.
Journal of educational Psychology, 92, 449-457.
Little, T. K. Schnabel & J. Baumert (2000). Modeling longitudinal and
multilevel data (pp. 69-107). N.J.: LEA.
Mavrogenes, N. & Bezruczko, N. (1993). Influences on writting develop-
ment. Journal of educational research, 86, 237-235.
Miller, S. (1995). Parent’s atributtions for their children’s behavior. Child
development, 66, 1557-1584.
O’ Sullivan, J., & Howe, M. (1996). Causal attributions and reading
achievement: Individual differences in low-income families. Con-
temporary Educational Psychology, 21, 363-387.
Pintrich, P. (1998). El papel de la motivación en el aprendizaje académi-
co autorregulado, en S. Castañeda (Ed.). Evaluación y Fomento del
desarrollo intelectual en la enseñanza de las ciencias, artes y técni-
cas: Perspectiva internacional en el umbral del siglo XXI (pp.
229-262). México: Porrua-UNAM.
Pintrich, P. & de Groot, E. (1990). Motivational and Self-Regulated Lear-
ning components of Classroom academia Performance. Journal of
Educational Psychology, 82, 33-40.
Popham, W. J. (2000). Testing! Testing! What every parent should know
about school tests. Boston: Allyn and Bacon.
Raykov, T. & Marcoulides, G. (2000). A first course in structural equa-
tion modeling. N.J.: LEA.
Ribes, E. (1990). Psicología General. México: Trillas.
Schumacker, R. E., & Lomax, R. (1996). A beginner’s guide to structural
equation modeling. N.J.: LEA.
Weinstein, C., Powdrill, L. Husman, J. Roska, L., & Dierking, D. (1998).

Aprendizaje estratégico: un modelo conceptual, instruccional y de
evaluación. En S. Castañeda (Coord.). Evaluación y fomento del de-
sarrollo intelectual en la enseñanza de ciencias, artes y técnicas:
Perspectiva internacional en el umbral del siglo XXI (pp. 197-228).
México: Porrúa.
Sección III
Diseñando la evaluación
objetiva de resultados
de aprendizaje
Diseñando la evaluación objetiva de
resultados de aprendizaje
Posgrado de la Facultad de Psicología de la UNAM
Introducción
La sociedad contemporánea, inmersa en un proceso de cambio acelera-
do en todas sus esferas, exige transformaciones en la organización y
operación de sus instituciones, incluyendo las educativas. En este con-
texto, las universidades están llamadas a adecuar sus estructuras y for-
mas de organización a los retos de un mundo cambiante, donde los
desarrollos en ciencia y tecnología y el acceso y distribución de la infor-
mación, vía la Internet, han impactado la formación del capital humano
y donde la exigencia de generar mano de obra cada vez más calificada
para insertarse activamente en el mundo constituyen desafíos inaplaza-
bles de atender. Así, el tipo de educación ofertada en las universidades
-y las habilidades que ésta ha generado- han sido revisadas seriamente,
en la medida en la que en la sociedad del conocimiento se considera in-
dispensable aumentar, en calidad y cantidad, el capital humano requeri-
do para fomentar el crecimiento general.
Así, el desafío es algo más que poner información en la mente de los es-
tudiantes, es necesario fomentar las habilidades cognitivas y de control
ejecutivo que les permitan construir conocimientos de la mejor calidad,
validarlos con evidencias fuertes, adaptarlos a situaciones imprevisibles
y transmitirlos apropiadamente.
En este contexto, la evaluación del aprendizaje tiene un efecto muy im-

portante sobre lo que los estudiantes aprenden. Es un artefacto podero-
so para fomentar aprendizajes de calidad, toda vez que le brinda a los
examinandos oportunidades para extender y profundizar el aprendizaje

y las habilidades autorregulatorias que le subyacen.
En esta sección de la obra presentamos información que esperamos les

sea útil en el cambio de perspectiva evaluativa, de una práctica tradicio-
nal de evaluar cientos de conceptos, fórmulas y técnicas, aislados unos
de otros y descontextualizados de las condiciones bajo las cuales son
útiles, por arreglos que permitan evaluar la complejidad del aprendizaje
complejo. Este aprendizaje es difuso, de lento desarrollo (toma cientos
de horas) y sólo puede ser descrito al nivel del sistema y en términos de
probabilidades.
Dada esta caracterización del aprendizaje complejo, su evaluación plan-

tea diseñar secuencias de tareas integrales (y sostenidas), con niveles
de complejidad creciente, bien construidas y ordenadas, que den opor-
tunidad al estudiante universitario de mostrar los niveles de pericia de-
sarrollados. Estas secuencias de tareas deben estar sistemáticamente
distribuidas a todo lo largo del programa formativo, tomando como eje
central de su diseño, el ser pensadas como un todo integrado, más que
por módulos aislados. Dado que el contexto en el que el conocimiento se
construye influye y da forma a la calidad de los significados que genera,
es necesario construir mediciones que los representen, lo más fielmente
posible en cada capa del desarrollo de la pericia, para estar en capacidad
de certificarlos adecuadamente o para diseñar las acciones correctivas
ajustadas al nivel del problema diagnosticado.
Lograr que la medición sea informativa demanda entender fundamentos

cognitivos del aprendizaje para poder diseñar medidas que permitan in-
ferir la calidad del resultado de aprendizaje (Bass y Glaser, 2004). Esto
es, hacer explícitas las principales suposiciones utilizadas para medir los
procesos, las estrategias y la base de conocimientos que un examinado
debe usar para tener éxito en el dominio que se está evaluando. Este
arreglo debe permitir que se establezca, con claridad, cómo y en qué de-
ben diferir los más competentes de los menos competentes para poder
prescribir las acciones remediales necesarias.
Con base en todo lo anterior, en esta sección haremos mención a proce-

dimientos pertinentes al diseño de exámenes y elaboración de ítems ob-
jetivos. Sin embargo, cabe puntualizar aquí que la intención no es
priorizar la evaluación objetiva sobre la evaluación alternativa, ambas
tienen ventajas y desventajas, tal y como ha sido señalado previamente
en esta obra. Más bien, nuestra intención es apoyar un mejor diseño de
exámenes y reactivos objetivos, dada su frecuencia de uso, en vías de
hacerlos más sensibles a lo que se necesita medir en educación superior.
DISEÑANDO LA EVALUACIÓN OBJETIVA DE RESULTADOS DE APRENDIZAJE 143
Y, hemos dejado para un volumen posterior, el tratamiento de formas

alternativas de evaluación como son los portafolios, los mapas concep-
tuales, las demostraciones y los estudios de caso.
Es más, en la actualidad es posible encontrar que un buen número de

exámenes objetivos incorporan tareas alternativas lo que, en total
acuerdo con Solano (2004), representa un amplio reconocimiento al he-
cho de que la actividad cognitiva del estudiante forma parte ya del para-
digma evaluativo actual. La evidencia contemporánea en desarrollo
evaluativos hace pensar que en un futuro muy próximo ambos tipos de
evaluación serán necesariamente complementarias.
Referencias
Bass, K. M. & Glaser, R. (2004). Developing assessments to inform tea-
ching and learning. (Reporte No. 628).CA, EE. UU.: Universidad de
Pittsburg, Centro de Investigación del Aprendizaje y el Desarrollo.
Solano, G. (2004). Pruebas prácticas en la evaluación del aprovecha-
miento escolar: Métodos, ventajas y posibilidades. En S. Castañe-
da. Educación, Aprendizaje y Cognición. Teoría en la práctica (pp.
137-154). México: UNAM, U. de G. y Manual Moderno. ISBN
970-32-1129-1
Capítulo 6 ?
Diseñando exámenes
Sandra Castañeda F., Raquel García y Rosa Elsa González
Introducción
En la medida en la que los pun ta jes de los exámenes re flejan, con
una fre cuen cia ma yor a la de sea ble, la necesidad de efectuar refor -
mas substanciales en las prácticas educativas, el control de calidad
que la evaluación debe ejercer sobre los produc tos del aprendizaje
se cons titu ye en un factor determinante del mejoramiento de profe-
sores y estudiantes, del diseño, ajuste e implementación de sistemas
educativos y, de manera importante, de la selección y certificación de
individuos.
En el ámbito internacional se reconoce que la evaluación del aprendi -

za je pue de y debe in fluir no nada más en aque llo que es en seña do
sino, tam bién, en cómo es en seña do, de aquí que se en fa tice su uti li-
dad en el monitoreo de la práctica educativa. Pero lograrlo requiere
de evaluaciones del aprendizaje que utilicen mediciones sensibles a
lo que sucede en los ambientes de apren dizaje y de formación para el
tra bajo, en vías de ganar va lidez en la in ter preta ción de los pun ta jes
de examen. Asimismo, y en términos de equidad, evaluaciones capa -
ces de establecer los mismos estándares, explícitos para todos, de
tal mane ra que cada quien pueda tra bajar y es for zar se para lograr -
los.
En este contexto, es necesario resolver retos que nos acerquen al tipo

de evaluaciones que deseamos, entre otros, identificar si la manera tra-
dicional en la que hemos venido elaborando los exámenes genera las
evidencias necesarias que nos permiten inferir las capacidades desarro-
lladas por los examinandos en nuestros cursos, o bien, que nos permitan
diagnosticar, de manera directa, el nivel de logro obtenido en mecanis-
mos responsables del aprendizaje eficiente. En otras palabras, cuestio-
narnos si a partir de los puntajes podemos prescribir, con precisión, las
acciones remediales para fomentar el éxito o si sólo permiten identificar
el fracaso.
Si la forma tradicional en la que hemos diseñado los exámenes no nos

ha permitido fomentar el éxito académico ¿qué se necesita para que lo
hagan? La literatura en el campo plantea que para que los exámenes
de resultados de aprendizaje logren predecir el éxito académico re-
querirían evaluar, con precisión y un buen nivel de certidumbre, com-
ponentes responsables del éxito académico o, al menos, que fueran
buenos predictores del mismo (Bass y Glaser, 2004; Castañeda,
1998, entre muchos).
Para ello, el diseñador debe considerar que el examen es un con junto

de tareas, organizadas bajo condiciones uniformes, por lo que necesi-
ta precisar, desde la misma planeación, la clase de componentes que
deberá incluir en la evaluación.
Se re co no ce (Wi ley, 2002) que lo que se eva lúa en los exá me nes
son cons truc tos acer ca de ca pa ci da des para eje cu tar las cla ses de
ta reas que ge ne ran las di fe ren cias en tre la eje cu ción exi to sa de la
no exi to sa. De esta ma ne ra, un re sul ta do in di vi dual debe re pre sen -
tar algo más que ha ber res pon di do co rrec ta men te los ítems, más
bien, debe per mi tir le al eva lua dor ge ne ra li zar acer ca de las ha bi li -
da des y los co no ci mien tos que do mi na el exa minan do. En este áni -
mo, los exá me nes pue den te ner un ca rác ter for ma ti vo, más allá de
sim ple men te asig nar una ca li fi ca ción. Pue den ex ten der el apren di -
za je de los alum nos a par tir de la re troa li men ta ción que re ci ben,
tan to de aque llo que do mi nan, como de lo que aún ne ce si ta ser con -
so li da do. De esta ma ne ra, los exá me nes alien tan la mo ti va ción de
los alum nos al acla rar les los con te ni dos por apren der, lo que fa ci li ta
su es tu dio. Sir ven, tam bién, para de ci dir ac cio nes re media les, su
uti li dad ra di ca en la iden ti fica ción de áreas de de fi cien cia en las que
los alum nos ne ce si tan ser re for za dos.
Haladyna (2004), define al examen como un sistema o conjunto organi-

zado de actividades de medición cuya intención es describir numérica-
mente el grado o cantidad de aprendizaje bajo condiciones uniformes
estandarizadas (Ver figura 1).
DISEÑANDO EXÁMENES 147
Figura 1. Características de los exámenes.
Planeando un examen
En acuerdo con Anderson (2003), elaborar un instrumento que evalúe re-
sultados de aprendizaje requiere planeación. En este trabajo recomenda-
mos una de ocho pasos que, con pequeñas modificaciones, es útil para
todo tipo de tareas de evaluación. La Tabla 1 los resume y en este capítulo
se revisan los dos primeros, establecer el universo de contenido o de medi-
da y seleccionar las tareas que elicitarán las conductas a ser evaluadas.
Tabla 1
Pasos del desarrollo de exámenes de resultados de aprendizaje.
__________________________________________________
Pasos
__________________________________________________
1. Establecer el universo de contenido,
2. Seleccionar tareas que elicitarán conductas a ser evaluadas,
3. Establecer reglas de elaboración de tareas e ítems que den oportuni-
dad de mostrar el nivel de logro alcanzado en lo que se evalúa y de-
sarrollar las medidas,
4. Revisar, técnicamente, los ítems elaborados,
5. Estructurar y armar el examen,
6. Administrar la evaluación,
7. Asignar calificaciones,
8. Interpretar e informar resultados a los implicados
__________________________________________________
El diseño del examen se inicia con el establecimiento del universo de

contenido (o de medida) sobre el cual se desarrollarán las tareas y reac-
tivos a ser incluidos. En ésta etapa se hacen explícitos: a) el propósito
del examen y b) el tipo de evaluación a utilizar (con base en la forma en
la que se calificarán las respuestas y en la que se interpretarán los resul-
tados).
Entre los propósitos que puedan tener los exámenes encontramos: a)

comunicar a los estudiantes qué contenidos son importantes en el cur-
so; b) motivarlos a estudiar explicitando, claramente, los contenidos por
aprender, c) identificar áreas de deficiencia que necesitan atención (de
remedio o de nuevo aprendizaje) y d) determinar calificaciones finales y
evaluar la enseñanza (sumativa) o monitorear y guiar al estudiante en
tanto el aprendizaje está en curso (formativa). La evaluación auxilia al
examinando favoreciéndole oportunidades educativas más accesibles y
apropiadas para rellenar huecos.
El último de los propósitos presentados hace referencia a dos tipos de

evaluación, la sumativa y la formativa. La elección de uno u otro tipo de
evaluación es un asunto muy importante en la planeación del examen.
En tanto en la evaluación sumativa se asignan calificaciones a los exa-

minandos para informarles de su logro (al igual que a terceros intere-
sados -padres y autoridades-) y se revisa el aprendizaje mostrado
por los examinandos para identificar qué fue lo que funcionó o no en la
enseñanza y estar en capacidad de formular cambios que la mejora-
rían en una oportunidad siguiente, en la formativa, el profesor obtiene
una impresión de las fortalezas o debilidades de sus estudiantes para
ajustar su curso o bien diagnosticar a cada individuo o al grupo en ge-
neral, en aquello que fue aprendido o no para reforzar aquello que no
fue aprendido.
De aquí que los exámenes puedan ser formativos, sumativos o una inge-
niosa combinación de ambos pero, en cualquier caso, lo importante es
que el docente alinee el que y el como de lo que enseñó con el que y el
como evaluarlo. Una práctica poco afortunada, pero común en los salo-
nes de clase, es solicitarle al examinando que resuelva problemas cuyos
niveles de demanda son inesperados en aras de “enseñarles a pensar
por sí mismos”, cuando en las actividades de aprendizaje no se les dio
suficiente ejemplificación y ejercitación en la solución de problemas de
alto nivel. Como docentes es necesario que recordemos que la gente ad-
quiere habilidades mediante práctica extensa y apropiada y durante un
período adecuado de realimentación. Queda por enfatizar que la alinea-
ción deberá atender, además, al período que se va a evaluar (un semes-
tre, una unidad o una lección, por ejemplo) y, con base en esto, planear
el nivel de detalle que se pedirá en la evaluación, en tanto el período sea
más largo, la evaluación será menos detallada y viceversa (Nitko,
1994).
En todos los casos, es recomendable elaborar un plan que resuma los tó-
picos que fueron enseñados (mismos que deberán ser evaluados), los
objetivos de aprendizaje que los estudiantes deberían haber logrado y
las estrategias que se usarán para medirlos. La Tabla 2 muestra un es-
quema.
Tabla 2
Plan para evaluar un período de seis semanas.
__________________________________________________
Unidad 1
__________________________________________________
Objetivo general de aprendizaje Se describe el objetivo
Marco temporal Se describe el tiempo para completar
la enseñanza
Evaluación formativa Se describen actividades de evaluación
(tareas e ítems) que serán utilizadas.
Evaluación sumativa Se describen actividades de evaluación
(tareas e ítems) que serán utilizadas
Peso porcentual de cada actividad Se especifica un peso porcentual
de evaluación para cada actividad
__________________________________________________
Unidad 2
__________________________________________________
Objetivo general de aprendizaje Se describe el objetivo
Marco temporal Se describe el tiempo para completar la
enseñanza
Evaluación formativa Se describen actividades de evaluación
(tareas e ítems) que serán utilizadas.
Evaluación sumativa Se describen actividades de evaluación
(tareas e ítems) que serán utilizadas
Peso porcentual de cada Se especifica un peso porcentual para
actividad de evaluación cada tipo actividad
__________________________________________________
Calificación final del periodo Se especifica un peso porcentual para
cada tipo de actividad
__________________________________________________
Una práctica que ha mostrado generar un mejor rendimiento de los

examinandos en los exámenes, es proveerlos con una guía de estudio
que comunique, eficientemente, cuales son las expectativas del do-
cente, entre otras razones, para que los estudiantes les presten aten-
ción. Aspectos relacionados con cualquier tipo de pregunta respecto a
lo que va a ser incluido en el examen (cálculos, estimaciones, defini-
ciones, explicaciones, ejercicios problemáticos, etcétera) evitarían
que el examinando tu viera que “adivinar” qué es lo que vendrá en el
examen. De aquí que cuando se esté construyendo el examen es
aconsejable ir esbozando la guía de estudio.
En este primer paso de la planeación de un examen también es impor-

tante considerar el tipo de calificación que se usará (Tenbrink, 1999,
Mehrens y Lehmann, 1982) y el tipo de interpretación que haremos de
los puntajes (Popham, 1990). En el primer caso encontramos exáme-
nes objetivos y subjetivos. Los exámenes o pruebas objetivas re-
quieren de respuestas concretas, que no dejan lugar a duda respecto
a su corrección; los reactivos plantean situaciones estructuradas en
las que el examinando sólo tiene que elegir la opción correcta evitan-
do con esto elaborar respuestas complejas, de aquí que a estos exá-
menes se le conozca, también, como de respuesta seleccionada.
Los exámenes objetivos, se caracterizan por el uso de preguntas ce-
rradas con varias alternativas de respuesta que el examinando valora
y de las cuales elige una como respuesta correcta.
Los exámenes o pruebas de respuesta construida le demandan al

examinando la elaboración de su propia respuesta, de una manera
más activa y en donde las decisiones que toma al responder van más
allá de la simple identificación de una opción correcta. Los exámenes
de respuesta construida son buenos auxiliares para identificar erro-
res en procesos subyacentes al aprendizaje complejo, como son la
comprensión, el razonamiento (inductivo, deductivo o analógico) y
la solución de problemas, entre otros, y para evaluar habilidades de
produc ción (oral o escrita). La más conocida de las pruebas sub jeti-
vas es la de en sayo, pero exis ten otro tipo de for matos como son: los
portafolios, las simulaciones por computadora, y los mapas concep -
tua les.
Otra manera de clasificar los exámenes es por la interpretación que se

les de a los puntajes de la ejecución de un examinando (Popham, op.
cit.). Los exámenes en los que la interpretación del puntaje individual
de un examinan do se establece con referencia a la norma estadística

derivada de los puntajes del grupo de referencia se conocen como re-
feridos a la norma o normativos. Permiten comparar el logro de un es-
tudiante con respecto a los de los demás del grupo y en la toma de
decisiones la media del grupo influye sobre las transformaciones deri-
vadas de la evaluación. Se interesa más en clasificar a los examinando
con base en su logro académico que en identificar cambios cualitati-
vos, en resultados graduales, donde se transforman significados im-
precisos en comprensiones adecuadas que permiten identificar
avances significativos en el aprendizaje. Es útil a la función adminis-
trativa pero no fomenta el aprendizaje individual.
Cuan do los exá me nes in ter pretan el pun ta je in divi dual de un exa -
mi nan do con re fe ren cia a es tán da res de eje cu ción com pe ten te -re -
pre sen tan los ni ve les mí ni mos acep ta dos como ni vel de lo gro en lo
que se está eva luan do-, se está ha cien do re fe ren cia a exá me nes re -
fe ri dos al cri te rio o cri te ria les. Es de cir, los pun ta jes se in ter pretan
con base en lo que el exa mi nan do debe sa ber y debe sa ber ha cer,
de acuer do con lo es ta ble ci do por ex per tos en el do mi nio de co no ci -
mien to, pre via men te ope ra cio na li za do en cri te rios trans pa ren tes y
pre ci sos. La toma de de ci sio nes se hace a par tir de esos cri te rios, lo
que fo men ta, des de la eva lua ción, el lo gro de com pe ten cias bá si -
cas.
En Educación, los exámenes están constituidos por grupos de tareas e

ítems que intentan medir el logro de los estudiantes en un dominio de
conocimiento particular, por lo que las tareas criterio a ser incluidas
en ellos deben ser similares a las que los estudiantes están acostum-
brados en el programa educativo, de aquí que el examen, como siste-
ma, deba especificarse tantas veces como se lleve a cabo la
evaluación.
En síntesis, en el diseño y construcción de un examen, el docente re-

quiere identificar un buen número de componentes y ajustar su pla-
neación a una secuencia lógica de operación. Esto es indispensable si
lo que desea es generar información válida y confiable. La Figura si-
guiente muestra, gráficamente, elementos que el docente necesita
tomar en cuenta para hacer un análisis del dominio de conocimiento a
ser evaluado.
Figura 2. Análisis del Dominio, primer paso del Modelo Multicomponencial de

Evaluación del Aprendizaje (Castañeda, 1998, 2002).
Como puede derivarse de la figura 2, analizar un dominio de

conocimiento particular, en vías de establecer el universo de medida a ser
usado en la evaluación supone identificar a) los conocimientos abordados
en la enseñanza, b) las tareas que se ejecutan con ellos y a partir de
ambos, c) las relaciones que se espera se establezcan entre
conocimientos y tareas pero, también es necesario analizar si es que hay
d) resultados en tareas particulares con conocimientos específicos y,
finalmente, e) lo que la evidencia de trabajar en la situación real
muestra que es importante.
En vías de realizar un análisis sistemático del dominio de conocimiento a

ser evaluado, el diseñador de exámenes puede utilizar diversas herra-
mientas, entre ellas, el Análisis Cognitivo de Tareas (ACT), como lo
muestra la figura 2. Es una técnica que descompone una tarea compleja
en sus elementos más esenciales. Se recomienda al lector interesado en
esta herramienta consultar la técnica de Castañeda (1993, 2002), resu-
mida en el capítulo “Evaluación del Aprendizaje en Educación Superior”,
en esta misma obra. Mediante ACT, el docente estará en capacidad de
identificar conocimientos a ser evaluados potencialmente, las tareas cri-
terio en las que potencialmente podrían ser evaluados, los procesos cog-
nitivos hipotetizados que subyacen a la ejecución que se solicita y los
contextos de evaluación en los que las tareas implicadas podrían ser
evaluadas.
El segundo gran paso de la planeación de un examen, posterior al esta-

blecimiento del universo de medida, es el de la selección y estableci-
miento de las tareas que darán al examinando la oportunidad de
mostrar lo que sabe y sabe hacer. En él, es importante decidir qué de
todo lo analizado es lo que se va a evaluar, es decir, determinar con pre-
cisión el subconjunto de objetivos, conocimientos, habilidades y tareas
que formarán parte del universo de contenido a ser evaluado (es dife-
rente, por ejemplo, diseñar un examen para todo el programa del curso
que para una unidad didáctica particular), en términos de lo que se ha
enseñado (contenidos) y cómo se ha enseñado (tareas).
Un manejo adecuado de este paso permitirá explorar, de manera más

válida y confiable el logro de los estudiantes. Y es en este punto de la
planeación que el análisis de los objetivos instruccionales juega un papel
preponderante. Pero ¿qué es un objetivo? Según Anderson (2003), los
objetivos son las respuestas a la pregunta “por qué les estoy pidiendo
que hagan lo que les estoy pidiendo que hagan.” De manera simple, un
objetivo es un enunciado que especifica que es lo que se intenta, espera
o quiere que los estudiantes aprendan como resultado de la enseñanza.
Los objetivos instruccionales aparecen en los programas de materia con

un amplio rango de variación, los hay simples y complejo, explícitos e im-
plícitos, vagos o claros, generales y particulares, pero todos ellos guían (o
deberían hacerlo) la evaluación del aprovechamiento de los estudiantes.
La estructura de los objetivos incluye un verbo, es decir, una acción que

representa, comúnmente, operaciones cognitivas subyacentes a la eje-
cución y sustantivos, que representan conocimientos en los que esas
operaciones se manifiestan. Analizar los objetivos resulta, entonces,
una actividad que identifica componentes importantes a ser utilizados
en el desarrollo del examen en cuestión.
Analizando objetivos instruccionales

Con base en alguna de las taxonomías existentes, el docente puede
identificar la operación cogni tiva subyacente al verbo del objetivo
analizado y, para identificar el tipo de conocimiento que refleja el sus-
tantivo del objetivo en cuestión, puede utilizar los tipos de conoci-
miento (factual, conceptual o procedimental), en vías de delimitar el
universo de contenido en función a los objetivos instruccionales de la
porción que va a ser evaluada. Veamos, abreviadamente, un esque-
ma que ilustra decidir que es lo que se va a evaluar en función de los
objetivos instruccionales.
Esquema resumido
1. El docente determinará el conjunto de objetivos instruccionales

correspondiente a la porción del curso que desee evaluar, de entre
ellos seleccionará, uno a uno, para analizarlo.
2. Identificará el verbo y el sustantivo del objetivo seleccionado y los

analizará en función de:
l los términos que aparecen en una taxonomía de operaciones

cognitivas (cualquiera de su interés) y
l los términos que aparecen en una taxonomía de tipos de

conocimiento (cualquiera de su interés).
3. Construirá una tabla taxonómica de doble entrada (v. gr., Tabla 3) y

establecerá en la celda correspondiente (convergencia de fila y
columna taxonómicas), la pregunta que mejor represente lo que el
objetivo particular le demanda al estudiante (la intención y el
contenido del objetivo en términos del conocimiento a ser evaluado y
la operación cognitiva en la que va a ser evaluado), así como la
respuesta correspondiente.
Tabla 3
Ejemplo de una matriz vacía de identificación del contenido a ser eva-
luado.
__________________________________________________
Tipos de conocimiento
__________________________________________________
Operación cognitiva Factual Conceptual Procedimental Autorregulatorio
__________________________________________________
Identificar
Clasificar
Traducir
Inferir
Planear acciones
___________________________________________________________
Toda vez que el docente determinó el grupo de objetivos instruccionales

que corresponden a la porción del curso que desea evaluar y con el
propósito de evaluar cada uno de ellos, el docente deberá auxiliarse de
dos taxonomías: una de operaciones cognitivas (lo ayudará a traducir el
verbo del objetivo en una operación cognitiva específica) y otra de tipos
de conocimiento (lo ayudará a traducir los sustantivos del objetivo en

tipos de conocimiento).
A continuación, se ponen a disposición del docente dos taxonomías que

han sido probadas y utilizadas en la construcción de un buen número de
exámenes objetivos de salón de clases y de gran escala.
Taxonomía de operaciones cognitivas

Esta taxonomía está compuesta por tres categorías de operaciones
cognitivas: Comprender y organizar conocimiento, Aplicar conocimiento a
situaciones cotidianas y Resolver problemas. Cada categoría conjunta un
grupo de sub operaciones que operacionalizan demandas particulares
(Castañeda, 1993).
Primera categoría: Comprender y organizar información
Representa la capacidad cognitiva del examinando para identificar,

clasificar, ordenar temporalmente, organizar y jerarquizar conceptualmente
la información que se presenta en un reactivo, así como la de resumirla
adecuadamente en un todo coherente.
En la Tabla 4, se caracterizan las sub operaciones cognitivas de esta

categoría describiendo las demandas asociadas a la ejecución esperada
y ejemplificando enunciados interrogativos que pueden servir en la
elaboración de los ítems.
Tabla 4
Caracterización de las sub operaciones cognitivas. Primera categoría.
Sub operación Demandas Indicadores
Identificación Esta operación le demanda al ¿Cuál es la definición de […….]?

examinando reconocer información ¿Cuál es el significado de [……]?
(literal o no, de preferencia), de
¿Qué palabra es sinónimo de
hechos, conceptos, principios,
[......]?
reglas, definiciones, características,
teorías y relaciones conceptuales, ¿Qué es característico de [……..]?
así como de procedimientos y ¿Cuál es un ejemplo de [……..]?
valores relacionados con la
¿Cuál es el principio de [……..]?
temática a ser evaluada.
¿Cuál es ejemplo del principio de
[……..]?
Clasificación La operación demanda estable- ¿Cuáles elementos siguientes co-

cer que algo pertenece a una ca- rresponden a [clase genérica]?
tegoría. Pone de manifiesto la ¿Cuáles elementos siguientes
capacidad del examinando de son síntomas de [clase genéri-
trascender la manera en la que la ca]?
información es presentada en el
¿Cuáles elementos corresponden
reactivo y determinar clases que
a la primera, segunda y tercera
no se encuentran presentes, gra-
etapa de [clase genérica]?
cias a la utilización de reglas de
inclusión (de tiempo, de función, ¿Cuáles elementos corresponden
de temática, etcétera). a las teorías [clases genéricas]?
¿Cuáles de las siguientes técnicas
se utilizan en [clase genérica]?
Ordenamiento La operación cognitiva demanda ¿Cuál es el orden cronológico en

Temporal establecer una organización que el que suceden [........]?
ordena temporalmente y de ma- ¿En qué orden cronológico se de-
nera adecuada la información sarrolla [proceso]?
evaluada por el ítem.
¿Cuál es el ordenamiento históri-
co de [hechos, eventos, etc.]?
Ordene del más antiguo al más
nuevo los [........]
Ordene los siguientes elementos
de acuerdo a su evolución…
Organización La ope ra ción cog ni ti va le de - Cuál es el más (o el menos) inclu-

jerárquica man da al exa mi nando es ta ble- sivo, abstracto, general,
cer la cohe ren cia en tre los etc..[........]?
ele men tos que con fi gu ran una ¿Cuál es el más (menos) seme-
es truc tu ra y or ga ni zar los je - jante en importancia para definir
rár qui ca men te para de ter mi - [.........]?
nar cómo se ade cuan o
¿Cuál se deriva del más o del me-
fun cio nan en ella. Ge ne ral men -
nos abstracto, general,
te se uti li za para eva luar la
etc...[.........]?
com pren sión de con cep tos
com ple jos como un prin ci pio, Elija el diagrama que refleje la
una teo ría, un pro ce di mien to, estructura del [concepto, teoría,
una téc ni ca, et cé te ra. procedimiento]
Resumir La operación cognitiva demanda ¿Cuál de los siguientes compen-

al examinando sintetizar, com- dia los puntos más importantes
pendiar, generalizar o abstraer para [……..]?
los puntos más importantes de ¿Cuál de las afir macio nes si-
un tema general. guientes sintetiza lo principal?
Segunda categoría: Aplicar conceptos, principios y procedimientos
Representa la capacidad cognitiva del examinando para utilizar concep-

tos, principios, procedimientos, técnicas e instrumentación en tareas
académico-profesionales (iniciales o avanzadas), acordes al nivel técni-
co-científico en el que se les reconoce. Una a una se describe las sub
operaciones cognitivas que constituyen esta categoría, al igual que las
demandas asociadas a la ejecución de la tarea y se ejemplifican enun-
ciados interrogativos como indicadores de cada operación.
Tabla 5
Caracterización de las sub operaciones cognitivas. Segunda categoría.
Traducción La operación demanda compren- Esta [gráfica, dibujo, esquema,

der contenidos aun cuando éstos tabla, diagrama, etc...] indica
sean presentados en códigos di- que [........]
ferentes. Es decir, evalúa la habi- Esta información está represen-
lidad para cambiar de una forma tada en [gráfica, dibujo, esque-
de representación (ej. numérica) ma, tabla, diagrama, etc...]
a otra (ej. verbal); (ej. parafra-
¿En cual de los siguientes [gráfi-
sear discursos y documentos im-
ca, dibujo, esquema, tabla, dia-
portantes).
grama, etc...] se encuentra
representado el resultado de
[……..]?
Extrapolación Demanda al examinando extender ¿Cuál de los siguientes [concep-

las tendencias de la comunicación to, principios, etc.] se aplica me-
original más allá de los datos que jor a [........]?
presenta, es decir, le demanda
establecer efectos colaterales,
implicaciones, consecuencias,
sobrantes, etcétera, acordes a
las condiciones descritas en el
orig inal.
Analizar Le demanda al examinando divi- ¿Qué pasa si [........] quito esto?

dir un todo en las partes que lo ¿Cuál es el [concepto, principio,
componen para establecer como teoría, etc...] que subyace a
es que las partes se relacionan [efecto, error, intervención,
unas con otras por separado y diagnóstico, etc...]?
con la estructura total.
¿Cuál es la consecuencia de [...]?
Generalmente, las relaciones entre
¿Cuál es la causa de [.........]?
partes - el todo y partes - relación
causa/efecto son componentes bá-
sicos de tareas más complejas.
Inferir Una inferencia es una conclusión ¿Qué pasa si [........]?

a partir de hechos observados o ¿Cuál es el [concepto, principio,
supuestos. Se elabora a partir de teoría, etc...] que subyace a
razonar deductiva, inductiva o [efecto, error, intervención,
analógicamente. diagnóstico, etc...]?
Las tareas deductivas muestran ¿Cuál es la consecuencia de
al examinando una generaliza- [........]?
ción y le demandan reconocer o
¿Cuál es la causa de
explicar la evidencia que se rela-
[...............]?
cione con ella.
¿Cuál de los siguientes [concep-
Las tareas inductivas, por su par-
to, principios, etc...] se aplica
te, presentan al examinando la
mejor a [........]?
evidencia o los detalles y le pide
elaborar una generalización. ¿Cuál de los siguientes enuncia-
dos es verdadero de acuerdo a la
El reactivo presenta información
información [........]?
y una lista de enunciados que
pueden ser o no inferencias váli- ¿Cuál de los siguientes enuncia-
das. Se pregunta si la inferencia dos corresponde a presuposicio-
es verdadera, falsa o si existen nes realizadas en [........]?
datos suficientes para determi-
nar su veracidad.
Comparar Demanda al examinando cotejar, ¿Cuál de los siguientes enuncia-

mapear, contrastar y establecer dos corresponde a [evento histó-
correspondencias entre ideas u rico particular] con la situación
objetos y su parecido. contemporánea [……..]?
También implica establecer un ¿Cuál de los siguientes enuncia-
punto de vista, sesgos, valores o dos corresponde al punto de vista
intenciones en un material. del autor en términos de su pers-
pectiva académica?
Aplicar La operación cognitiva le demanda ¿Cuál de los siguientes procedi-

procedimientos al examinando aplicar, de manera mientos es mejor para el proble-
adecuada, los pasos requeridos en ma de [........]?
un procedimiento, algoritmo, técnica ¿Cómo se auxilia un
o instrumentación. [...............]?
¿Cuál es el procedimiento más
efectivo (o menos) para [........]?
Tercera categoría: Resolver problemas
Representa la capacidad cognitiva del examinando para evaluar e inte-

grar conceptos, principios, métodos, técnicas, procedimientos, estruc-
turas de tareas y/o planes de acción en función de los principios de
adecuación y/o valores profesionales requeridos para resolver situacio-
nes problemáticas, así como para identificar y corregir errores importan-
tes en soluciones preestablecidas. A continuación, se describen una a

una las sub operaciones cognitivas que constituyen esta categoría, al
igual que las demandas asociadas a la ejecución de la tarea en la que se
evalúa y se ejemplifican enunciados interrogativos.
Tabla 6
Caracterización de las sub operaciones cognitivas. Tercera categoría.
Planificación de La operación le demanda al exa- ¿Cuál es la más común [causa,

acciones minando analizar, sintetizar y síntoma] de [problema del pa-
evaluar hechos, conceptos, prin- ciente, alumno, usuario]?
cipios, fundamentos teóricos, (anticipar consecuencias, o rela-
procedimientos y valores profe- ciones causa-efecto de acuerdo a
sionales para planear la ejecución principios generales)
en funciones de la disciplina pro-
A un paciente se le diagnostica
fesional. En otras palabras, esta-
[problema].
blecer un procedimiento para
completar una tarea en funciones ¿Cuál es el tratamiento que re-
problemas como: observación, sulta más efectivo?
diagnóstico, intervención, evalua- ¿Cómo debe ser tratado el pa-
ción, investigación y comunica- ciente?
ción, acordes a las demandas
¿Cuál es la fundamentación teóri-
contextuales y de integración de
ca de [……..]?
datos que resuelvan problemas
específicos, asegurando la calidad [Descripción de una situación o
de las técnicas utilizadas, así problema en un contexto especí-
como la predicción de efectos de- fico]
rivados. ¿Cuál es el método, técnica, más
adecuado para [……..]?
Corrección La operación cognitiva le demanda ¿Cuál es el riesgo de [……..] para

de errores al examinando aplicar conceptos, [.........]?
principios, teorías, métodos, técni- ¿Una decisión nociva para [pa-
cas y procedimientos para identifi- ciente, institución, comunidad)
car y corregir errores importantes es [........]?
ante casos y problemas, así como
¿De qué manera [……..] se puede
para la argumentación teórica del
corregir [………]?
curso de acción remedial.
¿Cuál es el método más adecuado
También implica identificar incon-
para mejorar/resolver [……..]?
sistencias entre un producto y cri-
terios externos; determinar si un ¿Es coherente [aplicación técni-
producto tiene consistencia interna ca] con [teoría que se selecciona
y detectar la pertinencia de un pro- como marco referencial]?
cedimiento para un producto dado. Una implicación práctica de [teo-
ría, principio, concepto..] es.
Evaluar Demanda al examinando juzgar ¿Esta es una buena investiga-

la calidad, credibilidad, valor o ción?
practicidad de una evidencia pre- ¿Por qué sí o por qué no?
sentada en el reactivo a partir de
criterios que valoren su precisión
lógica, consistencia, reglas de
evidencia y valores.
También implica analizar pers-
pectivas del proceso mediante
tres componentes:
1. Identificar el asunto en el haya
discrepancias.
2. Identificar la perspectiva sobre
el asunto y el razonamiento
que hay detrás de ella.
3. Identificar la perspectiva opues-
ta y el razonamiento que hay
detrás de ella.
Tomar La operación cognitiva le deman- ¿Cuál es la opción más adecua-

decisiones da al examinando seleccionar de da?
entre varias opciones aparente- ¿Qué criterios deberían cubrirse
mente equivalentes. para establecer la calidad del ser-
El proceso incluye: vicio?
a. Identificar alternativas impor- ¿Con qué nivel de satisfacción se
tantes y apropiadas a ser con- cumple el criterio [……..]?
sideradas
b. Identificar criterios importan-
tes y apropiados para evaluar
las alternativas.
c. Identificar de manera precisa
la extensión en la que cada
alternativa posee cada crite-
rio.
d. Seleccionar adecuadamente el
criterio de decisión que resuel-
va la decisión
Taxonomía de tipos de conocimiento

Esta taxonomía está compuesta por tres categorías de conocimiento:
Declarativo, Procedimental y Autorregulatorio. Cada categoría conjunta
un grupo de conocimientos que operacionalizan demandas particulares
a su naturaleza.
Primera categoría: conocimientos declarativos
Informan lo que las cosas son y puede estar representados en la memo-

ria de manera imaginal o verbalmente. Son accesibles, fácilmente exa-
minables y combinables en actividades de aprendizaje. Ya aprendidos
son bastante estables. Los tipos incluidos son:
1. Conocimiento factual (hechos, símbolos, nombres, lugares, fórmu-

las), su contenido es de naturaleza específica, no permite mayor ge-
neralización y son aprendidos por estrategias de rutina y de
elaboración; los estudiantes los deben conocer para decir que se for-
maron en una disciplina particular o para resolver un problema en
ella. Implican terminología, detalles específicos y símbolos.
2. Conocimiento conceptual, incluye interrelaciones entre elementos

básicos (conceptos, principios, reglas y la definición de procedimien-
tos) que constituyen el corpus conceptual de un campo de dominio
específico, representan un nivel de abstracción mayor al anterior
dentro de una gran estructura que les posibilita funcionar juntos.
Implican clasificaciones y categorías, principios y generalizaciones
(teoremas y leyes) y teorías, modelos y estructuras.
Segunda categoría: conocimientos procedimentales
Refieren a cómo hacer algo (despejar una ecuación, jugar tenis, interpretar
una radiografía, aplicar una técnica específica, entre otros). Tienden a ser
inaccesibles y por lo tanto, difíciles de ser examinados. Difícilmente son ex-
presados verbalmente. Su aprendizaje es difícil, toma mucho tiempo y
práctica. Incluye métodos de inferencia y criterios para usar las habilida-
des, algoritmos, técnicas y métodos. Se explicitan dos tipos:
1. Procedimientos para reconocer patrones de diversa índole (motores,

perceptuales, formas bi y tridimensionales específicas, etc.).
2. Procedimientos para seguir secuencias de acciones con diferentes ni-

veles de complejidad (resolver una suma, una ecuación, aplicar una
técnica, etc.). Son conocimientos acerca de habilidades específicas del
dominio y sus algoritmos, de técnicas y métodos específicos y de crite-
rios para determinar cuándo usar los procedimientos apropiados.
Tercera categoría: conocimientos autorregulatorios
Refiere a la cognición en general, así como a la conciencia y el conoci-

miento sobre la propia cognición. Incluye conocimiento estratégico, con-
textual y condicional para estar al tanto de la naturaleza de la tarea y
para la administración de recursos (personales y medio ambientales),

necesarios y disponibles, así como auto conocimiento. Regularmente, se
plantean tres componentes:
l los del Estudiante, en cuanto a su Eficacia, Contingencia y Auto-

nomía percibidas y su orientación a la Aprobación Externa;
l los de la Tarea de Aprendizaje, en términos de la Orientación a la

Tarea en sí y la Orientación al Logro y, finalmente,
l los de los Materiales, en cuanto a su Evaluación y Regulación.
Como puede derivarse de la lectura del contenido de las taxonomías, el

docente dispone de conceptos que le permiten analizar los objetivos ins-
truccionales. Como ya se dijo, comienza identificando el verbo impor-
tante en el objetivo y éste se compara con las operaciones cognitivas de
la taxonomía correspondiente. Toda vez identificada la operación, se
analiza ahora el tipo de conocimiento, con base en los términos presen-
tados en la taxonomía de tipos de conocimiento y el producto de ambos
análisis debe reflejar, con claridad, lo que el objetivo particular le de-
manda al estudiante. En esto, el docente puede encontrar que el objeti-
vo pida que se identifique conocimiento factual o, tal vez, que se aplique
conocimiento conceptual (o procedimental) o bien, resuelva un proble-
ma mediante la combinación de conocimientos declarativos y procedi-
mentales. La variedad de intenciones de los objetivos no es muy amplia
en la práctica, el docente podrá constatarlo conforme analice los objeti-
vos instruccionales con este procedimiento.
Pero, el trabajo no ha concluido, aún falta:
1. Enunciar el conocimiento a ser evaluado y en qué operación va a ser

evaluado.
2. Transformar ese enunciado en una pregunta y escribirla en una tabla

como la tabla 3 y finalmente.
3. Escribir la respuesta adecuada, en la misma celda en la que se escri-

bió el enunciado de la pregunta.
Con esta actividad, completada para cada uno de los objetivos seleccio-
nados, el docente habrá seleccionado las tareas que elicitarán las con-
ductas a ser evaluadas.
Hasta aquí, el docente ha satisfecho dos de los grandes pasos solicitados

por la planeación de exámenes, establecer el universo de contenido o de
medida y seleccionar las tareas que elicitarán las conductas a ser eva-
luadas. En capítulos posteriores a éste, encontrará ejemplos que reco-

mendamos revisar atentamente para ilustra más ampliamente lo que
hemos planteado en éste.
Generación de medidas significativas del aprendizaje

Toca revisar ahora lo que la teoría recomienda acerca de la evaluación
de mecanismos responsables del desarrollo de pericia, en un amplio ran-
go de habilidades humanas. En este contexto, Glaser, Lesgold y Lajoie
(1987), elaboraron un marco de trabajo que orienta la generación de
medidas significativas del aprendizaje mediante la identificación de
cambios cualitativos en diversos mecanismos de aprendizaje, tomando
en cuenta un modelo de desarrollo de pericia, con fuerte sustento empí-
rico. Las medidas recomendadas por este marco de trabajo son las si-
guientes:
1. Cambios cualitativos en la organi zación y estruc turación del co -

no ci mien to. Permiten diferen ciar nova tos de expertos. Eva luar la
estructu ra de la base de conocimientos es importan te en la medi-
da que valora posibles éxitos o fracasos. Los novatos muestran
estructuras cognitivas pobres (pocos conocimientos) y poco es-
truc tu ra das (mal o po bremen te in terco nec tados), en tan to que
los expertos las tienen ricas y fuer temente interconectadas en
una es truc tu ra con cep tual coherentemente integrada, accesible y
fle xi ble. Las bases de conocimiento de expertos y novatos difiere
sub stan cial men te tan to en su ex ten sión como en su or gani zación.
En la medida en la que los novatos constru yen esquemas más ri-
cos y mejor organizados podrán asimilar mejor las nuevas ideas y
su ejecución avanzará hacia estados de mayor expertez.
2. También, se evalúan cambios cualitativos en la representación de

los problemas a resolver. Permite establecer diferen cias cualitati -
vas entre novatos y expertos. Tan to los ex pertos como los nova -
tos poseen categorías conceptuales a partir de las cuales generan
las representaciones, pero las categorías de los expertos están
basadas en principios científicos, mientras que las categorías de
los novatos están orientadas en características superficiales o
bien en teorías ingenuas relacionadas con el problema. Así, los
novatos representan los problemas a resolver en detalles de na-
turaleza superficial, en tanto que los expertos representan los
problemas a partir de conceptos abstractos más poderosos y ex-
plica tivos.
3. Los modelos mentales que usan los estudiantes para resolver de-
mandas, constituyen otro aspecto en el que se debe establecer si se
han dado cambios cualitativos en el aprendizaje. En la medida en la
que el aprendizaje ocurre se desarrollan organizaciones del conoci-
miento, bien estructuradas y cualitativamente diferentes, que capa-
citan a los aprendices para construir una representación compleja o
modelo mental que los guía tanto en la solución de problemas, como
para futuros aprendizajes. Los modelos mentales apoyan a los estu-
diantes a evitar estrategias de solución por ensayo y error y a formu-
lar analogías e inferencias que favorecen nuevos aprendizajes y
comprensiones. Así, ciertos patrones (modelos mentales) sirven
para guiar acciones apropiadas en la ejecución experta. Este meca-
nismo refleja y provee una estructura para una representación que
va más allá de los rasgos superficiales.
Permítase poner un ejemplo al respecto, se refiere a la construcción de

modelos mentales en la competencia diagnóstica en ciencias de la salud,
donde la integración del conocimiento y el uso integrado de habilidades
es particularmente complejo. Este tipo de aprendizaje se inicia en los
primeros años de formación, cuando el razonamiento clínico de los estu-
diantes está caracterizado por cadenas de conocimientos simples, com-
puestas por pasos pequeños, comúnmente basados en conceptos
superficiales de detalle, más que por conceptos de alto nivel, más expli-
cativos.
En esta etapa y en vías de apoyar a sus estudiantes, los profesores utili-

zan, a veces, listas de chequeo, notas sobre alteraciones y bosquejos
generales acerca de fundamentos teóricos que explican las causas y los
efectos comprometidos. Este tipo de andamiaje fomenta en el estudian-
te la creación de una red de conocimiento bien integrada y validada que
constiuirá una base inicial para desarrollar la habilidad diagnóstica ini-
cial. Apoyan la integración del conocimiento y el uso integrado de cono-
cimientos diferentes.
Toda vez que el estudiante ha adquirido las redes bien integradas, a par-
tir de práctica extensa con el andamiaje arriba descrito, él puede cons-
truir líneas de razonamiento directo entre conceptos diferentes. Y, en la
medida en la que estas líneas directas sean frecuentemente activadas,
gracias a prácticas situadas y bien planeadas por los profesores, los con-
ceptos que las constituyen se agruparán más y el estudiante estará en
capacidad de establecer ligas directas entre el primer y último concepto
pudiendo saltarse los intermedios. Este es el segundo proceso de apren-
dizaje, conocido como “conocimiento encapsulado”, -refiere al aspecto
de agrupación-. Como resultado, el razonamiento clínico se incrementa

y el estudiante ya no requerirá el andamiaje inicial.
El tercer nivel de aprendizaje es la formación de un libreto de enferme-

dad. Los libretos están basados en la experiencia. Son estructuras de
conocimiento que describen secuencias estereotipadas de acción. Por
ejemplo, el libreto de restaurante describe el procedimiento de comer en
él, los roles de los comensales y sus acciones, los objetos involucrados,
etcétera. Los libretos indican, también, dónde las variaciones están per-
mitidas y lo que es realmente necesario, por ejemplo, en el libreto “res-
taurante” se requiere que la comida sea servida y que los comensales
paguen por ella.
Los libretos también pueden formar familias con una estructura común,
pero con combinaciones diferentes de sus variables (restaurante de co-
mida rápida, de comida china, entre otros). De la misma manera, los li-
bretos de enfermedades describen el proceso de generación del
desorden: condiciones bajo las cuales ocurre, los procesos anormales y
los signos y síntomas causados por el desorden específico. Los libretos
de enfermedad también incluyen el curso que el desorden puede tomar
y la acción requerida para curarlo. Los profesionales de la salud desarro-
llan libretos similares a los del restaurante para todos los desórdenes y
tipos de pacientes que comúnmente ven en su práctica. En este proceso,
la práctica apropiada con casos variados, que sea continua, extensa y
realimentada por un supervisor competente juega un papel central en el
aprendizaje profesional.
Pero cabe hacer una diferenciación importante: hay una gran diferencia
entre el razonamiento clínico basado en redes de conceptos y el basado
en libretos de enfermedad. El basado en redes de conceptos se realiza
paso a paso y, aun cuando las redes hayan sido encapsuladas sus pasos,
aunque grandes, seguirán siendo realizados uno a la vez. En cambio,
cuando el razonamiento está basado en libretos de enfermedad, estos
se activan como un todo: una vez que se activa el libreto de enferme-
dad, se activan inmediata y automáticamente otros elementos del libre-
to.
Como fue ejemplificado antes, la progresión en la construcción de la ha-

bilidad diagnóstica requiere exposición continua a casos o pacientes rea-
les. Cuando se está ante la situación problema, se activan uno o más
libretos de enfermedad con el fin de aparearlos con la información pro-
vista por el caso o paciente. A partir de la información apareada se gene-
ran expectativas acerca de signos y síntomas que éste debe tener. De
aquí en adelante, los libretos de enfermedad activados proveen listas de
fenómenos a ser buscados en la historia del paciente y durante la exami-

nación. En el curso de este proceso de verificación, el libreto sustituye
los valores esperados con los datos reales del paciente. Cuando el libreto
está completamente verificado, se llega al diagnóstico o bien a uno dife-
rencial, si es que algunos libretos competidores permanecen activos.
De aquí que los estudiantes que tienen organizado su conocimiento en

libretos (modelos mentales) tengan ventajas sobre los que solo lo tie-
nen en redes semánticas. Esta diferencia marca un cambio cualitativo en
la construcción del conocimiento profesional que debe fomentarse por
experiencias formativas, de otra manera, se corre el riesgo de no lograr
la habilidad típica deseada.
Se sabe que los modelos men tales de los expertos son más comple-
jos, lo que les permite visualizar los problemas de una mejor manera
y utilizar sistemas de operaciones capaces de guiar su ejecución de
for ma heu rística efec tiva, en tan to que los nova tos no los poseen o
no los han refina do lo que les hace li gar sus acciones a al goritmos
multipasos rutinizados, volviendo su ejecución más lenta y con ma-
yor ries go de fallar. Los ex per tos forman mo delos men ta les que in te -
gran tanto conocimientos sobre conceptos y principios básicos de la
disciplina, como procedimientos y condiciones bajo las cuales deben
ser aplicados para operar sobre un tópico o campo de conocimiento
específico.
4. La medición de la eficiencia procedimental constituye otro de los

componentes importantes en cuanto a cambios cualitativos del
aprendizaje. Tal medición debe generar datos que revelen si los
alumnos pueden aplicar estrategias de solución de problemas “hacia
adelante”. Son el resultado de la experiencia acumulada por los ex-
pertos: ciertas configuraciones de la información les han permitido
desarrollar ciertos patrones de inferencia exitosa basada en la prácti-
ca, gracias a las cuales han aprendido qué acción trabaja bajo qué
condiciones. Inicialmente son descubiertas por búsqueda “hacia
atrás”, pero una vez establecidas los expertos forman reglas de bús-
queda “hacia adelante”. El experto reconoce patrones automática-
mente y aplica secuencias de acciones asociados con ellos. En
cambio, los novatos usan estrategias “hacia atrás”, de análisis “me-
dios - fines”, en las que establecen y van satisfaciendo, una por una,
la secuencia de sub metas, en las que han descompuesto el problema
a resolver. Esto requiere de la retención de muchos resultados inter-
medios, lo que sobrecarga la memoria e induce a errores frecuentes.
5. La medición de la automaticidad en la ejecución. Su medición debe

reflejar, con claridad, la facilitación de la atención requerida en acti-
vidades multitareas. Cuando los novatos empiezan a adquirir una ha-
bilidad dependen más de los procesos controlados por la atención, lo
que los hace ser más lentos. Consumen muchos recursos cognitivos
y sólo una pequeña cantidad de la información que ha sido activada
recibe atención voluntaria. En cambio, los procesos automatizados
de los expertos se realizan sin necesitar una interpretación del cono-
cimiento declarativo (verbal), lo que los hace más rápidos y más efi-
cientes en la solución a las tareas solicitadas.
6. La medición de las habilidades autorregulatorias. Su medición permi-

te identificar si gracias al conocimiento autorregulatorio y la opera-
ción de las habilidades de autorregulación, el estudiante puede
satisfacer el requisito de establecer, evaluar, planear y regular si se
han cumplido las metas establecidas, evaluar el grado en el que se
han logrado y establecer la modificación, selección o construcción de
las estrategias necesarias para el logro de las metas deseadas. La
evaluación de esta dimensión le dará al docente un mejor entendi-
miento de la relación entre aprendizaje y motivación en términos de
cómo es que la evaluación contribuye a la evaluación o bien, cómo
debería hacerlo.
Con base en los fundamentos descritos hasta aquí el docente puede pla-
near las evaluaciones en una secuencia detallada de objetivos gradual-
mente más complejos, utilizando medidas de cambios cualitativos en los
mecanismos responsables del aprendizaje complejo.
Ahora bien, para determinar la extensión de las unidades de evalua-

ción es necesario preguntarse ¿cuantos objetivos se necesitan evaluar
para que los alumnos tengan la oportunidad de mostrar su aprendizaje?
y si se desea información sobre el rendimiento académico de los alum-
nos por cada objetivo evaluado o por el conjunto de objetivos.
En lo que toca al tiempo que se usará en el examen, éste dependerá del

número de tareas que se incluyan. Este número estará en función al tipo
y dificultad de las tareas y a la complejidad de los objetivos por evaluar.
Tomando en cuenta todos estos factores, el docente puede estimar el
tiempo que tomará resolver la prueba; sin embargo, esta estimación po-
dría ser revisada después de haberse administrado el instrumento.
Se realiza una estimación del número total de reactivos que va a conte-

ner la prueba para poderlos dividir entre el número de objetivos que va a
abarcar; no obstante, los más complejos podrían tener más reactivos
que los menos complejos. Es importante comentar que si se quiere eva-

luar cada objetivo, es importante tener por lo menos ocho reactivos por
cada uno para que la medición sea confiable, mientras que si se desea
una calificación global, tres reactivos serán suficientes (Nitko, op. cit.).
Otro aspec to crítico en el diseño de un examen es el establecimiento

de los criterios que asegu ren que los con tenidos del examen lo que
es relevante, significativo y esencial en el apren dizaje del dominio de
conocimiento en cues tión. El docen te puede represen tar en una ta -
bla, contenidos y relaciones de servicio entre ellos, en términos de
los siguientes criterios: a) contenidos fuente (prestan servicios a
otros contenidos), b) sintéticos (reciben servicios de otros conteni-
dos), c) de enlace (dan y reciben servicios simultáneamente) y d)
aislados (no tienen relaciones con otros contenidos). El número y
tipo de enlaces de un contenido define su importancia relativa con
respecto de otros.
De igual manera, continuará modelando el dominio a ser evaluado deci-

diendo el nivel de dificultad de las tareas y de las evidencias que darán
cuenta del nivel de logro obtenido. También, deberá decidir cómo se juz-
gará el grado en el que las cosas se han hecho bien, en términos de:
a) las operaciones cognitivas que harán evidente el dominio del conte-

nido en cuestión
b) las tareas, formatos y contextos particulares de la evaluación.
La Tabla 6 muestra un esquema organizativo donde el docente integra

objetivos, tareas o ítems y el criterio de dominio.
Tabla 6
Integrando objetivos, operaciones cognitivas, tareas y criterio de
dominio.
__________________________________________________
Objetivo de aprendizaje Tarea o ítem Criterio de dominio
__________________________________________________
__________________________________________________
Se estima que la calidad del aprendizaje mejorará en la medida en la que

el docente utilice evaluación que permita identificar problemas que
orienten la mejora deseada. Evaluación que utilice índices que reflejen
cambios cualitativos en la construcción gradual de conocimientos, habi-
lidades y valores significativos.
Así y en la medida en la que la evaluación para el aprendizaje está cam-

biando lo que es medido, cuándo y dónde se debe medir y cómo diseñar
la medición, la calidad de la oferta educativa generada podrá ser incre-
menta desde la práctica cotidiana (Castañeda, 1998).
En los capítulos siguientes se revisarán las actividades que completan el

desarrollo de exámenes objetivos, entre ellas, elaborar los ítems que le
den al examinando la oportunidad de mostrar su nivel de logro en lo que
se desea evaluar, asignar calificaciones, interpretar resultados e infor-
mar a los interesados.
Referencias
Anderson, L. W. (2003). Classroom Assessment. Enhacing the Quality of
Teacher Decision Making. N.J.: LEA.
UNAM.
narios educativos. Revista Sonorense de Psicología. 12(2). 57-67.
and Life-long Learning, UNESCO: UK. 12(1-4), 94-106.
Glaser, R., Lesgold, A. & Lajoie, S. (1987). Toward a cognitive theory for
the measurement of achievement. En R. Ronning, J. Glover, J. C. Con-
nolly & J. Witt (Eds.). The influence of cognitive psychology on testing
and measurement, (pp. 966-131). Hillsdale, N.J. EE.UU.: LEA.
Items. (3a. ed.).EE. UU.: LEA.
Mehrens, W & Lehmann, I. (1982). Medición y Evaluación en la Educación y
en la Psicología. México: Compañía Editorial Continental, S. A. de C. V.
Nitko, A. J. (1994). A Model for Developing Curriculum-Driven Crite-
rion-Referenced and Norm-Referenced National Examinations for
Certification and Selection of Students. Ponencia presentada en la
Conferencia Internacional sobre Evaluación y Medición Educativas,
de la Asociación para el Estudio de la Evaluación Educativa en Sud-
áfrica (ASSESA).
Popham, J. (1990). Modern Educational Measurement. A Practitioner’s

Perspective. MA.: Allyn and Bacon.
Tenbrink, T. (1999). Evaluación: Guía Práctica para Profesores. Madrid:
Nancea, S. A. de Ediciones.
Wiley, D. E. (2002). Validity of Constructs Versus Construct Validity of
Scores. En H. I. Braun, D. N. Jackson & D. Wiley (Eds.). The Role Of
Constructs in Psychological and Educational Measurement, (pp.
207-227). N.J.: LEA.
Capítulo 7 ?
Elaboración de ítems objetivos
Raquel García J., Sandra Castañeda F., Rosa E. González,
María de Lourdes Pineda G. y Cecilia Arredondo
Universidad Nacional Autónoma de México, D. F., México
Introducción
En este capítulo se ilustrará, en primer lugar, la aplicación del análisis
cognitivo de tareas a un dominio de conocimiento particular, con la fi-
nalidad de aportarle al docente ideas y ejemplos de cómo operar esta
técnica para el establecimiento del universo de medida y las tareas a
ser evaluadas, después se presentarán lineamientos generales útiles
a la elaboración y redacción de reactivos, entre otros, criterios para la
clasificación de reactivos de opción múltiple (por su forma de respues-
ta y por su estructura), las ventajas y desventajas de este tipo de
ítems, las dimensiones a ser consideradas en la redacción de un ítem,
en términos de los siete tipos de formatos más utilizados y de dos
fuen tes de contenido que han mostrado afectar sensiblemente el gra-
do de dificultad de los reactivos (la operación cognitiva subyacente a
la ejecución y el tipo de conocimiento evaluado). También, se revisan
dos tipos de análisis de ítems, uno previo a su aplicación y otro poste-
rior. Finalmente, se presentan reglas técnicas para escribir reactivos
que atienden a seis aspectos básicos de la estructura del ítem y una
escala para que el docente autoevalúe la calidad de los ítems por él
elaborados.
Aplicación del análisis cognitivo de tareas

Ya se ha dicho que en el primer paso de la planeación de un examen,
el docente debe prestar atención al dominio educativo específico que
se utiliza en el contenido del reactivo, es decir, el reactivo debe ape-

garse a las actividades, objetivos y tareas realizadas en el dominio
educativo a evaluar. Por dominio educativo se entiende el conjunto de
objetivos, actividades y tareas que son objeto del programa educativo
que pretende ser evaluado a través de la prueba, por ello, constituye
el universo de medida, es decir, incluye todas las tareas que ponen de
manifiesto el grado de habilidad adquirido por un alumno (Jornet y
Suarez, 1996). Y es precisamente en aquellas tareas en las que el es-
tudiante encuentra más dificultades para aprender en donde es alta-
mente recomendable llevar a cabo un análisis cognitivo de tareas
(ACT) para identificar, en varios niveles, las demandas que generan
los errores más importantes. Este tipo de análisis se ha aplicado con
éxito a un rango amplio de áreas: la instruccional, el desarrollo de sis-
temas de cómputo, el diseño organizacional, el diseño de productos y
la evaluación de dominios.
Por considerar de interés para el lector, a continuación ilustramos la

aplicación del ACT a la construcción de un examen de requisito de com-
prensión de lectura. Dicho análisis identificó mecanismos responsables
de la comprensión de lectura en inglés, uno referido al componente de
microestructura, otro al de macroestructura y el último al procesamien-
to cognitivo implicado en la tarea.
La microestructura es aquella parte que hace referencia a la compren-

sión lingüística de un texto, incluye aspectos léxicos y estructurales de
la lengua inglesa, específicamente aquellos relacionados con los ele-
mentos cohesivos del texto como son la comprensión de la función de
las conjunciones, la relación que existe entre el sujeto de una oración y
el pronombre que lo sustituye, y la relación que guardan entre si las pa-
labras que componen una oración. Graves y Frederiksen (1991), pro-
ponen un nivel sintáctico de manejo de la lengua inglesa, que
corresponde a la microestructura aquí propuesta y que se presenta a
continuación.
Nivel lingüístico:
l Léxico/morfológico l Topicalización
l Sintáctico l Tipografía/puntuación
l Cohesión
A partir de lo anterior, el ACT tomó en cuenta componentes del código

de la lengua, como se muestra en la Tabla 1.
ELABORACIÓN DE ÍTEMS OBJETIVOS 173
Tabla 1
Componentes de código de la lengua para evaluar comprensión
de textos en inglés como lengua extranjera.
__________________________________________________
Componentes de código de la lengua
__________________________________________________
Reconocimiento léxico
Inferencia de vocabulario
Localización del mínimo comunicativo
Distribución de sustantivos y verbos en el enunciado
__________________________________________________
Reconocimiento de casos que alteran la comprensión del enunciado,
como palabras de tipo negativo, de cantidad o tiempo (adverbios)
Concepto de tiempo (auxiliares del sistema verbal)
Interpretación de los elementos de cohesión
Interpretación de los elementos de coherencia (pronombres, adjetivos
posesivos, etc...)
__________________________________________________
La macroestructura es aquella que relaciona las oraciones que compo-

nen un párrafo, y éste con los otros párrafos de un texto para poder
comprender el contenido del mismo. La comprensión de los conectores
que unen las oraciones, y la detección de las ideas principales presentes
en un escrito son los componentes de la macroestructura (ver Tabla 2).
Graves y Frederiksen (1991) identifican las siguientes tareas en la eje-
cución experta de la comprensión de lectura, equivalentes a la macroes-
tructura:
Nivel proposicional
l Significado proposicional l Relaciones de macroestructura
l Coherencia l Relaciones lógicas
Tabla 2
Estructura textual para la evaluación de la comprensión de textos en
inglés como lengua extranjera.
__________________________________________________
Componentes de la estructura textual
__________________________________________________
Interpretación de los elementos de coherencia
Interpretación del párrafo a partir de sus componentes
Interpretación de elementos visuales de apoyo
__________________________________________________
La interpretación de los elementos de coherencia hace referencia al re-

conocimiento e interpretación de lazos de unión entre oraciones, llama-
dos conectores; los componentes del párrafo se refieren a la oración
tópico y los detalles de apoyo que componen un párrafo. La interpreta-
ción de elementos visuales de apoyo se refiere a los gráficos, mapas,
diagramas y cualquier otra representación visual que apoye información
escrita. Graves y Frederiksen (1991) proponen como último nivel, el
conceptual.
Nivel conceptual
l Texto narrativo l Texto basado en un problema
l Texto tipo diálogo l Descripción
El ACT elaborado toma en cuenta los tipos de texto y formato de la infor-

mación presentada y además se refiere a la elaboración de la informa-
ción que se lleva a cabo a partir de resúmenes, toma de notas y
utilización de la información para cumplir un objetivo (ver Tabla 3).
Tabla 3
Componentes de organización textual para evaluar comprensión de
textos en inglés como lengua extranjera.
__________________________________________________
Componentes de organización textual
__________________________________________________
comprensión de la organización del texto
elaboración de la información obtenida
__________________________________________________
Asimismo, el ACT incluyó el procesamiento cognitivo. Refiere a aquellas

estrategias utilizadas por el lector, como son la comprensión de las cau-
sas y efectos mencionados en un texto, la síntesis de la información leí-
da, la capacidad de distinguir entre una opinión y un hecho mencionados
en el texto, son elementos presentes en el procesamiento mental que
Feng y Mokhtari (1998) presentan de la siguiente manera:
l integración de información; l identificación de ideas principales;
l confirmación de información leída; l paráfrasis de información.
Los factores aquí mencionados fueron analizados, organizados, jerar-

quizados y agrupados en una retícula partir de la cual se elaboraron los
ítems y se ensambló el examen. El examen constó de 15 reactivos de
tipo objetivo, cuya meta fue medir la habilidad de los estudiantes para
comprender textos escritos en inglés como lengua extranjera; los reacti-
vos consistieron en tres reactivos de relación de columnas, nueve reacti-

vos de opción múltiple de cuatro opciones y tres de tres opciones; todos
con sólo una opción de respuesta correcta.
Para este examen se empleó un texto de tipo narrativo de 650 palabras,

que trató un tema sobre la esclavitud como un problema del siglo XXI. El
componente de la microestructura se conformó por dos estrategias de
lectura de bajo nivel: la decodificación de la lengua y el reconocimiento
de los rasgos estructurales del texto; el constructo macroestructura se
conformó por tres estrategias de lectura de alto nivel: la inferencia de
vocabulario, la identificación de ideas principales y de relaciones causa-
les. Finalmente el constructo procesamiento cognitivo se integró por de-
mandas cognitivas como: generalización, categorización, clasificación, y
síntesis de la información.
La microestructura se construyó usando componentes de comprensión

de lectura de bajo nivel, que consisten en proposiciones que guían la
comprensión del lector a través de aspectos lingüísticos del texto. Los
aspectos medidos fueron: a) reconocimiento de la distribución del enun-
ciado, que demanda que el estudiante reconozca la función gramatical
de las palabras en una oración y correlacione las columnas correctamen-
te, el reactivo contenía dos opciones extra como distractores; b) recono-
cimiento de elementos de cohesión, que demanda la identificación de
afijos en palabras para inferir su significado; c) reconocimiento de pala-
bras clave, donde el estudiante tenía que seleccionar la opción correcta
de tres presentadas, una resaltaba la primera y última oración de un pá-
rrafo, la otra resaltaba el sujeto y verbo de las oraciones y la opción co-
rrecta resaltaba las palabras clave del párrafo; d) referencia contextual,
la habilidad para encontrar el referido de una palabra, donde los estu-
diantes tenían que correlacionar los referentes marcados en un párrafo
con su referido correspondiente; e) reconocimiento de coherencia, don-
de el estudiante tenía que seleccionar el correcto de cuatro enunciados
que presentaban una función conectora (adición, causa, efecto, contras-
te, etc...) de acuerdo con el uso de dicho conector en el párrafo y f) el re-
conocimiento de la oración tópico, donde el estudiante tenía que
identificarla en un párrafo.
La dimensión Macroestructura se conformó de cinco reactivos, que co-

rrespondieron a estrategias de lectura de alto nivel, que permiten la ex-
tracción y generalización de la información para poder comprenderla.
Los reactivos midieron: identificación de la idea principal, donde el estu-
diante tenía que seleccionar la correcta de tres opciones que presenta-
ban la idea principal del párrafo: b) elaboración de síntesis, donde el
estudiante tenía que elegir el correcto de tres resúmenes presentados:

c) ordenamiento de la información, donde el estudiante tenía que orde-
nar una serie de eventos y correlacionarlos con el realizador de la acción
de acuerdo con la información presentada en el texto; d) organización
textual, donde el estudiante tenía que eslabonar eventos de acuerdo con
el orden de aparición en el texto; e) identificación del tipo de texto, don-
de el alumno debía seleccionar la correcta de cuatro opciones presenta-
das.
La dimensión procesamiento cognitivo se conformó por tres reactivos

que requerían de componentes de operaciones cognitivas que favorecen
la adquisición, almacenamiento, recuperación y uso de información
(García Jurado, 2003), midieron lo siguiente: a) identificación de rela-
ciones causales, donde el estudiante tenía que elegir el correcto de cua-
tro enunciados que presentaban relaciones de causa o efecto según la
situación presentada en el texto; b) identificación de información fac-
tual, donde los estudiantes tenían que seleccionar de tres opciones,
aquella que no era un hecho y c) generalización de la información, donde
el estudiante tenía que seleccionar la idea central del texto de tres opcio-
nes presentadas.
Como fue ilustrado, para poder realizar un ACT con el propósito de ela-
borar un examen en un dominio especifico, se requirió analizar los obje-
tivos y contenidos del curso o asignatura a evaluar, en primer lugar.
Esto permitió definir el perfil de salida que debe alcanzar el alumno des-
pués de tomar el curso.
Esquema para analizar cognitivamente tareas de un

dominio específico
A continuación, se presenta un procedimiento que apoyará al docente

en la realización de un ACT.
Primer paso: revisar el objetivo general del programa sobre el que se

desea llevar a cabo el análisis cognitivo de tarea y escribirlo en un espa-
cio como el que se presenta abajo (ver Tabla 4).
Tabla 4
Formato para escribir el objetivo general.
__________________________________________________
Escriba aquí el objetivo general de la materia presentado en el programa
que sirve de base para la evaluación. ___________________________
________________________________________________________
Segundo paso: Analice el objetivo y decida cuales son las acciones que
el alumno debe ser capaz de realizar al final del curso; enuméralas en
orden de importancia de lo más a lo menos importante:
Aquí deberemos contemplar aquello que el alumno debe saber hacer al

final del curso, como por ejemplo, el reconocimiento del léxico, la identi-
ficación de elementos de cohesión y coherencia, y los demás contempla-
dos en el curso, colocándolos en orden jerárquico.
Ter cer paso: Par tien do del ob je ti vo que el alum no debe cum plir al
fi nal del cur so, se plan tean los co no ci mien tos y ha bi lida des que ad -
qui ri rá du ran te el pe riodo ins truc cio nal. Por ejemplo, si un ob je tivo
so lici ta la com pren sión de lec tu ra de tex tos de tipo aca dé mi co, es -
cri tos en in glés, de com pleji dad me dia. Se con si de ra rán las ta reas
que el ex per to rea li za para com pren der tex tos en in glés, sien do
muy im portan te de limi tar los co no ci mien tos y las ha bi lida des a de -
sa rro llar, los prime ros co rres pon den a lo que el alum no debe sa ber
y los se gun dos a lo que el alum no debe sa ber ha cer para rea li zar la
ta rea.
Tomemos una tarea de las ya mencionadas, la del reconocimiento léxi-

co:
Tabla 5
Ejemplo de conocimientos y habilidades en la
comprensión de textos en inglés.
__________________________________________________
Conocimientos Habilidades
__________________________________________________
El alumno debe saber que es una El alumno será capaz de identifi-
palabra clave y como identificarla. car las palabras clave contenidas
Las palabras clave tienden a ser en un texto para encontrar el
sustantivos que están comprendi- tema general del mismo.
dos dentro de un campo semánti-
co (palabras que delimitan el tema
de un escrito).
__________________________________________________
Cuarto paso: Analice los objetivos específicos y escriba en la Tabla 6 las

habilidades y conocimientos que el alumno debe adquirir a lo largo del
curso. El análisis deberá comenzar a partir de las más elaboradas hasta
llegar a las más sencillas.
Tabla 6
Formato para desglosar conocimientos y habilidades en el ACT.
__________________________________________________
Habilidades Conocimientos
__________________________________________________
__________________________________________________
Quinto paso: A partir de las tablas anteriores, elabore una tabla (con el
formato de la Tabla 7) que contenga las tareas que el alumno debe saber
resolver de acuerdo con lo planteado en los objetivos del curso o asigna-
tura.
Tabla 7
Formato para la elaboración de tareas en el ACT.
__________________________________________________
Tareas
__________________________________________________
__________________________________________________
Tomemos lo siguiente como ejemplo (ver Tabla 8):
Tabla 8
Tareas de comprensión de textos en inglés.
__________________________________________________
Tareas de comprensión
__________________________________________________
Reconocimiento de léxico
Inferencia de vocabulario
Localización del sujeto y verbo que lo acompaña
Distribución de sustantivos y verbos en el enunciado
__________________________________________________
Reconocimiento de casos que alteran la comprensión del enunciado,
como palabras de tipo negativo, de cantidad o tiempo (adverbios)
Concepto de tiempo (auxiliares del sistema verbal)
Interpretación de los elementos de cohesión (pronombres, adjetivos po-
sesivos, etc...)
__________________________________________________
Ahora, complete la siguiente tabla con la información de los contenidos

de su curso.
Tabla 9
Formato para determinar las tareas en el ACT.
__________________________________________________
Tareas de ACT
__________________________________________________
__________________________________________________
Sexto paso: Identificar las sub tareas que componen la tarea, decidir el
tipo de conocimiento que se integrará en el curso y los procesos nece-
sarios para llevar a cabo la tarea. Volvamos a nuestro ejemplo. Las ta-
reas identificadas deben dividirse en sus sub componentes (ver Tabla
10).
Tabla 10
Ejemplo de sub tareas en la comprensión de textos en inglés.
Sub tareas de comprensión de textos
Tarea a Tipo de conoci- Contexto de Procesos

incluir miento a evaluar recuperación de subyacentes a la
(conceptual/ información tarea a realizar
procedimental) (Reconocimiento/
recuerdo)
Reconoci- Conceptual (el Como se trata de Comprensión

miento de qué) y procedi- un nivel básico, la Atención
palabras mental (cómo) recuperación sería Comprensión
clave sólo de reconoci- Codificación
miento de la infor-
mación, emplean-
do un ejercicio de
reactivos objetivos
Ahora, complete la siguiente tabla con los sub componentes de tarea de

su interés.
Tabla 11
Formato para los sub componentes de la tarea.
Sub tareas que las componen
Tarea a Tipo de conoci- Contexto de Procesos

incluir miento a evaluar recuperación de subyacentes a la
(conceptual/ información tarea a realizar
procedimental) (Reconocimiento/
recuerdo)
Séptimo paso: Una vez que todas las tareas se han integrado y jerarqui-
zado por orden de dificultad se puede elaborar un examen, revisando las
tablas ya elaboradas aquí y redactando los mejores reactivos posibles.
Para ello, le recomendamos continuar con la siguiente sección.
Lineamientos generales para la elaboración de reactivos
Recordando, un reactivo de opción múltiple es un enunciado que solicita

del examinando la toma de decisiones ante una serie de alternativas,
consta de dos partes; un enunciado llamado base o cuerpo, que expresa
una situación en forma de proposición (imperativa, incompleta o interro-
gativa) y una serie de opciones donde una es la opción correcta o la me-
jor solución para el problema y las demás tienen la función de
distractores. Aun cuando los reactivos muestran, por lo general, tener
entre cuatro y cinco opciones de respuesta, últimamente se prefiere que
tengan tres a fin de minimizar los errores generados por tratar de tener
más distractores que, comúnmente, muestran opciones inverosímiles o
cargadas de indicios sobre la respuesta correcta.
Los reactivos de opción múltiple se pueden clasificar por su forma de

respuesta y por su estructura. Por su forma de respuesta se distinguen
dos variantes, la de alternativas diferenciadas y la de respuesta óptima.
Alternativas diferenciadas. Es el tipo de reactivo más utilizado contiene

varias opciones de respuesta incorrectas, pero admisibles, llamadas dis-
tractores, y sólo una opción correcta.
Respuesta óptima. Todas las opciones del reactivo son parcialmente co-
rrectas, pero una de ellas es la mejor. Requiere de un mayor dominio
conceptual y análisis de cada opción para poder contestarlos correcta-
mente, por lo que se emplean para evaluar aprendizajes complejos.
Los reactivos de opción múltiple pueden ser útiles para medir el conoci-
miento de los alumnos de manera rápida y objetiva, sin embargo tam-
bién presentan algunas desventajas. Los autores de esta obra
comparten la opinión de que los reactivos de opción múltiple pueden
medir no sólo el aprendizaje simple (memorístico), sino también el com-
plejo. La Tabla 12 sintetiza ventajas y desventajas de Ítems de opción
múltiple (OM).
Tabla 12
Ventajas y desventajas de los ítems objetivos.
Ventajas de los reactivos de OM Desventajas de los reactivos de OM
Permite evaluar una amplia La construcción de buenos reactivos

gama de objetivos de aprendi- consume tiempo, encontrar distrac-
zaje desde conocimientos factores plausibles, es con frecuencia
tuales hasta procedimentales. difícil.
Permiten obtener información Los elaboradores tienden a enfocar

diagnóstica al analizar los pa- estos reactivos en objetivos de
trones de respuestas incorrec- aprendizaje de bajo nivel; no eva-
tas. lúan el desempeño en tareas reales
relacionadas con la lectura, la escri-
tura, solución de problemas en dife-
rentes temáticas
Permite un muestreo amplio y Los resultados de la evaluación

gran cobertura de contenido de pueden contaminarse debido a la
dominios. habilidad de lectura del alumno.
Permite la comparación y eva- Los alumnos podrían utilizar el mé-

luación de ideas, conceptos y todo de eliminación para la selec-
teorías relacionadas. ción de respuestas.
Permite la manipulación de ni- Puede no proveer información acer-

veles de dificultad al ajustar el ca del desempeño del estudiante
grado de similitud entre las op- porque no miden apropiadamente
ciones. debido a errores en su uso y cons-
trucción.
La forma de calificación no per- La elaboración de reactivos de op-

mite subjetividad puesto que se ción múltiple requiere una inversión
deriva de una escala predeter- de tiempo considerable.
minada y aplicable a todos los
examinados.
Su naturaleza objetiva evita La medición de la habilidad para or-

equivocaciones en la corrección. ganizar y expresar ideas y la pun-
Es aplicable a un número amplio tuación obtenida puede ser influida
de personas y la forma de califi- por la habilidad lectora del estu-
cación e interpretación es rápi- diante.
da.
Limita los errores de valoración Los reactivos objetivos tienden a

causados por la falta de habili- medir de manera pobre las habilida-
dades de escritura bien desarro- des de pensamiento de alto nivel.
lladas.
Dimensiones a considerar en la redacción de reactivos OM
Dimensión formato. El formato del ítem es un recurso que se usa para

obtener la respuesta del examinado (Haladyna, 2004) y aun cuando hay
una gran variedad de formatos, en lo esencial, todos tienen los mismos
componentes: una base o cuerpo del reactivo donde aparece una pre-
gunta o instrucción específica, algunas condiciones que gobiernan la
respuesta y un procedimiento de calificación.
Los formatos se pueden distinguir por su estructura anatómica y por el

tipo de aprendizaje que pueden medir. Cabe aquí mencionar que la elec-
ción del tipo de formato tiene consecuencias sobre lo que se quiere me-
dir, particularmente, limitar el rango de aprendizaje a ser medido. Por
esta razón, se recomienda utilizar una amplia variedad de formatos de
tal manera que se tomen las ventajas de unos y otros.
Los formatos de reactivos de opción múltiple más conocidos son:
1. Simple; 5. Interpretativo,
2. Ordenamiento; 6. falso verdadero múltiple;
3. apareamiento; 7. dependiente de contexto.
4. canevá;
A continuación se revisarán, brevemente, las características de cada

uno de ellos.
Formato simple. La pregunta deberá ser lo más clara y precisa (como en

los otros formatos) y tendrá una sola opción correcta. Este formato no
es del todo adecuado para medir objetivos de aprendizaje complejo
(Kolstad y Kolstad, 1994). El formato simple es el más común de los
reactivos de opción múltiple y, como ya se dijo, se compone de tres par-

tes: (a) la base, (b) la respuesta correcta, y (c) diversas respuestas in-
correctas llamadas distractores (ver Tabla13).
Tabla 13
Estructura del reactivo de formato simple.
Componentes Estructura
Descripción La base del reactivo presenta uno o varios enunciados

que plantean la situación a resolver y, en seguida, se
presentan las opciones.
Es el más utilizado, y de acuerdo con el contenido es-
pecífico puede medir operaciones cognitivas poco
complejas.
Instrucciones …, elija la respuesta correcta.
Base …:
Opciones A) …
B) …
C) …
D) …
Formato de ordenamiento. La base del reactivo incluye, además del

enunciado de la situación, una serie de elementos listados, donde a par-
tir de la combinación correcta de varios de ellos, el examinando elige la
opción de respuesta (ver Tabla 14). Se puede utilizar en diversos niveles
de operación cognitiva.
Tabla 14
Estructura del formato de ordenamiento.*
Descripción La base del reactivo incluye el enunciado de la situa-
ción a resolver y una lista de elementos. A partir de la
combinación de varios de ellos, se elaboran las opcio-
nes de respuesta. El examinando debe elegir la combi-
nación correcta. Este tipo de reactivo es útil para
situaciones en las que se requiera decidir el orden
temporal correcto de un listado de elementos.
Instrucciones Elija la opción que contiene los elementos correctos.

Base ¿...?
l)... Aquí usted escribe la lista de elementos que deberán
ser ordenados al presentar las opciones de respuesta.
ll)...
lll)...
lV)...
V)...
VI)...
Opciones A) ll, lll y VI Opciones de respuesta en las que aparecen ordenamientos diferentes de los
elementos listados, entre ellos está el ordenamiento correcto
B) IV, V, l
C) ll, lV, V
D) l, ll y lll
*Tomado de Castañeda (2000)
Formato de apareamiento.- Evalúa si el examinando es capaz de relacio-

nar varios argumentos con la solución que aparece en un listado de res-
puestas posibles. Se puede utilizar en niveles de operación cognitiva
diversos. Variación del OM que contiene premisas, cuerpo del ítem y res-
puestas alternativas. Las premisas y las respuestas están arregladas en
columnas donde las premisas se presentan a la izquierda. Empleamos
este formato cuando tenemos que colocar las opciones utilizándolas de
manera que aparezcan para dos o más reactivos. El formato de aparea-
miento comienza colocando las opciones de respuesta en la parte supe-
rior del reactivo o en una columna izquierda y, disponiendo las bases del
reactivo en la parte inferior o en otra columna a la derecha, con el fin de
que el examinando encuentre la correspondencia entre ambas columnas
(ver Tabla 15).
Tabla 15
Estructura del formato de apareamiento.*
Descripción La elaboración de este formato requiere que el núme-

ro de opciones de respuesta sea mayor a los proble-
mas que se enuncian, a menos que puedan usarse
más de una vez algunas de las opciones de respuesta.
Tome en cuenta estos requisitos para que su reactivo
sea útil.
En las instrucciones, deberá especificar cuáles son las

bases del apareamiento. Procure que el conjunto de
enunciados sea homogéneo para cada uno de los
ejercicios de apareamiento. Es decir, deberán corres-
ponder al mismo campo semántico o área de conoci-
miento, ser coherentes sintácticamente y aparecer
en la misma página.
Es muy importante que utilice enunciados cortos.
Organice las opciones de respuesta de acuerdo con
un orden lógico.
Instrucciones Puede utilizar dos tipos de instrucciones.

a) Si presenta los enunciados en forma de columnas,
podrá utilizar instrucciones del tipo:
“En la columna de la izquierda aparecen [....] enun-
ciados del 1 al n y en la columna de la derecha apare-
cen las opciones de respuesta posibles.
Lea con todo cuidado cada elemento de la columna iz-
quierda y seleccione la opción correcta marcando en
la hoja de respuesta la letra de la opción correspon-
diente (A; B; C; o D). Las opciones pueden ser usadas
(sólo una vez/ más de una vez)”.
b) Si presenta los enunciados correspondientes a las
opciones de respuesta en un listado que antecede a la
lista de problemas, podrá utilizar instrucciones del
tipo:
“A continuación aparecen cuatro opciones de res-
puesta que denotan cuatro concepciones del aprendi-
zaje.
A) Aprendizaje como adaptación
B) Aprendizaje significativo
C) Aprendizaje por descubrimiento
D) Aprendizaje como construcción social
Los reactivos del 1 al 4 son descripciones de estas
concepciones. Lea detenidamente cada una de ellas y
marque en la hoja de respuestas la opción que usted
considere que corresponda a cada reactivo. Las op-
ciones de respuesta pueden usarse sólo una vez.
1. El aprendizaje mas significativo es el que se da

por la exploración, motivada por la curiosidad,
se sugiere dar oportunidad a los aprendices
para desarrollar y probar hipótesis; permitirles
manipular objetos en forma activa y transfor-
marlos por medio de la acción directa.
2. Se hace énfasis en que el aprendizaje es un pro-
ceso de formulación activa de significado, y que
dicho proceso funciona mejor en ámbitos en los
que dos o más personas llevan a cabo un discur-
so sostenido acerca de un tema.
3. El conocimiento es construido conforme se ob-
tiene experiencia, en esa medida se resuelven
las contradicciones aparentes y se coordinan los
esquemas aislados en grupos y por último en
una estructura cognoscitiva estable y con con-
sistencia interna.
4. Este tipo de aprendizaje implica alentar a los
aprendices a darle sentido al material a apren-
der a la vez que lo relaciona con los conocimien-
tos que ya posee; se sostiene que de esta forma
se retendrá mejor lo aprendido, se integrará
más fácilmente el conocimiento y se tendrá la
opción de aplicarlo en lo futuro.
Formato de canevá.- En la base del reactivo se dejan espacios en blanco

que deberán ser llenados con las opciones de respuesta de tal manera
que el enunciado sea congruente y correcto (ver Tabla 16). Se considera
este formato una variante del formato de apareamiento.
Tabla 16
Estructura del formato canevá.
Descripción Evalúa conocimientos y habilidades sobre:

l Terminología, hechos específicos o principios.
l Interpretación simple de datos (algo más compleja
cuando se utiliza material figurativo).
l Habilidad para resolver problemas numéricos.

l Habilidad para completar e igualar ecuaciones quími-
cas.
l Son particularmente útiles, en matemáticas y cien-
cias donde se requiere una respuesta computacional
o se debe escribir una fórmula o ecuación.
l También con idiomas extranjeros donde se busca
medir partes específicas de información.
l Adecuados para medir el conocimiento de definicio-
nes y términos técnicos.
Base A la situación en la que los empleados están agotados

emocionalmente, son apáticos e incapaces de alcanzar
sus metas, se le conoce como
__________________________________________
Opciones A) estresor organizacional

B) fatiga laboral
C) estrés temporal
D) sobrecarga de trabajo
Formato de falso verdadero.- Se diseñan, generalmente, para medir la

habilidad del estudiante para determinar cuando una aserción es un he-
cho o no. Consiste de una oración declarativa que debe ser juzgada
“verdadera” o “falsa”. Las alternativas pueden ser “sí” y “no”, “acuerdo”
y “desacuerdo”, “hecho” y “opinión”, “correcto” e “incorrecto”. Los reac-
tivos con tareas de falso/verdadero demandan reflexionar para seleccio-
nar entre todas las opciones que son “verdaderas”, por esta razón,
requieren juicios adicionales que pueden no ser afines al conocimiento
específico a medir.
Las opciones de respuesta del reactivo consisten en una secuencia de

falso-verdadero o presencia-ausencia, de un listado de características o
elementos comunes a partir de un hecho, concepto o procedimiento
mencionado en la base del reactivo (ver Tabla 17).
Se evalúa la capacidad del examinando para discriminar cuáles de ellos

son pertinentes o no. Se considera a este formato como una variante
más compleja de apareamiento. Los reactivos de falso/verdadero han
sido objeto de muchos abusos. El más común puede ser la tendencia a
aplicar medición memorística de conocimiento trivial, sin embargo, es
responsabilidad de los diseñadores el tipo de contenido que se emplea

en la elaboración de los reactivos de este formato.
Tabla 17
Estructura del formato falso-verdadero.
Descripción La base del reactivo presenta la situación a resolver y,

en seguida, se presentan las opciones de respuesta
Instrucciones … , elija la respuesta correcta
Base Antes de votar, investigo cuidadosamente las aptitu-

des de todos los candidatos
Opciones A) Falso
B) Verdadero
Formato de ítem interpretativo. Este material incluye texto, gráficas,

mapas, tablas o imágenes (ver Tabla 18). Permiten que el docente mida
tanto resultados de aprendizaje simples como complejos.
Tabla 18
Estructura del formato de ítem interpretativo.
Descripción Los reactivos se caracterizan por contener una serie de

indicaciones referidas a conductas que han de verificar-
se sobre un material esquemático o gráfico que forma
parte del mismo reactivo (mapas, diagramas, repre-
sentaciones topográficas, cuadros sinópticos, ilustra-
ciones, modelos, etc.....)
Base El costo de fabricación de un metro de tela para cortina

es de $6.00. El costo de x metros se calcula mediante la
fórmula C = 6x. Así, cuatro metros de tela tienen un
costo de $24.00 y siete metros valen $42.00.
Instrucciones 9. ¿Cuál es la gráfica que representa esta relación?
A) B) C) D) E)
Formato de falso verdadero múltiple. Es una variante del formato fal-

so-verdadero; este formato comparte varias características del tipo fal-
so-verdadero. Generalmente, el número de respuestas falsas y
verdaderas está balanceado; la lista de los reactivos puede ser muy lar-
ga, (hasta 30); este es un rasgo atractivo en el formato, ya que permite
administrar varios reactivos en un tiempo corto (ver Tabla 19).
Tabla 19
Ejemplo de reactivo falso verdadero múltiple.
Para constituir una casa de bolsa se requiere cumplir,
Base
entre otros, los siguientes requisitos:
Dos socios Cada socio Cinco Que el
como debe por socios capital
mínimo lo menos como suscrito no
suscribir mínimo sea inferior
una acción al 75%
Opciones A) NO SÍ NO SÍ
B) SÍ SÍ NO NO*
C) NO NO SÍ SÍ
D) SÍ NO SI NO
Formato dependiente de contexto.- Conjunto de reactivos relacionados

con un texto en común. Cada uno de ellos puede ser de cualquiera de los
formatos ya revisados, todos requerirán consultar la información del
texto presentado, aumentando así la dificultad de la tarea del examinan-
do.
El empleo de reactivos dependientes de contexto tiene un estímulo intro-

ductorio y usualmente dos o más reactivos relacionados. El estímulo para
el reactivo puede ser una fotografía, una carta, una gráfica, una figura, una
tabla, un pasaje escrito, un poema, una historia, una caricatura, un proble-
ma, un experimento, una narración, o referirse a un evento, un objeto o
una persona. Para cualquiera de estos estímulos tiene que tener creado,
entre dos y 10 reactivos de cualquier tipo de formato; la creatividad es
muy necesaria en la formación de los reactivos (ver Tabla 20).
Si bien, este formato tiene una larga historia, se ha vuelto más popular
recientemente. Una razón es la necesidad para crear reactivos que mi-
dan habilidades cognitivas de nivel superior. La colocación de los reacti-
vos debe situarse de manera adecuada para evaluar habilidades
cognitivas o aspectos que involucren habilidades de pensamiento com-
plejo, así como para hallar la solución a problemas o medir el pensa-
miento crítico.
Tabla 20
Estructura de formato grupos de reactivos dependientes del contexto.*
Descripción El grupo de reactivos que se utilicen deben evaluar una
variedad de habilidades complejas (analizar, sintetizar y
evaluar hechos, conceptos, principios y/o procedimien-
tos) para resolver situaciones o problemas diversos.
En este formato se presenta uno o varios párrafos donde
se establece el problema o la situación específica y se
elaboran de dos a diez reactivos, en cualquier formato
de opción múltiple, acerca de la información presenta-
da.
Su construcción debe cuidar que el grupo de reactivos
incluidos sea consistente con la temática específica que
se está evaluando y para la cual la información que se da
en la descripción de la situación o problema a resolver es
pertinente.
El evaluador encontrará que este formato de reactivos le
permite:
l Evaluar integralmente, en una sola presentación glo-
bal, una competencia en los niveles de operación cog-
noscitivos requeridos, tanto en lo que individualmente
aporta cada reactivo incluido, como en lo que el con-
junto de ellos significa.
l Permite valorar, de manera más precisa, la ejecución

del examinando en procesos intelectuales complejos
involucrados en la aplicación contextualizada de los
fundamentos teóricos-metodológicos y técnicos que
sustentan un curso de acción o la solución a situacio-
nes y problemas específicos.
l Evaluar aprendizajes complejos sin tener que utilizar
reactivos independientes.
Situación o Aviso de inicio del reactivo

problema Instrucciones
Problema o situación que contextualiza el contenido
del ítem
Base 1 1. …
Opciones A) …
B) …
C) …
D) …
Base 2 2. …
Opciones A) …
B) …
C) …
D) …
Se incluyen todos los ítems que se necesiten
Aviso de finalización del reactivo

La elección del formato de un reactivo depende principalmente del tipo

de aprendizaje que se quiere medir. Como Beller y Gafni (2000) conclu-
yen, “se cree que la principal prioridad debe ser lo que es medido, en vez
del cómo es medido. En otras palabras, nuestra orientación debe ubicar-
se en el contenido y en los procesos cognitivos más que en los formatos
utilizados.
Dimensión tipo de conocimiento evaluado
Se distinguen tres tipos de conocimientos que se pueden evaluar con

respecto a una tarea dada, el factual, el conceptual y el procedimental.
Como se describió en el capítulo anterior, el conocimiento factual corres-
ponde a elementos o componentes básicos de un dominio que son nece-
sarios para poder resolver problemas, como nombres propios, lugares,

fechas, fórmulas y que son aprendidos memorísticamente. El conoci-
miento conceptual se refiere a las interrelaciones entre elementos, la
manera en que éstos funcionan y a su significado esencial, característi-
cas definitorias y reglas que lo componen, se refiere a conceptos, princi-
pios y explicaciones. El conocimiento procedimental es un conjunto de
acciones ordenadas y dirigidas hacia una consecución de una meta de-
terminada; se refiere a la ejecución de procedimientos, estrategias, mé-
todos, técnicas y acciones necesarias para llevar a cabo una tarea. Tanto
el conocimiento factual, conceptual, como el procedimental no son ex-
cluyentes, sino complementarios de una red de conocimientos más am-
plia que permite resolver problemas (Castañeda, 2004).
Dimensión Operación cognitiva (OC)
Como ya se dijo en un apartado anterior, al elaborar reactivos se deben

considerar las operaciones cognitivas requeridas para su solución, to-
mando en cuenta que a mayor complejidad y abstracción de la informa-
ción contenida en el reactivo y de la tarea solicitada pueden ser
requeridas variadas operaciones y sub operaciones, más elaboradas,
cualitativamente distintas y de diferentes niveles de dificultad. En el ca-
pítulo Diseño de exámenes, de esta misma obra, se presentó una taxo-
nomía de operaciones cognitivas elaborada por Castañeda (1998) para
construir exámenes de salón de clases y de egreso de licenciatura a gran
escala. Recomendamos al lector su consulta.
De la misma manera, al término de este capítulo se presenta una Guía

para elaborar ítems objetivos. La Guía muestra ejemplos de formatos,
operaciones cognitivas y fuentes de contenido que confiamos ayudarán
al docente a tomar ideas para elaborar ítems.
Reglas técnicas para escribir reactivos objetivos

La escritura de reactivos objetivos no es una actividad fácil. Requiere del
dominio de reglas basadas en la experiencia de expertos en la materia.
Las reglas que proporcionamos atienden seis aspectos básicos en la ela-
boración de reactivos
1. redacción general de reactivos, 4. desarrollo de las opciones,
2. elección del contenido del 5. desarrollo de la respuesta

reactivo, correcta,
3. construcción de la base del 6. desarrollo de los distractores.

reactivo,
I. Reglas para la redacción general de los reactivos
1. Construya reactivos en los que el examinando pueda diferenciar, cla-

ramente, la respuesta correcta de la incorrecta.
2. Evite errores de gramática, de puntuación, de ortografía y abreviacio-
nes.
3. Evite fraseología estereotipada.
4. Evite el uso engorroso de gerundios, participios, artículos y preposi-
ciones.
5. Use conceptos conocidos en vez de sinónimos rebuscados.
6. Busque que el nivel de dificultad de la lectura del reactivo y el del vo-
cabulario usado en ellos sean lo más simples posibles.
7. Minimice el tiempo de lectura de los reactivos. En caso de que sea ne-
cesario por tratarse de un reactivo que requiera describir con ampli-
tud el contexto en el que se presenta una situación o problema a
resolver, utilice sólo la información necesaria.
8. Evite usar preguntas capciosas que tiendan a engañar al examinando.
9. Evite usar literalmente la información que se encuentra en la biblio-
grafía recomendada.
10. Evite reactivos que evalúen sólo el sentido común.
II. Reglas para la elección del contenido del reactivo
1. Escriba el reactivo que represente un resultado de aprendizaje impor-

tante y significativo a la formación y ejercicio profesional.
2. Cuide que el tema y el nivel taxonómico elegidos sean pertinentes.
3. Cuando escriba un reactivo individual, enfóquese a una idea particu-
lar. Evite utilizar varias al mismo tiempo.
4. Cuando escriba reactivos del tipo “grupo de reactivos dependientes
del contexto”, use una batería de reactivos que midan en lo individual
una sola idea pero que, en su conjunto, permitan la evaluación de
aprendizajes complejos.
5. Al escribir los reactivos use un vocabulario que pueda ser entendido
aún por lectores poco habilidosos.
6. Evite dar indicios en un reactivo que permitan responder otro reacti-
vo.
7. Salvo que la situación lo amerite, evite evaluar información muy es-
pecífica, tanto abstracta como concreta.
8. Salvo que la situación lo amerite, al redactar un reactivo evite utilizar

el contenido literal que aparece en los libros o en otras fuentes autori-
zadas.
9. Enfatice la evaluación de contenidos importantes y significativos. Evi-
te utilizar contenidos triviales.
10. Enfatice la evaluación de aprendizajes complejos. Evite evaluar me-
ras memorizaciones.
III. Reglas para la construcción de la base del reactivo
1. Asegúrese que las instrucciones en la base del reactivo sean claras y

que le permitan al examinado conocer, exactamente, lo que se está
preguntando. Evite la adivinación.
2. La base del reactivo debe contener toda la información necesaria para
responder. Evite que las opciones de respuesta sean largas. Esto con-
funde al examinado.
3. Asegúrese que la base del reactivo formula claramente el problema a
ser resuelto, de manera tal que el examinando pueda entenderla sin
recurrir a las opciones.
4. Al escribir la base del reactivo evite palabras y oraciones enteras que
no tengan nada que ver con el reactivo.
5. Al escribir la base del reactivo cuide, en lo posible, que contenga todas
las palabras comunes a las opciones.
6. Cuide que la base del reactivo sólo contenga el material necesario
para hacer más claro y específico el problema a resolver. Sólo podrá
añadir material complementario cuando esté midiendo la capacidad
del examinando para seleccionar material pertinente para la solución
de un problema específico.
7. Al escribir la base del reactivo cuide dar indicios sobre la respuesta co-
rrecta.
8. La información de la base del reactivo debe presentarse, preferente-
mente, en forma afirmativa.
9. En caso de requerirse una forma negativa, asegúrese que ésta apare-
ce debidamente remarcada. Utilice mayúsculas y alguna forma de re-
saltado.
10. La base del reactivo deberá evaluar conocimientos, habilidades y/o
valores. Evite evaluar sólo sentido común.
11. Cuando redacte la base del reactivo de los “grupos de reactivos de-
pendientes del contexto”, presente uno o varios párrafos donde esta-
blezca claramente el problema o situación específica. El o los párrafos

pueden plantear la descripción sintetizada de un experimento, la des-
cripción de un problema, un procedimiento diagnóstico, de interven-
ción, prevención, etcétera, así como también pueden presentarse
errores importantes de carácter teórico, metodológico, técnico y/o
ético que representen riesgos diversos y para los cuales el examinan-
do debe mostrar dominio y/o pericia en la identificación y/o correc-
ción.
12. Cuando redacte la base de un reactivo que mida inferencias, presu-
posiciones o interpretaciones, haga explícito que la información que
se presenta en el texto se considera verdadera para los efectos de ese
reactivo. Asegúrese, además, de proveer al examinando de una lista
de enunciados que pueden ser o no inferencias válidas a partir del
texto.
13. Cuando utilice el formato de enunciado incompleto, nunca deje es-
pacios en blanco en el medio o al principio de la base del reactivo.
14. Incluir ilustraciones o párrafos de lectura, antes de efectuar la pre-
gunta.
IV. Reglas para el desarrollo de las opciones
1. Use distractores plausibles. Un buen distractor debe ser seleccionado

sólo por aquellos que no tienen los conocimientos requeridos e igno-
rado por los que si los tienen.
2. Ubique las opciones de acuerdo a un orden lógico o numérico correcto.
3. Cuide que las opciones de respuesta sean independientes. Si se tras-
lapan, el reactivo puede tener dos o más opciones correctas.
4. Cuide que las opciones de respuesta sean homogéneas en contenido.
Si son heterogéneas darán indicios al examinando.
5. Cuide que las opciones de respuesta tengan una extensión similar.
Evite darle indicios al examinando.
6. En ningún caso utilice las opciones: “todas las anteriores”; “ninguna
de las anteriores” y “no sé”.
7. Evite utilizar formas negativas en las opciones como: “no” y “Excep-
to”. En caso de utilizarlas, deben ser presentadas en mayúsculas y
debidamente resaltadas.
8. Evite dar indicios sobre la respuesta correcta. No utilice frases repeti-
das en la base y en las opciones que permitan la asociación y den in-
dicios sobre la respuesta correcta.
9. Evite opciones ridículas o implausibles que ningún examinando esco-

gería.
10. Evite indicios gramaticales que den pistas sobre la respuesta correc-
ta.
11. Evite utilizar “nunca”, “siempre”, “totalmente”, “absolutamente” y
“completamente” en las opciones. Sólo podrá utilizarlos cuando su
interés sea evaluar la extensión con la que un concepto particular
puede ser aplicado a una inferencia, presuposición o interpretación.
13. Incluya las preguntas completas en la misma página.
14. Evite opciones sinónimas.
15. Coloque el distractor más poderoso lo más cerca posible a la res-
puesta correcta.
V. Reglas para el desarrollo de la respuesta correcta
1. Si utiliza el formato de una sólo respuesta correcta, asegúrese de que

haya una sola respuesta correcta.
2. La respuesta correcta debe tener aproximadamente la misma exten-
sión que los distractores.
3. Si utiliza el formato de la mejor respuesta correcta, asegúrese que la
respuesta correcta sea en verdad la mejor.
VI. Reglas para el desarrollo de los distractores
1. Asegúrese que cada distractor sea plausible para quien no tenga el

conocimiento que el reactivo valora y que para quien sí lo posea, sea
claramente erróneo.
2. Utilice errores comunes de los estudiantes para construir distractores
plausibles
3. Use frases técnicas para construir distractores plausibles, pero inco-
rrectos.
4. Utilice frases verdaderas pero incorrectas como distractores.
5. Evite utilizar frases humorísticas.
Una regla general de la escritura de reactivos, que hemos dejado hasta

el final para resaltar su importancia es la de revisar concienzudamente el
o los reactivo(s) elaborado(s). A continuación se presenta una lista de
auto evaluación que le podrá ser útil para valorar los reactivos que tenga
en desarrollo
ESCALA DE AUTOEVALUACIÓN DE REACTIVOS *
Instrucciones
1. Autoaplíquese el reactivo y marque con una cruz, la opción que

contenga la respuesta correcta.
Marque su respuesta en el formato de evaluación que se anexa de la
siguiente forma:
RC (respuesta correcta) xA B C D
Sólo en caso de haber discrepancia fundamentada entre lo que usted

contestó y la clave dada por el elaborador, previa revisión de la argu-
mentación que éste anexa, identifique la falla esencial, argumente su
decisión y entregue el reactivo y la escala correspondiente. Un panel
de expertos resolverá la discrepancia.
2. Revise el reactivo con base en los aspectos que se listan a continua-

ción y valórelos utilizando el siguiente código 0= NO O NUNCA; 1=
PARCIALMENTE; 2= SÍ O TOTALMENTE en el formato que se ane-
xa colocando una X en la casilla correspondiente.
*Adaptado de Castañeda (1999)
REVISIÓN INDIVIDUAL DE REACTIVOS
a. Sobre la redacción general del reactivo

1. Asegurar que si usa el formato de respuesta correcta y no el de la
mejor respuesta correcta así sea.
2. Asegurar que si usa el formato de la mejor respuesta correcta y no el
de respuesta correcta así sea.
3. Evita errores de gramática, de puntuación, de ortografía y abrevia-
ciones.
4. Usa conceptos conocidos en vez de sinónimos rebuscados.
5. La estructura de párrafos es lo más simple posible.
6. El vocabulario usado es lo más simple posible.
7. Minimiza tiempo de lectura del reactivo porque sólo usa información
necesaria.
8. Evita el uso de pregunta capciosa que tienden a engañar al susten-
tante.
9. Evita usar información tal cual aparece en la bibliografía recomenda-

da.
10. Evita evaluar sólo sentido común.
11. El reactivo ha sido bien ubicado de acuerdo a la tabla de especifica-
ciones
b. Sobre el contenido del reactivo

12. El reactivo evalúa competencias y/o sub competencias del perfil del
examen.
13. El reactivo evalúa temas y/o subtemas propios de los contenidos
del examen.
14. Valora correctamente el tipo de operación cognitiva seleccionada.
15. Evalúa una sola idea o problema a la vez.
16. Usa vocabulario entendible aún para lectores poco habilidosos.
17. Evita dar indicios que permiten responder otros reactivos del mis-
mo grupo.
18. El contenido utilizado en el reactivo es correcto.
c. Sobre la construcción de la base del reactivo

19. Presenta instrucciones claras que permiten identificar lo que se
está pidiendo.
20. La base del reactivo formula con precisión el problema a ser resuel-
to.
21. La base del reactivo evita dar indicios sobre la respuesta correcta.
22. Si mide inferencias, explicita que la información de la base es ver-
dadera.
23. Si utiliza enunciado incompleto, deja espacios al principio y en me-
dio.
24. Evita mezclar la pregunta con ilustraciones o párrafos de lectura de
la base.
d. Sobre el desarrollo de las opciones de respuesta

25. Usa sólo distractores plausibles (especifique en una hoja anexa
“Formato para la evaluación de reactivo”).
26. Ubica las opciones de acuerdo con un orden lógico o numérico co-
rrecto.
27. Cuida que las opciones de respuesta tengan una extensión similar.
28. Evita usar “todas las anteriores”; “ninguna de las anteriores” y “no
sé”
29. Evita incluir indicios gramaticales que dan pistas sobre la respuesta
correcta.
30. Sólo usa “nunca”, “siempre”, “totalmente”, “completamente” para
evaluar inferencias, presuposiciones o interpretación.
31. Evita usar opciones sinónimas.
32. El distractor más poderoso está lo más cerca posible a la respuesta
correcta.
e. Sobre el desarrollo de la respuesta correcta

33. Hay sólo una opción que contiene la respuesta correcta.
NOTA: Los indicadores de valoración que están sombreados indican pro-

blemas importantes en los reactivos. Ponga especial cuidado en ellos.
DICTAMEN DEL REACTIVO

(A) Aceptarlo (AR) Requiere arreglos menores en: (NA) No aceptarlo
como está (BA) la base del reactivo
(OR) opciones de respuesta
(D) los distractores
(RC) la respuesta correcta
(C) el contenido, para adecuarlo a lo establecido
(OC) la tipología de operaciones cognoscitivas
En el caso de que el reactivo revisado sea “Aceptado como está” o “No

aceptado” coloque una cruz dentro del paréntesis correspondiente.
ACEPTADO NO ACEPTADO
A (x) A( )
AR ( ) AR ( )
R( ) R (x)
Si el reactivo necesita ser modificado en menor medida coloque dentro

del paréntesis la abreviatura que corresponda a dicha modificación, por
ejemplo un reactivo que tiene ligeros problemas en la redacción de los
distractores se valoraría así:
A( )
AR (D)
R( )
ESCALA PARA LA REVISIÓN DE REACTIVOS

FORMATO PARA LA EVALUACIÓN DE REACTIVOS
Nombre del revisor: Nombre de la prueba: Nombre de la sección:
Folio: Folio: Folio: Folio: Folio: Folio: Folio: Folio: Folio:

RC RC RC RC RC RC RC RC RC
ABCD ABCD ABCD ABCD ABCD ABCD ABCD ABCD ABCD
0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2
1
2
3
4
9
10
SOBRE EL CONTENIDO DEL REACTIVO
11
12
13
15
16
17
SOBRE LA CONSTRUCCIÓN DE LA BASE DE REACTIVO
18
19
21
22
23
SOBRE EL DESARROLLO DE LAS OPCIONES DE RESPUESTA
24
25
26
29
30
31
SOBRE EL DESARROLLO DE LA RESPUESTA CORRECTA
32
Dictamen
A( ) A( ) A( ) A( ) A( ) A( ) A( ) A( ) A( )
AR ( ) AR ( ) AR ( ) AR ( ) AR ( ) AR ( ) AR ( ) AR ( ) AR ( )
R( ) R( ) R( ) R( ) R( ) R( ) R( ) R( ) R( )
Nota. Se eliminaron algunos de los espacios correspondientes a algunos reactivos de la escala de evalua-
ción por fines de espacio.
La Tabla 21 muestra reactivos que fueron evaluados para un dominio

particular. A manera de ejemplo, se ilustra el ítem número uno.
1. El postulado de la ética profesional que declara que el contado público

está obligado a emita juicios de valor que deben ser imparciales y es-
tar libres de conflictos de intereses es el de:
A) independencia de criterio
B) calidad profesional de los trabajadores
C) responsabilidad personal
D) preparación y calidad del contador
Como se puede observar las áreas de mejora del reactivo tienen que
ver, en términos generales, con que la estructura del párrafo y el voca-
bulario son complejos; valora solo el recuerdo; la base del reactivo da
indicios sobre la respuesta correcta; no usa sólo distractores plausibles;
y la extensión de las opciones de respuesta no es similar. Dada la evi-
dencia el evaluador decide rechazar el reactivo.
TABLA 21
Hoja de respuesta de la evaluación de algunos reactivos.
ESCALA PARA LA REVISIÓN DE REACTIVOS

FORMATO PARA LA EVALUACIÓN DE REACTIVOS
Nombre del revisor: Nombre de la prueba: Nombre de la

REGR Examen General sección:
Contaduría I
Folio: 1 Folio: 2 Folio: 3 Folio: 4 Folio: 5 Folio: 6

RC RC RC RC RC RC
ABCD ABCD ABCD ABCD ABCD ABCD
0 1 2 0 1 2 0 1 2 0 1 2 0 1 2 0 1 2
2 X X X X X X
4 X X X X X X
5 X X X X X X
8 X X X X X X
SOBRE EL CONTENIDO DEL REACTIVO
14 X X X X X X
16 X X X X X X
SOBRE LA CONSTRUCCIÓN DE LA BASE DE REACTIVO
19 X X X X X X
20 X X X X X X
22 X X X X X X
23 X X X X X X
SOBRE EL DESARROLLO DE LAS OPCIONES DE RESPUESTA
24 X X X X X X
25 X X X X X X
26 X X X X X X
27 X X X X X X
28 X X X X X X
29 X X X X X X
30 X X X X X X
31 X X X X X X
SOBRE EL DESARROLLO DE LA RESPUESTA CORRECTA
32 X X X X X X
A( ) A(X) A( ) A( ) A( ) A( )
Dictamen
AR ( ) AR ( ) AR (BR D) AR (BR D) AR (BR D) AR (OC D)

R(X) R( ) R( ) R( ) R( ) R( )
Nota. Se eliminaron algunos de los espacios correspondientes a algunos

reactivos de la escala de evaluación por fines de espacio.
Referencias
Beller, M.; & Gafni, N. (2000). Can Item Format Account for Gender Dif-
ferences in Mathematics Achievement? Sex Roles, 42, 1-2.
Castañeda, S. (1998). Estado del arte de la evaluación y el fomento del
desarrollo intelectual en la enseñanza de ciencias, artes y técnicas.
En Castañeda, S. (Ed.) Evaluación y fomento del desarrollo intelec-
tual en la enseñanza de ciencias, artes y técnicas. Perspectiva in-
ternacional en el umbral del siglo XXI (pp.17–158). Colección
“Problemas Educativos de México”. México: UNAM, CONACYT y Mi-
guel Ángel Porrúa.
Castañeda, S. (1999). Guía de elaboración de reactivos. UNAM.
Castañeda, S. (2000). Guía del Examen General de Egreso de la licen-
ciatura en Psicología. 2ª Ed. CENEVAL.
Castañeda, S. (2004). Educación, Aprendizaje y Cognición. En Castañe-
da S. (Ed.) Educación, Aprendizaje y Cognición. Teoría en la prácti-
ca (pp. 49-74). México: UNAM, U. de G. y Manual Moderno.
Feng, X. & Mokhtari, K. (1998). Reading Easy and Difficult Texts in En-
glish and Chinese: Strategy Used by Native Speakers of Chinese.
Asian Journal of English Language Teaching, 8, 19-40.
García Jurado, R. (2003). Factores instruccionales que inciden en el
aprendizaje de la comprensión de lectura en inglés como lengua ex-
tranjera en alumnos de la UNAM, Campus Acatlán. Tesis de maes-
tría no publicada, UNAM, Facultad de Psicología, D. F., México.
Graves, B., & Frederiksen, C. (1991). Literary expertise in the descrip-
tion of a fictional narrative. North-Holland - Elsevier Science Publis-
hers, 20, 1-26.
Haladyna, T (2004). Developing and Validating Multiple-choice Test
Items. (3a. ed.). Mahwah, N.J.: LEA.
Jornet, J. M. & Suarez, J. M. (1996). Pruebas estandarizadas y evalua-
ción del rendimiento: usos y características métricas. Revista de
Investigación Educativa, 14 (2), 141-163.
Kolstad, R. K. & Kolstad, R. A. (1994). Applications of conventional and
non-restrictive multiple-choice examination items. Clearing House,
67(6), 3, 317.
Capítulo 8 ?
Escala de valoración de fuentes de contenido
de reactivos objetivos*
Sandra Castañeda, Isaac Ortega, Daniel González, Miguel López,
Raquel García, María de Lourdes Pineda y Rodrigo García
La escala es un instrumento de lápiz y papel que caracteriza y asigna va-

lores de dificultad apriorística a las fuentes de contenido incluidas en los
ítems que se utilizan para medir. Fue construida con base en lo que la li-
teratura internacional señala acerca de mecanismos responsables del
proceso de responder a examinación objetiva. Está dirigida a elaborado-
res de reactivos y su finalidad es caracterizar cada ítem con base en
fuentes de contenido incluidas en él, por ejemplo, las operaciones o pro-
cesos cognitivos requeridos para resolver el ítem, los patrones en los
que la pregunta y la respuesta requieren interactuar para resolverlo e,
incluso, la dificultad del lenguaje, así como la claridad y exactitud en los
términos teóricos o técnicos que se utilizan. La escala sido sometida al
juicio de observadores independientes y validada por jueces expertos (Q
= 12, gl. = 13, p = 0.528).
En la escala se define “fuente de dificultad” como aquel elemento o ca-

racterística de un ítem que genera en el evaluado una demanda cogniti-
va añadida por la(s) fuente(s) de contenido del reactivo, más que por lo
que se pretende medir y como fuente de “facilidad”, aquella que sustitu-
ye o transforma (por andamiaje incluido) las demandas cognitivas pro-
pias de la medición pretendida, por otras de menor complejidad.
* Se agradece al proyecto CONACyT 40608-H haber financiado la elaboración y validación

de esta escala. Para cualquier asunto relacionado con ella comunicarse con Sandra Cas-
tañeda a sandra@servidor.unam.mx
Así, en la escala se asume como importante caracterizar al ítem con

base en las diversas fuentes de contenido incluidas, por ejemplo, el tipo
de formato del ítem, las operaciones o procesos cognitivos requeridos
para resolverlo, los patrones en los que la pregunta y la respuesta re-
quieren interactuar para resolver el ítem e, incluso, la dificultad del len-
guaje, así como la claridad y exactitud en los términos teóricos o
técnicos que se utilizan.
La escala consta de cinco dimensiones o fuentes de contenido:
1. Formato del reactivo. Las definiciones de los formatos corresponden a

las aceptadas internacionalmente en guías de construcción de reacti-
vos objetivos. Incluye valoración de cinco tipos de formatos: -Simple,
Ordenamiento, Apareamiento, Canevá y Falso-Verdadero Múltiple-
que miden tres tipos de conocimiento -Factual, Conceptual y Procedi-
mental- para caracterizar el contenido que es evaluado en los forma-
tos incluidos en la escala.
2. Operación cognitiva demandada para resolver el reactivo, definida
como el procesamiento cognitivo subyacente a la ejecución requerida
para resolverlo. Incluye tres tipos de demanda:
l De comprensión –capacidad para identificar, clasificar, ordenar

temporalmente y/o jerarquizar información conceptual presentada
en el reactivo.
l De aplicación –capacidad de utilizar, en tareas profesionales inicia-

les y rutinarias, conceptos, principios, procedimientos, técnicas e
instrumentación, acordes al nivel científico en el que se les recono-
ce.
l De resolver problemas –capacidad de evaluar e integrar conceptos,

principios, métodos, técnicas, procedimientos, estructuras de ta-
reas y/o planes de acción en función de los principios de adecuación
y/o valores profesionales requeridos para resolver situaciones pro-
blemáticas, así como para identificar y corregir errores importantes
en soluciones preestablecidas.
3. Campo de Conocimiento evaluado en el reactivo. La cualidad de la in-

formación que se evalúa en el reactivo e incluye tres tipos:
l Sólo Teórico (Factual -fechas, personajes, lugares y fórmulas-, Con-

ceptual -definiciones de conceptos y reglas- y Procedimental -defini-
ciones de procedimientos, técnicas e instrumentación).
l Sólo Técnico (destrezas técnicas dirigidas a la acción profesional).

ESCALA DE VALORACIÓN DE FUENTES DE CONTENIDO 207
DE REACTIVOS OBJETIVOS
l Combinado (conocimiento teórico y destreza técnica integrados).

Evalúa, de manera integrada, conocimiento teórico y técnico, a par-
tir de un caso o situación problemática contextualizada. Requiere
combinar conocimientos factuales, conceptuales y/o procedimenta-
les. El reactivo solicita identificar, definir, clasificar y/o interrelacio-
nar conceptos, reglas, procedimientos, algoritmos o técnicas y
aplicarlos para resolver una situación problemática novedosa o ruti-
naria.
4. Contexto en el que se presenta el reactivo. Incluye cuatro contextos o

patrones de presentación del contenido del reactivo: -ejemplo – re-
gla; regla – ejemplo; caso ejemplo – regla y caso regla – ejemplo-
que miden tres tipos de conocimiento -factual, conceptual y procedi-
mental- para caracterizar el contenido que es evaluado en esos pa-
trones de presentación del contenido.
5. Redacción del reactivo. Las reglas utilizadas en esta fuente corres-

ponden a las aceptadas internacionalmente en guías de construcción
de reactivos objetivos (Haladyna y Downing, 1989; Haladyna, 2004).
Incluye 22 indicadores: nueve referidos a la base del reactivo, cinco a
las opciones de respuesta y ocho generales.
Los niveles de dificultad en las fuentes –Operación Cognitiva, Campo de

Conocimiento, Contexto y Formato del Ítem se estiman en interacción
con el tipo del conocimiento evaluado, en función de criterios de asigna-
ción de puntajes diferenciales, donde a mayor complejidad de la dimen-
sión evaluada y del tipo de conocimiento en el que es medida, mayor
puntaje asignado.
Es importante mencionar que en las cuatro primeras dimensiones el ni-

vel de dificultad está determinado por la interacción entre la propiedad
de la dimensión en sí, con el nivel de demanda generada por el tipo de
conocimiento evaluado (factual, conceptual o procedimental).
A continuación se describe, brevemente, cada dimensión y se presentan

los valores asignados para estimar su dificultad apriorística.
Primera fuente de contenido formato del reactivo en el que

se evalúa
La dificultad apriorística en la fuente Formato del ítem se estima toman-
do en cuenta la interacción entre el formato del reactivo y el tipo de co-
nocimiento que evalúa, en función de los valores que aparecen en la
Tabla 1:
Tabla 1
Interacción formato del reactivo y tipo de conocimiento a evaluar (1- 11).
Tipo de
conocimiento
Formato del reactivo F* C* P*
a) Simple (1) 1 2 3
b) Ordenamiento (2) 2 4 6
c) Apareamiento (3) 3 6 9
d) Falso-Verdadero Múltiple o Canevá 4 7 10
Si el reactivo pertenece a un grupo de reactivos,
sumar 1 punto extra al valor de Dificultad
correspondiente a su Formato
Dificultad apriorística
Nota. F = factual; C = conceptual; P = procedimental.
Segunda fuente de contenido operación cognitiva (OC)

demandada para resolver el reactivo
En esta fuente se evalúan tres niveles de operaciones, la de comprender
y organizar la información para resolver el ítem; la de aplicar los conoci-
mientos técnicos para contesta el reactivo y la de resolver problemas. La
dificultad en esta dimensión se estima, también en interacción con el
tipo de conocimiento evaluado, en función de los valores que cada nivel
de operación cognitiva tiene, de acuerdo a lo siguiente:
Tabla 2
Interacción operación cognitiva y tipo de conocimiento que evalúa (1-9).
Tipo de
conocimiento
Formato del reactivo F C P
a) Comprender Identificación (1) 1 2 3
y organizar Ordenamiento y clasificación (2) 2 4 6
Jerarquización (3) 3 6 9
b) Aplicar Conceptos y principios (1) 1 2 3
Traducir/ procedimientos y rutinas
2 4 6
técnicas. (2)
Modelos mentales (3) 3 6 9
c) Resolver Identificar errores (1) 1 2 3
Proponer acciones con andamiaje (2) 2 4 6
Proponer acciones sin andamiaje (3) 3 6 9
Si el reactivo pertenece a un Grupo de Reactivos, se
suma 1 punto extra al valor de Dificultad
correspondiente a su Formato
Nota. F = factual; C = conceptual; P = procedimental.
Tercera Fuente de contenido tipo de contexto en el que se

presenta el reactivo
Se reco no ce que el con tex to en el que se pre sen ta una in for mación
dada puede ser un elemento que apoye u obstacu lice la comprensión
del con te ni do. Así, la es ca la debe per mitir iden ti ficar, en pri mer lu-
gar, el con tex to en el que se presen ta el reac tivo para, en segun do
lugar, asig nar le un va lor en fun ción del tipo de co no cimiento eva lua-
do. La dificultad en esta dimensión se estima, también en interacción
con el tipo de co no cimiento eva luado, en fun ción de los va lores si-
guien tes:
Tabla 3
Interacción tipo de contexto en el que se presenta el reactivo
y el tipo de conocimiento que evalúa (1 – 12).
Tipo de conocimiento
F C P
a) E – R (1) 1 2 3
b) R - E (2) 2 4 6
c) C. E – R (3) 3 6 9
d) C. R – E (4) 4 8 12
Nota. F = factual; C conceptual; P = procedimental; E = ejemplo; R =

regla; C = caso
Cuarta fuente de contenido campo de conocimiento

evaluado en el reactivo
Para los efec tos de este ins tru men to, se en tien de por cam po de co -
no ci mien to eva lua do en el reac ti vo la cua li dad sólo teó ri ca, sólo
téc ni ca o com bi na da (con te ni dos teó ri cos y téc ni cos mez cla dos),
con la que se pre sen ta la in for ma ción que eva lúa el reac ti vo. Así,
ha brá reac ti vos cuyo cam po sea sólo teó ri co, otros cuyo cam po
sea sólo téc ni co y los res tan tes pre sen ta rán un cam po com bi na do
don de con te ni dos teó ri cos y téc ni cos sean en tre mez cla dos. La di fi -
cul tad en esta di men sión se es ti ma, tam bién en in te rac ción con el
tipo de co no ci mien to eva lua do, en fun ción de los va lo res si guien -
tes:
Tabla 4
Interacción campo de conocimiento evaluado en el reactivo
y tipo de conocimiento que Evalúa (1 – 9).
Tipo de conocimiento
a) Teórico (1) 1 2 3
b) Técnico (2) 2 4 6
c) Combinado (3) 3 6 9
Nota. F = factual; C conceptual; P = procedimental; E = ejemplo; R =
regla; C = caso
Quinta fuente de contenido redacción del reactivo

Tabla 5
Elementos considerar en la redacción el instrumento evaluador (1–22).
Redacción Ausente Presente

a) Sobre la Base del Reactivo (1-9)
1. Añade información innecesaria para resol-
ver el problema.
2. Usa palabras u oraciones que no tienen
que ver con el reactivo
3. No hay instrucciones, o si las hay no per-
miten al examinado conocer exactamente
lo que se le está pidiendo.
4. No contiene todas las palabras comunes a
las opciones. (Cond.)
5. No da indicios sobre la respuesta correcta.
6. Si usa la forma negativa, no la remarca
con mayúsculas y sombreado. (Cond.)
7. Si utiliza el formato de enunciado incom-
pleto, deja espacios en blanco al principio o
en medio de la base del reactivo. (Cond.)
8. Evalúa más de una idea o problema en
particular.
9. Incluye ilustraciones o párrafos de lectura
después de haber efectuado la pregunta.
b) Sobre las opciones de respuesta (1-5)
1. Usa "todas las anteriores"; "ninguna de

las anteriores" y "no sé "
2. Si usa formas negativas o de excepción
en las opciones (por ejemplo, "no" y
"Excepto"), no las presenta en mayúscu-
las y debidamente resaltadas. (Cond.)
3. No usa indicios gramaticales que inducen
hacia la respuesta correcta.
4. La extensión de la respuesta correcta es
igual a la de los distractores.
5. Todas las opciones de respuesta son dife-
rentes unas de otras.
c) Redacción General del Reactivo (1-8)
1. Usa formato de la mejor respuesta correcta
2. No minimiza el tiempo de lectura
3. No evalúa sólo memorización
4. No evalúa sólo sentido común
5. Formula preguntas capciosas
6. Es ambiguo
7. El nivel de dificultad de la lectura del
reactivo y el del vocabulario usado no
son los más simples posibles.
8. No utiliza señales gráficas para indicar
donde termina la base del reactivo e ini-
cian las opciones de respuesta.
Puntaje total redacción del reactivo

Sexta fuente de contenido “Uso apropiado de contenidos

teóricos y técnicos en el reactivo” (sólo para especialistas
en contenido específico)
Uso técnico apropiado (1 - 12) Ausente Presente
1. Usa sinónimos rebuscados en vez de

conceptos conocidos.
2. La base del reactivo no formula clara-
mente el problema a ser resuelto.
3. Las opciones de respuesta son indepen-
dientes y se evitan traslapamientos.
4. La base del reactivo no contiene toda la
información necesaria para hacer más
claro y específico el problema a resol-
ver.
5. Las opciones de respuesta son homogé-
neas en contenido.
6. No emplea opciones sinónimas.
7. Usa distractores plausibles

8. No ubica las opciones de acuerdo a un
orden lógico o numérico correcto.
9. Coloca el distractor más poderoso lo
más cerca posible a la respuesta correc-
ta.
10. Hay más de una respuesta correcta.
11. El contenido de la respuesta correcta
no es el adecuado.
12. Usa frases técnicas incorrectas como
distractores plausibles.
Instrucciones finales: Anote en la Tabla Resumen, en la celda corres-

pondiente, los puntajes de dificultad obtenidos en cada una de las fuen-
tes evaluadas. A continuación, calcule la fracción F del puntaje total
correspondiente a cada una de ellas. La sumatoria de las fracciones F

dará como resultado la Dificultad Apriorística del Reactivo.
Tabla resumen
Puntos Puntos Fracción
Obtenidos Totales (F =
(PO) (PT) PO/PT)
1. Tipo de Formato
2. Demandas cognitivas
3. Contexto
4. Tipo de Conocimiento
5. Redacción
6. Uso técnico apropiado
Total da la Dificultad apriorística del

reactivo
Nota: F = Fracción
El valor total obtenido será la dificultad apriorística del reactivo y en

cada dimensión se podrá identificar el peso relativo que aporta a este
valor.
Referencias
Haladyna, T. M. (2004). Developing and validating multiple-choice test
items. Mahwah, N.J.: LEA.
Haladyna, T. M. & Downing, S. M. (1989). A taxonomy of multi-
ple-choice item-writing rules. En Applied measurement in educa-
tion. (pp. 37-50).
Capítulo 9 ?
Análisis de Reactivos
Miguel López Olivas
Introducción
Análisis de reactivos es un procedimiento psicométrico, por el cual pue-
den determinarse las propiedades y los valores de los ítems que integran
una prueba o instrumento de medición, una vez que ha sido aplicado
(Anastasi, 1966; Sax, 1980). Como se expone y explica más adelante,
hay varias posibilidades para el análisis, que más que ser excluyentes
son complementarias.
El procedimiento metodológico para analizar reactivos busca establecer

tanto las propiedades psicométricas (cómo funcionaron en la prueba),
como los valores (los indicadores cuantitativos) de los ítems, para obte-
ner evidencia empírica acerca de la calidad con que se está haciendo la
medición, dando así mayor fortaleza a las conclusiones.
Esto puede lograrse: a) si se analiza el comportamiento de cada reactivo,

una vez que se ha hecho la aplicación, para poder conocer qué aportó ca-
da ítem a la exploración de las personas que fueron sometidas a examen;
y b) si se analiza el comportamiento de cada sujeto en la prueba, para po-
der conocer su patrón de respuestas ante los contenidos y las demandas
que le impusieron los reactivos (Castañeda y López, 1999).
Por lo tanto, un punto importante en esta tarea es emplear estrategias

de análisis de los reactivos que estén centradas precisamente en lo que
se pretende indagar mediante la aplicación del instrumento, asegurando
así la coherencia con los principios teóricos que se siguieron en su diseño
y en su construcción.
En este capítulo se desarrollan e ilustran procedimientos de análisis de

ítems, que son adecuadas a distintas estrategias e intereses en las apli-
caciones, y también se presentan sugerencias prácticas para apoyar es-
tas importantes tareas, utilizando materiales y ejemplos desarrollados
por López (2004).
La tarea de analizar los reactivos, en su forma más inmediata y directa,

pero no por ello menos útil, puede apoyarse inspeccionando los resulta-
dos, al efectuar algunas operaciones un tanto simples, sobre todo de or-
denamientos de los datos, para tener información rápida y muy aproxi-
mada acerca tanto del comportamiento de los sujetos como de los reac-
tivos.
Una segunda posibilidad, más técnica, puede basarse en la Teoría de

Respuesta a la Prueba (TRP), con el apoyo de programas computaciona-
les especializados, ya que ofrece información útil acerca de los niveles
de dificultad de cada reactivo, sus capacidades para discriminar entre
desempeños altos y bajos, la distribución de respuestas en los distracto-
res del reactivo, la relación entre la respuesta a un reactivo y la respues-
ta en todo el instrumento, así como un sumario estadístico con los valo-
res principales del instrumento aplicado. Podría afirmarse que este nivel
de análisis ha sido el tradicional en la evaluación educativa (Sax, 1980;
Nunnally, 1987; Aiken, 1996 y López, 2004).
La tercera estrategia que será abordada en este capítulo, es la del análi-

sis que se fundamenta en la Teoría de Respuesta al Ítem (TRI), haciendo
uso, también, de programas que ofrecen información útil, en este caso
acerca del nivel de ajuste de cada reactivo del instrumento, en lo que to-
ca a sus niveles de dificultad; y de los sujetos en sus niveles de habili-
dad, como fueron medidos por la prueba. Esta sección se apoyará en
particular en trabajos desarrollados por Embretson (1983, 1985);
Wrigth y Stone (1979) y Thorndike (1989).
Análisis de reactivos mediante la estrategia:

Inspección de las Respuestas
La información necesaria para analizar las respuestas procede de los
reactivos aplicados a la población meta. Pero el tipo, cantidad y calidad
de la información dependerá de los descriptores que se hayan preparado
para la identificación y clasificación de los reactivos, usualmente, en una
tabla de especificaciones.
De acuerdo con lo expresado en esta obra, hay un conjunto de indicado-

res de las características de los ítems que son estratégicos para asegu-
ANÁLISIS DE REACTIVOS 217
rar que se registre información realmente útil. A continuación se presen-

ta un conjunto de indicadores, con el objetivo de ilustrar la estructura
posible de un banco de reactivos que sea suficientemente general para
adaptarse con facilidad. Se desarrollará un ejemplo basado en la medi-
ción de habilidades de aprendizaje, siguiendo la estrategia de revisión o
inspección de las respuestas dadas por los sustentantes.
Identificación de los reactivos en el banco. Una parte de los descriptores

que aporten información acerca de las características de los reactivos, de-
be referirse a la identificación de cada ítem que forma parte del banco.
Por ejemplo, el número del reactivo, la fecha de su elaboración, el autor y,
de ser el caso, la carrera o especialidad a que se refiere el banco.
Podría indicarse, también, si es un reactivo que está en el proceso de ca-

libración o si se ha aplicado formalmente en una o más ocasiones. Los
descriptores sugeridos se indican a continuación, siguiendo la Escala de
valoración de fuentes de contenido en reactivos de opción múltiple, de-
sarrollada en la investigación: Validez apriorística y empírica de cons-
tructos. Modelamiento estructural de porciones extensas de exámenes
objetivos a gran escala (Castañeda et al. 2004).
1. Área de Conocimiento. Identifica lo relacionado con el contenido que

mide el ítem y generalmente forma parte de un temario o plan de es-
tudios. Por ejemplo:
v Asignatura:
v Unidad:
v Tema:
v Subtema:
2. Formato del Reactivo:
v Simple
v Ordenamiento
v Apareamiento
v Canevá
v Falso-verdadero Múltiple
3. Campo de Conocimiento:
v Teórico
v Técnico
v Combinado
4. Contexto de Evaluación:
v Reconocimiento
v Recuerdo
5. Operación Cognitiva Demandada:
v Comprender y Organizar
v Aplicar
v Resolver
6. Tipo de Conocimiento:
v Factual
v Conceptual
v Procedural
7. Clave de respuestas correctas de los reactivos incluidos en la versión

de prueba o escala que forma parte del banco.
Una vez que se han elegido descriptores, ya sea los sugeridos, que se
apegan a las fuentes de dificultad explicadas en esta obra; o algunos
otros que se juzguen convenientes para caracterizar cada ítem del ban-
co, siempre y cuando ya se haya aplicado en un instrumento, conviene
idear un espacio de trabajo para el análisis.
A continuación se propone un formato diseñado para registrar los indica-

dores. La primera parte puede ser apropiada para cualquier banco de
ítems, porque se puede utilizar con independencia de las respuestas que
cada sujeto haya dado, por ejemplo ante una versión particular de exa-
men obtenido a partir del banco.
La segunda parte del formato es útil para registrar información de un

instrumento o prueba en lo específico, ya que incorpora la clave de res-
puestas correctas y las respuestas de los sujetos a los ítems.
El formato que se presenta se adapta a cualquier modalidad de análisis

de reactivos (por observación, tipo Teoría de Respuesta a la Prueba o
Teoría de Respuesta al Ítem) y con fines de ejemplificación se presenta
el caso de los resultados de una prueba de habilidades matemáticas, en
10 reactivos de opción múltiple con cuatro distractores y también las
respuestas de 10 personas (López, 2004).
Esta información se toma como base para ilustrar el primer nivel de aná-
lisis, esto es, el que se puede realizar como un ejercicio de inspección
con el apoyo de ordenamientos de los datos. No requiere programas

computacionales que sean especializados, pero es útil alguna hoja de
cálculo, por ejemplo EXCEL (Microsoft, 2000).
Como se muestra en la Tabla 1, el espacio de trabajo puede visualizarse

como una cuadrícula, esto es, como un arreglo de columnas y renglones
en que pueden preverse y organizarse campos para asentar la informa-
ción.
En esta base, los indicadores incluidos inician con la identificación del

contenido; la información se refiere a un banco de la asignatura de ma-
temáticas (podrían agregarse otros datos, por ejemplo si es del primer o
segundo curso o algún otro que sea útil). Puede registrarse también la
unidad de estudio a que se refieren los reactivos, así como los temas y
subtemas examinados, Por ejemplo:
Unidad 1: Números naturales.
Tema 1: operaciones.
Subtema 1: adición y sustracción; Subtema 2: multiplicación y di-

visión, etc...
Después se identifica el formato utilizado en cada ítem, el campo de co-

nocimiento, el contexto de evaluación, la operación cognitiva y el tipo de
conocimiento. Toda esta información es de carácter general y a ella se
agrega la específica, iniciando con el número de ítem y la respuesta co-
rrecta, para luego, en los renglones siguientes, mostrar las respuestas
de cada examinando.
Tabla 1
Base-0: formato general. Asignatura: Matemáticas (MA)
Asignatura MA MA MA MA MA MA MA MA MA MA
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Formato FO1 FO1 FO2 FO2 FO3 FO3 FO4 FO4 FO5 FO5
Campo de
CC1 CC1 CC2 CC3 CC2 CC2 CC3 CC3 CC1 CC1
Conocimiento
Contexto de
CE1 CE1 CE1 CE2 CE2 CE1 CE2 CE2 CE2 CE1
Evaluación
Operación
OC1 OC1 OC1 OC1 OC2 OC2 OC3 OC3 OC2 OC3
Cognitiva
Tipo de
TC1 TC1 TC2 TC2 TC2 TC1 TC1 TC3 TC3 TC3
Conocimiento
Ítem 1 2 3 4 5 6 7 8 9 10
Respuesta
A D D C B B C A A D
Correcta
Sujetos
1 A D D C B C A B D C
2 A D A A A D A C A A
3 B D C C B C C C C D
4 B D D B B A D C C A
5 C D D C B D A C B A
6 B D D D B A A D A B
7 A D D C B B A D A D
8 A D D C B D C C A D
9 A D D A B C B D C A
10 A D D A B C B B B A
Claves
Formato del Ítem Contexto de Evaluación Tipo Conocimiento
Simple FO1 Reconocimiento CE1 Factual TC1
Ordenamiento FO2 Recuerdo CE2 Conceptual TC2
Apareamiento FO3 Operación Cognitiva Procedural TC3
Canevá FO4 Comprender OC1
F-V múltiple FO5 Aplicar OC2
Campo de Conocimiento Resolver OC3
Teórico CC1
Técnico CC2
Mixto CC3
A partir del arreglo de esta información puede procederse al examen de

los resultados.
Tabla 2
Base-1: Aciertos obtenidos por cada sujeto y en cada ítem de la prueba.
Banco de Reactivos de Matemáticas
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Campo de Conocimiento CC1 CC1 CC2 CC3 CC2 CC2 CC3 CC3 CC1 CC1
Contexto de Evaluación CE1 CE1 CE1 CE2 CE2 CE1 CE2 CE2 CE2 CE1
Operación Cognitiva OC1 OC1 OC1 OC1 OC2 OC2 OC3 OC3 OC2 OC3
Tipo de Conocimiento TC1 TC1 TC2 TC2 TC2 TC1 TC1 TC3 TC3 TC3
Ítem 1 2 3 4 5 6 7 8 9 10
Respuesta Correcta A D D C B B C A A D
Sujetos Suma
1 A D D C B C A B D C 5
2 A D A A A D A C A A 3
3 B D C C B C C C C D 5
4 B D D B B A D C C A 3
5 C D D C B D A C B A 4
6 B D D D B A A D A B 4
7 A D D C B B A D A D 8
8 A D D C B D C C A D 8
9 A D D A B C B D C A 4
10 A D D A B C B B B A 4
Suma 6 10 8 5 9 1 2 0 4 3 48
Para determinar los aciertos que cada sujeto obtuvo y los que se dieron
en cada reactivo de la prueba, basta con comparar la respuesta en cada
ítem con la clave de respuestas correctas.
Aún cuando la tarea pareciera estar completa y aunque una gran mayo-
ría de los profesores o evaluadores suelen terminar los análisis en este
punto, en realidad estas operaciones marcan sólo el principio, pues la in-
formación disponible permite obtener un provecho mucho mayor, como
podrá advertirse en las siguientes bases.
Tabla 3
Base-2: Ordenamiento de los reactivos de mayor a menor número de
aciertos. Banco de Reactivos de Matemáticas
Unidad 1 1 1 1 1 2 2 2 1 2
Tema 2 2 2 2 2 1 1 1 2 1
Subtema 1 1 1 1 1 2 2 1 1 2
Ítem 2 5 3 1 4 9 10 7 6 8
Respuesta Correcta D B D A C A D C B A
Sujetos Suma
1 D B D A C D C A C B 5
2 D A A A A A A A D C 3
3 D B C B C C D C C C 5
4 D B D B B C A D A C 3
5 D B D C C B A A D C 4
6 D B D B D A B A A D 4
7 D B D A C A D A B D 8
8 D B D A C A D C D C 8
9 D B D A A C A B C D 4
10 D B D A A B A B C B 4
Suma 10 9 8 6 5 4 3 2 1 0 48
Una pregunta que ahora se puede contestar, es cuáles reactivos repre-

sentaron mayor dificultad a los sujetos. Como se observa, el más fácil
fue el 2, ya que logró el 100% de aciertos y el más difícil fue el 8, porque
ninguno de los sujetos acertó. El reactivo 4 alcanzó la mitad de puntos
posibles, el 6 tuvo apenas un acierto y el 5, el 90 % de aciertos. ¿A qué
se deben estas diferencias tan marcadas? Los ítems 8, 6 y 7¿son real-
mente muy difíciles?, ¿la clave de respuestas es correcta? ¿Estos temas
fueron revisados en clase con la amplitud y explicitud óptimas? Los
ítems 2 y 5 ¿realmente son muy fáciles? ¿La redacción o las instruccio-
nes para responder indujeron a la respuesta correcta? ¿Cuáles reactivos
tuvieron mayor capacidad informativa acerca del desempeño de los su-
jetos? La media de aciertos en la prueba fue 4.8 (48/10), ¿corresponde
a lo esperado? El reactivo 2 tuvo un nivel de dificultad de 1.00 (10/10);
el 5 de .90 (9/10); el 7 de .20 (2/10) y el 8 de 0.0. Estos indicadores de
dificultad ¿fueron los previstos para el instrumento?
Tabla 4
Base-3: Ordenamiento de los sujetos de mayor a menor número de
aciertos. Banco de Reactivos de Matemáticas
Unidad 1 1 1 1 1 2 2 2 1 2
Tema 2 2 2 2 2 1 1 1 2 1
Subtema 1 1 1 1 1 2 2 1 1 2
Ítem 2 5 3 1 4 9 10 7 6 8
Respuesta Correcta D B D A C A D C B A
Sujetos Suma
7 D B D A C A D A B D 8
8 D B D A C A D C D C 8
1 D B D A C D C A C B 5
3 D B C B C C D C C C 5
5 D B D C C B A A D C 4
6 D B D B D A B A A D 4
9 D B D A A C A B C D 4
10 D B D A A B A B C B 4
2 D A A A A A A A D C 3
4 D B D B B C A D A C 3
Suma 10 9 8 6 5 4 3 2 1 0 48
Con este nuevo ordenamiento es ahora posible identificar los desempe-

ños de los sujetos, de mayor a menor número de aciertos. Dos alumnos,
identificados como el 7 y el 8 lograron el mayor número de aciertos: 8; y
los alumnos identificados con los números 2 y 4 el menor, con sólo 3. En
los alumnos con los desempeños más altos son iguales los patrones de
respuesta en los primeros siete reactivos, pero el alumno 7 falló en un
reactivo menos difícil (el 7) y acertó en uno más difícil (el 6), lo que pa-
rece un tanto extraño. El alumno 8 tuvo una trayectoria muy coherente,
porque acertó en los reactivos más fáciles (los primeros ocho) y falló en
los más difíciles. Estos dos alumnos ¿deberían tener la misma califica-
ción? El patrón de respuestas del sujeto 1 es también congruente, pues
acertó en los más fáciles y falló en todos los difíciles, logrando cinco
aciertos. Pero no es el caso del sujeto 3, también con cinco aciertos, por-
que falló en el tres y en el uno, que fueron reactivos fáciles y acertó en
los reactivos 4, 10 y 7, que son notoriamente más difíciles. ¿Copió las
respuestas este alumno? ¿Debe tener la misma calificación que el alum-
no 1?
Tabla 5
Base-4: Resultados ordenados de mayor a menor número de aciertos
en el formato del ítem
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Ítem 1 2 3 4 5 6 7 8 9 10
Respuesta Correcta A D D C B B C A A D
Sujetos Suma
Suma 6 10 8 5 9 1 2 0 4 3 48
Aciertos 16 13 10 2 7
Proporción FO1 0.33 FO2 0.27 FO3 0.21 FO4 0.04 FO5 0.15
Otro dato útil es establecer cuál tipo de formato, de los cinco disponi-
bles, tuvo más aciertos, es decir, influyó en que el reactivo fuera más o
menos difícil. Como se ve en la base, dos reactivos, uno con dificultad
cercana a la media y el otro, con cero dificultad, se asociaron al formato
1 (simple), representando el 33% de los aciertos y el formato 2 (ordena-
miento), con dificultades no extremas, aporta el 27 %. El formato 3
(apareamiento) agrupa reactivos con valores extremos, uno con 9 acier-
tos y el otro con 1; el formato 4 (canevá) se asocia con dos reactivos de
muy alta dificultad (el 7 y el 8) y el formato 5 (falso-verdadero múltiple)
con reactivos de dificultad alta. ¿Puede concluirse que el formato de los
reactivos afecta el desempeño de los sujetos? ¿Los resultados pueden
ser explicados con algún fundamento teórico?
Tabla 6
en el campo de conocimiento. Banco de Reactivos de Matemáticas
Unidad 1 1 2 2 1 1 1 1 2 2
Tema 2 2 1 1 2 2 2 2 1 1
Subtema 1 1 2 2 1 1 1 1 1 2
Ítem 1 2 9 10 3 5 6 4 7 8
Respuesta Correcta A D A D D B B C C A
Sujetos Suma
1 A D D C D B C C A B 5
2 A D A A A A D A A C 3
3 B D C D C B C C C C 5
4 B D C A D B A B D C 3
5 C D B A D B D C A C 4
6 B D A B D B A D A D 4
7 A D A D D B B C A D 8
8 A D A D D B D C C C 8
9 A D C A D B C A B D 4
10 A D B A D B C A B B 4
Suma 6 10 4 3 8 9 1 5 2 0 48
Aciertos 23 18 7
Proporción CC1 0.48 CC2 0.38 CC3 0.15
¿Los campos de conocimiento afectan el desempeño? El campo 1(teóri-

co) es con mucho más manejable para los sujetos que el 3 (mixto) y en
una posición media está el campo 2 (técnico). Según los datos de esta
base, los reactivos que combinan el conocimiento teórico y su aplicación
representan una dificultad mayor que el conocimiento sólo teórico o sólo
técnico, pues seguramente requieren que en el aprendizaje haya una
ejercitación más extensa, por ejemplo para manejar los conceptos, prin-
cipios o reglas que se enuncian mediante formulaciones verbales, en
conjunción con los procedimientos para resolver los problemas.
Tabla 7
en el contexto de evaluación
Unidad 1 1 1 1 2 1 1 2 2 2
Tema 2 2 2 2 1 2 2 1 1 1
Subtema 1 1 1 1 2 1 1 1 2 2
Ítem 1 2 3 6 10 4 5 7 8 9
Respuesta Correcta A D D B D C B C A A
Sujetos Suma
1 A D D C C C B A B D 5
2 A D A D A A A A C A 3
3 B D C C D C B C C C 5
4 B D D A A B B D C C 3
5 C D D D A C B A C B 4
6 B D D A B D B A D A 4
7 A D D B D C B A D A 8
8 A D D D D C B C C A 8
9 A D D C A A B B D C 4
10 A D D C A A B B B B 4
Suma 6 10 8 1 3 5 9 2 0 4 48
Aciertos 28 20
Proporción CE1 0.58 CE2 0.42
En el contexto de evaluación están consideradas dos posibilidades: que

en la respuesta a los reactivos se proceda por reconocimiento (contexto
1) o con base en procesos de recuerdo (contexto 2). Aquí las diferencias
no fueron muy drásticas, pero sí es clara la mayor facilidad a favor del
reconocimiento, que requiere elegir una opción, la correcta y excluir a
las que no lo son. En realidad, en opción múltiple es poco probable que
haya un espacio muy amplio para el recuerdo, porque este proceso se
evalúa mejor con reactivos que requieren respuestas elaboradas por los
sujetos.
Tabla 8
Base 7: Resultados ordenados de mayor a menor número de aciertos
en la operación cognoscitiva
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 2 1 2 2
Ítem 1 2 3 4 5 6 9 7 8 10
Respuesta Correcta A D D C B B A C A D
Sujetos Suma
1 A D D C B C D A B C 5
2 A D A A A D A A C A 3
4 B D D B B A C D C A 3
5 C D D C B D B A C A 4
6 B D D D B A A A D B 4
7 A D D C B B A A D D 8
8 A D D C B D A C C D 8
9 A D D A B C C B D A 4
Suma 6 10 8 5 9 1 4 2 0 3 48
Aciertos 29 14 5
Proporción OC1 0.60 OC2 0.29 0C3 0.10
Los niveles de dificultad que se observan en las operaciones cognitivas

se apegan bien a la teoría: tiene mucha mayor dificultad resolver un pro-
blema (OC3), que aplicar (OC2), por ejemplo una regla o procedimiento,
que podría manejarse sólo con apoyo de algoritmos, es decir, estrate-
gias que al seguirse paso a paso siempre conducen al resultado correcto
y no imponen grandes demandas cognitivas a quien responde, como
cuando se debe encontrar la solución a un problema o un método que

conduzca a la solución. En este contexto, es más fácil sólo comprender e
integrar. Si la tarea requiere sólo comprender (OC1), sin mayor aplica-
ción, entonces la tarea puede facilitarse.
Tabla 9
en el tipo de conocimiento
Unidad 1 1 1 2 1 1 1 2 2 2
Tema 2 2 2 1 2 2 2 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Ítem 1 2 6 7 3 4 5 8 9 10
Respuesta Correcta A D B C D C B A A D
Sujetos Suma
1 A D C A D C B B D C 5
2 A D D A A A A C A A 3
3 B D C C C C B C C D 5
4 B D A D D B B C C A 3
5 C D D A D C B C B A 4
6 B D A A D D B D A B 4
7 A D B A D C B D A D 8
8 A D D C D C B C A D 8
9 A D C B D A B D C A 4
10 A D C B D A B B B A 4
Suma 6 10 1 2 8 5 9 0 4 3 48
Aciertos 19 22 7
Proporción TC1 0.40 TC2 0.45 TC3 0.15
El tipo de conocimiento es también un elemento explicativo importante

de los resultados en la evaluación del aprendizaje y en este caso están
consideradas tres posibilidades: conocimiento factual (TC1), conceptual
(TC2) y procedural (TC3). En este ejemplo, con reactivos de matemáti-
cas de dos unidades de estudio, el manejo procedural reviste mayor difi-
cultad (15 % de aciertos), mientras que el conceptual fue el más fácil
(45 % de aciertos), muy cerca del factual (40 %). El conocimiento fac-
tual es demandante de aprendizaje que abunda en valores exactos, fór-
mulas, teoremas, etc... cuyo significado no puede interpretarse o cam-
biarse, por lo que puede imponer al alumno demandas altas. Y el conoci-
miento conceptual suele complicarse si abundan los tecnicismos y los ni-
veles de abstracción altos, sobre todo en campos complejos. En los

reactivos de conocimiento procedural es posible que se requiera mane-
jar con suficiencia los conocimientos factual y conceptual, en forma
combinada, aumentando su dificultad.
Este ejemplo puede extenderse para dar cuenta, por ejemplo, de cómo
influyeron en los resultados las unidades, temas y subtemas examina-
dos. Así, puede notarse que en la unidad 1 se agruparon casi todos los
reactivos con menor dificultad, pero la excepción que marca el reactivo
6, en que hubo 1 acierto sobre 10 posibles, confirma algo que suele ocu-
rrir sin que se le preste mucha atención: los ítems que exploran la mis-
ma unidad o el mismo tema no necesariamente tienen el mismo grado
de dificultad.
Las bases presentadas tienen valor ilustrativo, el número de sujetos y

de reactivos es pequeño, pero incluso bajo esta óptica puede advertirse
una variabilidad y riqueza de información que no sería notada si el análi-
sis se hubiera reducido a contar tan sólo cuántos aciertos obtuvo cada
alumno examinado, que es la práctica común y por ello, deficiente.
Los distintos ordenamientos mostrados en las bases analizadas permi-

ten dar respuesta a preguntas pertinentes y útiles. Cuando se trabaja en
condiciones reales, los instrumentos suelen ser extensos en el número
de reactivos y en la cantidad de alumnos que examinan, pero en lo esen-
cial hay grandes coincidencias con el ejemplo desarrollado.
La información que puede obtenerse puede ser útil e indispensable, no

sólo para medir o certificar el aprendizaje, sino también y no menos re-
levante, para apoyar al aprendizaje, en la medida en que se disponga de
marcos de referencia acerca de fuentes que afectan el desempeño du-
rante la evaluación. Los indicadores que se aplicaron en el ejemplo apor-
tan una visión suficientemente integrada.
Análisis de Reactivos en el Modelo de Teoría de Respuesta

a la Prueba (TRP)
A continuación se presenta otra posibilidad para el análisis, esta vez bajo
el marco de la TRP, línea psicométrica que ha sido seguida durante mu-
chas décadas en el campo de la medición educativa y por ello se le consi-
dera como la corriente más tradicional, vigente hasta nuestros días (ver
por ejemplo: Anastasi, 1966; Sax, 1980; Nunnally, 1987 y Aiken,
1996).
En la TRP, como fue explicado en el capítulo de Calibración de Reactivos,

es posible determinar tres parámetros importantes para cada ítem: el
índice de la dificultad del ítem, el poder de discriminación y el coeficiente

de correlación en la relación ítem-prueba.
La dificultad, que comúnmente se conoce como valor “p”, se refiere a la

proporción de personas que aciertan en el reactivo (a menor número de
aciertos mayor dificultad y viceversa), en una escala que va de 0 a 1.00.
La dificultad media está alrededor de 0.50, pero es deseable incluir va-
rios valores de dificultad, porque esto indica que se tiene una variable
mejor muestreada en las tareas a que se enfrentan los sustentas, por
ejemplo en un rango de 0.20 a 0.80.
El poder de discriminación es un valor que expresa el tamaño de la se-

paración entre el grupo de sustentantes que obtuvo mayor puntua-
ción en la prueba y el que obtuvo menor número. Estos valores siem-
pre deben ser positivos y mientras más grande sea este espacio será
mejor la discriminación del reactivo. Son aceptables valores mínimos
de 0.20.
El tercer parámetro es el índice de correlación (grado de asociación) en-

tre la respuesta en un reactivo y la respuesta en toda la prueba. Al igual
que en la discriminación, los valores siempre deben ser positivos y mien-
tras más grande sea el índice, en escala de 0 a 1, habrá mejor correla-
ción. El razonamiento básico es que el patrón de respuestas en una
prueba debe ser consistente con un perfil de desempeño del sustentan-
te. Por ejemplo, si la puntuación es baja, se esperaría que el desempeño
exitoso quedara reducido a aciertos en ítems de baja dificultad y vice-
versa.
Para este análisis la base de datos que sirva de fuente es muy similar a la
usada en el ejemplo anterior: en un arreglo de columnas y renglones se
identifica el número de reactivos que componen la prueba, el número de
opciones para responder, la clave de respuestas correctas y las respues-
tas de los sujetos.
A continuación se presenta una tabla con los 10 reactivos empleados en

el ejemplo anterior, con el objeto de que se aprecie más claramente la
información que aporta esta segunda opción. Se utilizó el programa
ITEMAN (1993), que al igual que otros similares, facilita enormemente
el proceso de cálculo.
Base de datos: 10 reactivos con cuatro opciones de respuesta, aplicados

a 10 sujetos. En la primera fila se indica la clave de respuestas correctas.
Cada sujeto tiene un número de folio, del 01 al 10.
Tabla 10
Ejemplo de base de datos de 10 reactivos con cuatro opciones
de respuesta, aplicados a 10 sujetos
ADDCBBCAAD
01ADDCBCABDC
02ADAAADACAA
03BDCCBCCCCD
04BDDBBADCCA
05CDDCBDACBA
06BDDDBAADAB
07ADDCBBADAD
08ADDCBDCCAD
09ADDABCBDCA
10ADDABCBBBA
En la tabla 11 se presenta el análisis efectuado con ITEMAN. La informa-

ción que se presenta permite identificar los archivos empleados para el
análisis.
Tabla 11
Análisis efectuado con ITEMAN
Item analysis for data from file C:\ITEMAN\ANITEM.DAT

Data (Input) File: C:\ITEMAN\ANITEM.DAT
Analysis Output File: C:\ITEMAN\ITANITEM.OUT
Score Output File: C:\ITEMAN\ITANITEM.SCR
Exceptions File: NONE
Statistics Output File: NONE
En la tabla 12 se presentan datos de la escala empleada: es dicotómica

porque sólo hay una respuesta correcta y equivale a decir: si acierto =
1; si no acierto = 0.
Tabla 12
Información de la escala empleada
Scale: 0
-------
Type of Scale DICHOT
N of Items 10
N of Examinees 10
Otra parte de la información que proporciona el programa se refiere al ti-

po de correlación empleada para obtener el coeficiente de asociación,
entre la respuesta al ítem y la respuesta a toda la prueba. Se señala que
es punto biserial y es una forma adecuada de correlación, porque en la
aplicación que estamos siguiendo como ejemplo, una variable es conti-
nua (número de aciertos) y la otra es discreta (acertó o no acertó).
Tabla 13
Tipo de correlación para obtener el coeficiente de asociación, entre la
respuesta al ítem y la respuesta a toda la prueba.
***** CONFIGURATION INFORMATION *****

Type of Correlations: Point-Biserial
Correction for Spuriousness: NO
Express Endorsements As: PROPORTIONS
Score Group Interval Width: 1
En la salida del programa (output) se presentan dos conjuntos de datos:

la estadística de los ítems, con las columnas de número de reactivo (1),
proporción de aciertos (.60), índice de discriminación (.25) y coeficiente
de correlación punto biserial (.38).
El segundo conjunto de datos de refiere a las estadísticas de cada alter-

nativa de respuesta: indica la proporción total de respuestas en cada op-
ción (ABCD) y un espacio para “otro”, en que se registran los casos en
que no hubo respuesta. Luego se señala, para cada caso, la proporción
de respuestas dada por el grupo bajo (el que obtuvo un número menor
de aciertos) y la proporción de respuestas dada por el grupo alto (el que
obtuvo un número mayor de aciertos), el índice de correlación biserial y,
finalmente, un asterisco que identifica cuál de las opciones es la correcta
(A).
Tabla 14
Ejemplo de salida del reactivo 1
Item Statistics Alternative Statistics

------------------------- ----------------------------------
Prop. Disc. Point Prop. Endorsing Point
No. Correct Index Biser. Alt. Total Low High Biser. Key
---- ------- ------ ------ ----- ----- ---- ---- ------ --
1 .60 .25 .38 A .60 .50 .75 .38 *
B .30 .50 .25 -.30
C .10 .00 .00 -.15
D .00 .00 .00
Other .00 .00 .00
El análisis de este reactivo 1 muestra valores muy satisfactorios, porque en

los tres casos: dificultad indicada por la proporción de aciertos (.60 que
equivale a 60 %), discriminación (.25) y correlación (.38) hay un buen
ajuste. En la proporción total para las opciones, 30 % se dio en la opción B,
10 % en C y 0 en la D (esta última no funcionó como distractor, ya que no
atrajo ninguna respuesta). En el grupo alto, en las opciones B y C se obtu-
vieron 50 % de respuestas en cada caso; la opción C tampoco funcionó co-
mo distractor para este grupo y muestra 0 respuestas. Para la opción A la
correlación biserial es positiva (.38), lo que indica que la opción correcta
fue elegida principalmente por sujetos del grupo alto, en tanto que en la
opción B la correlación biserial fue negativa (-.30), lo que indica que la eli-
gieron más sujetos del grupo bajo que del alto y que sí funciono como dis-
tractor. La opción C fue elegida por un 10 % de los sujetos, que en este ca-
so equivale a 1, por ser diez sujetos en total y no aparece como parte del
grupo alto o bajo. Esta posibilidad se explicará más adelante.
Con base en esta descripción puede analizarse el comportamiento de los

demás reactivos de la prueba, como se muestra en la tabla 15.
Tabla 15
Análisis del comportamiento de los reactivos 2 al 10
Prop. Disc. Point Prop. Endorsing Point
No. Correct Index Biser. Alt. Total Low High Biser. Key
---- ------- ------ ------ ----- ----- ---- ---- ------ --
2 1.00 .00 A .00 .00 .00
B .00 .00 .00
C .00 .00 .00
D 1.00 1.00 1.00 *
Other .00 .00 .00
3 .80 .25 .23 A .10 .50 .00 -.35
B .00 .00 .00
C .10 .00 .25 .04
D .80 .50 .75 .23 *
Other .00 .00 .00
4 .50 1.00 .70 A .30 .50 .00 -.43
B .10 .50 .00 -.35
C .50 .00 1.00 .70 *
D .10 .00 .00 -.15
Other .00 .00 .00
5 .90 .50 .35 A .10 .50 .00 -.35
B .90 .50 1.00 .35 *
C .00 .00 .00
D .00 .00 .00
Other .00 .00 .00
6 .10 .25 .62 A .20 .50 .00 -.38

B .10 .00 .25 .62 *
C .40 .00 .50 -.14
D .30 .50 .25 .08
Other .00 .00 .00
7 .20 .50 .49 A .50 .50 .50 .00

B .20 .00 .00 -.23
C .20 .00 .50 .49 *
D .10 .50 .00 -.35
Other .00 .00 .00
8 .00 .00 A .00 .00 .00 *
B .20 .00 .25 -.09
CHECK THE KEY C .50 1.00 .50 -.12
A was specified, D works better D .30 .00 .25 .20 ?
Other .00 .00 .00
9 .40 .00 .45 A .40 .50 .50 .45 *
B .20 .00 .00 -.23
C .30 .50 .25 -.30
D .10 .00 .25 .04
Other .00 .00 .00
10 .30 .75 .84 A .50 1.00 .00 -.70
B .10 .00 .00 -.15
C .10 .00 .25 .04
D .30 .00 .75 .84 *
Other .00 .00 .00
El reactivo 2 tuvo 100% de aciertos, por lo tanto, el índice de dificultad

es 1.00, no discrimina, porque no hay grupo bajo o alto y también por
ello no hay correlación. Con excepción de la opción D, que fue la correc-
ta, todos los demás valores están en 0. Un caso parecido, pero en senti-
do contrario, se da en el reactivo 8: no tuvo ninguna respuesta correcta.
Su dificultad es .00, al igual que su discriminación. Se observa que 20 %
de respuestas incorrectas se dieron en la opción B, 50 % en C y 30 % en
D (el programa indica que A fue especificada como correcta, pero traba-
jó mejor la opción D, por lo que recomienda que se revise la clave de res-
puestas correctas). La opción C fue elegida por todos los sujetos del gru-
po bajo y 50 % de los sujetos del grupo alto. Las correlaciones biseriales
son negativas para las opciones B y C, con valores bajos, pero fue positi-
va en la opción D, con la salvedad de que podría ser la respuesta correc-
ta, sólo que no se indica así en la clave. En conclusión, los reactivos que
todos aciertan y aquellos en que ninguno da la respuesta correcta deben
eliminarse del instrumento y ameritan una revisión muy a fondo, para
valorar si pueden corregirse o no conviene hacerlo.
Otro caso interesante es el del reactivo 6, con sólo un acierto, por lo que
su grado de dificultad .10 es muy alto. No obstante, su nivel de discrimi-
nación es positivo y aceptable (.25) y el valor de la correlación alto y po-
sitivo (62). Este reactivo puso a prueba a todo el grupo, pero se encuen-
tra en un rango en que tanto los sujetos del grupo alto, como del bajo,
fallan al responder, por lo que no es apropiado. El reactivo 5 fue contes-
tado acertadamente por el 90 % del grupo, la discriminación es muy al-
ta, al igual que el valor de la correlación. Ocurre algo similar al caso del
reactivo 6, pero a la inversa: lo responden correctamente tanto sujetos

del grupo alto como del bajo, perdiendo las demás opciones su valor co-
mo distractores. Los ítems de dificultad muy alta son una invitación al
alumno para la adivinación y los de dificultad muy bajos no son buenos
indicadores de la habilidad de los sujetos, porque pareciera que no difie-
ren entre sí, generando entonces señales falsas.
El reactivo 4 está justo en el nivel de dificultad promedio teórica de .50;

discrimina al 100 % y la correlación de .70 es muy alta. Puede observar-
se que ninguno de los sujetos del grupo alto eligió alguno de los distrac-
tores, pero los sujetos del grupo bajo sí lo hicieron, tanto en el distractor
B como en el D y sus correlaciones son altas y negativas.
Los demás reactivos (3, 7, 9 y 10) tienen valores de dificultad entre .20
y .80, que son rangos estables al ser menos extremos. No obstante, sus
discriminaciones son sensibles al valor de la dificultad: el reactivo 3 tie-
ne discriminación de .25 con dificultad de .80; el 7 tiene discriminación
de .50 con dificultad de .20; el reactivo 9 tiene discriminación de 0 con
dificultad de .40 y el reactivo 10 tienen discriminación de .75 con dificul-
tad de .30. En todos los casos hay una buena correlación biserial
ítem-prueba.
El reactivo 9 es un tanto peculiar, porque la respuesta correcta (A) fue

elegida por la mitad del grupo alto y también por la mitad del grupo bajo.
La otra mitad del grupo bajo seleccionó la opción C, en tanto que del
grupo alto el 25 % optó por la C y el otro 25 % por la D. Al igualarse las
proporciones en A la diferencia es cero.
En el reactivo 7 la situación es diferente, porque 50 % del grupo alto y 50

% del bajo eligieron la misma opción (A), pero incorrecta. En cambio, el
otro 50 % del grupo alto sí acertó al seleccionar la opción correcta (C). Sal-
vo en el caso de la respuesta correcta, la correlación es nula o negativa.
Los reactivos 3 y 10 tienen ajustes aceptables en los tres indicadores

que ofrecen evidencia acerca de la calidad psicométrica del funciona-
miento del ítem.
Finalmente, conviene examinar los valores estadísticos de la prueba. En

la tabla 16 aparecen los principales, incluyendo el alfa estimada, que re-
presenta un indicador acerca de la consistencia de la prueba.
El análisis estadístico amplio aporta también un excelente descriptor

cuantitativo de las características del instrumento, sin importar el tama-
ño de la prueba ni de la muestra de sustentantes, sobre todo si incluye
medidas tanto de tendencia central como de dispersión, para tener una
visión más integral. La información estadística que se presenta a conti-

nuación es la aportada por el programa ITEMAN (1993).
Tabla 16
Principales valores estadísticos de la prueba
Scale Statistics
1. N of Items 10
2. N of Examinees 10
3. Mean 4.800
4. Variance 2.960
5. Std. Dev. 1.720
6. Minimum 3.000
7. Maximum 8.000
8. Median 4.000
9. Alpha 0.571
10. Mean P 0.480
11. Mean Item-Tot. 0.508
12. Max Score (Low) 3
13. N (Low Group 2
14. Min Score (High) 5
15. N (High Group) 4
Los indicadores 1 y 2 informan el número de ítems aplicados y el número

de sustentantes que, como sabemos, en este ejemplo es de 10 en am-
bos casos. El indicador 3 es la media aritmética de aciertos, con valor de
4.80, cantidad que resulta de dividir el número total de aciertos (48),
entre el número de sujetos (10). Los indicadores 4 y 5 son medidas de
dispersión de la distribución de las puntuaciones de los sujetos: varianza
(2.960) y la desviación estándar (1.720). Los indicadores 6 y 7 informan
de cuáles fueron las puntuaciones de los sujetos: mínima (3.0) y máxi-
ma (8.0). El indicador 8, la mediana, al igual que la media aritmética, es
una medida de tendencia central y su valor es 4 (porque 4/8 es la mitad
de la distribución de las puntuaciones). El indicador 9 es la mediana de la
consistencia o confiabilidad de la prueba, expresada como calificación
alfa, con valor de 0.571, la cual es baja, porque es necesario obtener
puntuaciones alfa por lo menos de .80.
El indicador 10 es la dificultad media de la prueba y es de .48. Debe dis-

tinguirse de la media aritmética de aciertos (4.8), porque no se refieren
a lo mismo. De hecho, pueden estimarse tres medidas complementa-
rias, que describen el resultado de los sujetos, de los ítems y de toda la
prueba. Supóngase que la prueba tiene 60 ítems y se aplicó a 750 alum-
nos, alcanzando un total de 300 aciertos. Por una parte si se divide el to-
tal de aciertos (300) entre el número de sujetos (750) se obtiene la me-

dia o promedio de puntuaciones de los sujetos: 2.50. Pero al dividir el
número de aciertos (300) entre el número de reactivos (60), se obtiene
el promedio de aciertos por reactivo: 0.50. Y si se considera que la prue-
ba se aplicó a 750 sujetos, el total máximo de respuestas correctas posi-
bles sería justo 750, pero sólo se obtuvieron 300. Por lo tanto, al dividir
300/750 se obtiene 0.40, que expresa el nivel de dificultad o promedio
real de dificultad en la prueba.
En el ejemplo que estamos presentando, son 10 reactivos, 10 sujetos y

el total de aciertos fue 48. Por ello, 48/10 sujetos = 4.8; 48/10 ítems =
4.8; y el total posible de aciertos es 100, de los cuales se obtuvieron sólo
48, es decir, 48/100 = 0.48.
El indicador 11 es la correlación punto biserial promedio ítem-total; es

positiva y su valor fue 0.508, que en términos generales es aceptable.
Los indicadores 12 y 13 se refieren al grupo de sujetos que obtuvo me-

nor puntuación y forma el grupo bajo: su puntuación más alta fue de 3
aciertos y lo formaron 2 sujetos. Los indicadores 14 y 15 se refieren al
grupo de sujetos que obtuvo mayor puntuación y forma el grupo alto: la
puntuación más baja fue de 5 y en el grupo hubo 4 sujetos.
Esta separación es la base para determinar el poder de discriminación de

la prueba: agrupar a los sujetos, por su desempeño en la prueba, alto o
bajo, para poder compararlos. Pero entre ambos grupos hay un tercer
conjunto de sujetos, que formaría un “grupo medio”, es decir, no están
incluidos como bajos ni como altos, para forzar la distancia entre ellos.
El ejemplo que se está desarrollando, se trata de la comparación entre
un grupo bajo de 2 sujetos y uno alto de 4 sujetos, por lo que el espacio
de separación (grupo medio) lo constituyeron 4 sujetos. Como se pre-
sentó en las bases descritas en la sección anterior (análisis por observa-
ción), obtuvieron más puntos los sujetos 7 y 8: 8 puntos; y los sujetos 1
y 3 lograron 5 puntos. Para las estimaciones que realiza el programa
ITEMAN (1993), éste es el conjunto para el grupo alto, de 4 sujetos. Y
los sujetos 2 y 4 obtuvieron 3 puntos, que fueron los más bajos en la
prueba (grupo bajo). Los sujetos 5, 6, 9 y 10, todos ellos con 4 aciertos,
aportan el espacio para la separación y hacen posible determinar el po-
der de discriminación.
Para concluir la exposición de esta segunda estrategia de análisis cabe

hacer dos consideraciones. La primera es que ahora se tiene información
de parámetros que al aplicar la primera estrategia eran sólo estimativos.
A ello ayudó que el ejemplo contuviera sólo 10 reactivos, pero cuando se
trata de instrumentos reales, que podrían consistir de 120 reactivos

aplicados a 500 sujetos, tal tarea podría hacerse lenta y difícil, aunque el
apoyo de procesadores de información, como EXCEL (Microsoft, 2000),
son de gran ayuda. La segunda consideración es que la base de descrip-
tores que se usó al aplicar la estrategia de análisis por observación, pue-
de ahora enriquecerse con los parámetros obtenidos para cada ítem, co-
mo se muestra a continuación.
Una tabla o base de especificaciones de los bancos de reactivos, similar

a la tabla 17, es un resumen de mucha utilidad, porque muestra los va-
lores psicométricos principales. Su inspección es fácil y rápida y es un
medio de consulta obligada, por ejemplo, para formar versiones de
prueba. Por ello, debe actualizarse cada vez que haya cambios esencia-
les, sobre todo cuando se agregan nuevos ítems.
Tabla 17
Base: Indicadores actualizados con los parámetros TRP. Banco de
Reactivos de Matemáticas
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Cam Conoc. CC1 CC1 CC2 CC3 CC2 CC2 CC3 CC3 CC1 CC1
Contexto Ev CE1 CE1 CE1 CE2 CE2 CE1 CE2 CE2 CE2 CE1
Operac Cog. OC1 OC1 OC1 OC1 OC2 OC2 OC3 OC3 OC2 OC3
Tipo Conoc. TC1 TC1 TC2 TC2 TC2 TC1 TC1 TC3 TC3 TC3
Ítem 1 2 3 4 5 6 7 8 9 10
Índice Dificultad .60 1.0 .80 .50 .90 .10 .20 .00 .40 .30
Discriminación .25 .00 .25 1.0 .50 .25 .50 .00 .00 .75
Correlación .38 -- .23 .70 .35 .62 .49 -- .45 .84
Resp Correc. A D D C B B C A A D
Sujetos Suma
Suma 6 10 8 5 9 1 2 0 4 3 48
Tercera Estrategia de Análisis de Reactivos:

el Modelo TRI
La información disponible hasta este punto puede enriquecerse con la
aportación de la Teoría de Respuesta al Ítem (Embretson, 1985), ya que
hace posible conocer la medida en que los reactivos que forman la prue-
ba se ajustan a los sujetos a quienes se les aplica, estableciendo una do-
ble relación muy interesante y sobre una escala común, entre la dificul-
tad de los ítems y la habilidad de los sujetos, con unidades estandariza-
das llamadas logits (Wrigth y Stone, 1979 y Thorndike, 1989), como fue
explicado en el capítulo de Calibración de Reactivos, en esta obra.
A diferencia de las primeras dos estrategias de análisis ya descritas,

aplicables a muestras reducidas de sustentantes y exámenes o escalas
únicos, o que no son muy extensos, el modelo TRI es más complicado y
tiene algunas restricciones que pueden consultarse en obras especiali-
zadas, por ejemplo: Wright y Stone (1979), y Wrigth y Masters (1982).
Por ello, podría ser más útil y recomendable su empleo, cuando se dis-
ponga de dos o más versiones de examen y cuando los instrumentos se
apliquen a gran escala y en poblaciones diferentes.
Es también imprescindible apoyar el análisis utilizando programas espe-

cializados, ya que la complejidad de los cálculos hace prácticamente im-
posible su cálculo a mano. En el presente ejemplo se utilizará RASCAL
(1992), para análisis de Rasch de un parámetro.
El ajuste que se establece examinando la dificultad de cada ítem esclare-

ce cuánta habilidad se demanda de los sujetos para acertar y a partir de
qué punto ya no podrán superar las tareas que se les presenten, si la di-
ficultad esta fijada con exactitud. Para ello es posible medir la relación
dificultad-habilidad sobre la base del continuo en la escala que forman
los reactivos de la prueba.
Los valores de ajuste van en un continuo de -2.0 a 2.0 unidades logit.

Cuando se exceden estos límites, por ejemplo con valores menores a
-2.5 los reactivos tendrán una dificultad casi nula y al contrario, los valo-
res mayores a 2.5 serán propios de reactivos que prácticamente nadie
supere (Wright y Stone, 1979 y Thorndike, 1989).
El cero es el punto medio de la distribución y hacia la izquierda la dificul-

tad va decreciendo, en tanto que a partir de 0 la dificultad aumenta. Esta
medición es mucho más estable que la que se efectúa con otros métodos
y es también más objetiva, porque no depende tanto de la peculiaridad
de los rasgos de los sujetos y de los reactivos
Nuevamente utilizaremos el ejemplo que hemos venido desarrollando,

para ver con mayor claridad las ventajas de esta tercera estrategia de
análisis, centrada en la dificultad de los reactivos.
El encabezado de los análisis identifica el programa utilizado en este

ejemplo (RASCAL, 1992), así como el archivo con los datos necesarios
(ver tabla 18). La base utilizada fue la misma que se empleó en ITEMAN
(1993) y fue descrita en la sección anterior. La información que se pre-
senta en la tabla 19, se refiere a los valores finales estimados para cada
uno de los reactivos. Indica el número del reactivo, su dificultad en lo-
gits, el error estándar de la medición, el valor de chi cuadrada, que es
también un valor de ajuste, los grados de libertad para estimar su signi-
ficación estadística y la dificultad escalada en unidades estandarizadas.
Tabla 18
Ejemplo de encabezado de análisis RASCAL
MicroCAT (tm) Testing System

Copyright (c) 1982 - 1994 by Assessment Systems Corporation
Rasch Model Item Calibration Program -- RASCAL (tm) Version 3.51
Final Parameter Estimates for Data from File ANITEM.DAT
Tabla 19
Parámetros finales de ajuste de los reactivos
Std. Scale
Item Difficulty Chi Sq. df
Error dDiff
1 -0.950 0.735 0.400 1 91
2 --Deleted--
3 -2.140 0.846 3.223 1 81
4 -0.404 0.749 1.723 1 96
5 -3.038 1.092 0.115 1 72
6 3.402 1.276 0.069 1 131
7 1.994 1.115 0.321 1 118
8 --Deleted--
9 0.195 0.808 1.349 1 102
10 0.942 0.933 1.177 1 109
En este arreglo se observa que dos reactivos fueron excluidos del análi-
sis, el 2 (que obtuvo 100% de aciertos) y el 8 (que obtuvo 0 aciertos),
porque, como ya se explicó en la estrategia TRP, no tienen variabilidad y
al no ser útiles para calcular su valor de ajuste a la prueba deben dejarse

fuera.
En los ocho reactivos restantes sí es posible conocer cómo ajustó su difi-

cultad. En orden ascendente de dificultad, el reactivo más fácil fue el 5,
seguido del 3, 1, 4, 9, 10, 7 y 6, siendo este último el más difícil. Esta in-
formación ya se había obtenido al hacer el ordenamiento de las sumas
en la base 2, pero ahora se conocen sus valores de ajuste.
El reactivo 5, que tuvo 9 aciertos, tiene una dificultad claramente desa-

justada, en la escala de -2.0 a 2.0, porque su valor es de -3.08 unidades
logit y no representó prácticamente ninguna dificultad para los susten-
tantes. De igual forma, el ítem 6, que obtuvo 1 acierto, está muy desa-
justado, pues muestra 3.402 en la escala y resultó con dificultad extre-
ma, superando así a la habilidad de los sustentantes.
El reactivo 3, que obtuvo 8 aciertos, muestra un desajuste moderado,

pues su valor en logits es de -2.140, lo que indica una dificultad notoria-
mente baja. Debe considerarse la posibilidad de revisar los distractores,
pues no están funcionando de manera idónea. Los demás reactivos sí
están dentro del rango de ajuste.
El siguiente conjunto de datos presenta una tabla de conversión del

número de aciertos y la habilidad (theta) de los sustentantes, el error
estándar de la medida, la frecuencia de casos en cada nivel de aciertos,
la frecuencia acumulada, el percentil en que se ubica el número de acier-
tos en relación a la población total de 10 sujetos en este ejemplo, así co-
mo la calificación escalada que correspondería de acuerdo al número de
aciertos.
Tabla 20
Equivalencia entre número de aciertos y habilidad requerida en los sujetos
Raw Score Conversion Table

Number (Theta) Std. Freq- Cum Scaled
Percentile
Correct Ability Error uency Freq Score
0 ***** ***** 0 0 1 ***
1 3.08 1.225 0 0 1 72
2 -1.87 1.020 0 0 20 83
3 -0.91 0.945 2 2 60 92
4 -0.05 0.926 4 6 80 100
5 0.83 0.959 2 8 80 108
6 1.84 1.054 0 8 80 117
7 2.25 1.060 0 8 90 122
8 3.15 1.276 2 10 99 129
9 ***** ***** 0 10 99 ***
En la tabla 21 puede advertirse que los números negativos indican me-

nor habilidad y los valores van creciendo conforme aumenta el número
de aciertos, indicando así una mayor habilidad. Sabemos, desde la pri-
mera estrategia de análisis, cuál fue la puntuación de cada sustentante
en la prueba, por lo que ahora podemos registrar, además, su habilidad
(valor theta) y su calificación en una escala estandarizada.
Tabla 21
Resultados de la medición
Sujeto Aciertos Theta Calificación

01 5 0.83 108
02 3 -0.91 92
03 5 0.83 108
04 3 -0.91 92
05 4 -0.05 100
06 4 -0.05 100
07 8 3.15 129
08 8 3.15 129
09 4 -0.05 100
10 4 -0.05 100
Otra información interesante que puede obtenerse con el modelo TRI es

la curva característica de la prueba, que indica, dado un nivel de habili-
dad (theta), cuál es la probabilidad de acertar en los reactivos (Figura
1).
1.00 I
I
I
I
I
E I *
s I **
t I ***
i I ***
m I **
a 0.75 I **
t I **
e I **
d I **
I **
P I **
r I **
o I **
p I *
o I **
r 0.50 I **
t I **
i I *
o I **
n I **
I **
C I *
o I **
r I **
r I **
e 0.25 I **
c I **
t I ***
I **
I ***
I *
I
I
I
I
I---------------------------------------------------------------
-3.0 -2.0 -1.0 0.0 1.0 2.0 3.0
ability
Figura 1. Curva Característica de la Prueba.

En la curva puede apreciarse que conforme aumenta la habilidad, tam-

bién se incrementa la probabilidad de acertar. Con un nivel de habilidad
muy bajo (-3), puede acertarse con una probabilidad casi de .12 y con
habilidad apenas arriba de -2 puede lograrse un .25 de probabilidad;
en el punto 0 de la distribución de la habilidad se obtiene una probabili-
dad de .50; cuando la habilidad es igual a 2 la probabilidad aumenta a
.75 y con 3.0 de habilidad se logra aproximadamente .80 de probabili-
dad de acertar. Puede observarse que la probabilidad no llega al nivel
más alto (1.00), aún cuando la habilidad de los sujetos sea mayor a
2.0.
La prueba aplicada, entonces, contuvo reactivos desajustados y en los

patrones de respuesta de los sustentantes hubo también desajustes.
Pueden eliminarse los reactivos desajustados, para mejorar la calidad
de la medición, pero ¿pueden eliminarse sujetos? La respuesta en un
sentido es que no, porque la finalidad de una prueba, por ejemplo de
diagnóstico, debe incluir a todos los sustentantes, para poder ofrecer un
resultado. Pero, si lo que está en proceso es la construcción y validación
de un instrumento, entonces los sujetos que responden erráticamente,
que no contestan o que siguen algún patrón inconsistente no contribu-
yen a que el proceso de calibración de los reactivos sea óptimo, por lo
que sí pueden excluirse de los análisis.
Para cerrar el ejemplo desarrollado en este capítulo, a continuación se

presenta la base de indicadores actualizada con los valores TRI.
Tabla 22
Base: Indicadores actualizados con los parámetros TRI. Banco de
Reactivos de Matemáticas
Unidad 1 1 1 1 1 1 2 2 2 2
Tema 2 2 2 2 2 2 1 1 1 1
Subtema 1 1 1 1 1 1 1 2 2 2
Campo de
CC1 CC1 CC2 CC3 CC2 CC2 CC3 CC3 CC1 CC1
Conocimiento
Contexto de
CE1 CE1 CE1 CE2 CE2 CE1 CE2 CE2 CE2 CE1
Evaluación
Operación
OC1 OC1 OC1 OC1 OC2 OC2 OC3 OC3 OC2 OC3
Cognitiva
Tipo de
TC1 TC1 TC2 TC2 TC2 TC1 TC1 TC3 TC3 TC3
Conocimiento
Ítem 1 2 3 4 5 6 7 8 9 10
Índice
.60 1.0 .80 .50 .90 .10 .20 .00 .40 .30
Dificultad
Discriminación .25 .00 .25 1.0 .50 .25 .50 .00 .00 .75
Correlación .38 -- .23 .70 .35 .62 .49 -- .45 .84
Dificul. TRI -0.950 -- -2.140 -0.404 -3.038 3.402 1.994 -- 0.195 0.942
Error Medición 0.735 -- 0.846 0.749 1.092 1.276 1.115 -- 0.808 0.942
Respuesta
A D D C B B C A A D
Correcta
Sujetos Suma
Suma 6 10 8 5 9 1 2 0 4 3 48
Conclusiones
El punto de partida para este capítulo fue el establecimiento de la utili-

dad y necesidad de aplicar técnicas de análisis de reactivos, una vez que
un conjunto de ítems ya ha sido utilizado, comúnmente para la medición
de algún aspecto del aprendizaje, porque sólo así pueden conocerse as-
pectos importantes de los reactivos utilizados, como son, el nivel de difi-
cultad, el poder de discriminación y los niveles de ajuste en una escala
estandarizada.
Para darle una estructura útil a la organización de la información se sugi-

rió un formato que permitió integrar los indicadores o descriptores prin-
cipales de cada reactivo y del conjunto de ellos, al ser manejados en un
instrumento.
Las tres variantes de análisis desarrolladas e ilustradas mediante un

ejemplo común, agregaron aspectos específicos a la información. La
idea principal fue mostrar que contando con la información básica que
ofrece el disponer de las respuestas de los sujetos a un instrumento,
puede explorarse la manera de enriquecerla y complementarla, ya sea
variando los ordenamientos de los datos, o empleando programas espe-
cializados para análisis más finos y precisos. En el presente caso, al
agregarse los datos aportados por una segunda posibilidad, orientada
con el modelo TRP y luego con una tercera modalidad, ahora apoyada
con el modelo TRI, pudieron contestarse preguntas pertinentes, que de

otra forma no hubiera sido factible.
El análisis de reactivos, si bien se centra en las características de la

prueba y en los valores que un instrumento muestra al integrar una uni-
dad de medición, también es útil para dar cuenta de las personas exami-
nadas, pues los desajustes que éstas pudieran exhibir al responder pue-
den ser muy buenos indicadores de desajustes en la prueba, ya sea en la
clave para responder, en las instrucciones para resolver un problema o
para atender a una tarea.
Referencias
Aiken, L. R. (1996). Tests Psicológicos y Evaluación. (8a. ed.). México:
Prentice-Hall.
Anastasi, A. (1966). Tests Psicológicos. Madrid: Aguilar.
Castañeda, S., González, D., López, M., García-Jurado, R., Ortega, I.,
Pineda, L., Bazán, A. y Sánchez, B. (2004). Validez apriorística y
empírica de constructos. Modelamiento estructural de porciones
extensas de exámenes objetivos a gran escala. Revista Latina de
Pensamiento. Lenguaje y Neuropsicología 12(2), 183-198.
Castañeda, S. & López, M. (1999). Elaboración de un instrumento para
la medición de conocimientos y habilidades en estudiantes de Psico-
logía. Revista Intercontinental de Psicología y Educación 1, 9-15.
Embretson, S. E. (1983). Construct validity: Construct representation
versus nomothetic span. Psychological Bulletin, 93, 179 - 197.
Embretson S. E. (1985). Introduction to the problem of test design. En
S. E. Embretson (Ed.), Test Design. Developments in Psychology
and Psychometrics. (pp. 3-17). Orlando, FL: Academic Press.
ITEMAN. (1993). Conventional Item Analysis Program. (Versión 3.5).
St. Paul, MN: Assessment Systems Corp.
López, O. M. (2004, septiembre) Análisis de Ítems. Material presentado
en el Taller de calibración de Reactivos. XII Congreso Mexicano de
Psicología. México: Campeche, Camp.
Microsoft. (2000). EXCEL. (Versión 2000). EE. UU.: Microsoft Corp.
Nunnally, J.C. (1987). Teoría Psicométrica. México: Trillas.
RASCAL. (1992). Rasch Analysis Program. (Versión 3.5). (St. Paul, MN:
Assessment Systems Corp.
Sax, G. (1980). Principles of Educational and Psychological Measure-

ment and Evaluation. (2a ed.). San Francisco, CA.: Wadsworth Inc.
Thorndike, R. L. (1989). Psicometría Aplicada. México: Limusa.
Wrigth, B. & Masters, G. (1982). Rating Scale Analysis. University of
Chicago. Chicago.: Mesa Press.
Wright, B. & Stone, H. (1979). Best Test Desing. University of Chicago.
Chicago.: Mesa Press.
Capítulo 10 ?
Calificando, interpretando y realimentando al aprendizaje
Sandra Castañeda, Rosa Elsa González y Cecilia Arredondo
Usualmente, evaluar el logro de los estudiantes y asignar las calificacio-

nes son dos de las tareas más difíciles de la enseñanza, y de estas dos,
calificar es la más problemática, sólo secundada por encontrar estacio-
namiento en las instalaciones de la UNAM.
A pesar de lo complejo y multidimensional que son los conocimiento,

las habilidades y otros resultados del desarrollo de pericia en nuestros
estudiantes, en estos tiempos, por increíble que parezca, todavía de-
bemos resumirlos en calificaciones. Este proceso toma tiempo, esfuer-
zo y, generalmente, se asume como una tarea que “debe” hacerse. Y,
en la medida en la que calificar representa traducir información des-
criptiva (acerca del logro académico del estudiante, por ejemplo) a ín-
dices (letras o números) que comunican un mensaje (generalmente
acerca de calidad), la interpretación de la calificación se hace difícil si
no se deja suficientemente claro lo que representa cada índice (la A o la
B; el 10 o el 9, por ejemplo) y si lo que se escoge para calificar es poco
pertinente.
La confusión al interpretar una calificación puede generarse por haber

combinado diversos componentes, por ejemplo, calidad del desempeño
académico, comportamiento mostrado en el salón de clases y el esfuer-
zo invertido por el estudiante. Combinarlos en una sola calificación hace
muy difícil decir si la calificación significa que el alumno logró un buen
dominio del contenido del curso o, más bien, que se esforzó en lograrlo o
que cooperó adecuadamente en la clase. La evidencia muestra que esta
práctica genera interpretaciones confusas (Hensley y East, 1989).
El problema se agrava porque se distorsiona el mensaje que el sistema

de calificación comunica a los estudiantes. Si comúnmente, los compo-
nentes que cargan el mayor peso en la determinación de la calificación
son percibidos por los estudiantes como lo que los profesores valoran y,
en consecuencias, los que ellos deben valorar y lo que deberá ser el foco
de su esfuerzo, entonces una interpretación confusa más que facilitar el
logro de los objetivos de aprendizaje establecidos, lo impediría. De aquí
que sea importante que los profesores revisen sus sistemas de califica-
ción de manera tal que estén en capacidad de controlar mensajes erró-
neos que obstaculicen el logro de sus estudiantes.
Calificar debe ser algo más que sólo asignar una letra o número. En
tanto mejoremos las prácticas de calificar se podrán mejorar la con-
fiabilidad y validez de una calificación y, más importante aún, se po-
drá potenciar la docencia y el aprendizaje del estudiante. Calificar es
una parte integral del proceso de enseñanza y debe entretejerse en el
curso, cuidadosamente planeada para que sea confiable, válida, apro-
piada y significativa, tanto para los estudiantes como para los profe-
sores.
En términos generales, los docentes diseñan las calificaciones con base

en los objetivos de aprendizaje que consideran importantes pero, tam-
bién, sobre la concepción que tengan al respecto de lo que las calificacio-
nes puedan significar. Este aspecto desvía el que las calificaciones de-
ban reflejar, únicamente, el logro de los estudiantes (Baumgartner,
Jackson, Mahar, y Rowe, 2003; Lacy y Hastad, 2003; Walvoord y Ander-
son, 1998).
Pero, normalmente, las calificaciones han sido mudas al respecto de los

procesos de aprendizaje involucrados y, por ende, a la cualificación de la
formación otorgada. Si alguien dice que, de manera consistente, los
egresados de una unidad académica muestran ser buenos resolvedores
de problemas porque la solución de problemas ha sido enseñada (y
aprendida) como secuencias de pasos rutinizados (manipulación de nú-
meros con base en las reglas de un algoritmo), poca confianza podría-
mos tener en su capacidad real de resolver problemas ante las situacio-
nes difusas de la vida real. De aquí que, el docente de Educación Supe-
rior necesite conocer la cualidad de las interacciones formativas, en las
comunidades profesionales a las cuales pertenecen los estudiantes, pa-
ra poder identificar lo que es valioso en el logro/ejecución de los estu-
diantes. De esta manera, tendrá que identificar los objetivos de aprendi-
zaje significativos antes de definir como se diseñará el sistema de califi-
caciones.
CALIFICANDO, INTERPRETANDO Y REALIMENTANDO 249
AL APRENDIZAJE
Si los objetivos de aprendizaje se enfocan a fomentar aprendizajes en

los niveles más altos de complejidad, los estudiantes podrían practicar
esta complejidad durantes las actividades del curso y, las evaluaciones y
exámenes, podrían requerir la demostración de esta profundidad. Califi-
car se convierte, así, en una herramienta poderosa para motivar y dirigir
el aprendizaje del estudiante (McKeachie, 1999). Si los exámenes se en-
focan en la simple regurgitación de hechos, los estudiantes se enfocarán
en adquirir hechos, pero si los exámenes se enfocan en el procesamien-
to profundo, los estudiantes transformarán lo que aprenden.
En realidad, la calificación efectiva comienza con una visión clara para

los estudiantes de los objetivos de aprendizaje que valoramos, lo que les
ayuda a enfocarse a lograr este desarrollo de habilidades y de aprendi-
zaje.
El primer paso para enfocar el aprendizaje y el proceso de calificar lo

constituye planear. Para Zlokovich (2001) esto significa que los docen-
tes: a) articulen las metas de aprendizaje a partir del nivel del curso y de
anticipar quién será el estudiante en términos de la carrera, el semestre
o año y el nivel de interés. Así, se decidirá lo que es importante que los
estudiantes sepan. Preguntas como ¿qué deberían ser capaces de ha-
cer? y ¿cómo podrían ser diferentes los estudiantes al final del curso?
definirían las metas de aprendizaje, pero la planeación también supone,
b) tomar decisiones informadas sobre la calificación. Los profesores po-
drían comenzar con ellos mismos y tratar de responder a preguntas co-
mo: ¿por qué utilizo los métodos para calificar que utilizo?, ¿dichos mé-
todos son efectivos para lograr lo que me propongo conseguir? y, la más
importante ¿realmente qué se yo sobre calificar?
Aspectos básicos al respecto de tomar decisiones

informadas para calificar
Los docentes deben considerar los siguientes aspectos para calificar:
a) Crear reglas que se enfoquen sobre los objetivos de aprendizaje iden-

tificados y los componentes del curso (por ejemplo, la participación
en clase) que son valorados por el profesor. En este sentido, es im-
portante que las reglas sean simples porque en la medida en la que
los componentes se incrementan, el grado de definiciones se vuelve
más complejo de diseñar y de comunicar con claridad a los estudian-
tes (Dalziel, 1998). El docente debe fomentar que el estudiante enfo-
que su atención sobre las definiciones de las calificaciones, desde el
primer día de clases y la mantenga a lo largo del curso.
b) Asignar calificaciones a partir de tres condiciones que le permitan to-

mar decisiones buenas y defendibles. La primera es que la informa-
ción sea consistente, la segunda, que haya sido corroborada y la
tercera que considere todas las consecuencias posibles (Anderson,
2003).
El que la información sea consistente refiere a la confiabilidad de los

datos, es decir a que los resultados se mantengan estables indepen-
dientemente de las tareas y el tiempo transcurrido. Igualmente, re-
fiere al hecho de que los cambios observados sean los teóricamente
esperados. Corroborar la información refiere no solo a verificar que
la información sea verdadera, sino a que se busquen otras fuentes
de información que consoliden o apoyen las afirmaciones hechas y
que la interpretación que se le de a la evidencia sea la misma, para
todas las personas. Y en cuanto a las consecuencias refiere a las
consecuencias de las decisiones que tomamos, es decir, preguntar-
se ¿qué pasará si? …(doy puntos extras por esfuerzo, permito un
examen de reposición si el promedio es superior a 80, etc...), se re-
quiere considerar todas las consecuencias en todos los niveles y ac-
tores posibles.
c) Asignar calificaciones a partir de tres criterios que permitan diseñar

un sistema de calificación lógico y defendible, éstos son, el significa-
do, la explicites y la imparcialidad.
El significado se refiere a entender qué es lo que implica la califica-

ción, es decir los criterios que la determinan, por ejemplo, organizar
en un modelo mental adecuado los cientos de conceptos y técnicas
aprendidas, resolver un problema en el menor tiempo posible y con el
máximo de efectividad, proponer estrategias novedosas para casos
emergentes o, tener un buen comportamiento dentro del salón de
clases, asistir puntualmente, aprender contenidos, etc... Desde lue-
go, es conveniente que un alto porcentaje de la calificación se base en
desempeños académicos complejos, de esa forma el sistema de cali-
ficación es más significativo, fiable y sólido.
Por otra parte, un sistema de calificación explícito refiere a que la for-

ma en que se llegó a la asignación de la calificación final sea clara y
precisa, es decir, cuente con la información que se consideró, tanto
como de su combinación.
Y en lo que refiere a la imparcialidad, la clave radica en que cada

alumno tenga la misma oportunidad de obtener una buena califica-
ción.
AL APRENDIZAJE
Las siguientes son recomendaciones que se pueden tomar en cuenta pa-

ra favorecer el cumplimiento de los criterios antes nombrados:
l Calificar imparcialmente, los afectos personales no deben influir en el

proceso de asignación de calificaciones.
l Asignar calificaciones tomando en cuenta objetivos de aprendizaje im-
portantes.
l Informar a los implicados sobre el procedimiento de calificación antes
de la aplicación de la prueba.
l Disponer de información actualizada del desempeño de los implicados
en la evaluación.
l Usar un número suficiente de evidencia para poder asignar una califi-
cación representativa del desempeño del sustentante.
l Hacer juicios profesionales informados.
d) Otro aspecto básico que el docente debe tomar en cuenta es la elec-

ción de los métodos de calificación. Debe evitar “encerrarse” en un
sólo método de calificación para todas las tareas del curso, todos los
exámenes y para la calificación final. Los diferentes métodos que
pueden ser usados a lo largo del curso incluyen:
Calificar con referencia al criterio. El aprovechamiento del estudiante se

mide con respecto a un desempeño estándar especificado, y cada califi-
cación del estudiante se asigna independientemente de las calificaciones
de otros estudiantes. Las ventajas de este método son que promueve el
éxito constituido sobre el contenido aprendido en el curso actual en cur-
sos posteriores, permite que el rendimiento sea contrastado con el es-
tándar de otros estudiantes, se enfoca en el aprendizaje en vez de clasi-
ficar de forma relativa el desempeño con el de otros estudiantes y puede
motivar a los estudiantes debido a que no hay límites con respecto a la
gente que puede obtener buenas calificaciones.
Esta evaluación consiste en determinar cuáles serian los conocimientos,

habilidades o competencias mínimas que se esperarían tuvieran los
alumnos. Puede determinarse con los objetivos, actividades, una ejecu-
ción o un patrón de ejecución (Anderson, 2003; Jornet, 2002; Jornet,
Suárez y Perales, 2002). Al “saber” se le conoce como dominio, que im-
plica tanto la clase de tarea que ha de ejecutarse, como el contenido im-
plicado en la ejecución (Livas, 2006).
A su vez, al realizar la evaluación, los resultados se comparan con el do-

minio correspondiente a fin de determinar que es lo que puede hacer el
estudiante y si su ejecución es superior o inferior al dominio, indepen-

dientemente si es superior o no a la de los demás estudiantes (Livas,
2006). Con el enfoque criterial se intenta la determinación de un criterio
absoluto, referido a la calidad del aprendizaje mostrado a través de la
prueba (Jornet y Perales, 2002), lo que supone que la construcción del
examen se basa en una descripción de dominio a evaluar exhaustiva que
es una muestra representativa de conocimientos, para que cuando un
sustentante obtenga determinada puntuación en la prueba se pueda
aplicar la valoración al dominio en general de la habilidad que representa
y no a su expresión concreta en la prueba (Jornet, Suárez y Perales,
2002).
El universo de medida de las pruebas basadas en criterio abordan di-

mensiones del área cognitiva relativas al rendimiento; los dominios son
reducidos y concretos; y con estructura y relaciones precisas y eviden-
tes (Jornet, Suárez y Perales, 2002).
Para seleccionar los reactivos constitutivos de la prueba se pueden utili-

zar cuatro criterios. El primero es determinar el anteproyecto de la prue-
ba, es decir su estructura por conocimiento evaluado y el número de
reactivos por cada uno con antelación. Los otros tres son con base en
sus características psicométricas. La elección de los reactivos, con base
en la discriminación, dificultad y validez del mismo, según la interpreta-
ción criterial, se realiza en función de los criterios esperados, previa-
mente determinado por los constructores de la prueba para el ítem (Jor-
net, 2002).
Existen tres formas de establecer estándares: en el primer caso alguien

determina, sin evidencia alguna, los estándares mínimos. En el segundo
caso, se busca el consenso de un grupo de expertos en cuanto a los es-
tándares mínimos a cumplir o se divide a un grupo de alumnos entre los
expertos y los no expertos para hacer dos distribuciones y el punto de
intersección entre las dos es el estándar. En el último caso, se pretende
evaluar el conocimiento presente que son la base para el aprendizaje de
conocimientos, habilidades o competencias futuras.
Calificar con referencia a la norma o “calificación bajo la curva”. La califi-

cación de cada estudiante está basada en su posición relativa, compara-
da con la de otros estudiantes. El significado del puntaje de alguien se
deriva de una comparación con los otros puntajes del grupo de norma.
Este método promueve una distribución normal con un número pequeño
de calificaciones que van de la “A” a la “F” y que hacen fácil para el do-
cente la asignación de letras o números. Curvear, sin embargo presenta
problemas. Incrementa un estándar relativo que varía con el desempe-
AL APRENDIZAJE
ño de un grupo en particular y no describe qué tan competente es un es-

tudiante con respecto al material cubierto, sino con respecto al rendi-
miento de otros estudiantes. Cuando se pretende asignar calificaciones
con base en un grupo normativo se debe tomar a la media como punto
de referencia, la cual debe coincidir con la mitad de la escala de califica-
ciones que se aplicará (ver Figura 1).
MEDIA
NA S B MB
Figura 1. Escala de calificación con base en la media.
Partiendo de la media (M), se asigna una calificación a cada desviación

estándar (DE); así, para las puntuaciones superiores a la media, se asig-
na “B” a las que se ubican en el área de más una desviación estándar de
la media (+1DE) y “MB” a las incluidas en el área de más dos desviacio-
nes estándar (+2DE); para las puntuaciones inferiores a la media, se
asigna “S” a las que se ubican en el área de menos de una desviación es-
tándar (-1DE) y “NA” a las que quedan incluidas en el área de menos dos
desviaciones estándar (-2DE), tal y como se muestra en la Figura 2 (Li-
vas, 2006).
-2DE -1DE M +1DE +2DE

25 30 35 40 45
NA S B NA
Figura 2. Escala de calificación con base en la media y la desviación estándar.
Otra forma de interpretar es asignar las calificaciones mediante rangos

percentilares o estaninas, basadas en porcentajes de respuesta de la
distribución normal.
Tabla 1
Equivalencias entre estaninas, rango percentilar y calificaciones.
Estaninas 1 2 3 4 5 6 7 8 9
Rango Inferior 4a 11a 23a 40a 60a 77a 89a Arriba
percentilar a4 10 22 39 59 76 88 95 de 95
Calificaciones 4 5 6 7 8 9 10
Para asignar calificaciones por medio de un criterio preestablecido se

aplica el sistema binario que establece previamente la mínima califica-
ción aceptable (usualmente un 80% o 90% de la calificación máxima).
Luego se califican las pruebas comparando la puntuación total con la
puntuación mínima aceptable. Si la puntuación del alumno esta dentro
del límite establecido, se le asigna su calificación que implica su promo-
ción al siguiente curso o la acreditación de a materia; en caso contrario,
se le asigna la calificación que indica no promoción o no acreditación (Li-
vas, 2006).
Dominio con maestría. A cada estudiante se le brinda acceso, tiempo,

instrucción variada, retroalimentación frecuente y se le anima para per-
sistir hasta que domina la información. Este método puede tomarles
bastante tiempo a los profesores debido a que requiere mantener un re-
gistro extenso porque no es generalizado que los estudiantes aprendan
el material al mismo tiempo.
Omisión de “aprobar”. Este método se basa en el supuesto de que los

estudiantes estarán más animados a explorar el material del curso si no
se tienen que preocupar por las letras o números de sus calificaciones,
así como en la esperanza de que los estudiantes estén interesados en el
aprendizaje por sí mismo.
e) Un aspecto básico que no debe ser pasado por alto por los docentes
refiere a planear compromisos temporales realistas y apropiados.
Es importante considerar los compromisos temporales en términos de

la cantidad de trabajo de los profesores y los alumnos, así como de la
importancia relativa de tareas en particular. Un plan para calificar que
implica presiones de tiempo muy intensas, tanto para el instructor co-
mo para los estudiantes, podría no ayudar mucho a alcanzar las metas
de aprendizaje. Además, una simple tarea no debe contar el 50% de
una calificación final ni un extenso trabajo final debería valer sólo un
10% de la misma. Se debe balancear una tarea asignada o alguna otra
exigencia con la cantidad de trabajo que se requiere, tanto dentro co-
mo fuera de la clase y el porcentaje de la calificación del curso asociada
con dicha tarea.
f) Finalmente, el docente deberá conocer diversas opciones para resu-

mir el trabajo de cada estudiante en una letra o número que califique
el curso. Existen muchas opciones, entre ellas:
l Calificación “pesada”. El peso de una calificación se refiere a su pro-

porción en relación a la calificación final. Se basa en el supuesto de
que los distintos desempeños y los distintos tipos de excelencia son
AL APRENDIZAJE
valorados de distinta manera (por ejemplo cuando una participación

en clase pesa más que un documento trimestral), y en que el docen-
te aplique un juicio de valor a las tareas valoradas.
l Puntos acumulados. Este método define cada calificación por un

porcentaje de puntos totales disponibles. Por ejemplo, una “A” po-
dría ser definida como: haber obtenido el 90% del número total de
puntos disponibles. Este método se basa en el supuesto de que un
buen desempeño en un área puede ayudar a tener un bajo desem-
peño en otra área, lo que permite tener progresos a lo largo del cur-
so y le da la oportunidad a los estudiantes de decidir en dónde
concentrar sus esfuerzos. Un problema potencial es que los estu-
diantes que se desempeñaron bien desde el inicio del curso pudieran
haber acumulado los suficientes puntos para acreditar, como para
decidir poner sus esfuerzos en otros cursos.
l Evaluación por estándares definidos. Este método requiere que los

estudiantes lleguen o excedan estándares particulares, establecidos
para cada categoría o trabajo asignado, por ejemplo requerir un
“100” en exámenes y hasta un “80” en los demás documentos para
acreditar el curso con “100”. Esto se basa en el supuesto de que
cada categoría es importante y una categoría no puede ocasionar un
bajo rendimiento en otra. Este método es menos común y requerirá
ser cuidadosamente explicado desde el principio.
l Calificación por mediana. Este método es útil cuando las calificacio-

nes tienden a fluctuar ampliamente o cuando los puntajes están ba-
sados en sólo unas pocas tareas. La calificación final se determina al
ordenar de mayor a menor las calificaciones obtenidas y escoger la
calificación de en medio. Una calificación excepcionalmente baja o
alta no afecta tanto a la mediana como haría con la media.
l Calificación holística. Implica el uso de evaluación formativa a lo

largo del semestre y el uso de una calificación final determinada
principal o completamente por la evaluación sumativa de un pro-
yecto final al término del semestre. Es particularmente apropiado
cuando la meta del curso es precisamente elaborar un producto fi-
nal. El método puede incluir más de una categoría de logro, similar
a la evaluación definicional. Una ventaja de este método es que
permite al instructor dar retroalimentación progresiva sobre el tra-
bajo de los estudiantes en vías de que el producto final les ayude en
el aprendizaje, sin la penalización temprana de errores al final del
curso.
En la Tabla 2 se presenta un procedimiento que abrevia los pasos para

diseñar la calificación de manera sistemática.
Tabla 2
Procedimiento para diseñar la asignación de calificaciones.
Pasos del Descripción

procedimiento
Primero En una tabla de doble entrada, enliste en la primera
columna, cada unidad de aprendizaje o módulo del
curso y sus tareas.
Segundo Junto a cada una de las unidades y tareas, escriba el
objetivo propuesto (por ejemplo elaborar un mapa
conceptual, formar categorías, desarrollar razona-
miento diagnóstico, etc...), en una segunda columna
a la derecha de la anterior.
Tercero En una tercera columna escriba porqué el objetivo es
importante en la formación del estudiante.
Cuarto En una cuarta columna ingrese el procedimiento de
calificación que usará para cada tarea (por ejemplo
calificación con letra, puntos, calificación criterial o
normativa).
Quinto En la última columna, enliste cómo puede irles bien a
los estudiantes en cada tarea o requerimiento a califi-
car (por ejemplo Leer el libro, hacer uso de aprendi-
zaje activo, uso de tutorías, asistir a clases para revi-
siones y entregar el documento para la revisión for-
mativa).
Sexto Agregue fechas previstas e incluya la tabla en mate-
riales del inicio de curso.
Al igual que Walvoord y Anderson (1998), entre otros muchos, conside-

ramos que es necesario enfatizar en los estudiantes una motivación cen-
trada en el aprendizaje, en lugar de una motivación centrada en la califi-
cación.
Interpretando datos de evaluación

Interpretar datos de la evaluación es darle significado a la evidencia re-
colectada. La estructura de la interpretación debe cumplir dos criterios:
AL APRENDIZAJE
consistencia de la evidencia y una fuerte argumentación. En cuanto a la

consistencia se espera que los instrumentos de evaluación sean válidos
y confiables, las fuentes de información correctas y congruentes con el
objetivo de la evaluación. La fuerte argumentación se refiere a no dejar
duda de que los resultados puedan dejar cabida a más explicaciones
(Phye, 1997).
Los ingredientes clave de la interpretación de las pruebas son el tipo de

conocimiento que se valora (contenido) y el propósito de la prueba. Una
prueba puede incluso ser un indicador de la necesidad de realizar cam-
bios curriculares, es un elemento necesario, pero no es información sufi-
ciente para la evaluación de programas institucionales (Phye, 1997).
Uno de los problemas fundamentales en la construcción de pruebas de

rendimiento educativo ha sido la identificación de un criterio o sistema
de criterios que permitan interpretar adecuadamente sus puntuaciones,
determinarlos implica tener claros los propósitos de la evaluación y el
objetivo de la prueba.
Jornet y Perales, 2002 consideran los siguientes tipos de pruebas con

distintos propósitos de la evaluación:
a) Pruebas de aula. Son las que utiliza el profesorado para calificar y/o
evaluar el aprendizaje de los estudiantes. Se refieren a componentes
netamente curriculares (matemáticas, geografía.). El énfasis en su
desarrollo se sitúa en la representatividad del contenido del examen
respecto al programa educativo. Pueden darse con una doble finali-
dad: formativa y/o sumativa. El estándar, en este caso, surge nece-
sariamente de elementos de juicio que sintetizan los elementos que
se consideran una muestra relevante del programa, y constituyen un
indicador acerca de las competencias alcanzadas por los alumnos.
b) Pruebas diagnósticas. Son aquellas dirigidas a establecer un diagnós-
tico y/o explicación de la situación educativa de una persona, con la
finalidad de identificar componentes para su mejora. El estándar, en
estos casos, toma como punto de partida el comportamiento norma-
tivo, por lo que se toma como referencia la curva normal. De esta for-
ma, el énfasis se sitúa más que en los elementos de validación, en el
ajuste al modelo de medida (fiabilidad).
c) Pruebas de certificación y/o admisión. Tienen por objeto certificar la
competencia adquirida por una persona en un programa, o comprobar
las competencias necesarias para su admisión. Las pruebas recogen
en estos casos los elementos que se consideran relevantes en cuanto a
competencias adquiridas (certificación) o previas (admisión). El están-
dar, en estos casos, se ajusta sobre una estrategia mixta basada en

juicio, previo ajuste de la prueba a un modelo de medida.
d) Indicadores de rendimiento o de resultados. Orientados a identificar
el nivel de competencias adquiridas por un colectivo de estudiantes,
como resultado o producto educativo que ofrece una organización
(centro escolar o sistema educativo). La prueba se compone en estos
casos de las competencias que pueden adquirirse en el sistema edu-
cativo. El estándar, en este caso, necesariamente tiene una sólida
base empírica de ajuste a un modelo de medida, de referencia nor-
mativa. No obstante, su interpretación depende de elementos de jui-
cio sobre los resultados empíricos, de forma que se sitúa, como en el
caso anterior, en lo que podríamos identificar como opciones mixtas
de desarrollo de estándares.
En cuanto a la información que se obtiene en las pruebas, puede consi-

derarse paralela al proceso producto-proceso, es decir, las pruebas de
orientación sumativa requieren elementos de información que reflejen
los productos finales (a modo de competencias o habilidades últimas
que pretende desarrollar un programa educativo), mientras que las de
orientación formativa necesitan una información detallada de los ele-
mentos que se implican en cualquier competencia o habilidad, con el fin
de hacer posible una inferencia del proceso. Del mismo modo, en cuanto
a los criterios de interpretación, las primeras necesitan apoyarse en
apreciaciones absolutas acerca de la calidad del aprendizaje observado,
mientras que las segundas pueden beneficiarse, sin rechazar esta op-
ción, de aportaciones normativas que amplíen la explicación de la inter-
pretación de las puntuaciones.
En la interpretación de resultados se determinan los métodos por los

cuales se calificarán e interpretarán los datos obtenidos en la prueba.
Estos pueden ser usados como puntajes brutos o como calificaciones
convertidas a una escala. La interpretación de los resultados se realiza
dependiendo de la trascendencia de las decisiones que se van a tomar y
condiciona todos los elementos técnicos (dificultad, discriminación y va-
lidez) de desarrollo de la prueba (Jornet, 2002).
La interpretación de los resultados independientemente del método uti-

lizado se basa en la comparación con un referente. El referente puede
ser un continuo fundamental, las puntuaciones de los compañeros y es-
tándares preestablecidos.
Comparación con un continuo fundamental. Para contestar cuanto tiene

el alumno, el continuo de comparación tiene que ser cuantitativo, mien-
AL APRENDIZAJE
tras que cuando se quiere saber qué tan buena o mala es una puntua-
ción obtenida se requiere de un continuo cualitativo. En términos gene-
rales, el continuo se constituye de una escala que es una escalera con
una serie de peldaños crecientes que indican un incremento de la canti-
dad de la cualidad medida. En educación, para obtenerla se determina
por medio de jueces con base en una muestra de ejecuciones, por ejem-
plo una rúbrica que determina rangos.
La asignación de los puntajes en una prueba objetiva por reactivo puede

estar determinada por la dificultad que implique contestarlo. Para reali-
zar la interpretación de resultados con base en el nivel de dificultad se
crean una serie de niveles que los conjunten en categorías de tal forma
que según el patrón de respuesta de los reactivos nos indique el proba-
ble dominio del tema, de ciertos procedimientos o los objetivos de
aprendizaje que cumplió, sin embargo para que aseguremos que la in-
formación obtenida sea clara y útil es necesario que vaya acompañada
de una descripción cualitativa. Un instrumento útil, como ya se había di-
cho es una rúbrica, pero es conveniente aclarar que se habla de la pro-
babilidad de que un alumno pueda contestar tareas específicas de cierto
nivel de dificultad.
Los patrones de respuesta se pueden ver alterados por objetivos que va-
loran conocimiento específico que pueden presentar un grado de dificul-
tad, pero que no necesariamente dependen de los demás objetivos que
constituyen el examen.
Los instrumentos de evaluación más efectivos están compuestos de una

o más escalas con varios peldaños, es decir tipo Likert que valore desde
una ejecución buena hasta una mala ejecución pasando por una ejecu-
ción moderada.
Comparación con otros estudiantes. La evaluación normativa para la

elaboración, aplicación y calificación de los exámenes en las diferentes
modalidades, hacen de éstos una herramienta objetiva y eficaz para la
evaluación del aprendizaje de los alumnos, ya que evitan que el docente
aplique su criterio subjetivamente en la asignación de calificaciones
(Aguilar y Zaragoza, 2002).
La comparación entre un alumno con otros estudiantes también es lla-

mada como muestra normativa, grupos normativo o grupos de referen-
cia (Anderson, 2003). La evaluación por normas no nos dice lo que el es-
tudiante puede o no puede hacer, sino si puede hacer más o menos que
los demás y los resultados solo pueden ser generalizables a otras situa-
ciones de evaluación con ese mismo grupo, es decir, si un alumno es el
mejor en una asignatura de un grupo, no garantiza que al trasladarse a

un grupo distinto siga siendo el mejor, es decir, esto es relativo al grupo
en el que se desempeñe (Livas, 2006).
Mediante el enfoque normativo se busca comparar las puntuaciones in-

dividuales con las del grupo de referencia o grupo normativo, de ahí que
el criterio sea relativo, dependiente del comportamiento del grupo en la
prueba (Jornet y Perales, 2002; Jornet, 2002). Hay técnicas estadísticas
que ayudan a hacer este tipo de interpretación, como son los percenti-
les.
La interpretación de resultados por grupo normativo se maneja por ran-

gos que comúnmente se expresan en percentiles. Dado que esta forma
de interpretar los resultados de una prueba se basa en la comparación
con otros alumnos, el primer principio a cumplir es la confiabilidad de las
mediciones de cada reactivo.
Para seleccionar los reactivos que constituirán una prueba o batería de

pruebas se pueden utilizar cuatro criterios. El primero, es determinar el
anteproyecto de la prueba, es decir su estructura por conocimiento eva-
luado y el número de reactivos por cada uno con antelación.
El segundo, es tomar como referencia la dificultad del reactivo. Se reco-

mienda que cuando es una prueba con fines de diagnóstico se incluyan
reactivos de diferente grado de dificultad para que pueda darse un infor-
me detallado del desempeño de los alumnos, pero si es de selección o
para valorar el alto rendimiento es deseable que la dificultad de los reac-
tivos sea alta (Anderson, 2003). Sin embargo, la dificultad del ítem, con
base en la interpretación normativa, se eligen los reactivos con base en
la proporción de los mismos en la prueba, teniendo en cuenta que la
puntuación total de la misma deberá ajustarse a la curva normal. Por
ello se deberá componer de 25% de reactivos fáciles, 50% de dificultad
media y 25% de difíciles (Jornet, 2002).
El tercer lugar, el reactivo tiene que diferenciar entre los alumnos que
tienen un desempeño alto de los que lo tienen pobre, es decir el reactivo
debe tener la facultad de discriminar (Anderson, 2003) y que las pun-
tuaciones del reactivo tengan una alta relación con las puntuaciones de
la prueba (Jornet, 2002).
En cuarto lugar, los reactivos deben ser contestados como una tarea in-
dependiente de las otras, sin embargo debe complementar la informa-
ción que proveen otros reactivos sobre el desempeño del respondiente,
es decir, la respuesta a un reactivo debe correlacionar con la de otro
reactivo.
AL APRENDIZAJE
Los últimos dos criterios son los que predeterminan la distribución de las
pruebas comerciales de referencia a la norma y por ende su forma de in-
terpretar los resultados.
Un criterio adicional para seleccionar los reactivos, según Jornet (2002)

se refiere a que los reactivos que presenten una relación alta con un cri-
terio externo, como una prueba paralela que mida el mismo constructo.
Generalmente, la distribución es normal (campana de Gauss) y permite

hacer comparaciones entre individuos por medio de los rangos percenti-
1
lares (ver figura 3).
La distribución normal se caracteriza por estar dividida en dos por la me-

dia, la mediana y la moda. La mayoría de los estudiantes se encuentra
en la media aritmética de la distribución y va decreciendo hacia los la-
dos. Para ayudar en la interpretación de las calificaciones de un alumno
con respecto a sus compañeros, por medio de la distribución normal se
divide la misma en nueve categorías llamas estaninas (ver figura 3).
Figura 3. Distribución normal.
Como se puede apreciar en la figura 3 hay una relación clara entre rango
percentilar y las estaninas. Si el 4% de los estudiantes están por abajo
del 4% de la población, el alumno que se ubique en esta estanina podría
1
Valor del recorrido de una variable, bajo el cual se encuentra una proporción determina-
da de la población. Es un valor tal que supera un determinado porcentaje de los miem-
bros de la población, por ejemplo, un alumno con 99 significaría que el 99% de la
población de referencia está por debajo de él.
estar en un rango percentilar menor a 4. Esta relación entre las estani-

nas y el rango percentilar se puede observar en la figura 3.
La interpretación de los resultados con base en un grupo de referencia

implica, en primer término, obtener las puntuaciones de la prueba de
rendimiento que se está utilizando como base para el diagnóstico; en
segundo lugar, ordenar en una distribución de puntuaciones; y final-
mente, dividir la distribución en tantas partes como grupos se vayan a
integrar (Livas, 2006).
La interpretación de los puntajes obtenidos basados en las estaninas o el

rango percentilar presentan algunas limitaciones.
Un problema en el uso del rango percentilar basado en la curva normal

es que la mayoría de la población se agrupa alrededor de la media y no
permite dar retroalimentación precisa, además de que depende del gru-
po de referencia.
Otro problema es que depende de las características de la población

(grado escolar, edad, dominio del contenido) que sirvió como referen-
cias y para quien fue creada la prueba, lo que implica que una interpre-
tación válida solo es la hecha a los integrantes del grupo de referencia o
los que tienen las mismas características.
Finalmente, otro problema es que rara vez el grupo de referencia es una

muestra representativa que defina a la población.
Comparación con un estándar preestablecido. La evaluación por medio

de estándares o criterios preestablecidos consiste en determinar cuáles
serían los conocimientos, habilidades o competencias mínimas que se
esperarían tuvieran los alumnos.
La evaluación por criterios requiere de una interpretación de naturaleza

absoluta, de “todo o nada”: el alumno posee o no los objetivos; posee o
no los requisitos. Este tipo de interpretación conduce a una decisión bi-
naria, que en el caso de la evaluación diagnóstica debería implicar el in-
greso o no ingreso al curso (Livas, 2006).
Un procedimiento para interpretar los resultados de un alumno una vez apli-

cadas las pruebas, en términos generales, son los siguientes (Livas, 2006):
1. Fijar un límite de error aceptable. El hecho de que en la interpretación

de una prueba por criterios no se consideren diversos grados de co-
rrección o perfección, no significa que forzosamente se deban tener
en cuenta todos los reactivos. Es muy recomendable fijar un pequeño
margen de error que pueda ser atribuido a factores ajenos al conoci-
AL APRENDIZAJE
miento del alumno; este margen suele ser equivalente al 10% o 20%
de la puntuación total.
2. Obtener la puntuación correspondiente a cada alumno.
3. Comparar la puntuación con el límite establecido. Para decidir si el
alumno en cuestión esta o no en condiciones de tomar el curso, los
resultados de cada tipo de prueba deben interpretarse de manera
contraria: en el caso de los requisitos mínimos de un curso desarrolla-
do, la puntuación del alumno debe estar por encima del límite de lo
establecido; en el caso de los objetivos del curso siguiente, la puntua-
ción debe estar por debajo.
4. Emitir el dictamen correspondiente.
Usando comparaciones múltiples

Determinar qué comparación es la adecuada depende de las decisiones
que se tomarán con relación a los resultados. Por ejemplo, una compa-
ración con otros estudiantes es necesaria para determinar quienes serán
seleccionados para un programa especial de alta exigencia académica.
Comparando con un continuo muestra el desempeño de cada alumno y
uno dirigido basado en estándares preestablecidos si el alumno tiene
que avanzar o regresar al curso anterior.
Entonces, las diferentes aproximaciones podrían verse como comple-

mentarias y como una oportunidad de fortalecer nuestra capacidad de
tomar decisiones acertadas con base en la evidencia recabada.
En los estándares criteriales y mixtos el estándar se determina a partir

de procesos de juicio de expertos sobre el dominio educativo. En estos
casos los modelos de medida de referencia son los mismos que en el an-
terior, si bien el ajuste no constituye un requisito. El dominio educativo
es la referencia para interpretar los resultados de la prueba. En este ca-
so, el énfasis se sitúa en los componentes de juicio (expertos), de forma
que el estándar se entiende como el consenso intersubjetivo del comité
de expertos. La decisión se sustenta sobre la valoración del logro res-
pecto al dominio de referencia (Jornet y Perales, 2002).
Informe de resultados y realimentación

Cualquier tipo de evaluación tiene diferentes dimensiones; políticas,
normativas, técnico profesionales y pedagógica. Cuando se determina el
objetivo de la evaluación es con base en estas dimensiones. Saber qué
se quiere y espera de la evaluación es fundamental para comunicar los
resultados (Zorrilla, 2004).
La comunicación de resultados de la evaluación es un punto crucial en

cualquier proceso evaluativo debido a que informa los resultados y jui-
cios de valor sobre el objeto evaluado, con el fin de que se generen cam-
bios tendientes a su mejora.
En primer término para comunicar los resultados de evaluación es im-

portante determinar las audiencias legítimas que serán informadas y
elaborar un plan de devolución de resultados para cada una de ellas
(Anderson, 2003; Zorrilla, 2004).
En segundo lugar, es indispensable, que con base en las características

de la población a la que será dirigida, la confidencialidad de los datos, los
procesos propios de la institución y los puntos sensibles de los resulta-
dos, se determinen los medios que se utilizarán (informe escrito, pre-
sentación verbal, carteles, boletines, etc...).
El impacto de la devolución de los resultados de la evaluación, con fines

de mejora, puede ser favorecido si se desarrolle con un lenguaje com-
prensible y si la presentación de los resultados es clara y se usa un voca-
bulario claro para los receptores de los resultados.
Para desarrollar un proceso de comunicación efectiva es necesario tener

el objetivo claro al informar los resultados, éstos deben ser pertinentes
para las audiencias y ser directos, honestos y consistentes (Anderson,
2003.).
El objetivo del informe de resultados de evaluación debe ser claro para

desarrollar una estructura congruente y simple, que no sea confusa o
muestre información innecesaria. Es importante hacer lo posible para
evitar ser lapidado o generar triunfalismos inútiles y paralizantes (Zorri-
lla, 2004).
Pertinente para las audiencias. En primer término se necesita conocer

las características de las audiencias (edad, formación, ocupaciones, dis-
capacidades físicas o psicológicas, etc...) y entonces adaptar el formato
y el contenido a ellos, incluyendo los términos técnicos que en ocasiones
se usan, con el fin de que sea comprensible para ellos. Es deseable evi-
tar términos vagos, con varios significados, acrónimos y abreviaciones.
Directo, consistente y honesto. Un informe (oral o escrito) sobre los re-

sultados debe se directo, consistente y honesto para aumentar la credi-
bilidad de lo expuesto. Para favorecer es la credibilidad la información
específica es presentada, cuidando la confidencialidad de los resultados
para que su publicación llegue a las audiencias precisas y no se dañe la
reputación de nadie.
AL APRENDIZAJE
Énfasis en la perspectiva pedagógica. Se trata de formar a las distintas

audiencias y actores sociales para que comprendan los procesos y resul-
tados educativos y puedan actuar en consecuencia de su mejoramiento
(Zorrilla, 2004).
La forma más común a nivel institucional para informar sobre el rendimien-

to académico son las boletas, historias académicas o cualquier otro forma-
to en el que se asientan las calificaciones de los alumnos o examinandos.
Desafortunadamente, este medio de comunicación de los resultados de un
proceso evaluativo tiene varias limitantes. Una de ellas está basada en có-
mo son asignadas las calificaciones o niveles de desempeño y que estos
permitan compararse con otras personas del mismo grado y la otra en que
los resultados no son lo suficientemente precisos para determinar las áreas
de oportunidad de los alumnos por lo rangos tan amplios que se manejan,
además de que generalmente es el resultado de múltiples fuentes de infor-
mación como tareas, prácticas, asistencia, etcétera.
Para franquear estas limitantes se recomienda realizar comentarios

puntuales que acompañen a la información cuantitativa que permita al
alumno, profesor o hacedor de exámenes la reflexión crítica de las áreas
de oportunidad y las fortalezas del rendimiento académico y la pertinen-
cia del examen para esa población.
Algunas frases que se pueden ocupar en los comentarios que pueden

acompañar a un resultado cuantitativo son:
l Tiene buena comprensión en …
l Ha mejorado considerablemente en …
l Es enriquecedor tenerlo en clase.
l Es respetado por sus compañeros
Algunas frases que comunican que el alumno necesita ayuda son:
l Podría beneficiarse de …
l Encuentra difícil hacer en tiempo y forma …
l Tiene problemas con …
l Requiere ayuda en …
l Necesita reforzar …
Las palabras que se sugiere evitar son: “siempre”, “nunca”, “no puede o
es incapaz de …” y “el no va ha …” porque denotan la inhabilidad del eva-
luado o su falta de motivación y en ambos casos son afirmaciones cau-

sales difíciles de sostener.
La importancia de dar a conocer de forma eficiente, pertinente y adecua-

da los resultados de la evaluación radica en que es la base para tomar
decisiones informadas y potenciar las acciones a seguir.
Una consecuencia importante de informar acerca de los resultados es

que brinda la oportunidad de dar realimentación progresiva para que los
estudiantes puedan ajustar su estudio antes de que sea tarde y su califi-
cación pueda verse mermada significativamente en las evaluaciones de
clase. Los estudiantes merecen y aprecian mucho la retroalimentación
rápida. Tal retroalimentación brinda oportunidades óptimas para que los
estudiantes aprendan de sus aciertos y sus errores.
La evaluación representa una herramienta útil para controlar el tiempo y

el esfuerzo de los estudiantes y para distribuirlos a todo lo largo del cur-
so. Igualmente, la evaluación genera actividades productivas de apren-
dizaje y provee realimentación suficiente y rápida para que los estudian-
tes respondan y la usen con el fin de guiar su aprendizaje subsecuente.
La realimentación es, en todo momento, un acompañante crucial de las
evaluaciones, dado que saber qué es lo se conoce y qué es lo que no se
conoce ayuda al estudiante a enfocar su aprendizaje.
De esta manera, el docente puede diseñar protocolos para que los estu-
diantes reciban realimentación adecuada sobre su ejecución. En un co-
mienzo, les ayuda a identificar el nivel de sus conocimientos y habilida-
des actuales, durante las clases diseña oportunidades frecuentes para
que el estudiante ejecute y reciba las sugerencias de cómo pueden me-
jorar. En términos generales, los protocolos brindan oportunidades al
estudiante para reflexionar acerca de lo que ha aprendido, de lo que to-
davía no aprende y de cómo evaluarse. Así, la corrección de errores y el
conocimiento de resultados son diseñados de tal manera que satisfa-
gan: a) ser frecuentes y b) elaborarse sobre pequeños, pero significati-
vos trozos del curso, para que sean útiles, es decir, para que la reali-
mentación sea específica y a tiempo.
Dado que la evaluación debe ser informativa para que cumpla su fun-
ción, la realimentación necesita informarle al estudiante, exactamente,
qué es lo que pudo hacer para hacerlo bien (opciones de acción), más
que decirle que fue lo que hizo mal (esto puede ser desmotivante y afec-
tar su valoración de auto eficacia ante la tarea en cuestión).
El docente aprende que los criterios de evaluación deben ser claros,

transparentes y explícitos de manera tal que sean comprendidos por los
AL APRENDIZAJE
estudiantes, dado que su valor real descansa en el hecho de que los mis-
mos estudiantes puedan supervisarse a sí mismos y mejorar la calidad
de su compromiso para lograrlo. Así, la realimentación se constituye en
un importante artefacto para involucrar al estudiante en la evaluación
para el aprendizaje. Ayuda al docente a entender cómo es que la evalua-
ción para el aprendizaje debe ligarse con la motivación de aprender.
Desde la perspectiva socio constructivista, el estudiante se compromete

íntimamente en entender su propio aprendizaje y en planear qué es lo
que debe hacer. Pero, lograr lo anterior requiere que el docente cambie
sus creencias de control sobre sus estudiantes. Esta transformación se
resuelve en la medida en la que se comprenda cómo se relacionan la eva-
luación y el aprendizaje. Si la meta es que el estudiante avance hacia un
aprendizaje autodirigido, entonces diseñar oportunidades de auto eva-
luación que desarrollen un mayor involucramiento de su estudiante en el
desarrollo de las habilidades de auto monitoreo es críticamente importan-
te. Como lo es, también, desarrollar evaluación por sus compañeros.
La evaluación de pares representa un artefacto privilegiado para apoyar a

los estudiantes. La interacción estudiante–estudiante constituye una
fuente valiosa de evaluación donde el estudiante recibe una cantidad sub-
stancial de realimentación de sus pares, con frecuencia es mayor a la que
pueden recibir de sus profesores. Así, la evaluación para el aprendizaje se
ve beneficiada, importantemente, tanto por el andamiaje del aprendizaje
originado en la realimentación dada por los compañeros, como por el diá-
logo profesor–estudiante presente en la hetero evaluación.
Referencias
Aguilar, E. & Zaragoza, S (2002) La evaluación normativa a través de
exámenes colegiados y de solvencia académica en el nivel medio
superior de la Universidad Autónoma del Estado de Morelos. En
CENEVAL (Ed.), Quinto Foro de Evaluación Educativa, (pp. 19-25).
Ensenada, Baja California, México: CENEVAL, A. C.
Anderson, L. W. (2003). Classroom Assessment. Enhacing the Quality of
Teacher Decision Making. New Jersey: Lawrence Erlbaum Associates.
Baumgartner, T. A., Jackson, A. S., Mahar, M. T., & Rowe, A. (2003).
Measurement for evaluation in physical education and exercise
science (7a ed.). Dubuque, IA: McGraw-Hill.
Dalziel, J. (1998). Using marks to assess student performance: Some
problems and alternatives. Assessment and Evaluation in Higher
Education, 23, 351–366.
Hensley, L. D., & East, W. B. (1989). Testing and grading in the psycho-
motor domain. En M. J. Safrit & T. M. Wood (Eds.), Measurement
concepts in physical education and exercise science (pp. 297–321).
Champaign, IL, EE.UU.: Human Kinetics.
Jornet, J. (2002). Evaluación referida a criterio. (Disponible por el Cen-
tro Nacional de Evaluación Superior). D. F., México: CENEVAL, A. C.
Jornet, J. & Perales, M. (2002). La interpretación de puntuaciones en las
pruebas de rendimiento: elementos metodológicos en el desarrollo
de estándares. En CENEVAL, Quinto Foro de Evaluación Educativa,
Ensenada, Baja California 2002 (pp. 195-204). D. F., México:
CENEVAL, A. C.
Jornet, J., Suárez, J. & Perales, M. (2002). Evaluación referida al crite-
rio: componentes metodológicos para la elaboración de pruebas de
aula. Tantak, 27, 7-52.
Lacy, A. C., & Hastad, D. N. (2003). Measurement in physical education
and exercise science (4a. ed.). New York: Benjamin Cummings.
Livas, I. (2006). Análisis e Interpretación de los Resultados de la Eva-
luación Educativa. Recuperado el 23 de marzo de 2006 de la fuente
http://www.universidadabierta.edu.mx/SerEst/Apuntes/Ma-
cias_joseeduardoe-Analisis_Interpr_Eva_Edu.htm
McKeachie, W.J. (1999). Teaching tips: Strategies, research, and theory
for college and university teachers (10a. ed.). Boston: Houghton
Mifflin.
Phye, G. (1997) Handbook of Classroom Assessment. Learning, achie-
vement, and adjustment. San Diego, CA.: Academic Press.
Walvoord, B. E., & Anderson, V. J. (1998). Effective grading; A tool for
learning and assessment. San Francisco, CA.: Jossey-Bass.
Zlokovich, M. S. (2001). Grading for Optimal Student Learning. APS
Observer, Vol. 14 (1). Recuperado el 30 de mayo de 2006 de la
fuente http://www.psychologicalscience.org/tea-
ching/tips/tips_0101.cfm
Zorrilla, M. (2004, noviembre). Comunicación, medición e impacto de
los resultados de evaluación. Seminario internacional Estándares y
evaluación de aprendizajes: Avances y retos en América Latina y el
Perú, Lima, Perú.
Sección IV
Guías para elaborar ítems
objetivos
Capítulo 11 ?
Guía General de
Elaboración de Reactivos
Sandra Castañeda, Miguel López,
Universidad Nacional Autónoma de México, México
Consultores en Educación, México
ÍNDICE
Presentación
I. GUÍA GENERAL
1. Nociones.
2. Formatos de respuesta más frecuentes.
3. Fuentes de contenido: Formato.
A. Formato simple.
B. Ordenamiento.
C. Apareamiento.
D. Canevá.
E. Falso-verdadero múltiple.
F. Reactivo dependiente de contexto.
4. Fuente de contenido: Operación cognitiva
A. Comprender y organizar lo aprendido.
a. Identificación.
b. Clasificación.
c. Ordenamiento.
d. Organización jerárquica.
B. Aplicar conceptos, principios y procedimientos.
a) Traducción.
b) Aplicación de conceptos y principios.
c) Inferencia.
d) Presuposiciones.
e) Aplicación de procedimientos.
C. Resolver problemas.
a) Planificación de acciones
b) Corrección de errores.
5. Fuente de contenido: Campo de conocimiento.
A. Teórico.
B. Técnico.
C. Combinado.
6. Fuente: Contexto del reactivo.
A. Ejemplo – Regla (E-R)
B. Regla – Ejemplo (R-E)
C. Caso Ejemplo – Regla (CE-R)
D. Caso Regla – Ejemplo (CR-E)
7. Recomendaciones generales para elaborar ítems.
II. GUÍA ESPECÍFICA DE CONTADURÍA
III. GUÍA ESPECÍFICA DE PEDAGOGÍA
IV. GUÍA ESPECÍFICA DE PSICOLOGÍA
GUÍA GENERAL DE ELABORACIÓN DE REACTIVOS 273
A lo largo del trabajo presentado en esta obra se han revisado funda-

mentos contemporáneos de la evaluación de resultados de aprendizaje
y se han aportado evidencias que permiten validar interpretaciones de
puntajes de examinación de egreso. También, se han presentado proce-
dimientos útiles para la elaboración y revisión técnica de los elaborados.
Después de todo esto, ofrecemos al lector interesado guías para la ela-
boración de reactivos objetivos.
Debido a la amplitud del tema, esta sección fue dividida en dos partes; la
primera consta de una guía general que contiene conceptos y ejemplos
referidos a los reactivos objetivos donde se muestran, de manera gráfi-
ca, componentes fundamentales para elaborar diversos tipos de reacti-
vos, desde los más simples, hasta aquellos utilizados para medir la
capacidad de los examinandos para resolver problemas. En esta sección
se presentan ejemplos tomados de tres dominios: Contaduría, Pedago-
gía y Psicología.
Sólo se presentan tres dominios, ya que serían necesarios varios tomos

para presentar ejemplos de los dominios más importantes del campo del
conocimiento; sin embargo, las definiciones, explicaciones, ejemplos y
demostraciones gráficas son lo suficientemente claras para permitir a
elaboradores de otras disciplinas basarse en ellas, para la construcción
de reactivos objetivos adecuados a sus necesidades particulares, ya que
en esta sección se presenta lo que se comparte, para la mayoría de las
disciplinas y es funcional para todas ellas.
La segunda parte de esta sección se divide en tres porciones; cada una

de ellas dedicada a la elaboración de reactivos de tipo objetivo, para las
disciplinas de Contaduría, Pedagogía y Psicología, en esta sección se
presentan recomendaciones más específicas en cuanto a la redacción y
uso técnico del reactivo; así mismo se incluye una sección de errores co-
munes de redacción y como franquearlos.
Esperamos que los conceptos, ejemplos y recomendaciones aquí pre-

sentadas sean de la mayor utilidad para el lector de esta obra, y sin más,
presentamos la guía general de reactivos y las tres guías sobre dominios
específicos.
Presentación
El material de esta Guía y la información (conocimientos y datos) del

resto del libro son complementarios. El lector los puede combinar en vías
de ampliar su marco de referencia o para profundizar su pericia en algún
tema específico, por ejemplo, elaborar un ítem concreto a partir de un
buen manejo de las fuentes de contenido que lo constituyen. Así, puede
leer uno a uno todos los capítulos o sólo consultar aquello que sea de su
interés. El diagrama siguiente muestra rutas recomendables.
Diagrama de consulta sugerido
INICIO
¿Conoce el potencial de la evaluación del

aprendizaje sobre lo que los estudiantes aprenden? Recomendable leer la
¿Está al tanto de fundamentos teórico – No Sección I
metodológicos de la medición del aprendizaje en un
contexto moderno y de calidad?
Sí
¿Conoce qué efectos tienen las fuentes de contenido

incluidas en los ítems sobre la ejecución de los Revise la
No
examinandos? ¿identifica consecuencias técnicas y Sección II
sociales de la validación de constructo en exámenes
objetivos?
Sí
¿Conoce cómo diseñar exámenes y elaborar ítems Recomendable leer la

objetivos? ¿Sabe analizar reactivos, asignar No Sección 3
puntajes, interpretarlos y comunicar resultados?
Sí
SALIDA
A
En términos generales, la finalidad de esta Guía es aportar elementos

que faciliten la elaboración de reactivos a partir de lo que la literatura in-
ternacional reconoce como importante en el campo.
Guía general
1. Nociones
Los exámenes objetivos son instrumentos de uso común y de aplicación
sencilla. Están conformados por reactivos objetivos, es decir, ítems que
no requieren de juicios personales del evaluador o de interpretaciones
para calificar las respuestas sino que, más bien, poseen una clave de
respuesta única, previamente establecida y acordada.
El ítem es la unidad básica de observación de cualquier examen. Tratán-

dose de ítems de opción múltiple (OM) se puede hablar de dos partes
constitutivas: un enunciado llamado base o cuerpo u , que expresa una
situación o problema en forma de proposición, y opciones de respuesta,
entre las cuales se encuentra la respuesta correcta o la mejor solución
posible v.
Las otras opciones de respuesta son distractores w, es decir, su función

es darle la oportunidad al examinando de demostrar que es capaz de
discriminar, entre ellos, la respuesta correcta.
u BASE DEL
REACTIVO
El instructivo que señala el procedimiento para registrar
- desde su origen - una operación se denomina:
v OPCIÓN CORRECTA A) catálogo de cuentas

B) diagrama de flujo Distractores w
u C) guía de procesamiento
D) manual de operación
u
2. Formatos de respuesta más frecuentes
Las respuestas se pueden diseñar en formatos variados y pueden incluir

símbolos, palabras, frases u oraciones, así como partes de dibujos, ilus-
traciones o tablas de datos. Pueden listarse, verticalmente, por debajo
del cuerpo del ítem (el formato más tradicional) o pueden incluirse en los
materiales que contextualizan el ítem.
Las dos aproximaciones de OM usadas más frecuentemente son las que

piden seleccionar la: Respuesta correcta y la Mejor respuesta posible.
La primera se conoce con el nombre formato de alternativa diferenciada

y la segunda como formato de respuesta óptima.
A. Formato de alternativa diferenciada

A partir de lo planteado en la base o cuerpo del reactivo u, sólo una op-
ción de respuesta es correcta v y las otras son distractores plausibles w,
pero incorrectos.
u BASE DEL
REACTIVO
El instructivo que señala el procedimiento para registrar
- desde su origen - una operación se denomina:
v OPCIÓN CORRECTA A) catálogo de cuentas

B) diagrama de flujo Distractores w
u C) guía de procesamiento
D) manual de operación
u
B. Formato de respuesta óptima
Está compuesto por la base del reactivo u que muestra el problema a

ser resuelto y por distractores en donde todas las opciones de respuesta
son parcialmente correctas v, pero una es mejor que las demás w.
u Las similitudes en conducta y cognición

entre los humanos se deben a:
A) evolución de los genes

w B) herencia genética Todas las opciones
son parcialmente v
C) aptitudes e intereses
MEJOR RESPUESTA correctas
D) inteligencia superior
Las opciones parcialmente correctas son A, B y C, mientras que la D es la

mejor posible.
A continuación, se revisan tres fuentes de contenido: formato, opera-

ción cognitiva y campo de conocimiento, incluidas en los reactivos a fin
de que el elaborador de ítems las identifique y esté en capacidad de utili-
zarlas adecuadamente.
3. Fuente de contenido: FORMATO

Los formatos que se ejemplifican en esta guía corresponden a los acep-
tados internacionalmente en guías de construcción de reactivos objeti-
vos (Haladyna, 2004). Incluyen varios tipos: simple, ordenamiento,
apareamiento, canevá, falso-verdadero y falso-verdadero múltiple, los
más comunes en pruebas objetivas. De la combinación posible entre va-
rios de estos formatos se configura el de reactivos dependientes de con-
texto, donde a partir de un estímulo introductorio, usualmente una
situación problemática, se estructuran varios reactivos relacionados con
diversos aspectos de la situación. Todos estos formatos pueden evaluar
conocimientos factuales, conceptuales y procedimentales, simples y
complejos dependiendo, claro está, de la habilidad y creatividad del ela-
borador de ítems (Castañeda, 1993, 1998, 2002).
A. Formato simple
La base del reactivo u consiste en uno o varios enunciados que plantean
la situación a resolver y, enseguida, se presentan las opciones de res-
puesta, de la cuales una es correcta v y las demás son distractores creí-
bles w. Véase el ejemplo siguiente.
Para asegurar que el desempeño de los servicios de auditoría ofrecidos

u por los contadores públicos a sus clientes se realicen con calidad
profesional y responsabilidad social tiene criterios establecidos en:
v UNA SOLA OPCIÓN

CORRECTA
A) normas y procedimientos
B) normas de información financiera
u C) Código de Ética
Distractores w
D) Prácticas corporativas
u
Otro ejemplo del formato simple es:
u La presencia de cromosomas XY en una célula denota que pertenece a:
UNA SOLA OPCIÓN

A) un ser hermafrodita
CORRECTA B) un macho
v C) un gameto Distractores w
D) una hembra
E) un óvulo
B. Formato de ordenamiento
La base del reactivo u incluye una lista de elementos v que deben ser
ordenados siguiendo alguna regla especificada en las instrucciones w,
también indicadas en la base.
Las opciones de respuesta x son las combinaciones del ordenamiento de

los elementos listados con el número v, la opción que muestra el orden
correcto es la D) y:
Baseu A partir de la ratificación de la declaración del juez especialista, la w

secuencia ordenada del proceso de concurso mercantil de una entidad
económica es:
1. Reconocimiento de acreedores
2. Se nombra síndico
v 3. Separación de bienes que no pertenecen al comerciante
4. No hay convenio con acreedores
u 5. Se prohíbe a los comerciantes realizar operaciones con el público
en general
6. Suspensión de procedimientos administrativos
7. Presentar prueba documental de los hechos
8. Inscripción de sentencia en el Registro Público
A) 1, 5, 3, 7
Opciones B) 6, 4, 7, 8
x C) 3, 5, 1, 2 y
D) 6, 8, 4, 2
C. Formato de apareamiento
Este tipo de formato tiene dos alternativas: Dos columnas y Múltiples

opciones de respuesta – Múltiples cuerpos de reactivo.
El de dos columnas se conforma de dos listas (u y v) que deben relacio-

narse de manera que las opciones se correspondan correctamente w.
Su estructura se muestra en seguida.
Relacione los conceptos de la columna izquierda con su descripción en la columna

derecha.
u Conceptos v Descripción
1. Validez interna a) Variables extrañas, no manipuladas por el
2. Validez externa investigador, que ponen en riesgo la validez
3. Variables extrañas interna
4. Efecto de confusión b) Se denominan así a aquellas variables que los
5. Variables extrañas sistemáticas investigadores deciden no estudiar
6. Variables extrañas asistemáticas c) Es el grado de certidumbre de que la
manipulación de la variable independiente es la
responsable de los cambios observados en la
variable dependiente
d) Varían junto con la variable independiente en
forma consistente y deben controlarse para
evitar efectos de confusión en los resultados del
experimento
e) Se refiere al grado en que los resultados de un
experimento pueden generalizarse a otros
sujetos, escenarios o pruebas
A) 1c, 2e, 3b, 5d, 6a w

B) 1c, 2d, 3b, 4e, 5a
C) 1a, 2d, 3b, 5e, 6c
D) 1a, 3d, 4e, 5b, 6c

Otro ejemplo del formato de apareamiento de dos columnas.
Relacione los pasos de la elaboración de un estudio de casos (columna izquierda) con las
situaciones que ejemplifican el proceso (columna derecha)
u Pasos v Situación
1. Definición del problema a) El grupo debate sobre los ensayos presentados
2. Investigación del hecho o por cada estudiante
análisis del problema b) Los alumnos emprenden una búsqueda de
3. Elaboración del caso por escrito bibliografía especializada del tema
4. Discusión en grupo del caso, a c) El grupo llega al consenso de emplear
través del material elaborado cloroflorurocarbono
d) Los alumnos se interesan en indagar sobre la
destrucción de la capa de Ozono
e) El grupo elabora ensayos que contengan las
hipótesis sobre el tema
A) 1d, 2b, 3e, 4a

B) 1d, 2c, 3e, 4b w
C) 1a, 2b, 3e, 4c
D) 1a, 2d, 3b, 4c
Un último ejemplo de apareamiento de dos columnas.
Para estudiar el desarrollo psicológico del niño, Jean Piaget definió dos procesos
fundamentales en el ámbito afectivo-social: la autonomía y la descentración. Relacione
cada término con su definición correspondiente:
u Términos v Definición
1. Autonomía a) Proceso por medio del cual se internalizan reglas
2. Descentración b) Proceso que permite al niño ser cada vez menos
dependiente
c) Proceso de autorregulación de la conducta en el grupo
d) Proceso por medio del cual el niño llega a coordinar su
punto de vista con el de los demás
A) 1a, 2c
w
B) 1b, 2d
C) 1c, 2b
D) 1d, 2a
El otro formato de apareamiento, “Múltiples opciones de respuesta –

Múltiples cuerpos de reactivo” (MOR MCR), es altamente recomendable.
Evalúa si el examinando es capaz de relacionar problemas presentados
en reactivos u con la solución que aparece en un listado de respuestas
posibles v. Requiere que el número de opciones de respuesta sea mayor
a los problemas que se enuncian, a menos que puedan usarse más de
una vez algunas de ellas.
El elaborador deberá tomar en cuenta estos requisitos para que su reac-

tivo sea útil, especificar en las instrucciones cuáles son las bases del
apareamiento y si las opciones de respuesta pueden ser empleadas más
de una vez. Se debe procurar que el conjunto de enunciados sea homo-
géneo para cada uno de los ejercicios de apareamiento, es decir, que co-
rrespondan al mismo campo semántico o área de conocimiento, que
sean coherentes sintácticamente y aparecer en la misma página. Es
muy importante que al elaborarlos utilice enunciados cortos y organice
las opciones de respuesta de acuerdo con un orden lógico.
A continuación, aparecen cuatro opciones de respuesta que representan enfoques

filosóficos que han influido corrientes psicológicas.
Enfoques filosóficos:
A) positivista
B) idealista
v
C) funcionalista
D) materialista
Los siguientes reactivos están enumerados del 3 al 4. Son corrientes psicológicas. Léalas
detenidamente y marque en la hoja de respuestas la opción que corresponda al enfoque
filosófico que la sustenta. Cada opción sólo puede ser usada una vez.
u Reactivos
3 Psicología mentalista
4 Psicología conductista
Otro ejemplo de apareamiento MOR-MCR es:
A continuación aparecen cuatro opciones de respuesta que denotan métodos instruccionales

que contribuyen al aprendizaje significativo de los estudiantes
Métodos instruccionales:
A) Pregunta adjunta
B) Organizador avanzado
C) Señalización (títulos, oraciones “tópico”, palabras de énfasis, etc...)
etc.) v
D) Mapa conceptual
Los siguientes reactivos están enumerados del 1 al 7. Son efectos de los métodos
instruccionales citados. Léalos detenidamente y marque en la hoja de respuestas la opción que
corresponda al enfoque filosófico que la sustenta. Cada opción puede ser usada más de una
vez.
u Reactivos
1 Favorece que los estudiantes construyan conexiones externas entre la información que
va a ser aprendida y los conocimientos que poseen previamente. También permite que
se actualicen los conocimientos prerrequisito necesarios para aprender la nueva
información.
2. Favorece que la atención se vuelva selectiva a aquello que es importante de ser

aprendido, lo que le permite al estudiante construir las conexiones internas entre el
material que se está estudiando
3 Favorece que el estudiante organice el conocimiento a ser aprendido en una estructura

coherente, interconectada y jerarquizada
4 Favorece que el estudiante organice el conocimiento a ser aprendido en una estructura

coherente, interconectada y jerarquizada
5 Favorece la transferencia del conocimiento cuando la meta instruccional solicita la

solución de un problema nuevo.
6 Hace que la estructura de lo que va a ser aprendido se haga más clara, a pesar de que
NO proveen información substantiva sobre el contenido
7 Favorece que los estudiantes diferencien e integren en una representación espacial los
componentes principales de la estructura conceptual del contenido a ser aprendido.
Otro ejemplo más de apareamiento MOR-MCR

Las siguientes cuatro opciones de respuesta que denotan algunos de los principales
componentes a ser tomados en cuenta en la intervención instruccional orientada
cognoscitivamente
Opciones de respuesta
A) El aprendiz
B) El profesor v
C) El currículo
D) Evaluación de resultados de aprendizaje
A continuación se enlistan ítems numerados del 1 al 4. Son características principales de

estos componentes. Indican formulaciones teóricas gracias a las cuales se optimiza el
aprendizaje efectivo y la aceleración intelectual en el salón de clases. Lea detenidamente
cada una de ellas y marque en la hoja de respuestas a cuál opción de respuesta corresponde
cada uno de ellos.
u Reactivos
1 Centrar su actividad en la comprensión y organización de la información más que en

el aprendizaje memorístico.
2. Debe organizar lo que va a ser enseñado con base en las características del alumno
más que en los contenidos
3 Su actividad debe considerar tanto los procesos requeridos como a los productos a los
que se quiere llegar.
4 Su actividad debe centrarse en la satisfacción de criterios de calidad más que en la

referencia a la norma estadística.
D. Formato de canevá
En la base del reactivo u se dejan espacios en blanco para ser llenados

con la opción correcta v de las opciones presentadas w:
Base En el ANOVA, cuando la variable independiente (VI) tiene tres o más niveles se
requiere de pruebas ____________para saber cuáles son estadísticamente
u diferentes entre sí.
A) post hoc v
Opciones
B) de medidas repetidas
w C) de control asociativo
D) pre – test
Otro ejemplo de canevá
Base La técnica de valuación de costos ______________ con base en estudios de

tiempos y movimientos permite calcular lo que debe costar el producto.
u
A) estimada v
B) absorbente
Opciones
C) estándar
w D) real
E. Formato de falso verdadero múltiple
La base del reactivo u consiste en una instrucción v y un listado de ca-

racterísticas o elementos comunes a un hecho, concepto o procedimien-
to que deben ser considerados w. Las opciones de respuesta del reactivo
consisten en secuencias combinadas de valores falso-verdadero, pre-
sencia-ausencia x de las características presentadas en los enunciados
y sólo una de las opciones es correcta.
Base En las devoluciones de impuestos que presenten los contribuyentes

dictaminados, de cualquier impuesto federal (ISR, IVA, IA), se deberán
v
u proporcionar en la solicitud de devolución, los siguientes datos del
dictamen:
1. Folio de aceptación
2. Fecha de constitución w
3. Cuenta “CLABE”
4. Fecha de presentación
A) 1v, 2v, 3f, 4f

Opciones
B) 1f, 2f, 3v, 4v (v = verdadero / f = falso)
C) 1v, 2f, 3v, 4v x
D) 1f, 2v, 3f, 4f
Otro ejemplo con el mismo formato de reactivo es el siguiente.
Base En las devoluciones de impuestos que presenten los contribuyentes

u dictaminados, de cualquier impuesto federal (ISR, IVA, IA) se deberán
proporcionar en la solicitud de devolución los siguientes datos del
dictamen: v
Folio de
aceptación
Fecha de
constitución
Cuenta
“CLABE”
Fecha de
presentación
w
Opciones A) SÍ NO SÍ SÍ
B) NO SÍ NO SÍ
x
C) SÍ NO NO SÍ
D) NO SÍ SÍ NO
F. Formato de reactivo dependiente de contexto

Constituido por un estímulo introductorio v seguido de dos o más reacti-
vos u que presentan las opciones correspondientes w, de las cuales sólo
una es correcta. El estímulo para el reactivo puede ser –como en este
ejemplo– un enunciado; una fotografía, una carta, una gráfica, una figu-
ra, una tabla, un pasaje escrito, un poema, una historia, una caricatura,
un problema, un experimento, una narración o referirse a un evento, un
objeto o una persona.
vEstímulo Un comprador desea obtener bienes o servicios y cubrir el impuesto

introductorio respectivo.
u Base Para que pueda solventar los pagos a través de tarjetas electrónicas o
reactivo 1 cualquier otro medio similar es indispensable que:
A) un tercero refrende dicho pago en efectivo

B) el consumidor efectúe el pago a la empresa
wOpciones C) el cliente refrende los documentos de pago
D) el beneficiario asuma el pago en documentos
El Impuesto al Valor Agregado correspondiente al bien obtenido se

u Base
considera pagado en la fecha en la que el:
reactivo 2
A) pago sea recibido por la empresa

B) pago sea recibido por el banco
wOpciones C) bien sea recibido por el consumidor

D) cliente erogue el pago por el bien
Un ejemplo más
vEstímulo Cuando se partía de la concepción de una única inteligencia inmutable:

introductorio
u Base El currículo para escolares:
reactivo 1
A) comprendía de aprendizajes simples a otros más complejos

B) consistía de una serie de objetivos fundamentales a alcanzar
wOpciones C) radicaba en la introducción de la creatividad y la innovación

D) se conformaba de nuevas realidades a partir de la afectividad
Dicha concepción curricular sufrió un cambio a partir de:

u Base
reactivo 2
A) la aparición de la educación emocional
B) la teoría de las inteligencias múltiples
C) ajustarse a la fantasía y la afectividad
wOpciones D) ceñirse a la realización de productos
Otro ejemplo más
vEstímulo A partir del modelo del tetraedro:

introductorio
u Base Cuáles son los cuatro puntos de vista que propone.
reactivo 1
A) Cognitivo, fisiológico, conductual y holístico

B) Social, cognitivo, fisiológico y conductual
wOpciones C) Cultural, histórico, social y el individual

D) Emocional, conductual, social y racional
u Base En dicho modelo, el concepto de nivel de escala se refiere a:

reactivo 2
A) conducta, fisiología y cognición

B) cognición, sociología y fisiología
wOpciones C) instinto, intuición e intelecto

D) emoción, razón e intuición
4. Fuente de contenido: operación cognitiva (OC)
A mayor complejidad y abstracción de la información contenida en el

reactivo y de la tarea solicitada al examinando, se requieren evaluar
operaciones cognitivas más complejas que simplemente memorizar.
Aquí revisaremos tres grandes categorías de operación cognitiva, Com-
prender y organizar lo aprendido; Aplicar conceptos, principios y
procedimientos, así como Resolver problemas de distinto nivel de
dificultad.
La categoría comprender y organizar información se refiere a la ca-

pacidad del examinando para identificar, clasificar, ordenar temporal-
mente jerarquizar información conceptual presentada en el reactivo. A

continuación, se define cada sub operación que compone esta categoría
y se muestra un reactivo de ejemplo.
A. Categoría Comprender y organizar lo aprendido

a) Identificación
La operación cognitiva le demanda al examinando reconocer informa-
ción no literal sobre definiciones, características, relaciones y ejemplos
de hechos, conceptos, principios, reglas, procedimientos, teorías y valo-
res.
Ejemplo de identificación
u Un auditor emite su opinión cuando los saldos:
A) reflejados son correctos

B) reflejados son ciertos Todas las opciones son
C) los proporcione la empresa parcialmente correctas
v D) totales están integrados
Las opciones que complementan la respuesta correcta son A, B y D.

La base del reactivo u y la respuesta correcta v dan la evidencia que
apoya la opinión del auditor.
Con base en lo planteado por Haladyna (op. cit.), se recomienda utilizar

los siguientes enunciados en la elaboración de ítems que cuyo interés
sea evaluar la identificación de hechos, conceptos, principios, reglas,
teorías, procedimientos, etcétera.
¿Cuál es la definición de [........]? ¿Cuál es un ejemplo de [........]?

¿Cuál es el significado de [........]? ¿Cuál es el principio de [........]?
¿Qué palabra es sinónimo de [........]? ¿Cuál es un ejemplo del principio de [........]?
¿Qué es característico de [........]?
b) Clasificación
La operación cognitiva le demanda al examinando construir categorías
que pongan de manifiesto su capacidad de trascender la información ini-
cial a clases que no se encuentran presentes, gracias a la utilización de
reglas de inclusión de clase (de tiempo, de función, de temática, etcéte-
ra).
Ejemplo de clasificación
Instrucciones En la primera columna aparece un listado de pruebas y en la segunda,

cuatro objetivos de medición de las pruebas listadas. Seleccione la opción
correcta en la columna dos (A), B), C) o D). Las opciones pueden ser
utilizadas más de una vez.
uPruebas vOpciones de respuesta

Situación 1. MMPI A) Inteligencia
2. CAT B) Personalidad
3. Raven C) Percepción
4. 16PF D) Intereses
5. Frostig
6. DAT
En el reactivo se puede observar que el examinado debe relacionar las

pruebas u con la categoría representada en la columna de opciones de
respuesta v.
Recomendaciones generales. Cuando el interés es evaluar la clasifi-

cación de hechos, conceptos, principios, reglas, teorías, procedimientos,
etcétera, es recomendable utilizar enunciados como:
¿Cuáles de los siguientes elementos ¿Cuáles de los siguientes elementos

corresponden a [clase genérica]? corresponden a las teorías [clases
genéricas]?
¿Cuáles de los siguientes elementos son
síntomas de [clase genérica]? ¿Cuáles de las siguientes técnicas se utilizan
en [clase genérica]?
¿Cuáles de los siguientes elementos
corresponden a la primera, segunda y
tercera etapa de [clase genérica]?
c) Ordenamiento
La operación cognitiva le demanda al examinando construir una organi-
zación que ordena temporalmente, de manera adecuada, la información
evaluada por el ítem.
Ejemplo de ordenamiento
Base Ordene del más antiguo al más nuevo los enfoques psicológicos que se listan
u a continuación. Utilice los números progresivos que identifican a cada uno
de ellos para identificar la ordenación correcta que aparece en una de las
opciones de respuesta.
1. Psicogenético
2. Psicofísica
3. Conductismo
v v
4. Psicología Cognitiva
A) 2, 3, 1, 4
wOpciones B) 1, 2, 3, 4
C) 3, 2, 1, 4
D) 2, 3, 4, 1
En la base del reactivo se solicita que sean ordenados de forma crono-

lógica u una serie de enfoques v, con el fin de que el examinado selec-
cione la combinación correcta de entre las opciones de respuesta w.
Recomendaciones generales. Cuando el interés es evaluar el ordena-

miento de hechos, conceptos, principios, reglas, teorías y eventos, es
común utilizar enunciados como:
¿Cuál es el orden cronológico en el que suceden [.......]?
¿En qué orden cronológico se desarrolla [proceso]?
¿Cuál es el ordenamiento histórico de [hechos, eventos, etc.]?
Ordene del más antiguo al más nuevo los [.......]
Ordene los siguientes elementos de acuerdo a su evolución:
d) Organización jerárquica
La operación cognitiva le demanda al examinando organizar jerárquica-
mente los componentes que conforman un concepto complejo, un prin-
cipio, una teoría, un procedimiento, una técnica, etcétera.
Ejemplo de organización jerárquica
Instrucciones Lea cuidadosamente el siguiente texto y responda la pregunta

correspondiente.
Base (1) El Procesamiento Humano de Información es una aproximación al
v estudio de los procesos cognoscitivos, muy popular actualmente entre
los psicólogos. (2) Sus componentes son los procesos mentales, vistos
como un flujo de información que corre a través de varias etapas, (3) así
como los datos que se procesan, (4) las estructuras de memoria
utilizadas (5) y los grupos de instrucciones (o programas) que operan
sobre los datos y las estructuras. (6) En esta aproximación es común que
se construya un modelo de como debería trabajar el cerebro para operar
sobre un grupo particular de circunstancias y someter a prueba
experimental tal hipótesis. A esto se le llama modelamiento. (7) Merece
una breve mención la Ciencia Cognitiva, disciplina en desarrollo
relacionada con el procesamiento cognoscitivo. (8) Puede ser vista
como una nueva disciplina con su propio objeto de estudio, (9) como
una disciplina paraguas que provee un rango amplio de nuevas
herramientas computacionales y neurológicas 10) o bien como un eco-
cognoscitivismo que refleja la noción de que es posible estudiar los
procesos mentales independientemente de la ecología donde ocurre,.
Suponga que el grado de importancia de las ideas del texto, a las cuales
cada número se refiere, decrementa desde lo alto hasta la base.
Esto es, 1 2 significa que ambas ideas son igualmente
importantes, en tanto que 1 significa que la idea 1 es más importante
que la idea 2.
2
Con base en lo anterior, ¿cuál de los diagramas siguientes representa
Pregunta
mejor las relaciones jerárquicas entre las ideas?
u
1
1 6 7
2 3
A) B)
2 3 4 5
8 9 7 4 5 6 9
10
8 10
Opciones 1 7
11 6 7
w C) 8 9 10 D)
2 6
3 4 5 2 3 4 8 9 10
5
La pregunta deja patente que se les solicita a los alumnos la relación je-
rárquica u entre las ideas que se muestran en la base v, con el fin de
que de que seleccione la respuesta correcta w.
Recomendaciones generales. Cuando el interés es evaluar la organiza-

ción jerárquica que guardan entre sí los conceptos, principios, teorías
y/o procedimientos, es común utilizar enunciados como:
¿Cuál es el más (o el menos) inclusivo, abstracto, general, etc.[.......]?
¿Cuál es el más (menos) semejante en importancia para definir [.......]?
¿Cuál se deriva del más o del menos abstracto, general, etc. [.......]?
Elija el diagrama que refleje la estructura del [concepto, teoría, procedi-
miento]
B. Categoría Aplicar conceptos, principios y procedimientos. Es definida

como la capacidad de utilizar, en tareas profesionales iniciales y rutina-
rias, conceptos, principios, procedimientos, técnicas e instrumentación,
acordes al nivel científico en el que se les reconoce. Entre los sub tipos
que constituyen esta categoría podemos encontrar los siguientes.
a) Traducción
La operación cognitiva le demanda al examinando comprender los con-
tenidos del ítem, aún cuando éstos sean presentados en palabras dife-
rentes que signifiquen lo mismo a las usadas originalmente, o bien se
muestren mediante imágenes o símbolos que los representen.
Ejemplo 1 de traducción
Instrucciones Lea detenidamente la situación que se presenta y responda la pregunta.

Situación Se pidió a un grupo de niñas de primaria y a un grupo de estudiantes de
secundaria que calificaran el grado de acuerdo que tienen con el
u siguiente refrán: “El que con lobos anda, a aullar se enseña”.
El resultado de esta encuesta se muestra en la siguiente gráfica:
Resultados de opinión
40
35
Niñas
30
Fr primaria
25
20 Estudiantes
15
10
5
0
alto poco poco alto acuerdo
desacuerdo desacuerdo acuerdo
Valoración
Pregunta ¿Cuál de las siguientes lecturas de la gráfica es correcta?
A) Se entrevistó a un mayor número de niñas de primaria

Opciones B) En total se entrevistó a 100 sujetos
v C) La mayoría de las niñas discrepan totalmente con la opinión de la
mayoría de los estudiantes
D) Existe acuerdo entre la opinión de las niñas y los estudiantes respecto
al refrán
La situación del reactivo muestra una representación gráfica u de lo que

en las opciones de respuesta se pone en palabras v lo que deja patente
que el examinado debe traducir un contenido gráfico a palabras.
Recomendaciones generales. Comúnmente es común utilizar enuncia-

dos como:
Esta [gráfica, dibujo, esquema, tabla, diagrama, etc.] indica que [......]
Esta información está representada en [gráfica, dibujo, esquema, tabla,
diagrama, etc.]
¿En cuál de los siguientes [gráfica, dibujo, esquema, tabla, diagrama,
etc.] se encuentra representado el resultado de [......]?
Aplicación de conceptos y principios
La operación cognitiva le demanda al examinando mostrar dominio y/o

pericia aplicando conceptos y principios básicos de teorías, métodos,
técnicas y procedimientos a situaciones prácticas, tomando en conside-
ración el contexto específico que está siendo evaluado.
Ejemplo de aplicación de conceptos
Situación Lea cuidadosamente el siguiente texto y responda la pregunta

Base correspondiente.
u Se llevó a cabo un estudio para identificar si es posible modificar la
percepción de satisfacción sexual en pareja de recién casados. Se
seleccionó a dos parejas y se les aplicó un instrumento para medir
satisfacción sexual. Posteriormente, a la primera pareja se le
proporcionó información sobre sexualidad y a la segunda pareja no.
Ambas parejas fueron evaluadas nuevamente seis meses después. La
selección de los sujetos fue accidental.
De acuerdo con los datos ¿cuál sería la hipótesis?
Opciones
A) Existe diferencia significativa por género antes y después del
matrimonio
v
B) El tiempo influye en la percepción de la satisfacción sexual
C) Existe diferencia significativa en la percepción de la satisfacción
sexual entre las parejas que reciben información sobre sexualidad en
comparación de quienes no reciben
D) Existe diferencia significativa en la percepción de satisfacción sexual
antes y después del matrimonio
La base del reactivo u solicita que se determine la hipótesis a comprobar

en un caso, según la información presentada en la situación v aplicando
principios propios de la investigación.
Otro ejemplo de aplicación de conceptos
Base Un psicólogo educativo obtuvo los siguientes datos de un grupo de 33

niños de primer grado de primaria de una escuela:
Género: masculino= M; femenino= F
¿Les gusta la escuela? Sí/No
Nivel Socioeconómico: alto=3, medio=2, bajo=1
v
Calificación en Matemáticas. (de 0 a 10)
¿En cuál de las variables siguientes es adecuado utilizar la media? u
Opciones A) Género
B) Calificación en matemáticas
C) Nivel socioeconómico
D) Gusto hacia la escuela
La base del reactivo u solicita determinar en cuáles de los datos colecta-

dos v se puede aplicar una prueba estadística con ciertos principios bá-
sicos que cumplir como el nivel de medición de las variables.
b) Inferencia (Aplicación de conceptos)
Una inferencia es una conclusión a partir de hechos observados o su-

puestos. El reactivo presenta información y una lista de enunciados que
pueden ser o no inferencias válidas. Se pregunta si la inferencia es ver-
dadera, falsa o si existen datos suficientes para determinar su veraci-
dad.
Ejemplo de inferencia (aplicación de conceptos)
Instrucciones Lea con atención la situación que se describe, donde para efectos de este
reactivo se considera verdadera la información dada. Posteriormente
responda con base en el texto a la pregunta que se le plantea
Base “Las pruebas psicológicas sin lenguaje, basadas en elementos visuo

espaciales, pueden tener una mayor carga cultural que las pruebas con
u lenguaje. En algunas culturas no se acostumbra el dibujo representativo
y la percepción de éste puede ser inadecuada.”
A partir del texto ¿Cuál de las siguientes inferencias es verdadera?
A) En algunas culturas no se deben aplicar pruebas psicológicas

construidas con elementos visuo espaciales
Opciones B) Si una prueba no contiene elementos visuo espaciales entonces puede

ser utilizado en diversas culturas
v C) En algunas culturas las pruebas basadas en elementos visuo espaciales
son percibidas de manera inadecuada
D) La prueba Raven es inadecuada para los grupos culturales indígenas
de México
c) Presuposiciones
Una presuposición es algo asumido o tomado como un hecho cuando se

hace una afirmación. A partir de la afirmación se puede encontrar qué
elementos están implícitos y se han asumido como hechos verdaderos.
Ejemplo de aplicación de presuposiciones
Instrucciones Lea la afirmación que se enuncia y posteriormente responda la pregunta

que se plantea.
Afirmación RECOMENDACIÓN DE UN PSICÓLOGO HACIA EL PACIENTE: “Es necesario

que el niño sea valorado por el neurólogo para determinar si existe daño
u y si se necesita medicación”
Pregunta v ¿Qué idea asume el psicólogo como un hecho?
A) El niño tiene un daño neurológico

Opciones
B) El psiquiatra no debe ser consultado para este caso
w C) El niño requiere medicación neurológica
D) El neurólogo puede determinar si existe daño neurológico
El reactivo muestra una afirmación u, y con base en ella se solicita en la

pregunta v que se seleccione una presuposición contenida en las opcio-
nes de respuesta w.
Recomendaciones generales. Cuando el interés es evaluar la aplicación

de conceptos y principios, es común utilizar enunciados como:
¿Qué pasa si [.......]? ¿Cuál de los siguientes enunciados es
verdadero de acuerdo a la información
¿Cuál es el [concepto, principio, teoría, etc.] [.......]?
que subyace a [efecto, error, intervención,
diagnóstico, etc.]? ¿Cuál de los siguientes enunciados
corresponde a presuposiciones
¿Cuál es la consecuencia de [.......]? realizadas en [.......]?
¿Cuál es la causa de [.......]?
¿Cuál de los siguientes [concepto, principios,

etc.] se aplica mejor a [.......]?
d) Aplicación de procedimientos
La operación cognitiva le demanda al examinando aplicar, de manera
adecuada, los pasos requeridos en un procedimiento, algoritmo, técnica
o instrumentación.
Ejemplo de aplicación de procedimientos
Base Según el modelo clásico de Kurt Lewin de investigación – acción, seleccione

el orden a seguir para un adecuado manejo del proceso de Cambio
u Organizacional.
Pasos del proceso de Cambio Organizacional:
I. Recongelamiento
II. Incremento de Fuerzas impulsoras y decremento de fuerzas limitantes
III. Análisis del Status Quo Inicial
IV. Descongelamiento
V. Movimiento
A) I, II, III, IV
B) V, III, II, IV
Opciones
C) II, IV, V, I
D) II, V, IV, I
Recomendaciones generales. Cuando el interés es evaluar la aplicación

de procedimientos, es común utilizar:
¿Cuál de los siguientes procedimientos es ¿Cuál es el procedimiento más semejante o

mejor para el problema de [.......]? menos semejante para [.......]?
¿Cuál es el mejor camino para [.......]? ¿Cuál es la diferencia en efectividad de
¿Cómo se auxilia un [.......]? aplicar [procedimiento 1, procedimiento
2, etc.) para [.......]?
¿Cuál es el procedimiento más efectivo o
menos efectivo para [.......]?
C. Categoría resolver problemas
Es la capacidad de evaluar e integrar conceptos, principios, métodos,

técnicas, procedimientos, estructuras de tareas y/o planes de acción en
función de los principios de adecuación y/o valores profesionales reque-
ridos para resolver situaciones problemáticas, así como para identificar
y corregir errores importantes en soluciones preestablecidas. Esta cate-
goría está compuesta por dos subtipos, mismos que serán definidos y
ejemplificados a continuación.
a) Planificación de acciones
La operación cognitiva le demanda al examinando analizar, sintetizar y

evaluar hechos, conceptos, principios, fundamentos teóricos, procedi-
mientos y valores profesionales para planear funciones específicas a la
disciplina profesional, entre otras, observación, diagnóstico, interven-
ción, evaluación, investigación y comunicación, acordes a demandas
contextuales y de integración de datos para la resolución de problemas
específicos, asegurando la calidad de las técnicas utilizadas, así como la
predicción de efectos derivados.
Ejemplo de planificación de acciones
Instrucciones Lea el caso que se presenta a continuación y responda las preguntas que
se presentan con relación a él.
Situación Es referido al psicólogo un escolar de 8 años, por indicaciones de su

maestra de 2° año de primaria por presentar “trastornos de conducta” y
“bajo rendimiento escolar en lectura y matemáticas”. El niño tiene
antecedentes de parto prematuro y es hijo único en una familia
disfuncional.
Base 1 ¿Que procedimiento sería el más adecuado para identificar la

problemática?
u
A) Entrevista
Opciones B) Aplicación de pruebas psicológicas
v C) Observación directa
D) Sugerencia de tratamiento
Base 2 Con relación al caso anterior ¿qué secuencia de procedimientos sería la más
adecuada?
u 1. Entrevista
2. Aplicación de pruebas psicológicas
3. Sugerencia de tratamiento
4. Diagnóstico
A) 1, 2, 4, 3
Opciones B) 2, 1, 4, 3
C) 4, 1, 2, 3
v
D) 1, 4, 2, 3
Base 3 De acuerdo a los datos del caso, seleccione las pruebas más adecuadas para
su evaluación.
u
A) MMPI, CAT, Kuder
Opciones B) WISC-RM, Bender, Dibujo figura humana
C) WAIS, DFH, Raven
v
D) Raven, MMPI, Bender
Base 4 En la aplicación de pruebas se obtuvo el resultado de 5 indicadores de

posible lesión orgánica y un C.I. de 95 que corresponde al límite normal y en
u el dibujo se manifiesta agresión, bajo control de impulsos y tendencias al
“acting out”.
¿Con qué especialista se requiere una interconsulta?
A) Paidopsiquiatra
Opciones B) Psiquiatra
v C) Neurólogo
D) Médico General
En la base de los reactivos u se le solicita al examinado que analice y va-

lore la información para poder tomar decisiones sobre el procedimiento
a seguir que se encuentra en las opciones de respuesta v.
Recomendaciones generales. Cuando el interés es evaluar planificación

de acciones para resolver situaciones y problemas específicos, es común
utilizar expresiones relacionadas entre sí.
¿Cuál es la más común [causa, síntoma] de (anticipar consecuencias, o relaciones

[problema del paciente, alumno, usuario]? causa-efecto de acuerdo a principios
generales)
A un paciente se le diagnostica [problema].
¿Cuál es el tratamiento que resulta más [Descripción de una situación o problema
efectivo? en un contexto específico]
¿Cómo debe ser tratado el paciente? ¿Cuál es el método, técnica, más adecuado
para [ ]?
¿Cuál es la fundamentación teórica de [ ]?
b) Corrección de errores
La operación cognitiva le demanda al examinando aplicar conceptos,
principios, teorías, métodos, técnicas y procedimientos para identificar y
corregir errores importantes ante casos y problemas, así como para la
argumentación teórica del curso de acción remedial.
Ejemplo de identificación y corrección de errores
Situación A un psicólogo educativo, se le solicita que elabore una propuesta para la

enseñanza de fracciones comunes en cuarto año de primaria, de acuerdo con la
v teoría de Jean Piaget.
Instrucciones Lea con detenimiento la siguiente propuesta de enseñanza que elaboró el

psicólogo, el ejemplo de resolución de multiplicación de fracciones que realizó un
niño y la argumentación que el psicólogo le ofreció al profesor sobre la inquietud
del niño. Posteriormente, responda las preguntas que se formulan.
PROPUESTA DE ENSEÑANZA v
La propuesta de enseñanza considera tres niveles: el concreto, el representativo y el abstracto.
1. Nivel concreto. Utilizando círculos de cartón cortados en fracciones para representar fracciones
2. Nivel representativo
A) dibujar las fracciones en papel
B) planear suficiente práctica con incremento del denominador 11/25; 34/48; etcétera.
3. Nivel abstracto
Se muestra el procedimiento completo de resolución para que el alumno lo memorice y
aplique al resolver
RECOMENDACIONES QUE EL PSICÓLOGO DIÓ PARA APLICAR LA PROPUESTA.

Piaget mostró la importancia del error constructivo en el aprendizaje por ello es necesario
permitirle al alumno resolver varias veces las operaciones, aunque cometa errores. Por ejemplo, si
el alumno multiplica las fracciones en cruz, tal como se debe hacer en la división, hay que decirle
que cometió un error y dejarlo continuar. Cuando logra la respuesta correcta, se le debe premiar
para que continúe realizando la misma conducta, hasta que ésta se consolide. La premiación es
importante porque Piaget indica que la afectividad es el motor del pensamiento.
Un alumno decide dibujar las operaciones para que su trabajo se vea bonito, tal como se veían los
materiales que el profesor usó con él. Al llegar a la primera multiplicación: ½ por ½ igual a ¼
(ver el dibujo), el niño dice: Profe: esta multiplicación está mal. Da más chico y hemos visto que
la multiplicación es como una suma abreviada y aquí da menos.
EJEMPLO DE EJECUCIÓN DE UN ALUMNO
X =
½ ½ = ¼
El profesor no supo que hacer y pensó que tal vez el niño tenía razón, aunque confirmó que el
procedimiento era el correcto.
ARGUMENTACIÓN DEL PSICÓLOGO AL PROFESOR

El profesor fue con el psicólogo y éste le sugirió explicar al niño que para la multiplicación el
dibujo no debe usarse porque es de un nivel más abstracto. Por lo que no hubo razón para que se
preocupe el niño ni el profesor.
Base 1 PREGUNTAS: Después de haber leído atentamente la propuesta del psicólogo, el

ejemplo del niño y la argumentación del psicólogo al profesor, responda las preguntas
u siguientes:
¿En qué puntos la propuesta del psicólogo es coherente con la teoría de Piaget?
A) En su concepto de error constructivo y la forma de enseñanza de las operaciones

Opciones
B) En partir de actividades concretas y utilizar varios niveles sucesivos
C) En utilizar materiales concretos en la primera etapa y no en la enseñanza de las
operaciones
D) En el manejo de la ejercitación repetida y al evitar el dibujo de las operaciones
Base 2 Los conceptos de error constructivo y de afectividad son manejados por el psicólogo:
A) de acuerdo con la teoría de Piaget

Opciones B) con un sesgo conductual, que no corresponde a la teoría de Piaget
C) con un nivel de complejidad inadecuado
D) con un sesgo psicoanalítico, que no corresponde a la teoría de Piaget
Base 3 ¿Cuál es la principal falla de la secuencia propuesta?
A) No se ejercitó suficientemente el dibujo de fracciones complejas, como 45/56 y

ello impide la comprensión de las operaciones
B) No se ejercitó ni se reforzó suficientemente la secuencia para resolver
operaciones y por ello el alumno las ha olvidado
Opciones
C) En la evaluación no debería permitirse utilizar dibujos, porque esa fue una etapa
previa de la enseñanza y debemos tratar de llegar a lo abstracto y no anclarse en lo
concreto
D) El nivel concreto y el representativo de las fracciones no es utilizado para la
enseñanza de las operaciones con fracciones. Fueron enseñadas como
procedimientos mecánicos
Base 4 La recomendación del psicólogo hacia el profesor es:
A) acertada y correcta en cuanto a información

Opciones
B) correcta en cuanto a información pero poco práctica
C) incorrecta, pero responsable
D) incorrecta y poco responsable
Las bases de los reactivos u pretenden que los examinados identifiquen

el error planteado en la situación propuesta de enseñanza v, con el fin
de determinar la forma de aplicación correcta de los principios de la teo-
ría de Piaget en la solución de un problema.
Recomendaciones generales. Cuando el interés es evaluar la identifica-

ción y corrección de error, le recomendamos utilizar, entre otras expre-
siones, las siguientes:
¿Cuál es el riesgo de [.......] para [.......]? ¿Cuál es el método, técnica, más adecuado
¿Una decisión nociva para [paciente, para mejorar/resolver [.......]?
institución, comunidad, etc.) es [.......]? ¿Es coherente [aplicación técnica] con
¿De qué manera [.......] se puede corregir [teoría que se selecciona como marco
[.......]? referencial]?
[Descripción de un error importante en una Una implicación práctica de […teoría,
situación o problema específico] principio, concepto…] es...
Otra manera de clasificar a los ítems tiene que ver con la cualidad de la
información que manejen en cuanto a los campos de conocimiento que
utilicen (Vg., teórico o técnico), como también en cuanto al patrón en el
que presenten la pregunta y soliciten la respuesta (regla – ejemplo o vi-
ceversa, por ejemplo). A continuación de describen ambas fuentes de
contenido y se ilustra con un ejemplar.
5. Fuente de contenido: Campo de conocimiento

Comprende la cualidad sólo teórica, sólo técnica o combinada (conteni-
dos teóricos y técnicos mezclados), con la que se presenta la informa-
ción que evalúa el reactivo. Los siguientes son ejemplos de cada uno de
los campos de conocimiento.
A. Teórico
Los reactivos tienen el énfasis en el conocimiento declarativo, que puede
ser de tipo factual (fechas, lugares, nombres propios, fórmulas) o con-
ceptual (conceptos, principios y explicaciones). Los componentes del
reactivo serán los mismos independientemente de la modalidad o for-
mato, la base del reactivo y las opciones de respuesta.
Ejemplo de campo teórico
Las iniciativas de reforma que la Secretaría de Hacienda y Crédito Público y

Base
el Servicio de Administración Tributaría envíen al Congreso en el año de
u 2003 deberán mencionar en la exposición de motivos, en qué artículo o
artículos se llevará a cabo la reforma y el impacto ______________ de cada
una de las medidas que se pretendan adoptar
Opciones A) ambiental
v B) estratégico
C) recaudatorio
D) político
B. Técnico
Un reactivo de este campo hace énfasis en conocimientos procedimen-
tales (ejecución de procedimientos, estrategias, métodos y destrezas).
A continuación se presenta un reactivo que solicita la secuencia del pro-
cedimiento u de toma de decisiones, cuya respuesta w se encuentra en
las opciones v.
Base
¿En qué fases se pueden dividir los procesos o fenómenos de toma de
u decisiones?
A) Contextualizar, evaluar y concretar las alternativas
Opciones B) Analizar, interpretar y valorar las alternativas
v
C) Planificar, evaluar y seleccionar las alternativas w
D) Seleccionar, secuenciar y evaluar las alternativas
Otro ejemplo de información técnica
Base ¿Qué diseño además de permitir la verificación de los efectos del

tratamiento mediante una segunda aplicación de la línea base, tiene como
u ventaja que la última experiencia del sujeto sea la fase de tratamiento?
A) A – B
Opciones
v B) A – B –A
C) A – B – C
D) A – B – A – Bw
C. Combinado
Se presenta un caso o situación problemática u, la solución al reactivo

se da en las opciones v y requiere combinar conocimiento factual o con-
ceptual y procedimental, según lo evaluado para ser respondido. En el
ejemplo que a continuación se presenta, se pide al examinando que se-
leccione una respuesta ante un caso determinado, que demanda la
elección de un método y la comprensión de principios para poder res-
ponderlo.
Un negocio tiene una inversión en cuentas por cobrar de $ 40,000, que le

Problema permite un beneficio marginal de $ 8, 000. La tasa de interés en préstamos
de corto plazo es de 12%. En consecuencia:
u
A) no resulta conveniente vender a crédito
B) el beneficio marginal no cubre los costos

Opciones
C) las ventas a crédito se financian con prestado
v
D) se vende a crédito, aún si se suponen pérdidas
Otro ejemplo de información combinada
Problema Uno de sus estudiantes reacciona agresivamente ante las preguntas de su

u profesor.
Base ¿Qué proceso motivó la conducta del alumno?
1. de la transferencia w
2. de contra transferencia
Opciones
3. disociativo del alumno
v
4. de la inferencia
6. Fuente Contexto del reactivo
Se refiere al tipo y ubicación de declaraciones (reglas y ejemplos) y rela-

ciones semánticas (descripción, causación, contrastación) a ser proce-
sadas durante la tarea.
A. Sub tipo Ejemplo – Regla (“E – R”).
La base del reactivo contiene uno o varios ejemplosu, y la regla se pre-

senta en las opciones de respuestav. El respondiente debe elegir la op-
ción correcta.
Base
La etapa que da inicio al periodo de liquidación, aparte de que la
u empresa aún no concluya las operaciones de finiquito, se denomina:
Opciones A) Disolución
B) Quiebra
v C) Suspensión
D) Terminación
Otro ejemplo
Base Sirven para seleccionar las metodologías y los recursos didácticos:

u
A) Contenidos
Opciones B) Objetivos
v C) Exámenes
D) Contextos
Un ejemplo más
Base
En un diseño de investigación con grupo experimental y control, se pretende
u que en el primero:
A) la manipulación de la VD haga fluctuar los puntajes en forma sistemática

B) el control de las variables extrañas haga fluctuar los puntajes en forma
Opciones
sistemática
v
C) la manipulación de la VI haga fluctuar los puntajes en forma sistemática
D) las VI y VD queden constantes para que no fluctúen los puntajes
B. Sub tipo Regla – Ejemplo (“R – E”)

En la base del reactivo se presenta la regla u y en las opciones de res-
puesta el ejemplo v, el respondiente tiene que elegir el ejemplo correcto
w.
Base Criterio a tomar en cuenta para secuenciar contenidos:

u
A) recurrencia cíclica y programación jerarquizada w
Opciones B) contextualización y valoración de los objetivos
v C) concreción y adecuación de los contenidos
D) adecuación de las encomiendas del entorno
Un ejemplo
La interferencia por intervención múltiple es uno de los factores que atentan

Base contra la validez interna y se presenta cuando:
u
A) la segunda o cualquier intervención subsecuente, puede producir efectos
que son únicos para las variables expuestas a intervenciones previas
Opciones B) las mediciones repetidas de un solo grupo o sujeto muestran gran
v variabilidad y se atribuyen a la intervención
C) se lleva a cabo una intervención precisamente en el momento en que los
datos de la línea base son extremos
D) los experimentos son largos y se dan cambios físicos y psicológicos en los
sujetos
C. Sub tipo “Caso Ejemplo - Regla “(C E – R”)

La base del reactivo ofrece uno o varios datos de un caso, problema o
error u, una de las opciones presenta la solución (regla, diagnóstico,
prescripción, corrección o acción remedial) que resuelve el caso o pro-
blema planteado v.
La economía estadounidense se encuentra en recesión y se han reducido las

tasas de interés. Así,
Así, en
en Mé
México
xico, también se redujo el rendimiento de los
Base
Cetes a 28 días, de 9.70% en marzo 13 de 2003 paso a 5.35% el 22 de mayo
u siguiente. La tasa de inflación también tiende a la baja; y los precios del
petróleo aumentaron a partir de la guerra en Irak.
En razón, de lo anterior, el precio de las acciones de las empresas debe bajar
pues no se espera que la economía se recupere en el corto plazo y por ende
sus utilidades continuarán bajando. Por lo tanto:
A) el precio de las acciones de empresas debe mantenerse pues la baja en

la utilidad es insignificante
B) el precio de las acciones subirá, la recesión permanece, la baja de
Opciones interés de la tasa recuperará en mediano plazo la economía a pesar de
v haber bajado la utilidad de la empresa.
C) es indiferente el comportamiento de los precios de las acciones al
comportamiento de la economía
D) la captura pendiente de los líderes irakíes dificulta pronosticar con
certeza el comportamiento
Otro ejemplo
El Dr. Uribe llevó a cabo un estudio para controlar el peso de adolescentes

Base obesos, para lo cual instrumentó dos procedimientos terapéuticos, uno de
u ellos consistía en el auto registro de la ingesta de alimentos y el otro en una
contingencia de autocontrol.
Sin embargo, cuando trató de interpretar los resultados, se encontró con que
no podía determinar la efectividad de cada uno de los tratamientos, ya que
no había controlado los efectos de orden, ni los efectos secuenciales de
posición. ¿Con qué método pudo haber controlado dichos efectos?
A) Balanceo
Opciones B) Contrabalanceo
v C) Variación sistemática
D) Mantenimiento constante
D. Sub tipo Caso Regla – Ejemplo (“C R – E”)

La base del reactivo presenta una solución (regla, diagnóstico, prescrip-
ción, corrección o acción remedial)u, las opciones de respuesta son las
características del problema(s), caso o error a corregirv, de las que una
es correcta.
Base Se sabe que 12% de las tiendas Roto, S. A. de cierta región del estado
u ofrecen cupones a sus clientes. Con una muestra de 100, encuentre la
probabilidad de las que otorguen cupones estén entre 16 y 18%
Opciones A) 0.0771
v B) 0.0780
C) 0.07982
D) 0.08023
Recomendaciones generales para elaborar ítems

Toda vez que se han caracterizado diversas dimensiones que componen
los ítems, es importante que el elaborador tome en cuenta recomenda-
ciones generales de especialistas en el campo. En este contexto, Ha-
ladyna (2004) recomienda satisfacer los siguientes estándares:
A. Los tipos de ítems, los formatos de respuesta, los procedimientos de

calificación y de administración de la prueba deberán seleccionarse
con base en los propósitos del examen, el dominio a ser medido y los
sujetos meta. De esta manera, el elaborador de ítems deberá hacer
conciencia de que no podrá utilizar reactivos elaborados para otros
propósitos porque no hay exámenes estándares para todos los pro-
pósitos, ni para todos los dominios, como tampoco para todos los
examinados, cada ítem tiene una correspondencia específica con el
propósito del examen, el contenido específico y los examinandos.
B. Los contenidos del examen deberán asegurar que las inferencias in-
tentadas a partir de los puntajes del examen sean igualmente válidas
para examinados de diferentes grupos. De esta manera, el elabora-
dor de ítems deberá hacer conciencia de que ciertas fuentes de conte-
nido pueden generar errores de medición que afecten los puntajes de
ciertos grupos de examinandos y de otros no. Es necesario que el es-
pecialista identifique qué fuentes de contenido del ítem podrían au-
mentar la dificultad o facilidad en el ítem, en vías de identificar
elementos que, potencialmente, podrían generar varianza irrelevante
de constructo, como podrían ser la complejidad lingüística en el que
él ítem sea elaborado.
C. Cuando existan datos de investigación confiables acerca de sesgos

debidos a género, edad, diferencias culturales, éticas, lingüísticas,
capacidades diferentes, etc., el docente deberá realizar, en la medida
de lo posible, las actividades que detecten y eliminen los aspectos
que generan los sesgos en los puntajes a favor de grupos particula-
res.
D. El docente eliminará lenguaje, símbolos, palabras, frases y contenido

que sea ofensivo racial, étnica, cultural y de género para los exami-
nandos.
E. La revisión del examen deberá incluir análisis empíricos y, cuando sea

apropiado, el juicio de expertos para revisar los ítems y sus formatos
de respuesta. La experticia de los jueces deberá ser documentada.
F. Recomienda generar un banco de ítems mediante:

a) Un inventario de los ítems existentes,
b) Identificar el número de ítems necesitado para cada tarea a ser
evaluada.
c) Utilizar una guía de elaboración de ítems.
d) Elaborar los ítems.
e) Realizar pruebas de campo de los ítems (seleccionados o recién
generados).
f) Evaluar la ejecución en los ítems.
g) Conformar el banco de reactivos requerido con los ítems sobrevi-
vientes.
G. Nitko (1996) recomienda:
a) Enfocar cada ítem a un resultado de aprendizaje importante.
b) Diseñar cada ítem de tal manera que elicite el conocimiento y la
ejecución necesarios para demostrar el resultado de aprendizaje
específico.
c) Diseñar cada ítem de tal manera que evite inhibir la habilidad del
estudiante para demostrar el logro en el resultado de aprendizaje
específico.
Porciones específicas de la Guía
A continuación, se presentan tres porciones específicas de esta Guía, la

primera referida a reactivos elaborados con temas de Contaduría, la se-
gunda con reactivos de temas de Pedagogía y la última, con ítems elabo-
rados a partir de temas de Psicología. En todos los casos, los ejemplos
ilustran aspectos de redacción.
La redacción es la forma en la que se expresan las demandas de las di-

mensiones textuales del reactivo contenidas en a) las instrucciones, b)
la base del reactivo y c) las opciones de respuesta.
Es bastante común encontrar errores de redacción en alguno o en todos

los elementos que componen el reactivo, razón por la que en cada
muestra de reactivos se presentan algunos de los más comunes y, des-
de luego, sugerencias para superarlos.
Capítulo 12 ?
Guía específica de Contaduría
Consultores en Educación
Los errores más comunes de redacción se describen y ejemplifican a

continuación.
A. Formulación de reactivos ambiguos. Si se presenta más de un proble-

ma no será posible identificar cuál causó el error; se debe formular el
problema dentro de la base del reactivo de manera escueta, clara e
individual. El siguiente es un ejemplo de un reactivo que carece de
información suficiente para ser respondido:
Ejemplo de un reactivo mal elaborado
La naturaleza de la cuenta mercancías en comisión es

Base
de ____________.
A) orden
B) activo
Opciones
C) ingresos
D) pasivo
Ejemplo de un reactivo bien elaborado
Al elaborar el catálogo de cuentas de una empresa, el

Base contador debe considerar que la cuenta de mercancías
en comisión, es de naturaleza de:
A) orden
B) activo
Opciones
C) ingresos
D) pasivo
B. Redactar en forma redundante. En ocasiones, el elaborador de una

prueba presenta información innecesaria que puede confundir al
examinando. La base del reactivo debe redactarse de manera simple,
con un lenguaje claro y evitando declaraciones innecesarias. Un es-
crito complejo puede causar que un buen estudiante responda inco-
rrectamente, observe el siguiente ejemplo:
Al proceso de registro de información que culmina con

la elaboración de los estados financieros relacionados
Base con la entidad, y que será utilizada por personas tanto
internas como externas interesadas en la organización
se denomina contabilidad:
A) financiera
B) de costos
Opciones
C) administrativa
D) de sociedades
Base Al proceso de registro que conlleva la elaboración del

balance y el estado de resultados se le designa conta-
bilidad:
A) financiera (Respuesta correcta)

B) de costos
Opciones
C) administrativa
D) de sociedades
GUÍA ESPECÍFICA DE CONTADURÍA 315
C. Usar términos negativos
Cuando sea posible, la base del reactivo debe redactarse de forma po-
sitiva, Conocer lo verdadero generalmente es más importan te que co-
nocer lo no verdadero. Las frases negativas en reactivos se utilizan
con frecuencia porque es fácil crearlas. Los estados positivos de los
reactivos requieren que el autor elabore tres distractores para cuatro
alternativas de preguntas; pero en el estado negativo el reactivo re-
quiere sólo de una alternativa plausible como respuesta. Observe el
siguiente reactivo.
¿Cuál de las opciones no contiene elementos que alte-

Base
ren el registro de un ingreso sin entrada?
A) Venta de mercancía a crédito

B) Préstamo bancario
Opciones
C) Venta de mercancía al contado
D) Pago efectuado por el cliente
Si no es posible evitar el uso de negativos, éstos deben restringirse a la

base y se deben resaltar con el uso de itálicas o negritas.
Base Es un ejemplo del registro de un ingreso sin entrada:
A) venta de mercancía a crédito (Respuesta correcta)

B) préstamo bancario
Opciones
C) venta de mercancía al contado
D) pago efectuado por el cliente
D. Emplear tér mi nos que den pis tas de la res pues ta co rrec ta. El au -
tor debe te ner la cer te za de que la res pues ta de sea da es co rrec -
ta o cla ra men te la me jor. To das las op cio nes de ben ser
gra ma ti cal men te con sis ten tes con la base y con el for ma to. Las
vio la cio nes a esta regla pue den pro veer pis tas que ayu dan a los
es tu dian tes a des car tar los dis trac to res. Obser ve el si guien te
reac ti vo.
Para capturar, comprobar, justificar y controlar tran-

Base sacciones financieras de la entidad, se usa documenta-
ción:
A) auténtica
B) financiera
Opciones
C) comprobatoria
D) contabilizador
El documento que permite capturar, comprobar, justi-

Base ficar y controlar transacciones financieras de la entidad
se denomina:
A) fuente
B) financiero
Opciones
C) comprobatorio
D) contabilizador (Respuesta correcta)
E. Pistas verbales que pueden eliminar distractores.
Las siguientes son recomendaciones para redactar un reactivo sin dar

pistas al examinando que le permitan eliminar distractores.
a) Evitar el uso de palabras similares en la base y en la respuesta correc-

ta, ya que pueden hacer que la opción correcta sea más atractiva.
b) Redactar las cuatro opciones con la misma extensión.
c) Cuidar que los distractores no contengan palabras como “todo”,

“sólo” o “nunca” porque en muchas ocasiones son falsas.
d) Evitar pares de respuestas que incluyan todo, porque permiten que

los examinandos eliminen otras alternativas porque la inclusión de
pares cubre todas las posibilidades.
e) Evitar respuestas que signifiquen lo mismo, Dado que los examinan-
dos pueden eliminar algunas alternativas que contienen los mismos
conceptos.
f) Si las opciones consisten en pares de respuestas, se debe evitar la re-

petición de términos.
F. Crear distractores no plausibles. Los buenos reactivos de opción múl-

tiple dependen de los distractores para su efectividad, por lo que és-
tos deben ser aceptables en relación con la base del reactivo y la
respuesta correcta. Observe el ejemplo siguiente:
Ejemplo de un reactivo mal elaborado.
El instructivo que señala el procedimiento para regis-

Base
trar – desde su origen – una operación se denomina:
A) catálogo de cuentas.
B) cheque al portador.
Opciones
C) guía de programas.
D) mapa conceptual.
Ejemplo de un reactivo bien elaborado.
El instructivo que señala el procedimiento para regis-

Base
trar – desde su origen – una operación se denomina:
A) catálogo de cuentas. (Respuesta Correcta)

B) diagrama de flujo.
Opciones
C) guía de procesamiento.
D) manual de operación.
G. Uso de expresiones confusas (“todas las anteriores”, “ninguna de las

anteriores).
Los exa minan dos pue den re co no cer una res pues ta co rrec ta al eli-
mi nar, por ob ser va ción, las op cio nes in co rrec tas sin te ner que ana -
li zar a con cien cia to das las op cio nes pre sen ta das. Estas op cio nes se
ge ne ran, con fre cuen cia, cuan do el ela bora dor tie ne di fi cul ta des
para crear otros distrac to res plau si bles y gene ra otro que in te gra o
elimi na a to dos los pre sen ta dos pre via men te. Obser ve el si guien te
ejem plo:
Base El fondo fijo de caja es una cantidad de dinero para:
A) transacciones de poca monta

B) compra de equipo
Opciones
C) compras de mercancías
D) todas las anteriores
Base El fondo fijo de caja es una cantidad de dinero para:
A) transacciones de poca monta (Respuesta correcta)

B) compra de equipo
Opciones
C) compras de mercancías
D) pagos de luz, agua y predial
H. Usar inadecuadamente las reglas gramaticales y la puntuación.
l Cuando la base del reactivo se encuentra en forma de pregunta, las

opciones comienzan con mayúsculas;
l La base de un reactivo de complementación presenta al inicio las

opciones con minúsculas.
l En algunos casos los puntos no son utilizados con opciones numéri-

cas, para evitar confusiones con los puntos decimales.
Reactivo con base de pregunta
Base ¿En qué término prescribe el crédito fiscal?
A. Diez años.
B. Tres años.
Opciones
C. Cinco años.
D. Siete años.
Base ¿En qué término prescribe el crédito fiscal?
A. Diez años.
B. Tres años.
Opciones
C. Cinco años. (Respuesta Correcta)
D. Siete años.
La dependencia que regula los conceptos que integran

Base los estados financieros presupuestales es la Secretaría
de:
A) Gobernación
B) Hacienda y Crédito Público
Opciones
C) Economía
D) La Función Pública
La dependencia que regula los conceptos que integran

Base los estados financieros presupuestales es la Secretaría
de:
A) Gobernación
B) Hacienda y Crédito Público (Respuesta correcta)
Opciones
C) La Función Pública
D) Economía
Capítulo 13 ?
Guía específica de Pedagogía
Rosa Elsa González y Raquel García
Errores comunes de redacción

A. Formulación de reactivos ambiguos. Si se presenta más de un pro-
blema no será posible identificar cuál causó el error; se debe formu-
lar el problema dentro de la base del reactivo de manera escueta,
clara e individual. El siguiente es un ejemplo de un reactivo que care-
ce de información suficiente para ser respondido:
Según la teoría psicogenetica de Piaget, el ser hu -

ma no de sa rrolla di fe ren tes eta pas cog ni ti vas de
Base acuerdo con su desarrollo mental. ¿A cuál de las si-
guientes opciones pertenece la etapa cognitiva co-
rres pon dien te?
A) Aplica principios lógicos a situaciones reales. (res-

puesta correcta)
B) Se basa en los sentidos para conocer la realidad in-
Opciones mediata.
C) El pensamiento es hipotético deductivo.
D) Se ad quie re la no ción de per ma nen cia de ob je to.
Según Piaget, la etapa cognitiva de “operaciones con-

Base
cretas” se caracteriza porque:
A) aplica principios lógicos a situaciones reales.

B) se basa en los sentidos para conocer la realidad in-
Opciones mediata. (Respuesta correcta)
C) el pensamiento es hipotético deductivo.
D) se adquiere la noción de permanencia de objeto.
B. Redacción redundante. En ocasiones, el elaborador de una prueba pre-

senta información innecesaria que puede confundir al examinando. La
base del reactivo debe redactarse de manera simple, con lenguaje claro
y evitando declaraciones innecesarias. Un escrito complejo puede cau-
sar que un buen estudiante responda incorrectamente, observe el si-
guiente ejemplo:
¿En que componente didáctico se trabajan fundamen-

talmente el método explicativo-ilustrativo, el método
Base de la elaboración conjunta y el método de trabajo inde-
pendiente en las disímiles variantes en las que puede
aparecer planteado?
A) Situación de aprendizaje.
B) El orden de actividades.
Opciones C) Los recursos didácticos.
D) Método de enseñanza.
¿En que componente didáctico se trabajan los métodos

Base explicativo-ilustrativo, la elaboración conjunta y el tra-
bajo?
A) Situación de aprendizaje.
B) El orden de actividades.
Opciones
C) Los recursos didácticos.
D) Método de enseñanza (Respuesta correcta)
GUÍA ESPECÍFICA DE PEDAGOGÍA 323
C. Uso de negativos. Cuando sea posible, mantenga la base del reactivo de

forma positiva. Las frases negativas en reactivos son escritas con fre-
cuencia porque es fácil crearlas. Los estados positivos de los reactivos re-
quieren que el autor elabore tres distractores para cuatro alternativas de
preguntas, pero en el estado negativo el reactivo requiere solo de una al-
ternativa plausible como respuesta; observe el siguiente reactivo:
Cuando no se partía de la concepción de una única in-

Base
teligencia, inmutable el currículo para escolares:
A) comprendía de aprendizajes simples a otros más

complejos.
B) consistía de una serie de objetivos fundamentales a
alcanzar. (respuesta correcta)
Opciones
C) radicaba en la introducción de la creatividad y la in-
novación.
D) la formación de nuevas realidades a partir de la
afectividad.
Ejemplo de un reactivo bien elaborado:
Cuando se partía de la concepción de una única inteli-

Base
gencia inmutable, el currículo para escolares:
A) incluía desde aprendizajes simples hasta otros más

complejos.
B) presentaba una serie de objetivos a alcanzar. (res-
Opciones puesta correcta)
C) introducía la creatividad y la innovación.
D) fomentaba la formación de nuevas realidades a
partir de la afectividad.

base y se deben resaltar con el uso de itálicas y/o negritas:
Cuando NO se partía de la concepción de una única inteli-

Base
gencia inmutable el currículo para escolares:
A) comprendía de aprendizajes simples a otros más

complejos.
B) consistía de una serie de objetivos fundamentales a
alcanzar. (respuesta correcta)
Opciones
C) radicaba en la introducción de la creatividad y la inno-
vación.
D) la formación de nuevas realidades a partir de la afec-
tividad.
D. Solidez de formato y redacción. Tener la certeza de que la respuesta

deseada es correcta o claramente la mejor. Las alternativas deben
mostrar ser gramaticalmente consistentes con la base al igual que
con el formato. Las violaciones a esta regla pueden proveer pistas
que ayudan a los estudiantes a descartar los distractores. Observe
el siguiente reactivo:
Los educadores considerados por Jesús Palacios como

Base
parte de la tradición renovadora son:
A) Rousseau y. Wallon.
B) Ferriére y Comenio.
Opciones
C) Freinet y. Herbart.
D) Bacon.
Según Jesús Palacios los siguientes educadores perte-

Base
necen a la tradición renovadora:
A) Rousseau y. Wallon. (Respuesta correcta).

B) Ferriére y Comenio.
Opciones
C) Freinet y. Herbart.
D) Rousseau y Bacon.
Las siguientes son recomendaciones para redactar un reactivo de mane-

ra de no dar pistas al examinando:
q Evitar el uso de palabras similares en la base y en la respuesta co-

rrecta. Las palabras similares pueden hacer que la respuesta co-
rrecta sea más atractiva para los examinandos.
q La respuesta correcta contiene más detalles o incluye más lenguaje

del libro de texto que los distractores.
q Los sus ten tan tes eli mi na rán los dis trac to res que con ten gan
pa la bras como “todo”, “sólo” o “nun ca” por que en mu chas
oca sio nes son fal sas, por lo que se debe evi tar el uso de las
mis mas.
q Evitar pares de respuestas que incluyan todo. Esta estructura per-

mite que los examinandos eliminen otras alternativas porque la in-
clusión de pares cubre todas las posibilidades.
q Evitar respuestas que signifiquen lo mismo. Los examinandos pue-

den eliminar algunas alternativas porque contienen los mismos con-
ceptos.
Si las alternativas consisten en pares de respuestas, se debe evitar una

inserción de términos repetidos.
F. Crea ción de dis trac to res plau si bles. Los bue nos reac ti vos de
op ción múl ti ple de pen den de los dis trac to res para su efec ti vi -
dad, por lo que és tos de ben ser acep ta bles con re la ción a la
base del reac ti vo y la res pues ta co rrec ta. Obser ve el ejem plo
si guien te:
Las disciplinas con las que la pedagogía establece inte-

Base
rrelaciones son:
A) psicología y sociología.
B) filosofía y sociología.
Opciones
C) sociología y numerología.
D) psicología y didáctica
Las disciplinas con las que la pedagogía establece inte-

Base
rrelaciones son:
A) psicología y sociología. (respuesta correcta)

B) filosofía e historia.
Opciones
C) orientación y trabajo social.
D) didáctica y evaluación.

anteriores).
Los examinandos pueden reconocer una respuesta correcta al eliminar,

por observación, las opciones incorrectas sin tener que analizar a con-
ciencia todas las opciones presentadas. Estas opciones se generan, con
frecuencia, cuando el elaborador tiene dificultades para crear otros dis-
tractores plausibles y genera otro que integra o elimina a todos los pre-
sentados previamente. Observe el siguiente ejemplo:
Tipo de conocimiento promovido por la teoría pedagó-

Base
gica.
A) Teológico.
B) Científico.
Opciones
C) Todas las anteriores.
D) Ninguna de las anteriores.
Tipo de conocimiento promovido por la teoría pedagó-

Base
gica.
A) Mágico.
B) Teológico.
Opciones
C) Científico.
D) Humanístico. (Respuesta correcta)
H. Uso de reglas gramaticales y puntuación.



¿Qué proceso enseñanza-aprendizaje se centra en el

Base
maestro?
a) Atención centrada en respuesta. (Respuesta correc-

ta)
Opciones b) Enseñanza aprendizaje activo.
c) Independencia cognoscitiva.
d) Actividad intelectual reproductiva.
¿Qué proceso enseñanza-aprendizaje se centra en el

Base
maestro?
A) Atención centrada en respuesta. (Respuesta co-

rrecta)
Opciones B) Enseñanza aprendizaje activo.
C) Independencia cognoscitiva.
D) Actividad intelectual reproductiva.
Capítulo 14 ?
Guía específica de Psicología
Los errores más comunes de redacción se describen y ejemplifican a

continuación.
A. Formulación de reactivos ambiguos. Si se presenta más de un problema
o el problema incompleto, no será posible identificar cuál elemento causó
el error; se debe formular el problema dentro de la base del reactivo de
manera escueta, clara e individual. El siguiente es un ejemplo de un
reactivo que carece de información suficiente para ser respondido:
Según la APA ¿cuáles de los siguientes enunciados de-

bería satisfacer el Resumen de un estudio?
1. Tiene una extensión de 75 a 100 palabras.

2. Contiene el problema de investigación.
Base 3. Describe a los sujetos, especificando sus caracterís-
ticas pertinentes.
4. Describe el método experimental utilizado.
5. Presenta resultados incluyendo pruebas de signifi-
cancia estadística.
6. Presenta conclusiones sin implicaciones o resultados.
A) 1, 2, 3, 4.
B) 1, 4, 5, 6.
Opciones
C) 2, 3, 4, 5. (respuesta correcta)
D) 3, 4, 5, 6.
Según los criterios de la APA ¿cuáles de los siguientes

enunciados debería satisfacer el Resumen de un estu-
dio empírico?
1. Tiene una extensión de 75 a 100 palabras.

2. Contiene el problema de investigación.
Base 3. Describe a los sujetos, especificando sus caracterís-
ticas pertinentes.
4. Describe el método experimental utilizado.
5. Presenta resultados incluyendo pruebas de signifi-
cancia estadística
6. Presenta conclusiones sin implicaciones o resulta-
dos.
A) 1, 2, 3, 4.
B) 1, 4, 5, 6.
Opciones
C) 2, 3, 4, 5. (Respuesta correcta)
D)3, 4, 5, 6.
B. Redactar en forma redundante. En ocasiones, el elaborador de una

prueba presenta información innecesaria que puede confundir al
examinando. La base del reactivo debe redactarse de manera simple,
con un lenguaje claro y evitando declaraciones innecesarias. Un es-
crito complejo puede causar que un buen estudiante responda inco-
rrectamente, observe el siguiente ejemplo:
¿Qué método experimental, de la metodología científi-

ca, puede controlar los efectos relacionados con las
Base múltiples secuencias en los ya reconocidos diseños de
interacción, basándose en las normas hechas por la
American Psychological Association (APA)?
A) Mantenimiento constante.
B) Variación sistemática.
Opciones
C) Contrabalanceo.
D) Balanceo.
GUÍA ESPECÍFICA DE PSICOLOGÍA 331
¿Con qué método se pueden controlar los efectos de

Base
secuencia en diseños de interacción?
A) Mantenimiento constante. (Respuesta correcta)

B) Variación sistemática.
Opciones
C) Contrabalanceo.
D) Balanceo.
C. Usar términos negativos
Cuando sea posible, la base del reactivo debe redactarse de forma posi-
tiva, Conocer lo verdadero generalmente es más importante que cono-
cer lo no verdadero. Las frases negativas en reactivos se utilizan con
frecuencia porque es fácil crearlas. Los estados positivos de los reactivos
requieren que el autor elabore tres distractores para cuatro alternativas
de preguntas; pero en el estado negativo el reactivo requiere sólo de
una alternativa plausible como respuesta. Observe el siguiente reactivo.
De la investigación hecha por Pavlov ¿cuál de las si-

Base
guientes opciones no pertenece a ella?
A) El reflejo condicionado.
B) El estimulo.
Opciones
C) La respuesta.
D) El reforzador.
Ejemplo de un reactivo bien elaborado:
Base Pavlov desarrolló:
A) el reflejo condicionado. (Respuesta correcta)

B) el estímulo.
Opciones
C) la respuesta.
D) el reforzador.

base y se deben resaltar con el uso de itálicas y/o negritas:
D. Emplear términos que den pistas de la respuesta correcta. El autor

debe tener la certeza de que la respuesta deseada es correcta o cla-
ramente la mejor. Todas las opciones deben ser gramaticalmente
consistentes con la base y con el formato. Las violaciones a esta regla
pueden proveer pistas que ayudan a los estudiantes a descartar los
distractores. Observe el siguiente reactivo.
Uno de los “caminos al inconsciente” que descubrió

Base
Freud fueron los:
A) sueños.
B) sexo.
Opciones
C) estructuras psíquicas.
D) inhalación de cocaína.
¿Cuáles eventos de la vida cotidiana menciona Freud

Base
como uno de los “caminos al inconsciente”?
A. Los sueños. (Respuesta correcta)

B. El sexo.
Opciones
C. Estructuras psíquicas.
D. Inhalación de cocaína.
Las siguientes son recomendaciones para redactar un reactivo sin dar

pistas al examinando que le permitan eliminar distractores.
g) Evitar el uso de palabras similares en la base y en la respuesta co-

rrecta, ya que pueden hacer que la opción correcta sea más atrac-
tiva.
h) Redactar las cuatro opciones con la misma extensión.

i) Cuidar que los distractores no contengan palabras como “todo”,

“sólo” o “nunca” porque en muchas ocasiones son falsas.
j) Evitar pares de respuestas que incluyan todo, porque permiten

que los examinandos eliminen otras alternativas ya que la inclu-
sión de pares cubre todas las posibilidades.
k) Evitar respuestas que signifiquen lo mismo, Dado que los exami-

nandos pueden eliminar algunas alternativas que contienen los
mismos conceptos.
l) Si las opciones consisten en pares de respuestas, se debe evitar la

repetición de términos.
F. Crear distractores no plausibles. Los buenos reactivos de opción múl-

tiple dependen de los distractores para su efectividad, por lo que és-
tos deben ser aceptables en relación con la base del reactivo y la
respuesta correcta. Observe el ejemplo siguiente:
¿Qué doctrina localizaba en el cráneo las facultades

Base
afectivas e intelectuales?
A) Cabezología.
B) Frentología.
Opciones
C) Frenología.
D) Chipotología.
¿Qué doctrina localizaba en el cráneo las facultades

Base
afectivas e intelectuales?
A) Antropometría.
B) Fisiología.
Opciones
C) Frenología.
D) Neurología. (Respuesta correcta)

anteriores”).
Los examinandos pueden reconocer una respuesta correcta al eliminar,

por observación, las opciones incorrectas sin tener que analizar a con-
ciencia todas las opciones presentadas. Estas opciones se generan, con
frecuencia, cuando el elaborador tiene dificultades para crear otros dis-
tractores plausibles y genera otro que integra o elimina a todos los pre-
sentados previamente. Observe el siguiente ejemplo:
La conciencia se refiere al proceso mediante el cual el

Base
organismo:
A) se da cuenta de su realidad situacional.

B) forma un mapa cognoscitivo.
Opciones
C) todas las anteriores.
D) ninguna de las anteriores.
La conciencia se refiere al proceso mediante el cual el

Base
organismo:
A) se da cuenta de su realidad situacional.

B) forma un mapa cognoscitivo.
Opciones
C) forma los atavismos y vicios del lenguaje.
D) se da cuenta de si mismo. (Respuesta correcta)
H. Usar inadecuadamente las reglas gramaticales y la puntuación.



¿Qué característica debe tomarse en cuenta para pro-

Base
bar relaciones de equivalencia entre estímulos?
A) Reflexividad, simetría, transitividad.

B) Cohesión, proximidad, frecuencia de presentación.
Opciones
C) Contigüidad, cohesión, simetría.
D) Asimilación, acomodación, adaptación.
¿Qué característica debe tomarse en cuenta para pro-

Base
bar relaciones de equivalencia entre estímulos?
A) Reflexividad, simetría, transitividad. (Respuesta co-

rrecta).
Opciones B) Cohesión, proximidad, frecuencia de presentación.
C) Contigüidad, cohesión, simetría.
D) Asimilación, acomodación, adaptación.
Hasta aquí hemos revisado ejemplos de los diferentes tipos de formatos

y se han señalado errores comunes en la redacción de los reactivos obje-
tivos en tres temas. Confiamos que una práctica continua de lo que aquí
se presentó apoye al elaborador de reactivos en su práctica evaluativa
cotidiana.
En la siguiente sección, revisaremos las actividades relacionadas con el

análisis empírico de reactivos, la asignación de calificaciones, así como
la interpretación y comunicación de resultados del examen.
Referencias
Castañeda, S. (1993). Procesos Cognitivos y Educación Médica. Serie
Seminarios Institucionales de la Facultad de Medicina. México:
UNAM
narios educativos. Revista Sonorense de Psicología. 12(2): 57- 67.

and Life-long Learning, 12(1-4), 94-106.
Haladyna, T. M. (2004). Developing and Validating Multiple-choice Test
Items. Mahwah, N.J.: LEA.
Nitko, A. J. (1996). Educational Assessment of Students. (3a. ed.).
Upper Saddle River, N.J.: Prentice Hall.
Glosario
Alfa de Cronbach. Coeficiente de medida de consistencia interna de una
prueba.
Análisis cognitivo de tareas. Técnica que permite construir un modelo

que describe –en secuencia jerárquica– las habilidades relacionadas con
los conocimientos necesarios para llevar a cabo acciones, comporta-
mientos y toma de decisiones del dominio a ser evaluado.
Análisis de reactivo. Estudio de las propiedades estadísticas de los reac-

tivos de una prueba. Las cualidades que suelen tener interés son la difi-
cultad del reactivo y su capacidad de distinguir los examinandos más
capaces de los menos capaces.
Análisis Factorial. Procedimientos para analizar el complejo conjunto de

relaciones entre un grupo de variables. La finalidad es descubrir un pe-
queño número de “factores” subyacentes que proporcionen una “expli-
cación” relativamente sencilla y significativa del conjunto completo de
relaciones.
Aprendizaje. Cambio en el aprovechamiento de un estudiante a través

del tiempo.
Aprendizaje complejo. Proceso para establecer las conexiones entre co-

nocimientos, habilidades y actitudes, sus experiencias previas y el con-
texto específico en el que se aplican los contenidos para resolver un
problema particular.
Audiencias legítimas. Grupo de individuos al que se dirige un informe de

evaluación específico.
Base del reactivo. Elemento de un reactivo que expresa una situación o

problema en forma de proposición que requiere solución.
Calificar o asignar calificaciones. Proceso por el cual la información des-

criptiva de la evaluación se traduce en letras o números que indican la
calidad del comportamiento, el esfuerzo o el desempeño de un estudian-
te dentro del salón de clases.
Campo de conocimiento. Cualidad de información que se valora en el

reactivo en tres niveles: sólo teórica, sólo técnica o combinada (conteni-
dos teóricos y técnicos mezclados), en la que se presenta la información
que evalúa el reactivo.
Certificación. Procedimiento a través del cual se reconocen oficialmente

los conocimientos, las habilidades y las actitudes que se requieren para
ejercer las funciones propias de una profesión.
Confiabilidad. Grado de consistencia que deben tener los instrumentos

aplicados, las puntuaciones obtenidas y las mediciones realizadas que
sirven de base para llevar a cabo una evaluación; es el nivel en que estos
elementos están relativamente libres de errores; usualmente, se expre-
sa por medio de un coeficiente de confiabilidad o por el error estándar
derivado de éste. Es cuando los resultados de una evaluación son con-
sistentes a través del tiempo, tareas y/u otros aspectos. La precisión
puede expresarse mediante un coeficiente de confiabilidad o mediante el
error estándar de medición.
Conocimiento declarativo. Está constituido por el conocimiento factual y

conceptual eminentemente de corte declarativo.
Conocimiento procedimental. Es un conjunto de acciones ordenadas y

dirigidas hacia una consecución de una meta determinada; se refiere a
la ejecución de procedimientos, estrategias y métodos; los criterios para
emplear habilidades y destrezas, así como las técnicas y acciones nece-
sarias para llevar a cabo una tarea.
Consistencia interna. Grado de relación entre los ítems de una prueba y

la medida en que los mismos examinandos tienden a contestar correcta-
mente cada ítem.
Constructo. Variable medida que tiene lugar dentro de una teoría o es-
quema teórico.
GLOSARIO 339
Contexto del reactivo. Tipo y ubicación de las declaraciones y relaciones

semánticas (descripción, causación, contrastación) que deben ser pro-
cesadas durante la tarea, y de los elementos de información disponibles
para la resolución del reactivo, incluyendo gráficos, tablas y otros ele-
mentos visuales.
Criterio. Cualidades, características o dimensiones usadas para juz-

gar la calidad de las respuestas de un estudiante en las tareas de eva-
luación. Los criterios indican lo que valoramos en las respuestas de los
estudiantes a esas tareas. Se establecen y se definen en un proceso
de evaluación para juz gar el mérito de un objeto o un componente. El
criterio puede representarse a través de indicadores y descriptores
específicos.
Demanda cognitiva. Se refiere a los procesos de identificar, clasificar,

resolver problemas, entre otros; para decidir las medidas pertinentes,
según lo que se desea evaluar.
Desviación estándar. Medida de la variabilidad o dispersión de las pun-

tuaciones en un grupo. La desviación estándar es la raíz cuadrada del
promedio de las desviaciones cuadradas respecto de la media aritmética
del grupo.
Dificultad empírica del ítem. Proporción de personas que aciertan el

reactivo. El cero es el punto medio de la distribución y hacia la izquierda
la dificultad va decreciendo, en tanto que a partir de 0 a la derecha la di-
ficultad aumenta.
Discriminación del reactivo. Sirve para mostrar cuán claramente distin-

gue un reactivo a los examinados más capaces de los menos capaces.
Se han utilizado diversos índices, pero un índice sencillo, de utilidad
práctica para todos los maestros del aula, es la diferencia, en el porcen-
taje de individuos que pasan el reactivo, entre los que figuran en el cuar-
to superior y en el cuarto inferior de la puntuación total de la prueba o de
alguna otra medida del rango estimado por la prueba.
Distractores. Elemento de un reactivo que plantea opciones de respues-

ta plausibles pero incorrectas.
Dominio. Conjunto de objetivos, actividades y tareas que pueden ser

objeto de evaluación.
Error de medición. La cantidad en que cualquier medición específica di-

fiere de la puntuación “verdadera” hipotética del individuo con relación a
la cualidad o variable que se está midiendo. Puesto que ningún procedi-
miento de medición es exacto, cada uno tiene algún componente de
error.
Escala. Secuencia continua de términos de diferencias cualitativas o

cuantitativas. Existen escalas de 5 puntos (cuantitativas) y escalas que
van de lo más pobre a lo excelente (cualitativas). Las respuestas del es-
tudiante a las tareas de evaluación se sitúan en el continuo, y el número
o palabra apropiados se asigna a la respuesta.
Estanina. Un valor numérico perteneciente a la distribución normal o

curva normal que agrupa a los estudiantes en nueve categorías.
Evaluación. Proceso sistemático y metódico, mediante el cual se recopila

información cuantitativa y/ cualitativa a través de medios formales so-
bre un objeto determinado, con el fin de juzgar su mérito o valor y fun-
damentar decisiones específicas.
Evaluación del aprendizaje. Campo especializado de la evaluación edu-

cativa en el que se valoran los conocimientos, habilidades y actitudes
adquiridas por los estudiantes como resultado de diversas experiencias
educativas. La evaluación del aprendizaje puede tener diversos propósi-
tos: selección de alumnos, orientación y apoyo escolar, acreditación,
entre otros.
Evaluación formativa. Evaluación hecha con el propósito de reunir infor-

mación que puede ser usada por profesores para mejorar la instrucción
o por estudiantes para mejorar el aprendizaje.
Evaluación normativa. Evaluación que basa la forma de calificar e inter-

pretar los resultados en la comparación entre las puntuaciones individua-
les de un alumno con las del grupo de referencia (grupo de estudiantes).
Examen. Sistema o un conjunto organizado de actividades cuya inten-

ción es describir numéricamente el grado o cantidad de aprendizaje bajo
condiciones uniformes.
Examen objetivo. Sistema o un conjunto organizado de reactivos de res-

puesta cerrada cuya intención es describir numéricamente el grado o
cantidad de aprendizaje de los examinados, bajo condiciones uniformes.
GLOSARIO 341
Formato del reactivo. Estructura del ítem que implica un grado de difi-
cultad adicional al requerido por el conocimiento o habilidad que valora
el reactivo.
Habilidad. Características de una persona que indican su capacidad físi-

ca o mental para desarrollar ciertas tareas dentro de un determinado
campo de desempeño.
Indicador. Valor cuantitativo o cualitativo que expresa las características

o estado de un individuo, objeto o proceso. En el campo de la evaluación
educativa los indicadores se emplean para juzgar la calidad, la eficiencia
o la productividad, entre otros aspectos.
Índice de dificultad. Valor numérico para expresar la dificultad del ítem

de una prueba. Por lo común es el porcentaje de alumnos que responden
correctamente el reactivo.
Instrumento de evaluación. Herramienta que se elige o se construye

para medir o valorar aspectos y características identificados en los pro-
cesos de evaluación. Un cuestionario, una encuesta o una prueba son
ejemplos de instrumentos de evaluación.
Interpretación de datos. Proceso que permite darle significado a la evi-

dencia recolectada.
Ítem. Elemento de una prueba o examen que plantea una situación o

problema que requiere de una solución.
Ítem de opción múltiple. Unidad básica de observación de cualquier exa-
men constituida por dos partes: un enunciado (cuerpo del reactivo) que
elicita una respuesta en el examinando y una o varias opciones de res-
puesta, de las cuales una responde correctamente a la pregunta inicial.
Logro. Relación entre los resultados obtenidos en una evaluación y los

objetivos planteados por el objeto de evaluación.
Media. Medida de tendencia central determinada por el promedio común

que se obtiene sumando todas las puntuaciones de un conjunto de datos
y dividiendo la suma entre el número de puntuaciones.
Mediana. Valor de puntuación que separa la mitad superior de un grupo,

de la mitad inferior. Exactamente el 50% del grupo cae por encima de la
mediana, y el 50% por debajo de la misma.
Medición. Proceso mediante el cual se asignan numerales a característi-

cas o atributos de un objeto o proceso a través de un conjunto de reglas
definidas. Con la medición se busca conocer la magnitud de los fenóme-
nos de estudio.
Método de análisis cuantitativo. Procedimiento sistemático que basa la

interpretación de la realidad a investigar o valorar en datos numéricos.
Objetivo. Enunciado que describe un intencionado y/o deseado cumpli-

miento que ocurre como resultado de un proceso educativo. El enuncia-
do incluye un verbo que indica el proceso cognitivo de la intención (por
ejemplo entender, aplicar) y un sustantivo o frase sustantiva que indica
el conocimiento (por ejemplo conceptual, procedimental).
Opciones de respuesta. Elemento de un reactivo que plantea alternati-

vas de respuesta plausibles que acompaña a la base del reactivo y de las
cuales una de ellas es la que contesta correctamente a la problemática
planteada en la base.
Operación cognitiva. Procesamiento cognitivo subyacente a la ejecución

requerida para resolver una situación o problema.
Percentil. Valor bajo el cual se encuentra una proporción determinada de

la población; es una medida de posición útil para describir una pobla-
ción, por ejemplo, un alumno con 99 significaría que el 99% de la pobla-
ción de referencia está por debajo de él.
Portafolios. Colección bien definida del trabajo de una persona que

muestra cambios en el aprovechamiento del mismo a través del tiempo.
Propósito diagnóstico de la evaluación. Es la intención de usar los resul-

tados de una evaluación para conocer los conocimientos previos que tie-
ne el alumno y de ahí partir en la construcción de los nuevos.
Propósito formativo de la evaluación. Pretende determinar el grado de

avance de los alumnos durante un proceso educativo Tiene la finalidad
de mejorar los procesos o cualidades de un objeto cuando éste se en-
cuentra en desarrollo, valorando sus atributos positivos y negativos.
Propósito sumativo de la evaluación. Valora los conocimientos del alum-

no con el fin de asignarle una calificación.
GLOSARIO 343
Prueba estandarizada. Prueba publicada para el uso general. Su rasgo

más característico es un conjunto de normas basado en alguna pobla-
ción de referencia general. Otros rasgos comunes son la selección de
reactivos con fundamento en análisis preliminares, las instrucciones es-
tándar para su administración y un manual que proporciona diversos ti-
pos de testimonios estadísticos acerca de la prueba.
Puntaje. Valor numérico que se atribuye a cada sujeto en función de la

cantidad del atributo que se está midiendo y que este posee.
Rúbrica. Guía de puntajes o índices que permite hacer juicios confiables

sobre la calidad de las respuestas de los estudiantes a lo largo de las ta-
reas. Las rúbricas incluyen criterios explícitos, un continuo delineado por
cada criterio, y descripciones verbales de diferencias connotadas en la
calidad de las respuestas de los estudiantes.
Sesgo en la evaluación. Resultados que le dan ventaja a una persona o

grupo sobre otros, basados en factores distintos a las características pri-
marias o de calidad que fueron evaluadas (por ejemplo género, raza,
lengua nativa).
Solución de problemas. Proceso de toma de decisiones que incluye es-

trategias heurísticas o algoritmos para valorar y llegar a la mejor alter-
nativa que cumpla con un objetivo planteado.
Tarea. Actividad que requiere de los estudiantes la emisión de una res-

puesta o acción correcta.
Tipo de conocimiento. Características definitorias de los saberes que

constituyen una realidad en cuanto a la demanda requerida para proce-
sar la información y las demandas conceptuales que ello implica. Se divi-
den en declarativo, procedimental y actitudinal.
Universo de medida. Son los objetivos y extensión del dominio a eva-

luar. Define las tareas que ponen de manifiesto el grado de habilidad ad-
quirido por un alumno.
Validez. Consistencia en la interpretación de los resultados de una eva-

luación, la cual presenta conclusiones que muestran pertinencia y con-
cordancia con los atributos, propósitos y procedimientos elaborados
previamente. Es la eficacia de una prueba para representar, describir o
pronosticar el atributo a valorar.
Validez de constructo. Grado en que una medición se relaciona consis-

tentemente con otras mediciones de acuerdo con hipótesis derivadas
teóricamente y que conciernen a los conceptos que están siendo medi-
dos.
Variable. Característica o propiedad de un objeto de evaluación que

tiende a cambiar al desarrollarse en ambientes o contextos diferentes y
que puede tener diversos valores.
Varianza. Estadístico de dispersión que mide el grado de variabilidad

que sintetiza el nivel de homogeneidad o heterogeneidad de las diferen-
cias individuales entre los casos de una muestra (o de varias muestras)
respecto de una o varias variables numéricas continuas o cuantitativas.
El libro Evaluación del aprendizaje en el
nivel universitario. Elaboración de exá-
menes y reactivos objetivos fue editado
por la Facultad de Psicología de la
UNAM y se terminó de imprimir en oc-
tubre de 2006 en la imprenta de Ma-
nuel Martín Chávez Villaseñor (Grupo a
y r), Calzada de las Águilas 1030-1,
Col. Las Águilas, México, D.F.
Su composición se hizo en tipos Daup-

hin de 36 y 29 pts.; ITC Chancery de 38
pts.; Lydian BT de 16 pts.; Times New
Roman de 12 pts. Verdana de 11 pts.
N; 10 pts. N, I, B y BI; y 7 pts. N.
La edición consta de 500 ejemplares.

View publication stats

Evaluacion Aprendizaje

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Evaluacion Aprendizaje

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author proﬁles for this publication at: https://www.researchgate.

Evaluación del aprendizaje en el nivel universitario: elaboración de exámenes y

Book · January 2006

Sandra Castañeda Figueiras

Variables asociados con el logro académico View project

The user has requested enhancement of the downloaded ﬁle.

Responsable de la edición: Ma. Elena Gómez Rosales.

Sandra Castañeda Figueiras

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Proyecto CONACyT 40608-H

Dra. Lucy María Reidl Martínez

Primera edición: 2006

DR©2006. Universidad Nacional Autónoma de México

Impreso y hecho en México

Capítulo 5. Variables personales relacionadas con el promedio

Capítulo 7. Elaboración de ítems objetivos

En este sentido, la investigación en aprendizaje complejo enfatiza la im-

La investigación, también ha acumulado extensa evidencia del profundo

b) la calidad y la cantidad del compromiso intelectual del aprendiz con el

Pero, a pesar de la evidencia recabada, en el ámbito de la Educación Su-

Con base en esta cualidad, la evaluación del aprendizaje representa un

miento como la europea. En ella, los graduados deben mostrar niveles

Bajo esta perspectiva, las instituciones de Educación Superior (IES) na-

Atender esta exigencia nos demanda, como comunidad de aprendizaje,

Con base en las reflexiones expuestas, dos razones alentaron el desa-

la difusión de marcos de trabajo locales y procedimientos útiles que apo-

De esta manera, la obra que presentamos se enfoca a familiarizar a los

La segunda consideración nos alerta a concebir de manera integral y

producirá sesgo en la evaluación y error en las inferencias a ser hechas

La tercera consideración atañe al propósito del examen y a la decisión

Finalmente, la cuarta consideración tomada en cuenta en esta obra re-

En síntesis, la obra que aquí presentamos tiene tres secciones. La pri-

La segunda sección de la obra incluye tres capítulos referidos a hallazgos

deseadas. En particular, tales evidencias de validez se relacionan con in-

La tercera sección se aboca a la puesta en práctica de la evaluación obje-

En el capítulo 8, Castañeda, López, González, García, Pineda, Ortega y

importante cuando el lector anda en búsqueda de un instrumento que le

El capítulo 9 de Miguel López presenta procedimientos de análisis de

Con los capítulos de esta sección, se cumple la revisión de los compo-

Finalmente, los capítulos 11 al 14 ponen a disposición del lector guías de

En síntesis, la obra refleja la experiencia obtenida por sus autores a lo

Durante estos años, hemos dictado cursos en pregrado y posgrado acer-

Esperamos que este esfuerzo fructifique en ítems y exámenes útiles a la

al lector su interés y, en la medida de lo necesario, la puesta en práctica

Cabe aquí extender nuestro más amplio agradecimiento al Consejo

Bass, K. M. y Glaser, R. (2004). Developing assessments to inform tea-

Así mismo agradezco al CENEVAL por su invaluable apoyo y las facilida-

Por otra parte agradezco a la UNAM, alma mater que ha brindado su

Gracias, también, a quienes dictaminaron la obra y a los que hicieron

Aldo Bazán Ramírez. Licenciado en Psicología, área: Psicología Edu-

Sandra Castañeda Figueiras. Doctora en Psicóloga Experimental por

grado; la Cátedra Especial “José Gómez Robleda” de la UNAM

La Dra. Castañeda coordinó dos exámenes de egreso para el Cen-

ríodo comprendido entre 1993 y 1995 diseñó modelos,

Correo electrónico sandra@servidor.unam.mx

Rafael Félix Verduzco. Pasante de la carrera de Psicología en el Insti-

Raquel García Jurado Velarde. Profesor Titular de la Facultad de

Daniel González Lomelí. Doctor en psicología por la Universidad Na-

cana de Psicología, de la Revista Interamericana de Psicología y

Rosa Elsa González Ramírez. Maestra en Psicología con Residencia en

Helena Gaviño Sánchez. Pasante en la licenciatura en Enseñanza del

Miguel López Olivas. Cursó licenciatura, maestría y doctorado en la

guas Extranjeras, Secretario Académico de la División de Estu-

María de Lourdes Pineda Gómez. Realizó sus estudios de Psicología