Metodologia - Pa Ra - Evaluaciãn PDF

DOCUMENTOS
DISEÑO DE PRUEBAS
PARA EVALUACIÓN EDUCATIVA
REGLAS PARA ELABORAR ÍTEMS

DE FORMATO DE SELECCIÓN Y DE PRODUCCIÓN
Esta es una publicación de la Oficina Regional de Educación de la UNESCO para América
Latina y el Caribe (OREALC/UNESCO Santiago) y del Laboratorio Latinoamericano de Evalua-
ción de la Calidad de la Educación (LLECE).
Héctor Valdés
Coordinador del LLECE
Autores
Carlos A. Pardo Adames
Martha C. Rocha Gaona
Beatriz Scherz
Edición
INTERSON
Diseño y diagramación
Los autores son responsables por la selección y presentación de los hechos y contenidos en
esta publicación, así como de las opiniones expresadas en ella, que no son necesariamente
el pensamiento de la UNESCO y no comprometen a la Organización. Las denominaciones
empleadas y la presentación de los datos no implican, de parte de UNESCO, ninguna toma
de posición respecto al estatuto jurídico de los países, las ciudades, los territorios, las zonas
y sus autoridades, ni respecto al trazado de sus fronteras o límites.
El uso de un lenguaje que no discrimine ni reproduzca esquemas discriminatorios entre

hombres y mujeres es una de las preocupaciones de nuestra Organización. Sin embargo, no
hay acuerdo entre los lingüistas acerca de la manera de hacerlo en castellano. En tal senti-
do, y para evitar la sobrecarga gráfica que supondría utilizar en español o/a; los/las y otras
formas sensibles al género con el fin de marcar la presencia de ambos sexos, hemos optado
por usar la forma masculina en su tradicional acepción genérica, en el entendido que es de
utilidad para hacer referencia tanto a hombres y mujeres sin evitar la potencial ambigüedad
que se derivaría de la opción de usar cualesquiera de las formas de modo genérico.
Permitida su reproducción total o parcial, así como su traducción a cualquier idioma siempre
que se cite la fuente, y no se utilice con fines lucrativos.
ISBN 978-956-322-045-2
Introducción
Índice
4
I. El concepto de evaluación 5
II. Fases del diseño de prueba 6

. Marco conceptual 8
. Especificaciones 8
. Desarrollo de pruebas 11
. Aplicación piloto 12
. Aplicación definitiva 13
. Análisis de ítems y de prueba 13
. Escalas de calificación 14
. Producción y divulgación de resultados 15
III. Consideraciones para el desarrollo de pruebas 16

. Formatos de ítems 16
De selección de respuesta 18
. Apareamiento 18
. Falso/Verdadero 19
. Selección múltiple con única respuesta 20
. Selección múltiple compleja 21
. Dependientes de un contexto 22
. De analogías 23
De producción de respuesta 24
. De completamiento 24
. De ensayo 25
. De expresión oral 26
. De productos no escritos 27
. Longitud de la prueba 27
. Niveles de revisión 28
. Confidencialidad 29
. Problemas en el proceso de evaluación 30
IV. Reglas para la elaboración de ítems 31

. De selección 31
. De producción 33
V. Validez del proceso de evaluación 35
. Bibliografía 37
Introducción
L
a evaluación educativa, especialmente la que se realiza en el aula, forma parte integral
del proceso general de educación y no puede ser asumida como un proceso inde-
pendiente, desarticulado, esporádico o extraño. Desde esta perspectiva, la evaluación
debe realizarse con la intención de formar parte del aprendizaje y convertirse en una herra-
mienta que lo cualifique y lo potencie.
Para que esta visión pueda hacerse realidad, es necesario que la evaluación en sí misma se
realice con apego riguroso a las técnicas psicométricas, es decir, a los estándares y reglas
que constituyen el saber sobre diseño de pruebas. La aplicación de éstas busca asegurar la
validez del proceso evaluativo y, por ende, garantizar los principios de equidad, objetividad,
pertinencia y relevancia deseables en todo proceso de evaluación.
Las técnicas para la elaboración de pruebas constituyen pautas más o menos generales acer-
ca de las consideraciones que se deben tener en cuenta desde el momento en que se define
un propósito de evaluación. Si bien estas técnicas se han decantado principalmente como
el legado de la experiencia acumulada en el desarrollo de procesos de evaluaciones masivas
de carácter externo, es claro que son aplicables a los procesos de evaluación en el aula y que
su aplicación contribuye a elevar los niveles de calidad y de utilidad del proceso evaluativo.
Eso sí, cabe aclarar que la calidad de las pruebas no puede atribuirse exclusivamente al ape-
go a las técnicas señaladas en este documento. En realidad, la experiencia ha demostrado
sobradamente que, en gran parte, la clave para lograr una prueba confiable está en el grado
de claridad que se tenga del propósito de la evaluación, del conocimiento profundo del
área, tópico o disciplina que se va a evaluar, así como del conocimiento de las caracterís-
ticas de la población que va a ser evaluada y de la forma en que se ha dado su proceso de
formación. Resulta, además, de suma utilidad que el trabajo de diseñar, desarrollar y revisar
el instrumento sea elaborado en equipo, como garantía de que los criterios individuales se
someten a niveles deseables de objetivación.
Este documento comienza con una reflexión sobre el concepto de evaluación. Luego, des-
cribe las fases del diseño de pruebas educativas y algunas técnicas generales de elaboración
de ítems o preguntas, tanto de aquellos de formato de selección como de los de formato de
producción de respuesta. Al final, se incluye un apartado sobre la validez del proceso evalua-
tivo, por ser la cualidad por excelencia que se busca garantizar en estos procesos.
4
I. El concepto de evaluación
La evaluación puede definirse como un proceso permanente y sistemático de recolección

de evidencias acerca de qué tanto los estudiantes comprenden los saberes objeto de ense-
ñanza. La evaluación debe promover en los estudiantes reflexiones novedosas e interesan-
tes que les ayuden a profundizar en los contenidos trabajados en el aula y a establecer co-
nexiones entre estos saberes y otros. Debe permitir identificar problemáticas puntuales de
comprensión que tienen los evaluados y, por ende, debe poder orientar acerca de los ajustes
que requiere el proceso de formación. Debe ofrecer a los evaluados, además, la oportunidad
para reconocer por sí mismos sus avances y sus dificultades en el proceso de aprendizaje, y
debe servir para que otras audiencias (padres de familia y comunidad en general) puedan
ser informados acerca de la eficacia del proceso educativo.
A partir de la definición anterior conviene precisar que:
• La evaluación educativa es un proceso; NO debe ser una actividad esporádica.
• La evaluación debe ser intencionada y coherente con los propósitos del proceso
formativo; NO debe ser improvisada.
• La evaluación debe ser permanente y diversa. La valoración sobre qué tanto han
comprendido los evaluados un determinado tema debe basarse en evidencias de
muchas clases, recogidas en distintas situaciones; NO debe hacerse únicamente al
finalizar la formación.
• La evaluación debe servir para aprender. Las preguntas deben promover reflexión y
relación de saberes; NO debe basarse exclusivamente en la memorización de datos.
• Los resultados de la evaluación deben usarse para mejorar el proceso educativo. Si

los evaluados tienen fallas de comprensión hay que orientar el proceso educativo
para superar tales fallas; NO debe usarse como herramienta para rotular ni para dis-
criminar a los evaluados.
• Además de los evaluados, hay otras personas o grupos necesitados de conocer y de

comprender oportunamente los resultados de la evaluación y para ellos deben de-
finirse estrategias eficaces de divulgación; NO debe limitarse el reporte de resulta-
dos a la publicación lacónica de calificaciones, cifras o tablas.
Finalmente, es necesario tener en cuenta que una prueba debe ser entendida como una
estrategia que pretende facilitar el acopio de evidencias sobre lo que saben y son capaces
de hacer los evaluados con respecto a un tema, área o tópico particular, y que, a partir de
tales evidencias, se pueden emitir juicios acerca del grado de comprensión que tienen los
5
evaluados de ese tema, área o tópico. Así, si los instrumentos están mal diseñados, hay una
alta probabilidad de llegar a inferencias incorrectas y, por tanto, es altamente probable que
los juicios emitidos carezcan de validez y que, por ende, las decisiones tomadas para ajustar
el proceso de formación no resulten eficaces. Por tanto, para cualquier evaluador es un de-
ber profesional y ético asegurarse de que los instrumentos que utiliza estén correctamente
construidos.
El diseño de un instrumento de evaluación implica una serie de fases que se describen en el

siguiente apartado. La complejidad de cada etapa está condicionada, entre otros aspectos,
por el objeto de evaluación y por el uso que se dará a los resultados. Corresponde al equipo
de trabajo que diseña y desarrolla la prueba, analizar y decidir el tiempo y demás recursos
destinados a cada fase; no obstante, no existe ninguna excusa aceptable para soslayar el
rigor técnico que debe tener el diseño de una prueba en cada una de sus fases.
II. Fases del diseño de pruebas

Antes de iniciar el proceso de diseño de pruebas, es recomendable reflexionar acerca de los
siguientes aspectos:
1. ¿Cuál es el propósito de evaluación?, ¿Qué se busca decir de los evaluados a partir

de sus resultados?
2. ¿Quiénes conforman la población objetivo?, ¿Cuáles son sus características cultura-

les, educativas, cognitivas… y cómo tenerlas en cuenta al diseñar la prueba?
3. ¿Qué recursos humanos, físicos, materiales y financieros se tienen disponibles?,

¿De qué forma podría gestionarse la consecución de recursos adicionales?
4. ¿Cuál es el mejor tipo de instrumento para cumplir el propósito planteado:

test de selección, prueba de producción o una combinación de ellos?
5. ¿A quiénes interesa enterar de los resultados?, ¿Quiénes están interesados en

conocer y en comprender los resultados?, ¿Se diseñará un reporte de resultados
diferente para grupos de interés?, ¿Qué estrategia será más efectiva para lograr que
se com prendan y utilicen los resultados?
Tener claridad sobre las respuestas a estas preguntas –y sobre otras que pueden derivarse
de éstas– es imprescindible para delimitar las condiciones bajo las cuales el equipo va a
trabajar.
6
En la siguiente gráfica se presenta de manera global las fases del diseño de pruebas.
MARCO CONCEPTUAL DE LA
EVALUACIÓN
ESPECIFICACIONES
DE PRUEBA
DESARROLLO APLICACIÓN
DE PRUEBAS PILOTO / DEFINITIVA
ANÁLISIS DE ÍTEMS PROCESAMIENTO

Y PRUEBAS DE DATOS
ESCALAS DE CALIFICACIÓN
DIVULGACIÓN
DE RESULTADOS
7
El proceso de evaluación se inicia con la elaboración de un Marco Conceptual, documen-
to que ordena las ideas sobre el propósito y el enfoque que tendrá la prueba. Este marco
orienta las etapas subsiguientes en tanto que en él se describe el propósito de la evaluación
(¿para qué la prueba?); el objeto de evaluación y el enfoque o teoría desde el cual ese ob-
jeto será definido (¿qué se evaluará?, ¿cómo se define ese objeto?); la población objetivo
(¿a quién se evaluará?) y los usuarios de los resultados (¿a quiénes les interesa conocer los
resultados de esta evaluación?). El Marco Conceptual recoge las decisiones y argumentos en
los ámbitos disciplinar, metodológico, educativo, administrativo y legal, que dan sustento a
la prueba como un instrumento de evaluación pertinente para cumplir el propósito enun-
ciado.
Como se trata del documento que establece la ruta a seguir en las demás fases del diseño,
es recomendable que en su elaboración participen personas que dominen el saber, tópico o
tema que será objeto de evaluación, junto con personas que aporten el saber técnico sobre
diseño de instrumentos de evaluación y personas que conozcan a la población objetivo y
que entiendan el sentido y propósito de la prueba. Este equipo deberá avanzar en una etapa
de consulta de información que les asegure un nivel de conocimiento apropiado sobre las
tendencias en materia de conceptualización y de evaluación del tópico de interés y luego
deberá someter a discusión la información recogida para optar por una línea conceptual
clara que será fundamental para iluminar la fase siguiente en la que se definen las Especi-
ficaciones de Prueba.
Las Especificaciones de Prueba abarcan dos aspectos:
1. Se refieren a una descomposición en categorías del objeto de evaluación; dado que en

el ámbito educativo este generalmente alude a constructos o rasgos como “conocimiento”,
“rendimiento”, “comprensión”, etc., y estos constructos usualmente se ligan al dominio en
una disciplina o campo del saber como “matemáticas”, “ciencias naturales”, etc. La descom-
posición del objeto de evaluación en categorías se realiza tanto en lo disciplinar como en lo
cognitivo.
En lo disciplinar, la categorización puede orientarse en función de temas –práctica que re-

sulta tradicional en evaluaciones educativas– pero también puede hacerse en función de
conceptos o de problemas propios de la disciplina evaluada. Así, un objeto de evaluación
como las matemáticas puede ser categorizada, para efectos de evaluación, bien en temas
como aritmética o álgebra, o bien en conceptos como número, proporción, medida, etc. Vale
decir, que una categorización conceptual o por problemas puede resultar más pertinente si
el propósito es la evaluación de competencias, mientras que si se busca evaluar conocimien-
tos, la categorización por temas cumple un mejor papel.
Paralelamente con la definición de categorías del orden disciplinar, se categoriza también

el dominio cognitivo del objeto de evaluación, es decir, se enuncian los procesos cogniti-
vos subyacentes a ese objeto. Existen numerosas taxonomías de procesos cognitivos que se
8
utilizan para realizar tal categorización; es el caso de la muy conocida Taxonomía de Bloom,
la cual diferencia seis procesos cognitivos distintos asociados al logro educativo, a saber:
recuerdo, comprensión, aplicación, análisis, síntesis y evaluación. Independientemente de
la taxonomía utilizada, es importante que las categorías cognitivas definidas apunten a dar
cuenta del objeto de evaluación planteado en el Marco Conceptual del instrumento. Así, si
se ha definido que el objeto de evaluación es, por ejemplo “conocimientos en matemáticas”,
el dominio cognitivo “conocimientos” debe ser evaluado a partir de las categorías cognitivas
que, de acuerdo con el criterio teóricamente sustentado por el equipo que diseña la prueba,
den cuenta de lo que se quiere significar con el constructo “conocimientos”.
Las taxonomías o categorizaciones del objeto de evaluación, tanto en el orden disciplinar

como en el de procesos cognitivos, deben responder a dos condiciones: exhaustividad y
mutua exclusión. La exhaustividad significa que, en conjunto, todas las categorías descritas
den cuenta del dominio descrito. La mutua exclusión se refiere a la característica que deben
cumplir las categorías definidas en el sentido de que cada una de ellas aborde un proceso
diferenciable de los procesos abordados en las demás categorías, es decir, que las categorías
de la taxonomía elegida no deben solaparse entre sí.
El entrecruzamiento de las categorías disciplinar y cognitiva da lugar a lo que se conoce

como Estructura de Prueba o la hoja de ruta para la elaboración de los ítems. Esta con-
siste en una matriz que combina los dominios del objeto de evaluación, pues en sus celdas
se determina el tipo de tareas que la resolución de los ítems va a demandar, así como el nú-
mero de estos que serán necesarios para dar cuenta de esa parte del objeto de evaluación
que es señalado por tal celda.
A continuación se presenta una estructura de prueba simple para evaluación de conoci-

mientos en matemáticas, en la cual el dominio disciplinar se categoriza en temas básicos de
las matemáticas, mientras que para el dominio cognitivo se usan algunas de las categorías
de la Taxonomía de Bloom.
9
DOMINIO CATEGORÍA 1 CATEGORÍA 2 CATEGORÍA 3
COGNITIVO
(Aplicación) (Análisis) (Síntesis)

DOMINIO
DISCIPLINAR
Tarea 1: Resolver
problemas de
suma con
una incógnita,
ARITMÉTICA contextualizado
a situaciones
cotidianas
reales.
Tarea 1: Explicar
las diferencias
de un método
ÁLGEBRA para resolver
LINEAL una ecuación
dada, frente a
otros métodos
disponibles.
TRIGONOMETRÍA XX
La Estructura de Prueba también sirve para orientar la retroalimentación de resultados, dado

que, siempre que se cuente con suficientes ítems en una celda, las inferencias sobre lo que
el evaluado puede o no puede, con respecto al objeto de evaluación, puede darse a nivel
de celda de la matriz. Así, frente a la opción de reportar un “buen” o un “mal” resultado en la
prueba de conocimientos en matemáticas, se tiene la alternativa de informar sobre fortale-
zas o debilidades específicas en “aplicación de la aritmética”, o en “álgebra lineal”, etc.
2. Además de la definición de la Estructura de Prueba, las Especificaciones de Prueba inclu-

yen las decisiones técnicas acerca de la cantidad de ítems que es necesario construir por
cada una de las celdas de la estructura, la distribución de ítems por distintos niveles de di-
ficultad o de exigencia y el peso que cada ítem tendrá en la calificación, así como también
decisiones referidas a los formatos de ítems que se incluirán (de selección múltiple con única
respuesta, de producción, de apareamiento, etc.) y sus respectivas instrucciones de respues-
ta; la distribución de los ítems en la prueba (si se organizarán en bloques o secciones de
10
acuerdo con algún criterio de contenido, de forma, de organización logística, etc.); el tiempo
del cual dispondrán los evaluados para responder la prueba –y sus partes, si es pertinente
aclararlo– y todos los demás lineamientos que aseguren una adecuada conformación o en-
samblaje del instrumento y que contribuyan a clarificar las condiciones en las cuales debe
realizarse la aplicación. Como en todas las decisiones que se toman a lo largo del proceso
de diseño, éstas deben ser coherentes con lo que se ha planteado en el Marco Conceptual.
La longitud de la prueba no será la misma para un grupo de pequeños de nueve años que
para un grupo de adultos profesionales; factores como el tiempo efectivo de atención que
es posible exigirle a cada población son esenciales como insumo para definir las Especifica-
ciones de Prueba.
Las Especificaciones de Prueba constituyen una de las fases más complejas del diseño de
pruebas (Hambleton y Zaal, 1994), especialmente porque implica la toma de decisiones que
definen las formas de acción en las etapas sucesivas. Mientras en el Marco Conceptual se
describe qué y a quién se va a evaluar, en las especificaciones se delimita el cómo de esa
evaluación. En este sentido, es deber del evaluador dar a conocer entre los evaluados, con
suficiente anticipación a la fecha de aplicación, al menos un resumen de las especificacio-
nes. Con esto se busca garantizar que ningún evaluado llegue al momento de la aplicación
sin saber a qué se enfrentará y sin haber tenido la opción de prepararse para demostrar de
la mejor manera sus habilidades. Con esto se pretende respetar el principio de equidad y
favorecer la validez del proceso de evaluación en tanto que, tratándose de pruebas de logro
o de desempeño en el contexto educativo, se espera que la prueba ponga en evidencia ha-
bilidades que son resultado de procesos de formación o entrenamiento.
Además, las Especificaciones de Prueba deben ser conocidas a profundidad por todas las
personas que vayan a participar en la siguiente fase, el Desarrollo de la Prueba.
El desarrollo implica redactar los ítems o preguntas siguiendo las pautas plasmadas en el
Marco Conceptual y, más precisamente, en la Estructura de Prueba. Elaborar ítems en la can-
tidad y de las categorías requeridas, que apunten al propósito de la prueba, que demanden
el grado de exigencia apropiado para la población objetivo y que se apeguen a las reglas
técnicas establecidas para su construcción, asegura en gran medida que todos los ítems de
la prueba cumplan con cuatro características que resultan esenciales: equidad, pertinencia,
relevancia y calidad técnica.
La equidad se refiere a que los ítems no deben favorecer a una parte de la población obje-
tivo en razón de sus condiciones sociales, culturales, étnicas, religiosas o de cualquier otra
índole. La pertinencia se verifica por su contenido y por el proceso cognitivo que evalúa;
un ítem es pertinente si puede ubicarse clara e indiscutiblemente en una de las celdas de
la Estructura de Prueba. La relevancia alude al hecho de que, habiéndose verificado la per-
tinencia, se pueda argumentar académica y técnicamente que cada ítem cumple un papel
importante en el propósito de hacer evidente el dominio que tiene el evaluado del objeto
de evaluación; dicho de otra forma, un ítem es relevante cuando no hay discusión en con-
11
siderar que la respuesta a tal ítem verdaderamente contribuye a diferenciar entre quienes
saben y quienes no saben aquello sobre lo cual la pregunta indaga. La calidad técnica tiene
que ver con la observación de las reglas específicas de construcción que apuntan a asegurar
la corrección gramatical y la pureza semántica en la construcción de los ítems. Lograr que los
ítems tengan estas cuatro cualidades debe ser el objetivo de quien elabora una prueba.
Sin embargo, no es labor fácil construir ítems de calidad técnica, equitativos, pertinentes y
relevantes. Lograr buenas preguntas exige trabajo en equipo, dedicación y paciencia. El tra-
bajo coordinado de elaboradores de ítems con revisores que tengan un buen dominio del
objeto de evaluación es esencial para lograr el cometido de una prueba bien hecha. Igual-
mente, la participación de revisores de estilo y de revisores de edición, en la medida que las
condiciones lo permitan, decididamente es aconsejable.
Cuando la prueba está terminada y, siempre que se tenga la oportunidad de hacerlo, se

procede a una etapa de experimentación o de Aplicación Piloto de la prueba. En esta
fase suele seleccionarse a una muestra (aleatoria o intencional, dependiendo de las carac-
terísticas propias del proceso) representativa de la población objetivo para que respondan
la prueba, intentando hacerlo en condiciones semejantes a las que se establecerán para
la aplicación definitiva o real del instrumento. Esto se hace con el fin de evaluar su calidad
técnica, valorar la pertinencia de las preguntas para la población y para afinar los criterios
de calificación. Al hacer una aplicación piloto se recogen las respuestas dadas por la mues-
tra seleccionada y con ellas se procede a estimar indicadores psicométricos que permiten
reconocer las necesidades de ajuste del instrumento en términos del nivel de dificultad de
las preguntas (por ejemplo, si los ítems resultaron demasiado fáciles para la población será
necesario elaborar algunos de mayor nivel de dificultad para la aplicación definitiva), de la
redacción de las opciones de respuesta y de organización de la prueba. Es importante tener
en cuenta que las condiciones de la aplicación piloto guarden la mayor similitud posible con
las condiciones definidas para la aplicación definitiva (edición del instrumento, instruccio-
nes para responder, tiempo disponible, etc.) con lo cual la aplicación piloto servirá también
como criterio para evaluar la pertinencia de tales condiciones y en su defecto, dará la opor-
tunidad de ajustarlas con miras a la aplicación definitiva.
Si no es posible realizar aplicación piloto, una alternativa para someter a validación los ítems
o preguntas consiste en realizar lo que se denomina un “juicio de expertos”. Este es un pro-
cedimiento a través del cual un equipo de personas, con demostrados conocimientos y
experiencia en la formación y evaluación de aquello que se ha definido como objeto de
evaluación en la prueba, emiten su juicio respecto de las cualidades previamente mencio-
nadas: equidad, pertinencia, relevancia y calidad técnica. Por supuesto, estos juicios deben
ser emitidos a la luz de las consideraciones del Marco Conceptual. Los expertos pueden va-
lerse de formatos previamente diseñados para registrar sus juicios y para argumentarlos
debidamente, de tal forma que el proceso de elaboración de ítems se retroalimente con
claridad y sea posible adelantar los ajustes en aquellos que conduzcan, finalmente, a tener
12
la prueba que se requiere. Bien sea a través de la aplicación piloto o del juicio de expertos, la
prueba siempre debe ser sometida a esta fase de revisión pues, como se ha mencionado, es
prácticamente imposible asegurar una prueba de excelente calidad desde el primer intento
de desarrollo. Vale reiterar que sobre la calidad del instrumento descansa la validez de los
juicios que se emitirán acerca de los evaluados y que, en tal sentido, reviste un compromiso
ético no escatimar esfuerzos en cualificar la prueba.
Una vez que se dispone de una prueba debidamente validada, la siguiente fase corresponde
a la administración o Aplicación Definitiva de la prueba. Ya desde la aplicación piloto,
si la hubo o en su defecto, desde un momento previo a la fase de aplicación se han debi-
do definir las condiciones de administración convenientes y necesarias para los propósitos
de evaluación. Se trata de garantizar que las condiciones para responder la prueba sean
equitativas y confortables para la población objetivo. Así, se espera que todos los evaluados
reciban las mismas instrucciones antes de la aplicación; que ninguno de ellos haya teni-
do conocimiento previo del contenido de la prueba; que ninguno tenga la oportunidad de
buscar o de recibir ayuda extra de fuente alguna para responder durante la aplicación; que
las condiciones de la aplicación, tales como la disposición de materiales (cuadernillos de
prueba, hoja de respuestas, instrucciones, lápiz, borrador, etc.), la acomodación en un pupi-
tre, la iluminación y la ventilación y el tiempo disponible para responder sean iguales para
todos los evaluados y, finalmente, que cuando las circunstancias lo ameriten, se tomen las
medidas necesarias para que personas de la población objetivo con alguna limitación física
reciban soporte adecuado para afrontar el proceso de evaluación en condiciones equivalen-
tes al resto de la población.
Las respuestas que los evaluados dan a la prueba, junto con la información que se haya re-
cogido durante el proceso de aplicación, como la suficiencia de los tiempos permitidos para
responder la prueba y la claridad de las instrucciones de respuesta, entre otros, sirven para
realizar lo que se denomina un Análisis de Ítems. Esta fase se realiza luego de cada aplica-
ción, se trate de una piloto o una definitiva. Al revisar las respuestas dadas por los evaluados
es posible identificar con relativa facilidad indicadores como la frecuencia de respuesta a
cada pregunta o cuáles preguntas no fueron respondidas por la mayoría de los evaluados.
Estos y otros indicadores sirven para retroalimentar el proceso de elaboración de ítems y
aún fases anteriores del diseño. Vale mencionar que existen programas de computador de
bajo costo e incluso algunos gratuitos, descargables de la web, que procesan las respuestas
dadas a una prueba y arrojan indicadores estadísticos que permiten valorar la calidad de
una prueba desde el punto de vista psicométrico1 . Tratándose de procesos de evaluación
en el aula, estos análisis pueden realizarse con ayuda de un software básico como una hoja
de cálculo.
1 Indicadores como nivel de dificultad, correlación pregunta-prueba, discriminación de la pregunta, confiabilidad del
instrumento (dentro de la Teoría Clásica de las Pruebas) u otros más modernos y robustos como el grado de ajuste, la curva
característica del ítem o la función de información, entre otros (dentro de la Teoría de Respuesta al Ítem) son utilizados como
criterios de evaluación de la calidad de los instrumentos en procesos de evaluación masiva.
13
Si no se dispone de este tipo de herramientas, es posible producir con relativa facilidad algu-
nos indicadores cuantitativos y cualitativos para realizar el análisis de ítems.
Algunos indicadores fácilmente estimables son:
• porcentaje de respuestas correctas para cada pregunta,
• errores más frecuentes en las respuestas,
• preguntas que no fueron respondidas por ningún evaluado (o que muchos dejaron
de responder),
• preguntas respondidas correctamente por casi todos,
• preguntas respondidas correctamente por muy pocos,
• respuesta más común o respuesta menos común (en preguntas de producción de

respuesta),
• preguntas en las que se equivocaron evaluados cuyo dominio del saber se ha inter-
pretado como alto o bueno por otras fuentes de evaluación,
• opción de respuesta preferida (en ítems de selección),
• cantidad de evaluados que tuvieron dudas para responder un mismo ítem,
• cantidad de evaluados a quienes el tiempo para responder les fue

suficiente/insuficiente.
El análisis de ítems contribuye a verificar que las calificaciones y, por ende, los juicios deriva-
dos del proceso de evaluación no pierdan validez por fallas en la prueba o en su administra-
ción. Cualquier error detectado en esta fase debe ser objeto de análisis para que el equipo
responsable de la prueba implemente los ajustes necesarios en las fases precedentes en las
que consideren pertinente hacerlos para mejorar la calidad de la prueba. Algunas veces, el
análisis de ítems puede conducir a decisiones drásticas como la eliminación de un ítem para
el proceso de calificación; es preferible prescindir para la calificación de una pregunta con
problemas demostrados (excesivamente fácil o difícil, por ejemplo) para no afectar la validez
del proceso que mantenerlo para asegurar la completitud de la estructura de prueba.
El paso a seguir, una vez hecho el análisis de ítems y tomadas las decisiones pertinentes al
respecto, es la definición de Escalas de Calificación que, desde el punto de vista técnico,
se define como la asignación de valores, de acuerdo con ciertas reglas, a los desempeños de
los evaluados cuando se les aplica un instrumento de evaluación (Fenton y Pleeger, 1997).
14
La construcción de escalas es la fase en la que se definen las reglas de asignación de esos va-
lores, con el fin de asegurar que las interpretaciones de los resultados de la evaluación sean
comprensibles y pertinentes.
Es importante reconocer que cada pregunta que conforma el instrumento tiene asociado
un nivel de dificultad particular que debe ser tomado en cuenta en el momento de asignar
la calificación a cada evaluado2 . Es también importante asegurarse de que las valoraciones
asignadas tengan en cuenta las diferencias en los instrumentos si se aplican distintas formas
del mismo a subgrupos de evaluados (cuando un docente diseña un tema A y un tema B, por
ejemplo, para que la mitad de los estudiantes responda cada tema, sin considerar el nivel de
dificultad que reviste cada tema, puede estar ofreciendo ventajas a aquella parte de evalua-
dos que responda el tema menos exigente). Escalas propiamente dichas implican la estan-
darización de los datos usando el promedio y la desviación estándar de los mismos para lle-
var todas las puntuaciones brutas (respuestas correctas) a puntuaciones que cobran sentido
como parte de una distribución (por ejemplo, la distribución normal o gaussiana) o de un
criterio o estándar externo (por ejemplo, escalas de niveles de desempeño). Actualmente,
se dispone de modelos matemáticos más avanzados como los de la Teoría de Respuesta al
Ítem, que convierten las puntuaciones brutas en puntuaciones log intervalares y permiten la
construcción de escalas de calificación con mayores posibilidades de interpretación.
Un propósito fundamental en esta etapa tiene que ver con la intención de diseñar escalas de
calificación que permitan y garanticen la comparabilidad de resultados a lo largo del tiem-
po, teniendo en cuenta que las pruebas no son idénticas y las poblaciones son diferentes.
La fase final del proceso de evaluación es la socialización o la Divulgación de los Resul-

tados, no solamente a los evaluados, sino también a otros grupos interesados en conocer
tales resultados (padres de familia, directivos de la institución, organismos gubernamenta-
les, sociedad civil, etc.). Esta es una fase crucial del proceso de evaluación, porque de la cla-
ridad y oportunidad con que se comuniquen los resultados, depende en gran medida que
se cumpla o no con los propósitos esenciales de la evaluación como proceso y de la prue-
ba propiamente dichos. El verdadero valor de la evaluación como base de la cualificación
educativa se da cuando los usuarios se informan de manera detallada de aquellos aspectos
en los que se detectan fallas y en aquellos en los que se infiere fortaleza, de tal suerte que
los diferentes actores del proceso educativo puedan tomar decisiones acertadas sobre las
acciones que conviene implementar con miras a la cualificación permanente. En el aula, la
retroalimentación personalizada y pormenorizada de los resultados puede marcar la dife-
rencia entre el sistema tradicional y un sistema educativo eficaz. La posibilidad de reconocer
los errores cometidos abre el camino hacia la búsqueda de mecanismos para superarlos.
2 Los modelos modernos de procesamiento de datos basados en la Teoría de Respuesta al Ítem utilizan formulaciones
matemáticas que tienen en cuenta el nivel de dificultad de los ítems para producir una calificación.
15
III. Consideraciones para el desarrollo de pruebas
Un ítem puede definirse como la enunciación de una tarea a partir de cuya respuesta se
infiere la habilidad3 o dominio para desarrollar la tarea planteada. Es una situación deman-
dante, intencionalmente diseñada para poner en evidencia la habilidad de quien se enfrente
a ella.
Una prueba es un conjunto intencionalmente diseñado de ítems a través de cuyas respues-

tas se infiere el grado de habilidad de quienes son evaluados, en relación con el objeto de
evaluación. Una prueba constituye la agregación sinérgica y articulada de ítems para “decir
algo” sobre la persona que los responde, en función de la eficacia con que lo hace.
En tal sentido, un agregado casual de ítems no puede ser considerado una prueba. Como ya
se mencionó, lograr una prueba implica partir de un Marco Conceptual que delimite consi-
deraciones necesarias para concebir cada pregunta con una intencionalidad específica ten-
diente a lograr que el conjunto de ítems elaborados constituya verdaderamente un instru-
mento de evaluación completo e íntegro.
Esa integridad, sin embargo, no riñe con el hecho de que se encuentre la necesidad de di-
versificar los formatos de ítems a utilizar en la prueba, si esto responde a la intención de
rastrear de la manera más completa el objeto de evaluación previamente definido. Conviene
entonces conocer distintos formatos de ítems disponibles y sus potencialidades evaluativas
a la hora de desarrollar pruebas.
1. Formatos de ítems
El formato de un ítem corresponde a la manera en que se presentan, estructuran o disponen
sus partes para plantear la tarea de evaluación. Dependiendo de lo que debe hacer el eva-
luado para responder el ítem, hay dos grandes categorías de formatos: los que demandan
que el evaluado elija o seleccione una respuesta dentro de un grupo de opciones de res-
puesta dadas por el evaluador o los que demandan que el evaluado construya su respuesta
a partir de unas instrucciones dadas.
Tradicionalmente, a cada formato se le asocia la capacidad para provocar en el evaluado

procesos cognitivos particulares; no obstante, más que el formato en sí mismo, es la combi-
nación de la formulación de la tarea de evaluación, la naturaleza del objeto evaluado y las
características de la población lo que determina que un formato resulte más apropiado para
evaluar unos procesos cognitivos que otros.
3 Habilidad en sentido genérico. Puede ser asumida como conocimiento, competencia, saber, desempeño, etc.
16
Cada formato tiene asociadas unas instrucciones particulares que pueden revestir mayor
o menor grado de dificultad dependiendo de las características de la población evaluada
y/o del grado de familiaridad de la población con el formato. Si bien es admisible que en
una misma prueba se incluyan varios formatos de ítems, es de considerar el hecho de que
el tiempo que toma la lectura restringe el tiempo neto para dar respuesta a los ítems. En tal
sentido, conviene mesurar la diversificación de formatos en una prueba.
En el gráfico siguiente se presentan algunos de los formatos más representativos dentro de

las dos categorías mayores: de selección y de producción de respuesta. La separación de los
dos grandes grupos de formatos se basa en aquello que exige la tarea de evaluación, que
puede corresponder a seleccionar una respuesta de entre un grupo ofrecido de opciones o
a elaborar una respuesta (sea esta escrita, verbal o de otra índole) a partir de instrucciones
ofrecidas.
FORMATOS DE ÍTEMS
SELECCIÓN
SELECCIÓNDE
DERESPUESTAS
RESPUESTA PRODUCCIÓN DE RESPUESTA
SELECCIÓN MÚLTIPLE COMPLETAR RESPUESTAS
APAREAMIENTO ENSAYO CORTO
SELECCIÓN ALTERNA ENSAYO LARGO
FALSO / VERDADERO ENSAYO ORAL
DEPENDIENTES DE CONTEXTOS EJECUCIÓN
PRODUCTOS NO ESCRITOS
17
Formatos de selección de respuesta
En estos formatos hay, por lo general, tres elementos básicos:
• Un contexto que delimita las condiciones para responder.
• Una proposición o enunciado que indica una tarea de evaluación.
• Una o más proposiciones que obran como opciones de respuesta.
Ítems de apareamiento
La estructura típica de estos ítems consiste en dos listados de proposiciones dispuestos en
columna, uno frente al otro. El evaluado debe asociar o emparejar las palabras, expresiones o
conceptos ofrecidos de acuerdo con la tarea descrita en el enunciado. El número de elemen-
tos que conforman las listas generalmente es distinto, con lo que se pretende incrementar
el nivel de dificultad del ítem, dado que con número igual de elementos la posibilidad de
aplicar el principio de descarte para realizar el emparejamiento se incrementa.
Una característica de buena redacción de estos ítems es que todas las palabras o conceptos
del enunciado y de las opciones correspondan con el tópico evaluado, de lo contrario serán
fácilmente descartables.
Es un formato útil para evaluar habilidad de asociación de conceptos y evocación de defini-

ciones, principios, teorías, etc. No se recomienda para evaluar procesos cognitivos superio-
res (como análisis o argumentación).
Ejemplo:
A continuación se encuentra una lista de nombres de ciudades capitales y otra lista con
nombres de países. Trace una línea para relacionar cada ciudad con el nombre del país del
cual es la capital.
Atenas Chile
Madrid Rusia
Bogotá Grecia
Canadá
Washington
Londres Holanda
París Inglaterra
Managua Francia
Venezuela
Nicaragua
Estados Unidos
España
Colombia
18
Es de resaltar que en el ejemplo la lista de la derecha es más larga (para que algunas palabras
funcionen como distractores) y que ambas listas conservan homogeneidad (todas las de la
izquierda son ciudades capitales y todos los de la derecha son países). No se recomienda in-
cluir elementos de naturaleza distinta dentro de una lista (para el ejemplo, usar nombres de
montañas o de ríos), ya que podría hacer más fácil el ítem por cuanto los estudiantes podrían
descartar fácilmente dichas opciones.
Ítems de Falso/Verdadero
En este tipo de ítems, el estudiante debe evaluar el grado de verdad de un enunciado o pro-
posición, escribiendo una letra F si considera que el enunciado es falso y una V si considera
que el enunciado es verdadero; en ocasiones la instrucción se cambia para que la respuesta
sea un sí o un no.
Es un formato relativamente simple de elaborar; no obstante, es recomendable cuidar la

redacción de los enunciados para asegurar su claridad y precisión. Proposiciones en exceso
triviales merman el interés del evaluado; proposiciones tautológicas o aquellas que plan-
tean ejercicios de lógica pueden afectar la validez del instrumento si el objeto de evaluación
definido en el Marco Conceptual no es justamente la capacidad de razonamiento lógico.
Además, es recomendable evitar el uso de proposiciones negativas, pues éstas pueden ge-
nerar confusión en el evaluado en tanto negar (señalar como falsa) una proposición negativa
equivale a decir que es verdadera. Es conveniente redactar proporcionalmente enunciados
falsos y verdaderos.
Dado que regularmente se prefiere trabajar con proposiciones cortas, este formato se facilita
para aplicar largas listas de enunciados sin que su elaboración ni su respuesta exijan mucho
tiempo. De esta forma, puede abordarse la evaluación extensa de un objeto de evaluación
o la evaluación de varios objetos en un mismo instrumento. Con este formato, el evaluado
puede ganar claridad sobre conceptos, definiciones, caracterizaciones de hechos, lugares,
personajes, etc.
La facilidad para su calificación es una característica que hace de este formato uno de los
más populares en evaluaciones escritas. Se le atribuye la desventaja de servir para evaluar
esencialmente la capacidad de evocación o de recuerdo. Esto, sin embargo, puede superarse
a partir de la elaboración de proposiciones que involucren procesos cognitivos más exigen-
tes. Lo que sí puede resultar una desventaja es el hecho de no permitir conocer directamen-
te las razones que llevan al evaluado a dar su respuesta en uno u otro sentido.
19
Ejemplo:
Junto a cada una de las siguientes proposiciones marque, en el espacio en blanco, V si con-
sidera que es verdadera y F si considera que es falsa.
__ América fue descubierta por Cristóbal Colón.
__ La corona inglesa financió la expedición de Colón a América.
__ Colón supo que NO había llegado a las Indias tan pronto vio a los habitantes del lugar.
__ Todos los nativos americanos asumieron una actitud de sumisión ante los españoles
recién llegados.
Ítems de selección múltiple con única respuesta

Este formato, considerado el más popular en los procesos de evaluación objetiva, está cons-
tituido por dos partes esenciales: un enunciado, que contiene la pregunta o tarea de eva-
luación y algunas (entre 3 y 5) opciones que plantean posibles respuestas al enunciado,
entre las cuales sólo una es la respuesta correcta. El enunciado puede ser planteado como
una pregunta o como una proposición incompleta que se completa con las opciones de
respuesta. En tal sentido, la coherencia y la concordancia gramatical entre enunciado y op-
ciones es algo que el evaluador debe cuidar con esmero.
Muchos de estos ítems pueden estar acompañados de un material informativo que se pre-
senta para delimitar la tarea de evaluación. A esta información se le denomina contexto y
puede ser un texto, una gráfica, una tabla, etc. El evaluado se remite a la información que
ofrece el contexto y a la pregunta implícita en el enunciado para pensar y elegir la respuesta
válida entre las opciones. En algunos ítems, el contexto se funde con el enunciado y no se
reconoce fácilmente como una parte distinta de este. En otras ocasiones, el contexto está
dado por el saber previo que se supone tienen los evaluados acerca del objeto de evaluación,
gracias al proceso formativo en el que están inmersos y, por tanto, no se hace explícito.
Su principal ventaja es que genera confianza en el evaluado en cuanto a la objetividad con

que se califica cada pregunta y en que al evaluador le resulta relativamente simple la tarea
de asignar la calificación. Puede utilizarse para evaluar procesos cognitivos básicos, pero
también procesos complejos; la diferencia radica en la complejidad de la tarea planteada y,
por ende, en lo elaborado de las opciones de respuesta.
El problema asociado con este formato no depende exactamente del formato como tal, más
bien está relacionado con el hecho de que en algunos contextos se ha asumido como el úni-
20
co modo de evaluación que existe, ignorando a otros formatos de ítems que, complemen-
tados con este, permitirían no sólo la identificación de las falencias de los evaluados, sino el
entendimiento de las posibles causas de dichas falencias.
Ejemplo:
L IB R O S E N C AD A C AS A
400
En
En llaagráfica
gráfica sese
muestra
muestrala cantidad de libros
la c a ntidad de lique
broshay
350 en
quecada
hay casa de un
en cada vecindario.
casa de u nDe Deesta EENUNCIADO
acuerdoio.con
vecindar N UN CI AD O
300
información,
acuerdo con ela casa 5 tiene:
s ta info rmación, la casa 5 tien e :
250
200
150 A-
A-menos
meno s de de la
la mitad
m itad de
de libros
libro s que
que las
las casas
casa s11yy44juntas.
juntas.
CANTIDAD LIBROS
100 B-
B-más
má slibros
libro sque
quelas
lascasas
casas2 2y 3 y juntas.
3 juntas. OPCIONES
O P C IO N ES
50
C-
C -eleldoble
dob le de
de porcentaje
po rc entaje que
que la casa
c asa3.3.
0
CAS A 1 CAS A 2 CAS A 3 C AS A 4 CA S A 5
D - aproximadamente,
D- ap roximadamen te, el el 20%
20% de de todos
todos los
los libros.
libro s.
CONTEXTO
C O NT EX T O
Ítems de selección múltiple compleja

Son ítems en los cuales se plantea un enunciado seguido de algunas proposiciones (entre
3 y 5, generalmente) y la tarea de evaluación consiste en seleccionar la combinación de
proposiciones que da respuesta al enunciado. Regularmente, al menos dos de las proposi-
ciones son correctas, aunque puede darse que sólo una de ellas lo sea. No es recomendable
que la totalidad de las proposiciones sea incorrecta, pues resultaría contradictorio obligar al
evaluado a que suponga la inexistencia de una respuesta correcta en un formato que le pide
seleccionar una respuesta correcta. Las combinaciones de proposiciones, por lo general, son
planteadas por el evaluador, pero puede variarse el formato en una modalidad en la que el
evaluado deba elegir por sí solo la combinación de proposiciones que crea correcta.
De acuerdo con la experiencia, para los evaluados estos ítems parecen resultar más compli-
cados que los de formato de opción múltiple con única respuesta. Sin embargo, la redacción
clara de instrucciones y la ejercitación previa con este formato contribuye a superar esa difi-
cultad, lo que permite aprovechar sus bondades para la evaluación de procesos de discrimi-
nación, de análisis y de evaluación.
Su desventaja puede estar en que los evaluados respondan correctamente el ítem por cono-
cimiento parcial –no total– de la repuesta, especialmente cuando pueden descartar algunas
proposiciones con facilidad. En tal sentido, resulta necesario cuidar la elaboración de los
enunciados para homogenizar su lenguaje y su nivel de generalización y equilibrar la plau-
sibilidad de todas ellas.
21
Ejemplo:
¿De qué factores depende la fuerza de rozamiento para un cuerpo que se desliza por encima
de un plano inclinado?
1) Del ángulo de inclinación del plano.

2) De la velocidad del cuerpo que se desliza.
3) Del material del cuerpo que se desliza.
4) Del peso del plano inclinado.
A. 1 y 4.
B. 2 y 3.
C. 2, 3 y 4.
D. 1, 2 y 3.
Ítems dependientes de un contexto

En este formato se presenta un párrafo o texto, por lo general, de mediana extensión, un
afiche, una figura o una tabla de datos, es decir, alguna información que sirva de contexto
para la enunciación de la tarea o tareas de evaluación. A partir de ese contexto se derivan re-
gularmente entre cuatro y ocho ítems que pueden orientarse a recabar el dominio puntual
o comprensión de la información presentada, o bien, pueden orientarse hacia la capacidad
de relación de tal información con otras previamente abordadas en el proceso educativo.
Los ítems derivados de un contexto pueden ser todos de un mismo formato o ser de forma-
tos distintos. Combinar formatos de selección con algunos de producción de respuesta a
partir de un mismo contexto puede ser recomendable para explorar desde procesos simples
de evocación hasta procesos complejos, como el pensamiento crítico.
La gran ventaja de trabajar con un contexto es que, además de resultar interesante para el
evaluado el contar con alguna información novedosa o de apariencia llamativa, se puede
lograr una evaluación profunda del asunto tratado en ese contexto. Sin embargo, puede en-
contrarse algo de dificultad en la elaboración o en la búsqueda de contextos suficientemen-
te atractivos, ricos en información y que además sean adecuados para la población objetivo.
Por último, debe evitarse el uso de contextos demasiado largos o complejos, que agoten la
capacidad de atención de los evaluados.
22
Ítems de analogías
En este formato se presenta, a manera de enunciado, una pareja de palabras o situaciones
que mantienen entre sí una relación particular (de inclusión, de dependencia, de semejanza,
entre otras) y a continuación, como opciones de respuesta, una lista de parejas de palabras o
situaciones entre las cuales debe elegirse aquella que mantenga la misma relación descrita
en la pareja de palabras del enunciado. Las palabras del enunciado pueden estar ligadas por
la expresión “es a” y al final, para dar entrada a las opciones, la palabra “como” o, sencillamen-
te, pueden ir separadas por el signo dos puntos.
Las analogías son muy útiles para evaluar procesos cognitivos como la relación, la compa-
ración, la inferencia y la generalización. Su mayor uso se da en evaluación de la aptitud ver-
bal.
Es un formato que resulta algo complejo de realizar. Los evaluadores deben tener claras las
distintas categorías de analogías posibles, para asegurarse de que la relación que plantean
en el enunciado sea la misma que se usa para la clave y de que no existan otras relaciones
posibles de inferir en el enunciado que puedan identificarse en opciones distintas a la que el
evaluador señala como clave. Por esto, la construcción de las opciones tiende a basarse en el
uso de relaciones decididamente distintas a la definida en el enunciado. A continuación se
enuncian los tipos de relaciones más usadas para construir ítems de este formato.
Relación causa – efecto. Ejemplos: éxito - orgullo, calor - sofoco, pérdida - frustración.
Relación parte – todo. Ejemplos: dedo - mano, llanta - carro.
Relación continente – contenido. Ejemplos: pan - harina, oxígeno - agua.
Relación agente – objeto. Ejemplos: médico - enfermedad, profesor - ignorancia.
Relación agente – producto. Ejemplos: abeja - miel, escritor - ensayo.
Relación conjunto – elemento. Ejemplos: pared – ladrillo, libro - hoja.
Relación objeto – función. Ejemplos: abanico - airear, fogata - calentar.
Relación polos opuestos. Ejemplos: alto - bajo, dadivoso - egoísta.
Ejemplo:
Rueda es a carro como:
A. manubrio es a bicicleta.
B. gasolina es a motor.
C. riel es a tren.
23
En el ejemplo anterior, la relación en el enunciado es de parte – todo. La llanta hace parte del
carro, como el manubrio hace parte de una bicicleta. Si faltase cualquiera de ellos, el aparato
no podría considerarse completo. Las opciones B y C representan relaciones distintas. Si bien
es cierto que tanto la ausencia de la gasolina en el motor, como del riel para el tren impiden
su funcionalidad, no puede decirse que un motor no esté completo si no tiene gasolina, ni
que un tren esté incompleto si faltan los rieles.
Formatos de ítems de producción de respuesta

En estos formatos hay, por lo general, tres elementos básicos:
• Un contexto que delimita las condiciones para responder.

• Una tarea de evaluación que indica lo que se espera que el evaluado produzca.
• Unos criterios que delimitan las condiciones esperables del producto.
Ítems de completamiento
Estos ítems constan de enunciados (por lo general no muy extensos) seguidos de uno o más
espacios en blanco disponibles para escribir la o las palabras (o la cifra o la grafía) que com-
pletan adecuadamente tal proposición.
Este formato puede utilizarse para evaluar desde procesos cognitivos básicos como el re-
cuerdo hasta procesos más complejos como el análisis o la aplicación; su uso más común es
para evaluar el proceso de recuerdo.
Se trata de un formato relativamente fácil de elaborar y de calificar; sin embargo, por tratarse
de un formato de producción de respuesta, el evaluador puede encontrarse con una ines-
perada variedad de respuestas que dificulte el proceso de calificación. El esmero en clarificar
los enunciados contribuye a reducir el riesgo de que los evaluados interpreten el ítem de
manera distinta a lo deseado y, por tanto, minimiza la probabilidad de encontrar respuestas
demasiado heterogéneas. Los enunciados pueden ser planteados en forma interrogativa,
pero es más usual que sean planteados a manera de proposición incompleta.
Ejemplo:
La ley matemática según la cual el orden de los factores no altera el producto se

denomina __________
El resultado de multiplicar 9 por 5 y sumarle 10 es ____________
El resultado de multiplicar 8 por 10 y restarle 15 es ____________
La operación matemática inversa a la multiplicación es la___________
24
Ítems de ensayo
En este tipo de ítems se pide al estudiante producir una composición escrita a partir de unos
criterios e indicaciones previamente dados. Aunque se denomina al formato “de ensayo”,
bajo esta denominación se agrupa a cualquier tipo de composición o de producción escrita
solicitada, aun cuando no corresponda con las características literarias de un ensayo.
En los ítems de ensayo, también conocidos como de producción escrita, se establece un

contexto que delimita condiciones de análisis y de reflexión para que el evaluado elabore
su respuesta. Este contexto puede ser un texto de referencia, una situación o un proble-
ma suficientemente delimitado o caracterizado por el evaluador. Aunque también puede
construirse un ítem de ensayo sin contexto, que deje abierta la producción a la creatividad
individual frente a un tema general propuesto, en el ámbito educativo se prefiere cierta deli-
mitación previa de las condiciones esperables de la producción escrita, con lo cual se evita el
problema de la excesiva diversidad de respuestas que complejiza considerablemente el es-
tablecimiento y la aplicación de criterios objetivos para la calificación. Además del contexto,
en este formato se define una tarea específica: ¿qué es lo que se espera específicamente que
el evaluado haga? y se establecen unas condiciones mínimas esperables del producto final.
Los ítems de ensayo permiten la evaluación de procesos cognitivos complejos que inclu-
yen la creatividad, la habilidad argumentativa, la capacidad de síntesis y de evaluación. Su
debilidad es que resulta sumamente exigente en cuanto al establecimiento y la aplicación
rigurosa de criterios de valoración de las respuestas. A menos que el evaluador esté debi-
damente entrenado, existe el riesgo de que criterios subjetivos afecten tal valoración. Así,
una caligrafía difícil de comprender o un estilo de redacción divertido pueden desviar la
atención del evaluador y llegar a sesgarlo en el proceso de asignar las valoraciones a los
aspectos predefinidos. Es común contar con un segundo evaluador de las producciones es-
critas como mecanismo para comprobar la confiabilidad de las calificaciones asignadas por
el primer evaluador. La recalificación sirve, además, como estrategia para afinar la guía de
calificación (scoring rubric en inglés) que contiene la definición de los criterios para asignar
calificaciones. Los aspectos generales que incluye la guía de calificación, en algunos casos,
se da a conocer a los evaluados antes de la aplicación de la prueba para asegurar que tengan
claridad en cuanto a los aspectos que serán valorados y garantizar condiciones equitativas
de aplicación.
Ejemplo:
A partir de la lectura hecha del libro El Principito, escriba un texto de no más de dos pá-
ginas tamaño carta, en el cual usted presente: a) un breve resumen del libro, b) su inter-
pretación personal de la problemática social que intenta plantear el autor de la obra y c)
una propuesta personal de finalización diferente de la historia.
25
Del texto que usted presente se evaluará, en cuanto a forma: ortografía, aplicación de
normas gramaticales, ilación. En cuanto a contenido: que incluya respuesta a las tres ta-
reas planteadas, que el resumen sea completo en cuanto a tema de la historia, persona-
jes, sitio en donde se desarrolla la historia, nudo y desenlace; que la interpretación de la
problemática sea plausible y la originalidad en cuanto a la propuesta de finalización.
En el ítem anterior el contexto es el libro El Principito, la tarea se describe en los literales a), b)
y c) y se delimitan condiciones esperables del producto tales como longitud y temática de
la producción escrita, así como también se dan a conocer de manera genérica los criterios
de evaluación.
La guía de calificación, que no se da a conocer en este ejemplo, deberá definir con suficien-
te claridad los aspectos que el evaluador entiende como una “interpretación plausible de
la problemática” y más aún, definir algunos “niveles de plausibilidad” que le orientarán a
la hora de asignar las calificaciones. ¿Cuáles interpretaciones entenderá como plausibles?,
¿cuáles no?, son preguntas a las que el evaluador se enfrenta y que debe responder antes de
proceder a la calificación, si bien, como se ha mencionado, tales criterios puedan irse afinan-
do en la medida en que transcurre el proceso de calificación.
Ítems de expresión oral

El ejercicio de evaluar la expresión oral puede ser tanto o más exigente que la evaluación
de la producción escrita. Es necesario definir con claridad las características que debe tener
el producto, llámese exposición, conferencia o discurso, que se usarán como criterios de
calificación.
Es, sin duda, un formato de ítem que ofrece grandes posibilidades a la hora de evaluar pro-
cesos cognitivos de orden superior, tales como la argumentación, la síntesis y la explicación,
y constituye una oportunidad importantísima para que los evaluados demuestren –y desa-
rrollen– habilidades esenciales, pero lastimosamente poco contempladas en procesos de
evaluación educativa, como la organización del discurso, el manejo adecuado de la voz, el
autocontrol de ansiedad, la modulación del nivel de lenguaje en función del público recep-
tor, entre otras.
Su dificultad radica en el proceso de aplicación, ya que exige la aplicación y calificación indi-

vidualizada con la consecuente dilación del proceso evaluativo. No obstante, la evaluación
de la oralidad puede realizarse con pruebas pequeñas, es decir, que basta con unos cuantos
minutos por evaluado para recoger algunas evidencias interesantes acerca de sus habilida-
des en este dominio.
Al igual que con los ítems de ensayo, se requiere de la definición clara de criterios de evalua-
ción para evitar el sesgo del evaluador en la asignación de calificaciones.
26
Ítems de productos no escritos
Frente al proceso evaluativo tradicional de lápiz y papel que privilegia la evaluación del do-
minio cognitivo y disciplinar, en las últimas décadas ha cobrado fuerza el uso de instrumen-
tos de evaluación que ponen al evaluado en situaciones cercanas a aquellas en las cuales
se tendrá que desenvolver fuera del contexto educativo. La evaluación de competencias
laborales, la evaluación por proyectos y la evaluación a través de portafolios son evaluacio-
nes que no sólo constatan un saber teórico o disciplinar, sino que buscan evidenciar el saber
hacer de los evaluados a través de sus producciones o ejecuciones: maquetas, obras de arte,
proyectos, montajes, coreografías, etc.
La bondad de este tipo de evaluación es, por una parte, que generalmente despierta el in-
terés y por tanto asegura el compromiso del evaluado con el proceso evaluativo, y por otra,
que propicia la vinculación entre saberes teóricos y aplicación práctica de los mismos en
contextos de la cotidianidad. Adicionalmente, las evidencias, en este caso los productos ela-
borados, son susceptibles de ser valorados y juzgados por grupos distintos de evaluadores,
desde diversas perspectivas, lo que contribuye a que el evaluado reciba una más completa
retroalimentación.
Es recomendable que la utilización de este formato no se limite a una única presentación del
producto, sino que se convenga la posibilidad de hacer ajustes al mismo y, por ende, nuevas
presentaciones en la medida en que se recibe la retroalimentación. Es decir, este formato
de ítem propende hacia el perfeccionamiento de la ejecución o del producto creado, con lo
cual el proceso de evaluación encuentra su mejor representación como herramienta educa-
tiva para la cualificación del proceso de formación.
Longitud de la prueba
Una pregunta recurrente cuando se trata de elaboración de instrumentos evaluativos es
¿cuántas preguntas debe tener la prueba? La respuesta, sin duda, no es simple. No hay una
fórmula que permita afirmar categóricamente que la prueba deba tener tal o cual número
de ítems, pero, definitivamente, es una pregunta importante y el evaluador debe reflexionar
sobre el asunto. La respuesta a esta interrogante debe ser el resultado del análisis de varios
factores, todos ellos relacionados con la validez del proceso de evaluación.
Un aspecto necesario de analizar es el objeto de evaluación. Entre más grande sea aquel sa-
ber que quiero evaluar, probablemente –no categóricamente– mayor número de ítems será
necesario incluir. La categorización del dominio disciplinar y del dominio cognitivo que dan
lugar a la estructura de la prueba, y que puede ser más o menos específica de acuerdo con
el propósito y el uso de la evaluación, da indicios de qué tan extensa deberá ser la prueba.
Entre más detalladas sean esas categorizaciones, mayor número de ítems se requerirá para
cubrir la totalidad de las celdas de la estructura de prueba.
27
Otro aspecto que hay que considerar es el uso que se dará a los resultados. Si se trata de una
prueba de selección para asignación de becas escolares, por ejemplo, un insuficiente núme-
ro de ítems puede conducir a tomar decisiones equivocadas, con múltiples consecuencias
negativas imaginables para evaluadores y para evaluados.
Las características de desarrollo psico-biológico de la población que va a ser evaluada, su

nivel sociocultural y educativo son también factores determinantes para decidir la longitud
adecuada del instrumento. El tiempo durante el cual las personas pueden mantener la aten-
ción en una misma actividad antes de agotarse es diferente de acuerdo con éstas.
Los aspectos de orden logístico y administrativo cobran también importancia a la hora de

decidir la longitud de una prueba. Los recursos humanos, materiales y financieros disponi-
bles para diseñar, elaborar, aplicar y calificar la prueba son variables a considerar para asegu-
rar que el instrumento diseñado pueda llegar a materializarse.
En conclusión, dado que a partir de los resultados en la prueba el evaluador infiere de los
evaluados su nivel de dominio del objeto de evaluación, la inquietud acerca de la longitud
adecuada de una prueba implica un cuestionamiento de orden ético: ¿con cuántas pregun-
tas aplicadas el evaluador se sentirá confiado de hacer inferencias válidas acerca de los eva-
luados?
Niveles de revisión
Aunque en el proceso de desarrollo de una prueba se haya adelantado la revisión de cada
uno de los ítems para asegurar su relevancia frente al propósito de evaluación y su pertinen-
cia con la estructura y las especificaciones de prueba, una vez que la prueba sea ensamblada
como instrumento íntegro, debe ser sometida a revisiones adicionales que busquen identifi-
car las posibles fallas que afecten la potencia comunicativa del instrumento para corregirlas
antes de proceder a la multiplicación de los ejemplares de prueba requeridos.
El asunto consiste en hacer una lectura completa del instrumento para verificar la inexisten-
cia de errores de ortografía o tipográficos, la claridad de instrucciones y su correspondencia
con los formatos de ítems utilizados; para controlar que haya secuencialidad en la numera-
ción de los ítems y en la numeración de páginas; para verificar la legibilidad de la fuente de
letra utilizada, la nitidez de los gráficos, dibujos o tablas incluidos, la ubicación correcta de
estos en relación con la posición de los ítems de los cuales hacen parte, entre otras cosas.
Esto en cuanto a los aspectos formales. En relación con el contenido del instrumento, se
busca ratificar que este sea pertinente y coherente. Se controla que todos los ítems inclui-
dos apunten a evaluar aquello que se definió como objeto de evaluación, que todos estén
correctamente formulados, que no se repita la intención evaluativa entre ellos (es decir, que
no haya varios ítems indagando lo mismo, aunque de distinto modo) y que ninguno de ellos
ofrezca pistas para responder a otro u otros dentro de la prueba.
28
Idealmente, estas revisiones deberían ser realizadas por personas con experticia en el obje-
to de evaluación (para los asuntos de contenido) y con algún nivel de entrenamiento para
detectar fallas específicas (correctores de estilo y correctores editoriales, para los asuntos
propios de forma). No obstante, de no poder contar con estos expertos, estas revisiones bien
pueden ser realizadas por uno o dos lectores independientes del instrumento, es decir, que
no hayan tenido participación en su elaboración, pero que tengan formación y experiencia
en el área o disciplina que se evaluará.
Independientemente del grado de experticia de los revisores, siempre será necesario que
antes de iniciar su revisión sean debidamente informados de los propósitos evaluativos de
la prueba y de las características de la población que se evaluará para darle un marco de
referencia a su labor. Es una práctica recomendable hacer uso de algún formato o plantilla
para que los revisores registren sus observaciones, ítem por ítem, y para que hagan suge-
rencias de mejora al instrumento. El equipo responsable del desarrollo de la prueba tiene
el deber de analizar las observaciones de los revisores, de decidir sobre la inclusión o no de
sus sugerencias y de tomar las decisiones finales de ajuste, siempre bajo la perspectiva de
mejorar su calidad.
Confidencialidad
Otro aspecto importante que debe considerarse para el desarrollo de una prueba es el ase-
guramiento de la confidencialidad de los ítems. El principio de equidad y, por ende, la validez
del proceso evaluativo se verían drásticamente afectados si se llegase a filtrar información
sobre el contenido específico de los ítems.
Como se ha mencionado, la estructura de prueba y, aun las especificaciones técnicas de la

misma, deberían ser divulgadas con anterioridad a la aplicación para asegurar condiciones
de equidad entre los evaluados al momento de afrontar la evaluación. Sin embargo, el con-
tenido puntual de los ítems debe ser custodiado con esmero, al menos hasta después de la
aplicación, momento en el cual el evaluador puede decidir o no dar a conocer los ítems y,
aún más, puede llegar a utilizarlos en el proceso de retroalimentación de resultados.
Es necesario, entonces, asegurar que el acceso a los ítems se restrinja a un grupo mínimo ne-
cesario de personas (quienes desarrollan y quienes revisan la prueba), los que deben com-
prometerse explícitamente a guardar confidencialidad de la información que conozcan de
la prueba.
Es conveniente que el manejo y custodia de los archivos físicos y magnéticos de los ítems
se delegue a una persona para que esta se encargue de responder por la seguridad y por la
integridad de los mismos. Las diferentes versiones o copias de los ítems generadas durante
el proceso de elaboración deben ser efectivamente eliminadas (arrugarlas y lanzarlas en una
cesta de basura o borrarlas de una carpeta de computador sin vaciar la papelera no resultan
29
prácticas efectivas de eliminación).
Es usual hacer uso de claves de acceso o de procesos de encriptamiento de los archivos para
que los mismos puedan ser accedidos únicamente por personal autorizado. Los sistemas
avanzados de evaluación constituyen bancos magnéticos de ítems que permiten hacer uso
de tecnologías de información, no sólo para asegurar la posibilidad de administrar a discre-
ción los niveles de acceso a la información referida a pruebas para diferentes usuarios, sino
también para sistematizar la información asociada a cada ítem (nombre de quién lo elaboró,
tema del que trata, proceso cognitivo que evalúa, formato utilizado para su elaboración,
etc.) y facilitar el ensamble de distintas versiones de una prueba.
Problemas en el proceso de evaluación

Problema 1. No tener claro el propósito.
¿Para qué?
El propósito de la evaluación determina qué y cómo preguntamos.
Problema 2. No reconocer las características de la población objetivo.
¿A quién?
Cada población tiene un perfil cognitivo, académico, sociocultural, etc., que delimita meto-
dológicamente la evaluación.
Problema 3. No verificar la coherencia propósito - pregunta.
¿La pregunta indaga por lo que nos interesa?
La evidencia que arroja la respuesta del evaluado debe corresponder con aquello que nos
propusimos verificar.
Problema 4. No prever las respuestas inesperadas.
¿La pregunta se presta para distintas interpretaciones?
La redacción de la pregunta en lenguaje claro, directo y completo asegura su interpretación

homogénea y, por ende, respuestas comparables.
30
Problema 5. No formular suficientes preguntas.
¿Las preguntas hechas arrojan evidencia suficiente para hacer inferencias?
El número suficiente de ítems de un instrumento no está preestablecido por ningún mode-

lo; es una cuestión que involucra lo técnico y lo ético para decidir cuándo la evaluación es
completa.
Problema 6. Hacer inferencias incorrectas.
¿Qué puedo inferir, en realidad, de la evaluación que hice?
Las inferencias hechas a partir de un proceso de evaluación tienen efectos, a veces decisivos,
en las vidas de las personas. La objetividad y mesura en las inferencias es deber ético del
evaluador.
IV. Reglas para la elaboración de ítems
De selección
Son numerosos los estudios realizados sobre las técnicas que conducen a mejorar la calidad
de los ítems (Haladyna y Downing, 1989; Haladyna, 1994; Cheung y Bucat, 2002; ICFES, 2004;
Cohen y Woollack, 2004). A continuación se enuncian algunas de las reglas básicas para ela-
borar correctamente ítems de selección.
Consideraciones básicas
• Planeación: Se debe contar con un cronograma de trabajo que organice las fases
del diseño del instrumento, teniendo en cuenta la complejidad del mismo. En la
planeación del desarrollo de ítems deben incluirse los tiempos de revisión y ajustes
de los mismos.
• Trabajo en equipo: Asegurarse de contar con personal que domine el objeto de eva-
luación, que conozca las características de la población objetivo y, en lo posible,
que cuente con experiencia en formación y evaluación es crucial para lograr niveles
de reflexión, discusión y perfeccionamiento del instrumento.
• Supervisión: Debe haber un responsable de la prueba que se encargue de asegurar,

en todo momento, que el desarrollo de los ítems guarde coherencia con lo plantea-
do en el Marco Conceptual de la prueba.
31
Reglas de elaboración
• Use lenguaje claro y directo, sin sacrificar el nivel técnico y académico requerido.
• Utilice el nivel de vocabulario adecuado para la población objetivo.
• Esmérese en la corrección de estilo; corrija errores de ortografía, de puntuación y de

concordancia.
• Fije parámetros claros para la escritura de citas bibliográficas, abreviaturas, siglas,

unidades.
• Evite que los ítems adolezcan de cualquiera de los siguientes problemas que los
hace confusos (Roberts, 1993):
o Contenido trivial.
o Presencia de información irrelevante.
o Presentación ambigua de las opciones de respuesta.
o Discriminación muy fina –difícil de percibir– entre las opciones de respuesta.
o Presentación de información en modo distinto a como ha sido aprendida por la po-
blación evaluada dentro de su proceso educativo.
• Verifique que cada ítem corresponda a una y sólo una de las celdas de la estructura
de prueba definida.
• Verifique que se elaboren los ítems en la cantidad y en los formatos fijados en las
especificaciones de prueba.
• No incluya ítems con sesgo ideológico o con prejuicios implícitos.
• Cada ítem debe ser independiente de los demás y no proveer pistas que faciliten la
repuesta a otros.
• Verifique que la respuesta a cada ítem demanda el dominio del objeto de evalua-
ción y no una opinión personal.
• Incluya ítems con distintos grados de complejidad, desde fáciles hasta difíciles.
• Garantice la coherencia gramatical entre enunciado y opciones de respuesta.
• Evite ítems demasiado extensos o demasiado cortos.
32
• Las opciones de respuestas deben organizarse siguiendo alguna regla: compleji-
dad, longitud, cantidad, etc.
• Asegúrese de que las opciones de respuesta realmente son diferentes entre sí. No
use sinónimos o parafraseos para construir opciones de respuesta.
• No utilice opciones de respuesta que se descartan por simple lógica, que resultan
descabelladas o absurdas casi para cualquier evaluado.
• Procure la homogeneidad de las opciones de respuesta en cuanto a su longitud y

nivel de lenguaje utilizado.
• No utilice opciones como: “Todas las anteriores” o “Ninguna de las anteriores”.
• Evite el uso de dobles negaciones en la redacción de enunciados y/o de opciones.

Las proposiciones con expresiones de negación deben ser resaltadas con fuente en
mayúsculas o en negrita.
• Evite el uso de adverbios que dan la idea de sobregeneralizaciones o de totalizacio-

nes: siempre, nunca, totalmente, absolutamente, completamente.
• Las respuestas correctas o claves de los ítems de una prueba deben ubicarse aleato
riamente en todas las posiciones posibles de las opciones de respuesta, es decir, la
clave no debe aparecer siempre en una misma posición.
De producción
Los ítems de producción de respuesta cobran sentido en la medida en que sirvan al propó-
sito de evaluar aquello que no sea posible evidenciar a través de preguntas de selección de
respuesta. Dado que tanto el diseño como la aplicación y la calificación de un ítem de pro-
ducción de respuesta reviste mayor complejidad que para un ítem de selección, no resulta
muy sensato evaluar con ítems de producción lo que podría evaluarse con ítems de selec-
ción. Sin embargo, este tipo de pregunta cobra cada día mayor importancia y ha tenido un
gran desarrollo en los últimos años (Badger y Thomas, 1992), porque indiscutiblemente es
la respuesta a necesidades evaluativas para las cuales los ítems de selección no resultan su-
ficientemente eficaces. Así, se usan ítems de producción para evaluar la coherencia y perti-
nencia de cadenas de razonamientos, la capacidad para comunicar y defender argumentos,
para poner en evidencia la creatividad, la recursividad, la capacidad de síntesis para resolver
situaciones novedosas (Badger y Thomas, Op. Cit), así como para demostrar habilidades ar-
tísticas o evidenciar el dominio de habilidades de comunicación oral, entre otras.
33
Consideraciones básicas
• El planteamiento de la tarea debe ser claro para asegurar que todos los evaluados
hagan la misma interpretación de aquello que el evaluador espera que hagan.
• Los conocimientos y/o habilidades que demande la realización de la tarea de eva-

luación deben guardar correspondencia con las categorías disciplinares y cognitivas
que en la estructura de prueba definen el objeto de evaluación.

• Los temas elegidos para las tareas de evaluación deben resultar interesantes para
los evaluados; una tarea con sentido práctico, con algún nivel de utilidad, despierta
mayor motivación que realizar ejercicios netamente académicos.
• El nivel de dificultad de la tarea debe definirse intencionalmente, de tal manera

que represente un verdadero reto a las habilidades de los evaluados; no puede ser
demasiado fácil ni demasiado difícil.
• Los criterios que se tendrán en cuenta para la calificación de las producciones debe-
rían ser divulgados antes de la evaluación, al menos en forma genérica. Esto otorga
equidad al proceso.
Reglas de elaboración
• El contexto utilizado para delimitar la tarea de evaluación no debe favorecer o des-

favorecer a subgrupos de evaluados por el grado de familiaridad que tengan con el
mismo.
• De preferencia, los materiales que sirven de contexto deben ser suministrados por
el evaluador. En su defecto, es necesario asegurarse de la accesibilidad a tales mate-
riales.
• Evite tareas que se orienten a evaluar demasiados aspectos a la vez. El proceso de

calificación puede hacerse muy dispendioso y puede terminar arriesgando su con-
fiabilidad.
• Las condiciones para realizar la tarea, así como las especificaciones de los productos
entregables deben enunciarse con claridad y preferentemente ser divulgados por
escrito entre los evaluados.
• Las especificaciones de los productos entregables deben ser definidas con anterio-
ridad a la aplicación del ítem. Son susceptibles de ajustes luego de la aplicación,
únicamente si tales ajustes se orientan a mejorar la validez del proceso y siempre y
34
cuando no afecten la equidad en el mismo.
• Los calificadores deben recibir entrenamiento previo para asegurar la aplicación im-
parcial de los criterios de evaluación definidos.
• Debe implementarse algún mecanismo para verificar la confiabilidad de las califica-

ciones. Un segundo calificador independiente de una muestra de los ítems califica-
dos puede dar idea de qué tan objetivamente se entendieron y aplicaron los crite-
rios de calificación.
Validez del proceso de evaluación

A lo largo de este documento se ha hecho referencia a la importancia de la validez en el
proceso de evaluación y se ha mencionado la forma en que diferentes acciones dentro del
proceso de diseño pueden afectarla. La validez es, sin duda, la característica esencial que
debe cumplir un proceso de evaluación.
El concepto moderno de validez es global, a diferencia del concepto clásico que consideraba
distintos “tipos de validez”. Se reconoce que la validez no es del instrumento, sino de las in-
ferencias e interpretaciones realizadas a partir de las puntuaciones obtenidas en un proceso
de evaluación.
La validez se entiende como “un juicio evaluativo del grado en el cual la evidencia empírica
y teórica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados
en un instrumento de medición, así como las acciones que se realizan a partir de dichos re-
sultados” (Messick, 1989).
Dicho de otra forma, la validez hace referencia a qué tan fuertes son los argumentos y las
evidencias que respaldan las interpretaciones hechas acerca del objeto de evaluación (por
ejemplo, la competencia) con base en los resultados obtenidos. En tal sentido, la validez
compromete a todas las etapas del diseño de pruebas: desde la definición y caracterización
del objeto de evaluación hasta la divulgación de resultados.
El evaluador debe reconocer que el usuario directo de la evaluación –el evaluado– así como
los usuarios indirectos de la misma, utilizarán los resultados para comprender y analizar pro-
cesos para emitir juicios, para tomar decisiones, etc., y, por tanto, es su responsabilidad ética
y social asegurarse de que tales análisis, juicios y decisiones sean verdaderamente posibles
de derivar de la evaluación que realiza.
La rigurosidad académica y técnica en la elaboración de los ítems (y, por supuesto, en las de-
más etapas del diseño del instrumento) aporta para que los resultados de la evaluación sean
pertinentes con su propósito. Las reglas de elaboración de ítems descritas en este docu-
35
mento tienen la pretensión de orientar al evaluador para que los ítems que elabore evalúen
realmente el objeto de evaluación que se pretende; en este sentido, la aplicación de tales
reglas contribuye a consolidar la argumentación alrededor de lo que los resultados indican
es verdadero.
En resumen, en lo que concierne a la elaboración de ítems, los siguientes son factores que
afectan negativamente la validez:
• La tarea a la cual se enfoca el ítem no es relevante para la evaluación del objeto

definido en el marco de fundamentación.
• En el ítem se incluye información que la facilita o la dificulta, más allá del propósito
de evaluación.
Ahora bien, en la fase de elaboración de ítems no basta con aplicar las reglas de elaboración
para contribuir a la validez; es necesario garantizar que quienes van a ser evaluados con di-
chos ítems no lleguen a responderlos correctamente por circunstancias distintas a su propia
capacidad o competencia.
Así, entonces, es de vital importancia cuidar del correcto desarrollo de cada uno de las eta-
pas del diseño mencionadas con anterioridad, velar porque cada acción realizada esté en-
focada a utilizar y aprovechar unos resultados desde distintas perspectivas y, no solamente
interesarse por obtener un simple puntaje sin valor de interpretación.
36
Bibliografía
Badger, E. y Thomas, B. 1992. Open ended questions in reading. Washington,

ERIC Clearinghouse on Tests Measurement and Evaluation.
Cohen, A. y Woollack, J. 2004. Helpful tips for creating reliable and valid classroom test
Handbook on Test Development. U. Wisconsin.
Cheung, D. y Bucat, R. 2002. How can we construct good multiple choice items? Hong Kong,
Sciens and Technology Education Conference.
Fenton, N. E. y Pfleeger, S. L. 1997. Software metrics. A rigurous and practical approach. Boston,
PWS Pub.
Haladyna y Downing. 1989. A taxonomy of multiple choice item writing rules

Apply Measurement in Education. Vol. 1.
Haladyna, T. 1994. Development and validating multiple choice test items. New Jersey,
Lawrence Earlbaum Associates.
Hambleton, R. y Zaal, J. 1994. Advances in educational psychological testing. Boston,

Kluwer Academic Publishers.
ICFES. 2004. Estándares para la construcción de pruebas. Grupo de Evaluación de la Educación

Superior. Bogotá, ICFES.
Messick, S. 1989. Validity. R.L. Linn (Ed.). Educational measurement New York, Macmillan,
3a ed., pp. 13-103.
Roberts, D. 1993. An empirical studying on the nature of trick questions.

Journal of educational measurement. Vol. 30.
37

Metodologia - Pa Ra - Evaluaciãn PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metodologia - Pa Ra - Evaluaciãn PDF

Cargado por

Copyright:

Formatos disponibles

DOCUMENTOS

REGLAS PARA ELABORAR ÍTEMS

El uso de un lenguaje que no discrimine ni reproduzca esquemas discriminatorios entre

II. Fases del diseño de prueba 6

III. Consideraciones para el desarrollo de pruebas 16

IV. Reglas para la elaboración de ítems 31

V. Validez del proceso de evaluación 35

La evaluación puede definirse como un proceso permanente y sistemático de recolección

A partir de la definición anterior conviene precisar que:

• La evaluación educativa es un proceso; NO debe ser una actividad esporádica.

• Los resultados de la evaluación deben usarse para mejorar el proceso educativo. Si

• Además de los evaluados, hay otras personas o grupos necesitados de conocer y de

El diseño de un instrumento de evaluación implica una serie de fases que se describen en el

II. Fases del diseño de pruebas

1. ¿Cuál es el propósito de evaluación?, ¿Qué se busca decir de los evaluados a partir

2. ¿Quiénes conforman la población objetivo?, ¿Cuáles son sus características cultura-

3. ¿Qué recursos humanos, físicos, materiales y financieros se tienen disponibles?,

4. ¿Cuál es el mejor tipo de instrumento para cumplir el propósito planteado:

5. ¿A quiénes interesa enterar de los resultados?, ¿Quiénes están interesados en

ANÁLISIS DE ÍTEMS PROCESAMIENTO

Las Especificaciones de Prueba abarcan dos aspectos:

1. Se refieren a una descomposición en categorías del objeto de evaluación; dado que en

En lo disciplinar, la categorización puede orientarse en función de temas –práctica que re-

Paralelamente con la definición de categorías del orden disciplinar, se categoriza también

Las taxonomías o categorizaciones del objeto de evaluación, tanto en el orden disciplinar

El entrecruzamiento de las categorías disciplinar y cognitiva da lugar a lo que se conoce

A continuación se presenta una estructura de prueba simple para evaluación de conoci-

(Aplicación) (Análisis) (Síntesis)

La Estructura de Prueba también sirve para orientar la retroalimentación de resultados, dado

2. Además de la definición de la Estructura de Prueba, las Especificaciones de Prueba inclu-

Cuando la prueba está terminada y, siempre que se tenga la oportunidad de hacerlo, se

Algunos indicadores fácilmente estimables son:

• porcentaje de respuestas correctas para cada pregunta,

• errores más frecuentes en las respuestas,

• preguntas respondidas correctamente por casi todos,

• preguntas respondidas correctamente por muy pocos,

• respuesta más común o respuesta menos común (en preguntas de producción de

• opción de respuesta preferida (en ítems de selección),

• cantidad de evaluados que tuvieron dudas para responder un mismo ítem,

• cantidad de evaluados a quienes el tiempo para responder les fue

La fase final del proceso de evaluación es la socialización o la Divulgación de los Resul-

Una prueba es un conjunto intencionalmente diseñado de ítems a través de cuyas respues-

Tradicionalmente, a cada formato se le asocia la capacidad para provocar en el evaluado

En el gráfico siguiente se presentan algunos de los formatos más representativos dentro de

SELECCIÓN MÚLTIPLE COMPLETAR RESPUESTAS

APAREAMIENTO ENSAYO CORTO

SELECCIÓN ALTERNA ENSAYO LARGO

FALSO / VERDADERO ENSAYO ORAL

DEPENDIENTES DE CONTEXTOS EJECUCIÓN

• Un contexto que delimita las condiciones para responder.

• Una proposición o enunciado que indica una tarea de evaluación.

• Una o más proposiciones que obran como opciones de respuesta.

Es un formato útil para evaluar habilidad de asociación de conceptos y evocación de defini-

Es un formato relativamente simple de elaborar; no obstante, es recomendable cuidar la

__ América fue descubierta por Cristóbal Colón.

__ La corona inglesa financió la expedición de Colón a América.

Ítems de selección múltiple con única respuesta

Su principal ventaja es que genera confianza en el evaluado en cuanto a la objetividad con

Ítems de selección múltiple compleja

1) Del ángulo de inclinación del plano.

Ítems dependientes de un contexto

Rueda es a carro como:

Formatos de ítems de producción de respuesta