Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DISEÑO DE PRUEBAS
PARA EVALUACIÓN EDUCATIVA
Héctor Valdés
Coordinador del LLECE
Autores
Carlos A. Pardo Adames
Martha C. Rocha Gaona
Beatriz Scherz
Edición
INTERSON
Diseño y diagramación
Los autores son responsables por la selección y presentación de los hechos y contenidos en
esta publicación, así como de las opiniones expresadas en ella, que no son necesariamente
el pensamiento de la UNESCO y no comprometen a la Organización. Las denominaciones
empleadas y la presentación de los datos no implican, de parte de UNESCO, ninguna toma
de posición respecto al estatuto jurídico de los países, las ciudades, los territorios, las zonas
y sus autoridades, ni respecto al trazado de sus fronteras o límites.
Permitida su reproducción total o parcial, así como su traducción a cualquier idioma siempre
que se cite la fuente, y no se utilice con fines lucrativos.
ISBN 978-956-322-045-2
Introducción
Índice
4
I. El concepto de evaluación 5
De selección de respuesta 18
. Apareamiento 18
. Falso/Verdadero 19
. Selección múltiple con única respuesta 20
. Selección múltiple compleja 21
. Dependientes de un contexto 22
. De analogías 23
De producción de respuesta 24
. De completamiento 24
. De ensayo 25
. De expresión oral 26
. De productos no escritos 27
. Longitud de la prueba 27
. Niveles de revisión 28
. Confidencialidad 29
. Problemas en el proceso de evaluación 30
. Bibliografía 37
Introducción
L
a evaluación educativa, especialmente la que se realiza en el aula, forma parte integral
del proceso general de educación y no puede ser asumida como un proceso inde-
pendiente, desarticulado, esporádico o extraño. Desde esta perspectiva, la evaluación
debe realizarse con la intención de formar parte del aprendizaje y convertirse en una herra-
mienta que lo cualifique y lo potencie.
Para que esta visión pueda hacerse realidad, es necesario que la evaluación en sí misma se
realice con apego riguroso a las técnicas psicométricas, es decir, a los estándares y reglas
que constituyen el saber sobre diseño de pruebas. La aplicación de éstas busca asegurar la
validez del proceso evaluativo y, por ende, garantizar los principios de equidad, objetividad,
pertinencia y relevancia deseables en todo proceso de evaluación.
Las técnicas para la elaboración de pruebas constituyen pautas más o menos generales acer-
ca de las consideraciones que se deben tener en cuenta desde el momento en que se define
un propósito de evaluación. Si bien estas técnicas se han decantado principalmente como
el legado de la experiencia acumulada en el desarrollo de procesos de evaluaciones masivas
de carácter externo, es claro que son aplicables a los procesos de evaluación en el aula y que
su aplicación contribuye a elevar los niveles de calidad y de utilidad del proceso evaluativo.
Eso sí, cabe aclarar que la calidad de las pruebas no puede atribuirse exclusivamente al ape-
go a las técnicas señaladas en este documento. En realidad, la experiencia ha demostrado
sobradamente que, en gran parte, la clave para lograr una prueba confiable está en el grado
de claridad que se tenga del propósito de la evaluación, del conocimiento profundo del
área, tópico o disciplina que se va a evaluar, así como del conocimiento de las caracterís-
ticas de la población que va a ser evaluada y de la forma en que se ha dado su proceso de
formación. Resulta, además, de suma utilidad que el trabajo de diseñar, desarrollar y revisar
el instrumento sea elaborado en equipo, como garantía de que los criterios individuales se
someten a niveles deseables de objetivación.
Este documento comienza con una reflexión sobre el concepto de evaluación. Luego, des-
cribe las fases del diseño de pruebas educativas y algunas técnicas generales de elaboración
de ítems o preguntas, tanto de aquellos de formato de selección como de los de formato de
producción de respuesta. Al final, se incluye un apartado sobre la validez del proceso evalua-
tivo, por ser la cualidad por excelencia que se busca garantizar en estos procesos.
4
I. El concepto de evaluación
• La evaluación debe ser intencionada y coherente con los propósitos del proceso
formativo; NO debe ser improvisada.
• La evaluación debe ser permanente y diversa. La valoración sobre qué tanto han
comprendido los evaluados un determinado tema debe basarse en evidencias de
muchas clases, recogidas en distintas situaciones; NO debe hacerse únicamente al
finalizar la formación.
• La evaluación debe servir para aprender. Las preguntas deben promover reflexión y
relación de saberes; NO debe basarse exclusivamente en la memorización de datos.
Finalmente, es necesario tener en cuenta que una prueba debe ser entendida como una
estrategia que pretende facilitar el acopio de evidencias sobre lo que saben y son capaces
de hacer los evaluados con respecto a un tema, área o tópico particular, y que, a partir de
tales evidencias, se pueden emitir juicios acerca del grado de comprensión que tienen los
5
evaluados de ese tema, área o tópico. Así, si los instrumentos están mal diseñados, hay una
alta probabilidad de llegar a inferencias incorrectas y, por tanto, es altamente probable que
los juicios emitidos carezcan de validez y que, por ende, las decisiones tomadas para ajustar
el proceso de formación no resulten eficaces. Por tanto, para cualquier evaluador es un de-
ber profesional y ético asegurarse de que los instrumentos que utiliza estén correctamente
construidos.
Tener claridad sobre las respuestas a estas preguntas –y sobre otras que pueden derivarse
de éstas– es imprescindible para delimitar las condiciones bajo las cuales el equipo va a
trabajar.
6
En la siguiente gráfica se presenta de manera global las fases del diseño de pruebas.
MARCO CONCEPTUAL DE LA
EVALUACIÓN
ESPECIFICACIONES
DE PRUEBA
DESARROLLO APLICACIÓN
DE PRUEBAS PILOTO / DEFINITIVA
ESCALAS DE CALIFICACIÓN
DIVULGACIÓN
DE RESULTADOS
7
El proceso de evaluación se inicia con la elaboración de un Marco Conceptual, documen-
to que ordena las ideas sobre el propósito y el enfoque que tendrá la prueba. Este marco
orienta las etapas subsiguientes en tanto que en él se describe el propósito de la evaluación
(¿para qué la prueba?); el objeto de evaluación y el enfoque o teoría desde el cual ese ob-
jeto será definido (¿qué se evaluará?, ¿cómo se define ese objeto?); la población objetivo
(¿a quién se evaluará?) y los usuarios de los resultados (¿a quiénes les interesa conocer los
resultados de esta evaluación?). El Marco Conceptual recoge las decisiones y argumentos en
los ámbitos disciplinar, metodológico, educativo, administrativo y legal, que dan sustento a
la prueba como un instrumento de evaluación pertinente para cumplir el propósito enun-
ciado.
Como se trata del documento que establece la ruta a seguir en las demás fases del diseño,
es recomendable que en su elaboración participen personas que dominen el saber, tópico o
tema que será objeto de evaluación, junto con personas que aporten el saber técnico sobre
diseño de instrumentos de evaluación y personas que conozcan a la población objetivo y
que entiendan el sentido y propósito de la prueba. Este equipo deberá avanzar en una etapa
de consulta de información que les asegure un nivel de conocimiento apropiado sobre las
tendencias en materia de conceptualización y de evaluación del tópico de interés y luego
deberá someter a discusión la información recogida para optar por una línea conceptual
clara que será fundamental para iluminar la fase siguiente en la que se definen las Especi-
ficaciones de Prueba.
8
utilizan para realizar tal categorización; es el caso de la muy conocida Taxonomía de Bloom,
la cual diferencia seis procesos cognitivos distintos asociados al logro educativo, a saber:
recuerdo, comprensión, aplicación, análisis, síntesis y evaluación. Independientemente de
la taxonomía utilizada, es importante que las categorías cognitivas definidas apunten a dar
cuenta del objeto de evaluación planteado en el Marco Conceptual del instrumento. Así, si
se ha definido que el objeto de evaluación es, por ejemplo “conocimientos en matemáticas”,
el dominio cognitivo “conocimientos” debe ser evaluado a partir de las categorías cognitivas
que, de acuerdo con el criterio teóricamente sustentado por el equipo que diseña la prueba,
den cuenta de lo que se quiere significar con el constructo “conocimientos”.
9
DOMINIO CATEGORÍA 1 CATEGORÍA 2 CATEGORÍA 3
COGNITIVO
Tarea 1: Resolver
problemas de
suma con
una incógnita,
ARITMÉTICA contextualizado
a situaciones
cotidianas
reales.
Tarea 1: Explicar
las diferencias
de un método
ÁLGEBRA para resolver
LINEAL una ecuación
dada, frente a
otros métodos
disponibles.
TRIGONOMETRÍA XX
10
acuerdo con algún criterio de contenido, de forma, de organización logística, etc.); el tiempo
del cual dispondrán los evaluados para responder la prueba –y sus partes, si es pertinente
aclararlo– y todos los demás lineamientos que aseguren una adecuada conformación o en-
samblaje del instrumento y que contribuyan a clarificar las condiciones en las cuales debe
realizarse la aplicación. Como en todas las decisiones que se toman a lo largo del proceso
de diseño, éstas deben ser coherentes con lo que se ha planteado en el Marco Conceptual.
La longitud de la prueba no será la misma para un grupo de pequeños de nueve años que
para un grupo de adultos profesionales; factores como el tiempo efectivo de atención que
es posible exigirle a cada población son esenciales como insumo para definir las Especifica-
ciones de Prueba.
Las Especificaciones de Prueba constituyen una de las fases más complejas del diseño de
pruebas (Hambleton y Zaal, 1994), especialmente porque implica la toma de decisiones que
definen las formas de acción en las etapas sucesivas. Mientras en el Marco Conceptual se
describe qué y a quién se va a evaluar, en las especificaciones se delimita el cómo de esa
evaluación. En este sentido, es deber del evaluador dar a conocer entre los evaluados, con
suficiente anticipación a la fecha de aplicación, al menos un resumen de las especificacio-
nes. Con esto se busca garantizar que ningún evaluado llegue al momento de la aplicación
sin saber a qué se enfrentará y sin haber tenido la opción de prepararse para demostrar de
la mejor manera sus habilidades. Con esto se pretende respetar el principio de equidad y
favorecer la validez del proceso de evaluación en tanto que, tratándose de pruebas de logro
o de desempeño en el contexto educativo, se espera que la prueba ponga en evidencia ha-
bilidades que son resultado de procesos de formación o entrenamiento.
Además, las Especificaciones de Prueba deben ser conocidas a profundidad por todas las
personas que vayan a participar en la siguiente fase, el Desarrollo de la Prueba.
El desarrollo implica redactar los ítems o preguntas siguiendo las pautas plasmadas en el
Marco Conceptual y, más precisamente, en la Estructura de Prueba. Elaborar ítems en la can-
tidad y de las categorías requeridas, que apunten al propósito de la prueba, que demanden
el grado de exigencia apropiado para la población objetivo y que se apeguen a las reglas
técnicas establecidas para su construcción, asegura en gran medida que todos los ítems de
la prueba cumplan con cuatro características que resultan esenciales: equidad, pertinencia,
relevancia y calidad técnica.
La equidad se refiere a que los ítems no deben favorecer a una parte de la población obje-
tivo en razón de sus condiciones sociales, culturales, étnicas, religiosas o de cualquier otra
índole. La pertinencia se verifica por su contenido y por el proceso cognitivo que evalúa;
un ítem es pertinente si puede ubicarse clara e indiscutiblemente en una de las celdas de
la Estructura de Prueba. La relevancia alude al hecho de que, habiéndose verificado la per-
tinencia, se pueda argumentar académica y técnicamente que cada ítem cumple un papel
importante en el propósito de hacer evidente el dominio que tiene el evaluado del objeto
de evaluación; dicho de otra forma, un ítem es relevante cuando no hay discusión en con-
11
siderar que la respuesta a tal ítem verdaderamente contribuye a diferenciar entre quienes
saben y quienes no saben aquello sobre lo cual la pregunta indaga. La calidad técnica tiene
que ver con la observación de las reglas específicas de construcción que apuntan a asegurar
la corrección gramatical y la pureza semántica en la construcción de los ítems. Lograr que los
ítems tengan estas cuatro cualidades debe ser el objetivo de quien elabora una prueba.
Sin embargo, no es labor fácil construir ítems de calidad técnica, equitativos, pertinentes y
relevantes. Lograr buenas preguntas exige trabajo en equipo, dedicación y paciencia. El tra-
bajo coordinado de elaboradores de ítems con revisores que tengan un buen dominio del
objeto de evaluación es esencial para lograr el cometido de una prueba bien hecha. Igual-
mente, la participación de revisores de estilo y de revisores de edición, en la medida que las
condiciones lo permitan, decididamente es aconsejable.
Si no es posible realizar aplicación piloto, una alternativa para someter a validación los ítems
o preguntas consiste en realizar lo que se denomina un “juicio de expertos”. Este es un pro-
cedimiento a través del cual un equipo de personas, con demostrados conocimientos y
experiencia en la formación y evaluación de aquello que se ha definido como objeto de
evaluación en la prueba, emiten su juicio respecto de las cualidades previamente mencio-
nadas: equidad, pertinencia, relevancia y calidad técnica. Por supuesto, estos juicios deben
ser emitidos a la luz de las consideraciones del Marco Conceptual. Los expertos pueden va-
lerse de formatos previamente diseñados para registrar sus juicios y para argumentarlos
debidamente, de tal forma que el proceso de elaboración de ítems se retroalimente con
claridad y sea posible adelantar los ajustes en aquellos que conduzcan, finalmente, a tener
12
la prueba que se requiere. Bien sea a través de la aplicación piloto o del juicio de expertos, la
prueba siempre debe ser sometida a esta fase de revisión pues, como se ha mencionado, es
prácticamente imposible asegurar una prueba de excelente calidad desde el primer intento
de desarrollo. Vale reiterar que sobre la calidad del instrumento descansa la validez de los
juicios que se emitirán acerca de los evaluados y que, en tal sentido, reviste un compromiso
ético no escatimar esfuerzos en cualificar la prueba.
Una vez que se dispone de una prueba debidamente validada, la siguiente fase corresponde
a la administración o Aplicación Definitiva de la prueba. Ya desde la aplicación piloto,
si la hubo o en su defecto, desde un momento previo a la fase de aplicación se han debi-
do definir las condiciones de administración convenientes y necesarias para los propósitos
de evaluación. Se trata de garantizar que las condiciones para responder la prueba sean
equitativas y confortables para la población objetivo. Así, se espera que todos los evaluados
reciban las mismas instrucciones antes de la aplicación; que ninguno de ellos haya teni-
do conocimiento previo del contenido de la prueba; que ninguno tenga la oportunidad de
buscar o de recibir ayuda extra de fuente alguna para responder durante la aplicación; que
las condiciones de la aplicación, tales como la disposición de materiales (cuadernillos de
prueba, hoja de respuestas, instrucciones, lápiz, borrador, etc.), la acomodación en un pupi-
tre, la iluminación y la ventilación y el tiempo disponible para responder sean iguales para
todos los evaluados y, finalmente, que cuando las circunstancias lo ameriten, se tomen las
medidas necesarias para que personas de la población objetivo con alguna limitación física
reciban soporte adecuado para afrontar el proceso de evaluación en condiciones equivalen-
tes al resto de la población.
Las respuestas que los evaluados dan a la prueba, junto con la información que se haya re-
cogido durante el proceso de aplicación, como la suficiencia de los tiempos permitidos para
responder la prueba y la claridad de las instrucciones de respuesta, entre otros, sirven para
realizar lo que se denomina un Análisis de Ítems. Esta fase se realiza luego de cada aplica-
ción, se trate de una piloto o una definitiva. Al revisar las respuestas dadas por los evaluados
es posible identificar con relativa facilidad indicadores como la frecuencia de respuesta a
cada pregunta o cuáles preguntas no fueron respondidas por la mayoría de los evaluados.
Estos y otros indicadores sirven para retroalimentar el proceso de elaboración de ítems y
aún fases anteriores del diseño. Vale mencionar que existen programas de computador de
bajo costo e incluso algunos gratuitos, descargables de la web, que procesan las respuestas
dadas a una prueba y arrojan indicadores estadísticos que permiten valorar la calidad de
una prueba desde el punto de vista psicométrico1 . Tratándose de procesos de evaluación
en el aula, estos análisis pueden realizarse con ayuda de un software básico como una hoja
de cálculo.
1 Indicadores como nivel de dificultad, correlación pregunta-prueba, discriminación de la pregunta, confiabilidad del
instrumento (dentro de la Teoría Clásica de las Pruebas) u otros más modernos y robustos como el grado de ajuste, la curva
característica del ítem o la función de información, entre otros (dentro de la Teoría de Respuesta al Ítem) son utilizados como
criterios de evaluación de la calidad de los instrumentos en procesos de evaluación masiva.
13
Si no se dispone de este tipo de herramientas, es posible producir con relativa facilidad algu-
nos indicadores cuantitativos y cualitativos para realizar el análisis de ítems.
• preguntas que no fueron respondidas por ningún evaluado (o que muchos dejaron
de responder),
• preguntas en las que se equivocaron evaluados cuyo dominio del saber se ha inter-
pretado como alto o bueno por otras fuentes de evaluación,
El análisis de ítems contribuye a verificar que las calificaciones y, por ende, los juicios deriva-
dos del proceso de evaluación no pierdan validez por fallas en la prueba o en su administra-
ción. Cualquier error detectado en esta fase debe ser objeto de análisis para que el equipo
responsable de la prueba implemente los ajustes necesarios en las fases precedentes en las
que consideren pertinente hacerlos para mejorar la calidad de la prueba. Algunas veces, el
análisis de ítems puede conducir a decisiones drásticas como la eliminación de un ítem para
el proceso de calificación; es preferible prescindir para la calificación de una pregunta con
problemas demostrados (excesivamente fácil o difícil, por ejemplo) para no afectar la validez
del proceso que mantenerlo para asegurar la completitud de la estructura de prueba.
El paso a seguir, una vez hecho el análisis de ítems y tomadas las decisiones pertinentes al
respecto, es la definición de Escalas de Calificación que, desde el punto de vista técnico,
se define como la asignación de valores, de acuerdo con ciertas reglas, a los desempeños de
los evaluados cuando se les aplica un instrumento de evaluación (Fenton y Pleeger, 1997).
14
La construcción de escalas es la fase en la que se definen las reglas de asignación de esos va-
lores, con el fin de asegurar que las interpretaciones de los resultados de la evaluación sean
comprensibles y pertinentes.
Es importante reconocer que cada pregunta que conforma el instrumento tiene asociado
un nivel de dificultad particular que debe ser tomado en cuenta en el momento de asignar
la calificación a cada evaluado2 . Es también importante asegurarse de que las valoraciones
asignadas tengan en cuenta las diferencias en los instrumentos si se aplican distintas formas
del mismo a subgrupos de evaluados (cuando un docente diseña un tema A y un tema B, por
ejemplo, para que la mitad de los estudiantes responda cada tema, sin considerar el nivel de
dificultad que reviste cada tema, puede estar ofreciendo ventajas a aquella parte de evalua-
dos que responda el tema menos exigente). Escalas propiamente dichas implican la estan-
darización de los datos usando el promedio y la desviación estándar de los mismos para lle-
var todas las puntuaciones brutas (respuestas correctas) a puntuaciones que cobran sentido
como parte de una distribución (por ejemplo, la distribución normal o gaussiana) o de un
criterio o estándar externo (por ejemplo, escalas de niveles de desempeño). Actualmente,
se dispone de modelos matemáticos más avanzados como los de la Teoría de Respuesta al
Ítem, que convierten las puntuaciones brutas en puntuaciones log intervalares y permiten la
construcción de escalas de calificación con mayores posibilidades de interpretación.
Un propósito fundamental en esta etapa tiene que ver con la intención de diseñar escalas de
calificación que permitan y garanticen la comparabilidad de resultados a lo largo del tiem-
po, teniendo en cuenta que las pruebas no son idénticas y las poblaciones son diferentes.
2 Los modelos modernos de procesamiento de datos basados en la Teoría de Respuesta al Ítem utilizan formulaciones
matemáticas que tienen en cuenta el nivel de dificultad de los ítems para producir una calificación.
15
III. Consideraciones para el desarrollo de pruebas
Un ítem puede definirse como la enunciación de una tarea a partir de cuya respuesta se
infiere la habilidad3 o dominio para desarrollar la tarea planteada. Es una situación deman-
dante, intencionalmente diseñada para poner en evidencia la habilidad de quien se enfrente
a ella.
En tal sentido, un agregado casual de ítems no puede ser considerado una prueba. Como ya
se mencionó, lograr una prueba implica partir de un Marco Conceptual que delimite consi-
deraciones necesarias para concebir cada pregunta con una intencionalidad específica ten-
diente a lograr que el conjunto de ítems elaborados constituya verdaderamente un instru-
mento de evaluación completo e íntegro.
Esa integridad, sin embargo, no riñe con el hecho de que se encuentre la necesidad de di-
versificar los formatos de ítems a utilizar en la prueba, si esto responde a la intención de
rastrear de la manera más completa el objeto de evaluación previamente definido. Conviene
entonces conocer distintos formatos de ítems disponibles y sus potencialidades evaluativas
a la hora de desarrollar pruebas.
1. Formatos de ítems
El formato de un ítem corresponde a la manera en que se presentan, estructuran o disponen
sus partes para plantear la tarea de evaluación. Dependiendo de lo que debe hacer el eva-
luado para responder el ítem, hay dos grandes categorías de formatos: los que demandan
que el evaluado elija o seleccione una respuesta dentro de un grupo de opciones de res-
puesta dadas por el evaluador o los que demandan que el evaluado construya su respuesta
a partir de unas instrucciones dadas.
3 Habilidad en sentido genérico. Puede ser asumida como conocimiento, competencia, saber, desempeño, etc.
16
Cada formato tiene asociadas unas instrucciones particulares que pueden revestir mayor
o menor grado de dificultad dependiendo de las características de la población evaluada
y/o del grado de familiaridad de la población con el formato. Si bien es admisible que en
una misma prueba se incluyan varios formatos de ítems, es de considerar el hecho de que
el tiempo que toma la lectura restringe el tiempo neto para dar respuesta a los ítems. En tal
sentido, conviene mesurar la diversificación de formatos en una prueba.
FORMATOS DE ÍTEMS
SELECCIÓN
SELECCIÓNDE
DERESPUESTAS
RESPUESTA PRODUCCIÓN DE RESPUESTA
PRODUCTOS NO ESCRITOS
17
Formatos de selección de respuesta
En estos formatos hay, por lo general, tres elementos básicos:
Ítems de apareamiento
La estructura típica de estos ítems consiste en dos listados de proposiciones dispuestos en
columna, uno frente al otro. El evaluado debe asociar o emparejar las palabras, expresiones o
conceptos ofrecidos de acuerdo con la tarea descrita en el enunciado. El número de elemen-
tos que conforman las listas generalmente es distinto, con lo que se pretende incrementar
el nivel de dificultad del ítem, dado que con número igual de elementos la posibilidad de
aplicar el principio de descarte para realizar el emparejamiento se incrementa.
Una característica de buena redacción de estos ítems es que todas las palabras o conceptos
del enunciado y de las opciones correspondan con el tópico evaluado, de lo contrario serán
fácilmente descartables.
Ejemplo:
A continuación se encuentra una lista de nombres de ciudades capitales y otra lista con
nombres de países. Trace una línea para relacionar cada ciudad con el nombre del país del
cual es la capital.
Atenas Chile
Madrid Rusia
Bogotá Grecia
Canadá
Washington
Londres Holanda
París Inglaterra
Managua Francia
Venezuela
Nicaragua
Estados Unidos
España
Colombia
18
Es de resaltar que en el ejemplo la lista de la derecha es más larga (para que algunas palabras
funcionen como distractores) y que ambas listas conservan homogeneidad (todas las de la
izquierda son ciudades capitales y todos los de la derecha son países). No se recomienda in-
cluir elementos de naturaleza distinta dentro de una lista (para el ejemplo, usar nombres de
montañas o de ríos), ya que podría hacer más fácil el ítem por cuanto los estudiantes podrían
descartar fácilmente dichas opciones.
Ítems de Falso/Verdadero
En este tipo de ítems, el estudiante debe evaluar el grado de verdad de un enunciado o pro-
posición, escribiendo una letra F si considera que el enunciado es falso y una V si considera
que el enunciado es verdadero; en ocasiones la instrucción se cambia para que la respuesta
sea un sí o un no.
Dado que regularmente se prefiere trabajar con proposiciones cortas, este formato se facilita
para aplicar largas listas de enunciados sin que su elaboración ni su respuesta exijan mucho
tiempo. De esta forma, puede abordarse la evaluación extensa de un objeto de evaluación
o la evaluación de varios objetos en un mismo instrumento. Con este formato, el evaluado
puede ganar claridad sobre conceptos, definiciones, caracterizaciones de hechos, lugares,
personajes, etc.
La facilidad para su calificación es una característica que hace de este formato uno de los
más populares en evaluaciones escritas. Se le atribuye la desventaja de servir para evaluar
esencialmente la capacidad de evocación o de recuerdo. Esto, sin embargo, puede superarse
a partir de la elaboración de proposiciones que involucren procesos cognitivos más exigen-
tes. Lo que sí puede resultar una desventaja es el hecho de no permitir conocer directamen-
te las razones que llevan al evaluado a dar su respuesta en uno u otro sentido.
19
Ejemplo:
Junto a cada una de las siguientes proposiciones marque, en el espacio en blanco, V si con-
sidera que es verdadera y F si considera que es falsa.
__ Colón supo que NO había llegado a las Indias tan pronto vio a los habitantes del lugar.
__ Todos los nativos americanos asumieron una actitud de sumisión ante los españoles
recién llegados.
Muchos de estos ítems pueden estar acompañados de un material informativo que se pre-
senta para delimitar la tarea de evaluación. A esta información se le denomina contexto y
puede ser un texto, una gráfica, una tabla, etc. El evaluado se remite a la información que
ofrece el contexto y a la pregunta implícita en el enunciado para pensar y elegir la respuesta
válida entre las opciones. En algunos ítems, el contexto se funde con el enunciado y no se
reconoce fácilmente como una parte distinta de este. En otras ocasiones, el contexto está
dado por el saber previo que se supone tienen los evaluados acerca del objeto de evaluación,
gracias al proceso formativo en el que están inmersos y, por tanto, no se hace explícito.
El problema asociado con este formato no depende exactamente del formato como tal, más
bien está relacionado con el hecho de que en algunos contextos se ha asumido como el úni-
20
co modo de evaluación que existe, ignorando a otros formatos de ítems que, complemen-
tados con este, permitirían no sólo la identificación de las falencias de los evaluados, sino el
entendimiento de las posibles causas de dichas falencias.
Ejemplo:
L IB R O S E N C AD A C AS A
400
En
En llaagráfica
gráfica sese
muestra
muestrala cantidad de libros
la c a ntidad de lique
broshay
350 en
quecada
hay casa de un
en cada vecindario.
casa de u nDe Deesta EENUNCIADO
acuerdoio.con
vecindar N UN CI AD O
300
información,
acuerdo con ela casa 5 tiene:
s ta info rmación, la casa 5 tien e :
250
200
150 A-
A-menos
meno s de de la
la mitad
m itad de
de libros
libro s que
que las
las casas
casa s11yy44juntas.
juntas.
CANTIDAD LIBROS
100 B-
B-más
má slibros
libro sque
quelas
lascasas
casas2 2y 3 y juntas.
3 juntas. OPCIONES
O P C IO N ES
50
C-
C -eleldoble
dob le de
de porcentaje
po rc entaje que
que la casa
c asa3.3.
0
CAS A 1 CAS A 2 CAS A 3 C AS A 4 CA S A 5
D - aproximadamente,
D- ap roximadamen te, el el 20%
20% de de todos
todos los
los libros.
libro s.
CONTEXTO
C O NT EX T O
De acuerdo con la experiencia, para los evaluados estos ítems parecen resultar más compli-
cados que los de formato de opción múltiple con única respuesta. Sin embargo, la redacción
clara de instrucciones y la ejercitación previa con este formato contribuye a superar esa difi-
cultad, lo que permite aprovechar sus bondades para la evaluación de procesos de discrimi-
nación, de análisis y de evaluación.
Su desventaja puede estar en que los evaluados respondan correctamente el ítem por cono-
cimiento parcial –no total– de la repuesta, especialmente cuando pueden descartar algunas
proposiciones con facilidad. En tal sentido, resulta necesario cuidar la elaboración de los
enunciados para homogenizar su lenguaje y su nivel de generalización y equilibrar la plau-
sibilidad de todas ellas.
21
Ejemplo:
¿De qué factores depende la fuerza de rozamiento para un cuerpo que se desliza por encima
de un plano inclinado?
A. 1 y 4.
B. 2 y 3.
C. 2, 3 y 4.
D. 1, 2 y 3.
Los ítems derivados de un contexto pueden ser todos de un mismo formato o ser de forma-
tos distintos. Combinar formatos de selección con algunos de producción de respuesta a
partir de un mismo contexto puede ser recomendable para explorar desde procesos simples
de evocación hasta procesos complejos, como el pensamiento crítico.
La gran ventaja de trabajar con un contexto es que, además de resultar interesante para el
evaluado el contar con alguna información novedosa o de apariencia llamativa, se puede
lograr una evaluación profunda del asunto tratado en ese contexto. Sin embargo, puede en-
contrarse algo de dificultad en la elaboración o en la búsqueda de contextos suficientemen-
te atractivos, ricos en información y que además sean adecuados para la población objetivo.
Por último, debe evitarse el uso de contextos demasiado largos o complejos, que agoten la
capacidad de atención de los evaluados.
22
Ítems de analogías
En este formato se presenta, a manera de enunciado, una pareja de palabras o situaciones
que mantienen entre sí una relación particular (de inclusión, de dependencia, de semejanza,
entre otras) y a continuación, como opciones de respuesta, una lista de parejas de palabras o
situaciones entre las cuales debe elegirse aquella que mantenga la misma relación descrita
en la pareja de palabras del enunciado. Las palabras del enunciado pueden estar ligadas por
la expresión “es a” y al final, para dar entrada a las opciones, la palabra “como” o, sencillamen-
te, pueden ir separadas por el signo dos puntos.
Las analogías son muy útiles para evaluar procesos cognitivos como la relación, la compa-
ración, la inferencia y la generalización. Su mayor uso se da en evaluación de la aptitud ver-
bal.
Es un formato que resulta algo complejo de realizar. Los evaluadores deben tener claras las
distintas categorías de analogías posibles, para asegurarse de que la relación que plantean
en el enunciado sea la misma que se usa para la clave y de que no existan otras relaciones
posibles de inferir en el enunciado que puedan identificarse en opciones distintas a la que el
evaluador señala como clave. Por esto, la construcción de las opciones tiende a basarse en el
uso de relaciones decididamente distintas a la definida en el enunciado. A continuación se
enuncian los tipos de relaciones más usadas para construir ítems de este formato.
Relación causa – efecto. Ejemplos: éxito - orgullo, calor - sofoco, pérdida - frustración.
Relación parte – todo. Ejemplos: dedo - mano, llanta - carro.
Relación continente – contenido. Ejemplos: pan - harina, oxígeno - agua.
Relación agente – objeto. Ejemplos: médico - enfermedad, profesor - ignorancia.
Relación agente – producto. Ejemplos: abeja - miel, escritor - ensayo.
Relación conjunto – elemento. Ejemplos: pared – ladrillo, libro - hoja.
Relación objeto – función. Ejemplos: abanico - airear, fogata - calentar.
Relación polos opuestos. Ejemplos: alto - bajo, dadivoso - egoísta.
Ejemplo:
A. manubrio es a bicicleta.
B. gasolina es a motor.
C. riel es a tren.
23
En el ejemplo anterior, la relación en el enunciado es de parte – todo. La llanta hace parte del
carro, como el manubrio hace parte de una bicicleta. Si faltase cualquiera de ellos, el aparato
no podría considerarse completo. Las opciones B y C representan relaciones distintas. Si bien
es cierto que tanto la ausencia de la gasolina en el motor, como del riel para el tren impiden
su funcionalidad, no puede decirse que un motor no esté completo si no tiene gasolina, ni
que un tren esté incompleto si faltan los rieles.
Ítems de completamiento
Estos ítems constan de enunciados (por lo general no muy extensos) seguidos de uno o más
espacios en blanco disponibles para escribir la o las palabras (o la cifra o la grafía) que com-
pletan adecuadamente tal proposición.
Este formato puede utilizarse para evaluar desde procesos cognitivos básicos como el re-
cuerdo hasta procesos más complejos como el análisis o la aplicación; su uso más común es
para evaluar el proceso de recuerdo.
Se trata de un formato relativamente fácil de elaborar y de calificar; sin embargo, por tratarse
de un formato de producción de respuesta, el evaluador puede encontrarse con una ines-
perada variedad de respuestas que dificulte el proceso de calificación. El esmero en clarificar
los enunciados contribuye a reducir el riesgo de que los evaluados interpreten el ítem de
manera distinta a lo deseado y, por tanto, minimiza la probabilidad de encontrar respuestas
demasiado heterogéneas. Los enunciados pueden ser planteados en forma interrogativa,
pero es más usual que sean planteados a manera de proposición incompleta.
Ejemplo:
24
Ítems de ensayo
En este tipo de ítems se pide al estudiante producir una composición escrita a partir de unos
criterios e indicaciones previamente dados. Aunque se denomina al formato “de ensayo”,
bajo esta denominación se agrupa a cualquier tipo de composición o de producción escrita
solicitada, aun cuando no corresponda con las características literarias de un ensayo.
Los ítems de ensayo permiten la evaluación de procesos cognitivos complejos que inclu-
yen la creatividad, la habilidad argumentativa, la capacidad de síntesis y de evaluación. Su
debilidad es que resulta sumamente exigente en cuanto al establecimiento y la aplicación
rigurosa de criterios de valoración de las respuestas. A menos que el evaluador esté debi-
damente entrenado, existe el riesgo de que criterios subjetivos afecten tal valoración. Así,
una caligrafía difícil de comprender o un estilo de redacción divertido pueden desviar la
atención del evaluador y llegar a sesgarlo en el proceso de asignar las valoraciones a los
aspectos predefinidos. Es común contar con un segundo evaluador de las producciones es-
critas como mecanismo para comprobar la confiabilidad de las calificaciones asignadas por
el primer evaluador. La recalificación sirve, además, como estrategia para afinar la guía de
calificación (scoring rubric en inglés) que contiene la definición de los criterios para asignar
calificaciones. Los aspectos generales que incluye la guía de calificación, en algunos casos,
se da a conocer a los evaluados antes de la aplicación de la prueba para asegurar que tengan
claridad en cuanto a los aspectos que serán valorados y garantizar condiciones equitativas
de aplicación.
Ejemplo:
A partir de la lectura hecha del libro El Principito, escriba un texto de no más de dos pá-
ginas tamaño carta, en el cual usted presente: a) un breve resumen del libro, b) su inter-
pretación personal de la problemática social que intenta plantear el autor de la obra y c)
una propuesta personal de finalización diferente de la historia.
25
Del texto que usted presente se evaluará, en cuanto a forma: ortografía, aplicación de
normas gramaticales, ilación. En cuanto a contenido: que incluya respuesta a las tres ta-
reas planteadas, que el resumen sea completo en cuanto a tema de la historia, persona-
jes, sitio en donde se desarrolla la historia, nudo y desenlace; que la interpretación de la
problemática sea plausible y la originalidad en cuanto a la propuesta de finalización.
En el ítem anterior el contexto es el libro El Principito, la tarea se describe en los literales a), b)
y c) y se delimitan condiciones esperables del producto tales como longitud y temática de
la producción escrita, así como también se dan a conocer de manera genérica los criterios
de evaluación.
La guía de calificación, que no se da a conocer en este ejemplo, deberá definir con suficien-
te claridad los aspectos que el evaluador entiende como una “interpretación plausible de
la problemática” y más aún, definir algunos “niveles de plausibilidad” que le orientarán a
la hora de asignar las calificaciones. ¿Cuáles interpretaciones entenderá como plausibles?,
¿cuáles no?, son preguntas a las que el evaluador se enfrenta y que debe responder antes de
proceder a la calificación, si bien, como se ha mencionado, tales criterios puedan irse afinan-
do en la medida en que transcurre el proceso de calificación.
Es, sin duda, un formato de ítem que ofrece grandes posibilidades a la hora de evaluar pro-
cesos cognitivos de orden superior, tales como la argumentación, la síntesis y la explicación,
y constituye una oportunidad importantísima para que los evaluados demuestren –y desa-
rrollen– habilidades esenciales, pero lastimosamente poco contempladas en procesos de
evaluación educativa, como la organización del discurso, el manejo adecuado de la voz, el
autocontrol de ansiedad, la modulación del nivel de lenguaje en función del público recep-
tor, entre otras.
Al igual que con los ítems de ensayo, se requiere de la definición clara de criterios de evalua-
ción para evitar el sesgo del evaluador en la asignación de calificaciones.
26
Ítems de productos no escritos
Frente al proceso evaluativo tradicional de lápiz y papel que privilegia la evaluación del do-
minio cognitivo y disciplinar, en las últimas décadas ha cobrado fuerza el uso de instrumen-
tos de evaluación que ponen al evaluado en situaciones cercanas a aquellas en las cuales
se tendrá que desenvolver fuera del contexto educativo. La evaluación de competencias
laborales, la evaluación por proyectos y la evaluación a través de portafolios son evaluacio-
nes que no sólo constatan un saber teórico o disciplinar, sino que buscan evidenciar el saber
hacer de los evaluados a través de sus producciones o ejecuciones: maquetas, obras de arte,
proyectos, montajes, coreografías, etc.
La bondad de este tipo de evaluación es, por una parte, que generalmente despierta el in-
terés y por tanto asegura el compromiso del evaluado con el proceso evaluativo, y por otra,
que propicia la vinculación entre saberes teóricos y aplicación práctica de los mismos en
contextos de la cotidianidad. Adicionalmente, las evidencias, en este caso los productos ela-
borados, son susceptibles de ser valorados y juzgados por grupos distintos de evaluadores,
desde diversas perspectivas, lo que contribuye a que el evaluado reciba una más completa
retroalimentación.
Es recomendable que la utilización de este formato no se limite a una única presentación del
producto, sino que se convenga la posibilidad de hacer ajustes al mismo y, por ende, nuevas
presentaciones en la medida en que se recibe la retroalimentación. Es decir, este formato
de ítem propende hacia el perfeccionamiento de la ejecución o del producto creado, con lo
cual el proceso de evaluación encuentra su mejor representación como herramienta educa-
tiva para la cualificación del proceso de formación.
Longitud de la prueba
Una pregunta recurrente cuando se trata de elaboración de instrumentos evaluativos es
¿cuántas preguntas debe tener la prueba? La respuesta, sin duda, no es simple. No hay una
fórmula que permita afirmar categóricamente que la prueba deba tener tal o cual número
de ítems, pero, definitivamente, es una pregunta importante y el evaluador debe reflexionar
sobre el asunto. La respuesta a esta interrogante debe ser el resultado del análisis de varios
factores, todos ellos relacionados con la validez del proceso de evaluación.
Un aspecto necesario de analizar es el objeto de evaluación. Entre más grande sea aquel sa-
ber que quiero evaluar, probablemente –no categóricamente– mayor número de ítems será
necesario incluir. La categorización del dominio disciplinar y del dominio cognitivo que dan
lugar a la estructura de la prueba, y que puede ser más o menos específica de acuerdo con
el propósito y el uso de la evaluación, da indicios de qué tan extensa deberá ser la prueba.
Entre más detalladas sean esas categorizaciones, mayor número de ítems se requerirá para
cubrir la totalidad de las celdas de la estructura de prueba.
27
Otro aspecto que hay que considerar es el uso que se dará a los resultados. Si se trata de una
prueba de selección para asignación de becas escolares, por ejemplo, un insuficiente núme-
ro de ítems puede conducir a tomar decisiones equivocadas, con múltiples consecuencias
negativas imaginables para evaluadores y para evaluados.
En conclusión, dado que a partir de los resultados en la prueba el evaluador infiere de los
evaluados su nivel de dominio del objeto de evaluación, la inquietud acerca de la longitud
adecuada de una prueba implica un cuestionamiento de orden ético: ¿con cuántas pregun-
tas aplicadas el evaluador se sentirá confiado de hacer inferencias válidas acerca de los eva-
luados?
Niveles de revisión
Aunque en el proceso de desarrollo de una prueba se haya adelantado la revisión de cada
uno de los ítems para asegurar su relevancia frente al propósito de evaluación y su pertinen-
cia con la estructura y las especificaciones de prueba, una vez que la prueba sea ensamblada
como instrumento íntegro, debe ser sometida a revisiones adicionales que busquen identifi-
car las posibles fallas que afecten la potencia comunicativa del instrumento para corregirlas
antes de proceder a la multiplicación de los ejemplares de prueba requeridos.
El asunto consiste en hacer una lectura completa del instrumento para verificar la inexisten-
cia de errores de ortografía o tipográficos, la claridad de instrucciones y su correspondencia
con los formatos de ítems utilizados; para controlar que haya secuencialidad en la numera-
ción de los ítems y en la numeración de páginas; para verificar la legibilidad de la fuente de
letra utilizada, la nitidez de los gráficos, dibujos o tablas incluidos, la ubicación correcta de
estos en relación con la posición de los ítems de los cuales hacen parte, entre otras cosas.
Esto en cuanto a los aspectos formales. En relación con el contenido del instrumento, se
busca ratificar que este sea pertinente y coherente. Se controla que todos los ítems inclui-
dos apunten a evaluar aquello que se definió como objeto de evaluación, que todos estén
correctamente formulados, que no se repita la intención evaluativa entre ellos (es decir, que
no haya varios ítems indagando lo mismo, aunque de distinto modo) y que ninguno de ellos
ofrezca pistas para responder a otro u otros dentro de la prueba.
28
Idealmente, estas revisiones deberían ser realizadas por personas con experticia en el obje-
to de evaluación (para los asuntos de contenido) y con algún nivel de entrenamiento para
detectar fallas específicas (correctores de estilo y correctores editoriales, para los asuntos
propios de forma). No obstante, de no poder contar con estos expertos, estas revisiones bien
pueden ser realizadas por uno o dos lectores independientes del instrumento, es decir, que
no hayan tenido participación en su elaboración, pero que tengan formación y experiencia
en el área o disciplina que se evaluará.
Independientemente del grado de experticia de los revisores, siempre será necesario que
antes de iniciar su revisión sean debidamente informados de los propósitos evaluativos de
la prueba y de las características de la población que se evaluará para darle un marco de
referencia a su labor. Es una práctica recomendable hacer uso de algún formato o plantilla
para que los revisores registren sus observaciones, ítem por ítem, y para que hagan suge-
rencias de mejora al instrumento. El equipo responsable del desarrollo de la prueba tiene
el deber de analizar las observaciones de los revisores, de decidir sobre la inclusión o no de
sus sugerencias y de tomar las decisiones finales de ajuste, siempre bajo la perspectiva de
mejorar su calidad.
Confidencialidad
Otro aspecto importante que debe considerarse para el desarrollo de una prueba es el ase-
guramiento de la confidencialidad de los ítems. El principio de equidad y, por ende, la validez
del proceso evaluativo se verían drásticamente afectados si se llegase a filtrar información
sobre el contenido específico de los ítems.
Es necesario, entonces, asegurar que el acceso a los ítems se restrinja a un grupo mínimo ne-
cesario de personas (quienes desarrollan y quienes revisan la prueba), los que deben com-
prometerse explícitamente a guardar confidencialidad de la información que conozcan de
la prueba.
Es conveniente que el manejo y custodia de los archivos físicos y magnéticos de los ítems
se delegue a una persona para que esta se encargue de responder por la seguridad y por la
integridad de los mismos. Las diferentes versiones o copias de los ítems generadas durante
el proceso de elaboración deben ser efectivamente eliminadas (arrugarlas y lanzarlas en una
cesta de basura o borrarlas de una carpeta de computador sin vaciar la papelera no resultan
29
prácticas efectivas de eliminación).
Es usual hacer uso de claves de acceso o de procesos de encriptamiento de los archivos para
que los mismos puedan ser accedidos únicamente por personal autorizado. Los sistemas
avanzados de evaluación constituyen bancos magnéticos de ítems que permiten hacer uso
de tecnologías de información, no sólo para asegurar la posibilidad de administrar a discre-
ción los niveles de acceso a la información referida a pruebas para diferentes usuarios, sino
también para sistematizar la información asociada a cada ítem (nombre de quién lo elaboró,
tema del que trata, proceso cognitivo que evalúa, formato utilizado para su elaboración,
etc.) y facilitar el ensamble de distintas versiones de una prueba.
¿Para qué?
¿A quién?
Cada población tiene un perfil cognitivo, académico, sociocultural, etc., que delimita meto-
dológicamente la evaluación.
La evidencia que arroja la respuesta del evaluado debe corresponder con aquello que nos
propusimos verificar.
30
Problema 5. No formular suficientes preguntas.
Las inferencias hechas a partir de un proceso de evaluación tienen efectos, a veces decisivos,
en las vidas de las personas. La objetividad y mesura en las inferencias es deber ético del
evaluador.
De selección
Son numerosos los estudios realizados sobre las técnicas que conducen a mejorar la calidad
de los ítems (Haladyna y Downing, 1989; Haladyna, 1994; Cheung y Bucat, 2002; ICFES, 2004;
Cohen y Woollack, 2004). A continuación se enuncian algunas de las reglas básicas para ela-
borar correctamente ítems de selección.
Consideraciones básicas
• Planeación: Se debe contar con un cronograma de trabajo que organice las fases
del diseño del instrumento, teniendo en cuenta la complejidad del mismo. En la
planeación del desarrollo de ítems deben incluirse los tiempos de revisión y ajustes
de los mismos.
• Trabajo en equipo: Asegurarse de contar con personal que domine el objeto de eva-
luación, que conozca las características de la población objetivo y, en lo posible,
que cuente con experiencia en formación y evaluación es crucial para lograr niveles
de reflexión, discusión y perfeccionamiento del instrumento.
31
Reglas de elaboración
• Use lenguaje claro y directo, sin sacrificar el nivel técnico y académico requerido.
• Evite que los ítems adolezcan de cualquiera de los siguientes problemas que los
hace confusos (Roberts, 1993):
o Contenido trivial.
o Presencia de información irrelevante.
o Presentación ambigua de las opciones de respuesta.
o Discriminación muy fina –difícil de percibir– entre las opciones de respuesta.
o Presentación de información en modo distinto a como ha sido aprendida por la po-
blación evaluada dentro de su proceso educativo.
• Verifique que cada ítem corresponda a una y sólo una de las celdas de la estructura
de prueba definida.
• Verifique que se elaboren los ítems en la cantidad y en los formatos fijados en las
especificaciones de prueba.
• Cada ítem debe ser independiente de los demás y no proveer pistas que faciliten la
repuesta a otros.
• Verifique que la respuesta a cada ítem demanda el dominio del objeto de evalua-
ción y no una opinión personal.
• Incluya ítems con distintos grados de complejidad, desde fáciles hasta difíciles.
32
• Las opciones de respuestas deben organizarse siguiendo alguna regla: compleji-
dad, longitud, cantidad, etc.
• Asegúrese de que las opciones de respuesta realmente son diferentes entre sí. No
use sinónimos o parafraseos para construir opciones de respuesta.
• No utilice opciones de respuesta que se descartan por simple lógica, que resultan
descabelladas o absurdas casi para cualquier evaluado.
• Las respuestas correctas o claves de los ítems de una prueba deben ubicarse aleato
riamente en todas las posiciones posibles de las opciones de respuesta, es decir, la
clave no debe aparecer siempre en una misma posición.
De producción
Los ítems de producción de respuesta cobran sentido en la medida en que sirvan al propó-
sito de evaluar aquello que no sea posible evidenciar a través de preguntas de selección de
respuesta. Dado que tanto el diseño como la aplicación y la calificación de un ítem de pro-
ducción de respuesta reviste mayor complejidad que para un ítem de selección, no resulta
muy sensato evaluar con ítems de producción lo que podría evaluarse con ítems de selec-
ción. Sin embargo, este tipo de pregunta cobra cada día mayor importancia y ha tenido un
gran desarrollo en los últimos años (Badger y Thomas, 1992), porque indiscutiblemente es
la respuesta a necesidades evaluativas para las cuales los ítems de selección no resultan su-
ficientemente eficaces. Así, se usan ítems de producción para evaluar la coherencia y perti-
nencia de cadenas de razonamientos, la capacidad para comunicar y defender argumentos,
para poner en evidencia la creatividad, la recursividad, la capacidad de síntesis para resolver
situaciones novedosas (Badger y Thomas, Op. Cit), así como para demostrar habilidades ar-
tísticas o evidenciar el dominio de habilidades de comunicación oral, entre otras.
33
Consideraciones básicas
• El planteamiento de la tarea debe ser claro para asegurar que todos los evaluados
hagan la misma interpretación de aquello que el evaluador espera que hagan.
• Los criterios que se tendrán en cuenta para la calificación de las producciones debe-
rían ser divulgados antes de la evaluación, al menos en forma genérica. Esto otorga
equidad al proceso.
Reglas de elaboración
• De preferencia, los materiales que sirven de contexto deben ser suministrados por
el evaluador. En su defecto, es necesario asegurarse de la accesibilidad a tales mate-
riales.
• Las condiciones para realizar la tarea, así como las especificaciones de los productos
entregables deben enunciarse con claridad y preferentemente ser divulgados por
escrito entre los evaluados.
• Las especificaciones de los productos entregables deben ser definidas con anterio-
ridad a la aplicación del ítem. Son susceptibles de ajustes luego de la aplicación,
únicamente si tales ajustes se orientan a mejorar la validez del proceso y siempre y
34
cuando no afecten la equidad en el mismo.
• Los calificadores deben recibir entrenamiento previo para asegurar la aplicación im-
parcial de los criterios de evaluación definidos.
El concepto moderno de validez es global, a diferencia del concepto clásico que consideraba
distintos “tipos de validez”. Se reconoce que la validez no es del instrumento, sino de las in-
ferencias e interpretaciones realizadas a partir de las puntuaciones obtenidas en un proceso
de evaluación.
La validez se entiende como “un juicio evaluativo del grado en el cual la evidencia empírica
y teórica sustentan la pertinencia y conveniencia de las inferencias acerca de los resultados
en un instrumento de medición, así como las acciones que se realizan a partir de dichos re-
sultados” (Messick, 1989).
Dicho de otra forma, la validez hace referencia a qué tan fuertes son los argumentos y las
evidencias que respaldan las interpretaciones hechas acerca del objeto de evaluación (por
ejemplo, la competencia) con base en los resultados obtenidos. En tal sentido, la validez
compromete a todas las etapas del diseño de pruebas: desde la definición y caracterización
del objeto de evaluación hasta la divulgación de resultados.
El evaluador debe reconocer que el usuario directo de la evaluación –el evaluado– así como
los usuarios indirectos de la misma, utilizarán los resultados para comprender y analizar pro-
cesos para emitir juicios, para tomar decisiones, etc., y, por tanto, es su responsabilidad ética
y social asegurarse de que tales análisis, juicios y decisiones sean verdaderamente posibles
de derivar de la evaluación que realiza.
La rigurosidad académica y técnica en la elaboración de los ítems (y, por supuesto, en las de-
más etapas del diseño del instrumento) aporta para que los resultados de la evaluación sean
pertinentes con su propósito. Las reglas de elaboración de ítems descritas en este docu-
35
mento tienen la pretensión de orientar al evaluador para que los ítems que elabore evalúen
realmente el objeto de evaluación que se pretende; en este sentido, la aplicación de tales
reglas contribuye a consolidar la argumentación alrededor de lo que los resultados indican
es verdadero.
En resumen, en lo que concierne a la elaboración de ítems, los siguientes son factores que
afectan negativamente la validez:
• En el ítem se incluye información que la facilita o la dificulta, más allá del propósito
de evaluación.
Ahora bien, en la fase de elaboración de ítems no basta con aplicar las reglas de elaboración
para contribuir a la validez; es necesario garantizar que quienes van a ser evaluados con di-
chos ítems no lleguen a responderlos correctamente por circunstancias distintas a su propia
capacidad o competencia.
Así, entonces, es de vital importancia cuidar del correcto desarrollo de cada uno de las eta-
pas del diseño mencionadas con anterioridad, velar porque cada acción realizada esté en-
focada a utilizar y aprovechar unos resultados desde distintas perspectivas y, no solamente
interesarse por obtener un simple puntaje sin valor de interpretación.
36
Bibliografía
Cohen, A. y Woollack, J. 2004. Helpful tips for creating reliable and valid classroom test
Handbook on Test Development. U. Wisconsin.
Cheung, D. y Bucat, R. 2002. How can we construct good multiple choice items? Hong Kong,
Sciens and Technology Education Conference.
Fenton, N. E. y Pfleeger, S. L. 1997. Software metrics. A rigurous and practical approach. Boston,
PWS Pub.
Haladyna, T. 1994. Development and validating multiple choice test items. New Jersey,
Lawrence Earlbaum Associates.
Messick, S. 1989. Validity. R.L. Linn (Ed.). Educational measurement New York, Macmillan,
3a ed., pp. 13-103.
37