Está en la página 1de 140

See discussions, stats, and author profiles for this publication at:

https://www.researchgate.net/publication/265040034

TEST ADAPTATIVOS INFORMATIZADOS

Article

CITATIONS READS

8 1,117

2 authors:

Julio Olea Díaz Vicente Ponsoda


Universidad Autónoma de Madrid Universidad Autónoma de Madrid
77 PUBLICATIONS   527 CITATIONS    101 PUBLICATIONS   831 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Compputerized adaptive testing View project

Model fit evaluation in cognitive diagnosis modeling View project

All content following this page was uploaded by Julio Olea Díaz on 18 February 2015.

The user has requested enhancement of the downloaded file.


TEST ADAPTATIVOS
INFORMATIZADOS

Julio Olea
Vicente Ponsoda

Presentación

Cuando elaboramos la presente monografía lo hacemos con el


objetivo básico de que nuestros alumnos (los presenciales y,
fundamentalmente, los no presenciales) del curso “Tests Adaptativos
Informatizados”, del programa de doctorado interuniversitario de
“Metodología de las Ciencias del Comportamiento”, dispongan de
forma ordenada de los contenidos básicos para un buen
aprovechamiento del mismo. Dada la gran variedad de formación en
Psicometría que tienen nuestros alumnos, hemos optado por incluir
una breve introducción a la TRI para quienes no hayan tenido la
oportunidad de estudiarla en su licenciatura. Pueden ampliarse los
conocimientos sobre estos modelos TRI en los textos en castellano de
López Pina (1995), Martínez Arias (1995, caps. 10 y 11), Muñiz
(1997), Santisteban (1990, caps. 10 a 14) y, en esta misma colección
de monografías, en Santisteban y Alvarado (2001, caps. 4 y 5). En
cuanto a los objetivos que nos marcamos, no vamos a limitarnos a
mostrar el funcionamiento básico de este tipo de pruebas, sino que
pretendemos entrar en la descripción de los principales desafíos con
que se enfrenta en la actualidad la investigación teórica y aplicada
sobre el tema. Es nuestro interés acercar al estudiante los diferentes
métodos de investigación que se aplican para resolver los problemas,
para lo cual describiremos determinados trabajos de investigación,
entre los cuales se encuentran algunos de los desarrollados por un
equipo al que pertenecen de forma estable Pedro Hontangas, de la
universidad de Valencia, Steve Wise, de la James Madison university
(USA) y Paco Abad, Javier Revuelta, Carmen Ximénez y nosotros
mismos, en la universidad Autónoma de Madrid.

Resulta un tanto paradójico transmitir en papel la complejidad de


procedimientos implicados en estas pruebas, que por definición se
aplican en soporte informático. Los alumnos tendrán la oportunidad
durante el curso de comprobar cómo se responde a este tipo de tests
en un ordenador, la información que proporcionan, diversas variantes
en los algoritmos y algunas de sus ventajas e inconvenientes.

Madrid, Noviembre de 2002


Los autores
Índice

1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA

1.1. Elementos básicos y beneficios previsibles..................... 5


1.2. Orígenes, desarrollo y aplicaciones.................................. 9

2. CONCEPTOS BÁSICOS DE LA TEORÍA DE LA


RESPUESTA AL ÍTEM

2.1. Ventajas de la teoría de la respuesta al ítem.................... 13


2.2. Algunos modelos de la teoría de la respuesta al ítem...... 15
2.3. El supuesto de unidimensionalidad.................................. 19
2.4. Estimación del nivel de rasgo.......................................... 21
2.5. Precisión de las estimaciones........................................... 26

3. DISEÑO DEL BANCO DE ÍTEMS

3.1. Componentes de un banco de ítems................................. 31


3.2. Elaboración de ítems........................................................ 31
3.3. Calibración....................................................................... 34
3.4. Propiedades psicométricas............................................... 41
3.5. Mantenimiento y renovación del banco de ítems............. 45

4. ALGORITMOS ADAPTATIVOS

4.1. Proceso de aplicación de un TAI.................................... 47


4.2. Procedimientos de arranque............................................ 48
4.3. Métodos de estimación del nivel de rasgo...................... 51
4 TESTS ADAPTATIVOS INFORMATIZADOS

4.4. Algoritmos para la selección de ítems............................. 54


4.5. Procedimientos de parada................................................ 61
4.6. Requerimientos informáticos........................................... 63

5. PROPIEDADES PSICOMÉTRICAS DEL TAI


5.1. Precisión........................................................................... 67
5.2. Validez............................................................................. 69

6. INVESTIGACIÓN ACTUAL EN TESTS ADAPTATIVOS


INFORMATIZADOS
(en colaboración con P. Hontangas, F. J. Abad y J. Revuelta)

6.1. Presentación..................................................................... 73
6.2. Precisión y sesgo de las estimaciones.............................. 75
6.3. Alternativas a la información de Fisher........................... 79
6.4. Restricciones en la selección de ítems............................. 82
6.5. Control de la exposición................................................... 85
6.6. Generación automática de ítems...................................... 87
6.7. Nuevos modelos............................................................... 94
6.8. Condiciones de aplicación............................................... 107
6.9. Otros objetivos de investigación...................................... 114

7. REFERENCIAS BIBLIOGRÁFICAS.................................... 125


Capítulo 1
Introducción conceptual e histórica

1.1.- Elementos básicos y beneficios previsibles


Un Test Adaptativo Informatizado (TAI) es una prueba,
construida para fines de evaluación psicológica o educativa, cuyos
ítems se presentan y responden mediante un ordenador, siendo su
característica fundamental que se va adaptando al nivel de
competencia progresivo que va manifestando la persona. Tal
denominación, hoy generalmente empleada en los trabajos publicados
en castellano y propuesta por primera vez en Olea y Ponsoda (1996),
es la traducción de la expresión inglesa “Computerized Adaptive
Test” (CAT).
Los elementos básicos de un TAI son: a) un banco de ítems con
propiedades psicométricas conocidas, es decir, con parámetros
estimados desde un modelo de la Teoría de la Respuesta al Ítem
(TRI) determinado, b) un procedimiento que establezca la manera de
comenzar y finalizar la prueba, así como la forma de seleccionar
progresivamente los mejores ítems, y c) un método estadístico de
estimación de los niveles de rasgo. Aunque ya desde Binet se han
intentando procedimientos de evaluación adaptativos mediante tests
psicológicos (sus tests de inteligencia tenían formas diferentes según
el nivel educativo de los niños), en las últimas décadas, y dada la
confluencia entre los avances psicométricos realizados desde la TRI y
los avances técnicos en el campo de la informática, se han
desarrollado instrumentos informatizados para presentar únicamente
6 TESTS ADAPTATIVOS INFORMATIZADOS

los ítems que resultan altamente informativos para estimar el nivel de


cada sujeto en un determinado rasgo. Entre otros factores, el nivel de
información depende de que los ítems seleccionados para un
evaluando tengan una dificultad apropiada para su nivel de rasgo. En
este sentido, en un test convencional de longitud fija se presentan
todos los ítems que lo integran (y en la misma secuencia) a todos los
individuos. Para una persona en concreto, los ítems que le resulten
muy fáciles o muy difíciles pueden contribuir poco a determinar de
forma precisa su nivel; de hecho, los tests fijos requieren ítems de
dificultad heterogénea y tienen algunas características mejorables:
requieren mayor tiempo para la aplicación y pueden incrementar en
los evaluandos su sensación de aburrimiento (si se le presentan
muchos ítems que le resultan fáciles) o de fracaso (cuando un número
elevado de ítems resultan excesivamente difíciles para su nivel). Sin
embargo, desde la conocida propiedad de invarianza de la TRI, en un
TAI será posible estimar los niveles de rasgo de personas diferentes
en la misma escala aunque hayan respondido a ítems diferentes
(fáciles, los evaluandos de bajo nivel; difíciles, los de alto nivel de
rasgo).
En principio, cualquier test informatizado tiene ya determinadas
ventajas de indudable valor aplicado (Olea y Hontangas, 1999):
permiten homogeneizar las condiciones de aplicación, establecer
controles para preservar la seguridad de la prueba, registrar
información que puede ser útil para la evaluación (por ejemplo, los
tiempos de respuesta a los ítems), conseguir un rápido procesamiento
de los datos, minimizar errores de corrección, proporcionar feedback
inmediato a los evaluandos, evaluar procesos psicológicos básicos u
otro tipo de destrezas o competencias que exigen la presentación de la
información de forma dinámica, etc.
Parshall, Davey y Pashley (2000) han denominado como “tipos
innovadores de ítems” a los que se benefician del soporte informático
en varios aspectos relacionados con su construcción (uso de sonido,
gráficos, animación o vídeo) o con el procedimiento de respuesta (por
ejemplo, marcar en figuras o gráficos, seleccionar partes de un texto,
mover objetos, reordenar estímulos, escribir el resultado de un
problema, responder mediante micrófono...). Los TAIs, dada su
CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA 7

condición adaptativa, tienen al menos tres importantes ventajas


adicionales:

a) Mejoran la seguridad del test, ya que gran parte de los ítems


que se presentan a los evaluandos son diferentes. Esta es una
preocupación fundamental de los responsables de la
evaluación en contextos aplicados ya que, incluso cuando se
decide aplicar tests convencionales, uno de los mayores
obstáculos a la validez de los tests es que los evaluandos
puedan conocer de antemano los ítems que se le van a
administrar. Como veremos, esto no significa que los TAIs
resuelvan el problema de la copia o transmisión de los ítems
(suele ocurrir que un escaso porcentaje de ítems se aplican a
muchos evaluandos), pero el problema es menor que en los
tests convencionales de lápiz y papel o en los tests
informatizados fijos; de hecho, cualquier algoritmo
adaptativo desarrollado recientemente incorpora
procedimientos para preservar la integridad del banco de
ítems en que se fundamenta el TAI.

b) Reducen el tiempo de aplicación (a veces a menos de la


mitad), ya que consiguen niveles similares de precisión que
los tests convencionales con un número menor de ítems. Para
las empresas responsables de la aplicación, el tiempo se
asocia inexorablemente a los costes de la evaluación. Para los
evaluandos, que además suelen manifestar una actitud
positiva hacia los tests informatizados en general y hacia los
TAIs en particular, este tipo de pruebas tienen la ventaja de
permitir conocer sus puntuaciones en varios rasgos o
conocimientos en una única sesión de evaluación, que
eventualmente podría incluso realizarse mediante Internet.

c) Permiten además, con el mismo número de ítems que un test


convencional, realizar estimaciones más precisas. Bajo
condiciones similares a las de un test convencional (en
tiempo requerido y número de ítems aplicados) un TAI
permite mayores garantías (menor error de medida) respecto
8 TESTS ADAPTATIVOS INFORMATIZADOS

a los niveles que se estiman y, por tanto, respecto a las


decisiones que se toman a partir de las puntuaciones en los
tests. Si el banco tiene un tamaño suficiente de ítems con
elevado poder discriminante para los diferentes niveles de
rasgo, un TAI puede resultar enormemente eficaz para medir
los niveles extremos de rasgo, algo difícil de conseguir en la
aplicación de tests convencionales, informatizados o no.

Estos tres aspectos resultan muy importantes cuando se realizan


aplicaciones masivas de tests de rendimiento o de conocimientos, por
ejemplo en contextos de selección de personal, de evaluación
educativa o en pruebas de certificación profesional o licenciatura. De
hecho, algunos de los TAIs que más se aplican (por ejemplo el CAT-
ASVAB, el CAT-GRE o algunos tests de certificación) tuvieron sus
ancestros en versiones de lápiz y papel o en versiones informatizadas
convencionales, que requerían más tiempo de aplicación (por tanto
mayor incomodidad para los evaluandos y, bajo ciertas
circunstancias, mayores costes) además de mayor riesgo de difusión
para futuras aplicaciones a las mismas o a distintas personas. De
cualquier forma, resultaría equívoco creer que los tests adaptativos
representan la “piedra filosofal” de la evaluación mediante tests
psicométricos. Lo han reflejado muy bien algunos autores (Wainer,
2000b, Wainer y Eignor, 2000) al reflexionar sobre los resultados de
la masiva aplicación de los TAIs que se ha producido en la última
década y al analizar bajo qué circunstancias u objetivos de
evaluación resultan auténticamente útiles; para estos autores, tiene
sentido su uso: a) cuando la naturaleza del constructo sea tal que la
administración informatizada ayude a su evaluación, b) cuando el
test ha de ofrecerse de forma continua y no sólo una o pocas veces al
año, y c) cuando las personas que hacen el test , y por supuesto los
responsables de la aplicación, tienen interés en obtener el nivel de
rasgo correcto (por ejemplo, cuando la puntuación estimada va a
servir para recomendar o no un determinado programa de
instrucción, o en situaciones donde los evaluandos no tienen interés
en obtener una puntuación más alta o baja que les dé más
posibilidades de ser seleccionado a un puesto de trabajo,..). Algunos
inconvenientes, como por ejemplo la necesidad de calibrar bancos en
CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA 9

muestras muy numerosas, la escasa información diagnóstica que


proporcionan o determinados impactos negativos que pueden tener en
los evaluandos, podrían incluso hacerlos inviables en la práctica.
Tampoco los TAIs pueden considerarse como algo único e
invariable. Existen modos bastante diferentes de aplicar de forma
adaptativa un banco de ítems, pueden utilizarse modelos de TRI
diferentes para estudiar sus propiedades y, como veremos, tienen
todavía que dar respuesta a diversos interrogantes o problemas, tanto
técnicos como aplicados, que se intentan responder desde diferentes
líneas de investigación.

1.2.- Orígenes, desarrollo y aplicaciones


Las primeras experiencias sobre aplicación adaptativa de ítems
las desarrollaron Binet y Simon (1905), quienes construyeron tests de
inteligencia diferentes según la edad o el nivel educativo de los
estudiantes.
Sin embargo, al plantear los orígenes de los TAIs resulta
obligado citar la obra de Lord y Novick (1968), fundamentalmente
los capítulos de Birnbaum en este libro, donde se establecen las bases
de la TRI y los fundamentos estadísticos para ordenar a diversos
evaluandos en la misma escala de medida aunque hayan respondido
ítems distintos.
La idea original de los TAIs fundamentados en la TRI es de Lord
(1970), y se ha desarrollado durante los años 80 en el marco de un
convenio de la Universidad de Minnesota (dirigido por D. Weiss) con
el ejército estadounidense para elaborar versiones adaptativas del
Armed Services Vocational Aptitude Battery (ASVAB). La necesidad
aplicada del ejército era realizar estimaciones precisas de los niveles
aptitudinales de muestras muy numerosas y heterogéneas de
candidatos. Durante una década se estudiaron las previsibles ventajas
de una versión adaptativa de este test, aplicado anualmente a más de
500.000 personas, antes de utilizarla realmente como prueba de
selección. A mediados de los 80 se aplicó la primera versión
adaptativa del ASVAB.
10 TESTS ADAPTATIVOS INFORMATIZADOS

Durante las décadas de los 70 y 80 se propusieron diferentes


procedimientos o estrategias adaptativas de selección de ítems (una
descripción más detallada puede verse en Renom, 1993), algunas de
las cuales se idearon para la presentación de los ítems en formato de
papel y lápiz, dado que en esos años los ordenadores difícilmente
podían realizar con la rapidez necesaria los cálculos matemáticos
requeridos por la TRI:

a) Lord (1971c) propuso la estrategia de dos etapas, según la


cual todos los evaluandos responden a un primer test de
escasa longitud (test rutina). Después de estimar sus niveles
de rasgo, se aplica a cada sujeto uno de k tests de ubicación,
homogéneo en dificultad y apropiado para el nivel estimado
en el test rutina.

b) También Lord (1971a,b) propuso la estrategia de nivel


flexible, apropiada para la administración de bancos de escasa
longitud. Se divide el banco de ítems en dos mitades según
su dificultad: la primera con los ítems más fáciles y la
segunda con los más difíciles; se comienza con el ítem de
dificultad media; si se acierta se pasa al siguiente más difícil
y si se falla se presenta el siguiente más fácil (entre los que no
se han presentado todavía de esa mitad); la prueba se termina
cuando se responde a la mitad del banco.

c) Weiss (1974) describe varias estrategias alternativas de


ramificación fija o estructura de árbol, que tienen en común
el establecimiento previo de una ordenación de los ítems a
modo de pirámide según su dificultad; la elección de un ítem
depende de la respuesta al ítem previo, pero las posibles
secuencias de ítems a presentar están prefijadas de antemano.

d) Lord (1980) describe una estrategia de ramificación variable,


según la cual se estima un nivel provisional de rasgo después
de responder a un número determinado de ítems y se elige el
ítem más informativo para dicho nivel; este procedimiento de
selección se denominará como método de “máxima
CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA 11

información”. Owen (1975) había propuesto previamente


procedimientos bayesianos de selección progresiva de ítems.

En paralelo a los desarrollos psicométricos comienzan a


ensayarse los primeros TAIs en contextos aplicados para la
evaluación de conocimientos de diversas oposiciones (Urry, 1977),
exámenes escolares (Cusick, 1989; Kingsbury, 1990), aptitudes
intelectuales (Lord, 1977; McBride, 1988; Schoonman, 1989) o
dominio del inglés (Abernathy, 1986).
Actualmente existen versiones adaptativas de tests
convencionales, por ejemplo, del Test of English as a Foreign
Language (TOEFL), del Graduate Management Admissions Tests
(GMAT), o del Graduate Record Exam (GRE), de diversos tests de
aptitudes intelectuales (como el Differential Aptitude Tests), y de
múltiples tests desarrollados tanto en Estados Unidos como en Europa
para evaluar los conocimientos y aptitudes en contextos de selección
de personal (por ejemplo, el CAT-ASVAB en su versión actual o
algunos subtests de la batería MICROPAT para la selección de
pilotos y controladores aéreos), en pruebas de admisión a centros
educativos (es el caso del Law School Admission Test), para la
evaluación educativa de niños y jóvenes (por ejemplo el COMPASS
placement tests, el NWEA o el sistema CARAT), para la evaluación
de conocimientos matemáticos de personas adultas (la prueba
holandesa MATHCAT) o en exámenes de licenciatura o certificación
(por ejemplo los que se realizan en Estados Unidos para las
profesiones de enfermería y medicina). Wainer (2000b) plantea el
crecimiento exponencial de la aplicación de los TAIs, que él estima
en más de un millón de pruebas aplicadas en el año 1999 sólo en
USA.
Capítulo 2
Conceptos básicos de la
Teoría de la respuesta al ítem

2.1.- Ventajas de la teoría de la respuesta al ítem


Hace ya unos 40 años desde que se publicaron los primeros
bosquejos de una nueva teoría de los tests, denominada como Teoría
de la Respuesta al Ítem (TRI) o modelos de rasgo latente, en parte
para superar algunos de los inconvenientes de la más tradicional
Teoría Clásica de los Tests (TCT). Como es conocido, la TCT se
sustenta en un supuesto fundamental (X=V+E), según el cual la
puntuación empírica de una persona en un test es igual a la suma de
su puntuación verdadera y el error. Se asume que los errores en un
test son aleatorios (con media cero) en la población de referencia, que
correlacionan cero con las puntuaciones verdaderas y con los errores
de otros tests. A partir de estos supuestos, y otros adicionales sobre el
concepto de formas paralelas, se deducen teoremas que posibilitan la
obtención de medidas empíricas de fiabilidad (coeficiente de
fiabilidad, error típico de medida) y validez (coeficiente de validez,
error típico de estimación) de los tests, así como indicadores
estadísticos de las propiedades psicométricas de los ítems (v.g.
dificultad, discriminación,..).
Algunas de las limitaciones de la TCT, que por otra parte
intentarán superar los diferentes modelos propuestos desde la TRI,
son las siguientes:
14 TESTS ADAPTATIVOS INFORMATIZADOS

a) En primer lugar, resulta difícil contrastar empíricamente el


cumplimiento de los supuestos en que se fundamenta.
b) Es evidente que las propiedades psicométricas de los ítems
(por ejemplo, los índices de dificultad y de discriminación) y
del test en su conjunto (coeficientes de fiabilidad y de
validez) dependen de las características de la muestra donde
se obtienen (su nivel medio, su variabilidad) y de la propia
longitud del test.
c) Resulta difícil comparar el rendimiento de dos personas en
dos tests diferentes que no son paralelos (por ejemplo, si
tienen ítems de diferente dificultad).
d) La TCT asume que la precisión con la que se estima el nivel
de rasgo de cualquier persona en un test es la misma.

Como cuestiones generales, desde la TRI se van a plantear los


siguientes objetivos fundamentales:

a) Establecer modelos estadísticos cuyo ajuste a los datos se


puede contrastar.
b) Realizar estimaciones invariantes de las propiedades
psicométricas de los ítems (independientes del nivel de rasgo
de las personas) y de los niveles de rasgo de las personas
(independientes de las propiedades psicométricas de los
ítems). Por ejemplo, algo que resultará esencial en los TAIs,
las estimaciones estadísticas del nivel de rasgo de dos
personas podrán compararse, aunque se les haya aplicado
distintos ítems (otra cosa será la precisión obtenida en cada
caso).
c) Obtener medidas individuales de precisión para cada persona
evaluada.
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 15

2.2.- Algunos modelos de teoría de la respuesta al


ítem
Cualquier modelo de TRI establece una relación matemática
entre la probabilidad de emitir una determinada respuesta a un ítem
(v.g. dar con la respuesta correcta o elegir una de k categorías de
respuesta) y otras características del sujeto (v.g. su nivel en uno o más
rasgos) y del ítem (v.g. su dificultad o su discriminación). Cuando se
asume y se comprueba que el rendimiento en un ítem depende de un
único rasgo latente se habla de modelos unidimensionales; cuando el
rendimiento en un ítem depende de dos o más rasgos se habla de
modelos multidimensionales. Por otra parte, si el modo de
cuantificación de las respuestas es dicotómico, normalmente el que
corresponde a ítems de rendimiento óptimo donde se producen
aciertos y errores, se formulan modelos dicotómicos; si se consideran
más de dos categorías de respuesta (v.g. en ítems de escalas de
actitudes o de tests de personalidad) se establecen modelos
politómicos. En las siguientes páginas describiremos
fundamentalmente algunos modelos unidimensionales dicotómicos,
aunque en apartados posteriores avanzaremos las características de
ciertos modelos multidimensionales y politómicos que representan la
base psicométrica de ciertos TAIs particulares que actualmente están
siendo sometidos a prueba.
Comencemos por uno de los modelos más sencillos, que es un
modelo dicotómico unidimensional, denominado modelo logístico de
1 parámetro (1P) o modelo de Rasch:

D (θ −b )
j
e
P (θ ) = D (θ −b j )
1+ e
En este modelo P(θ) es la probabilidad de acertar el ítem j
cuando la persona tiene un nivel de rasgo θ. Este parámetro
normalmente asume valores entre –4 y +4. bj es el parámetro de
dificultad del ítem (normalmente asume valores entre –4 y +4, pues
se mide en la misma escala que θ), D es un valor constante (si D=1 se
16 TESTS ADAPTATIVOS INFORMATIZADOS

habla de escala logística; si D=1.7, de escala normal), y e es la base


de los logaritmos naturales (e=2.718).
Con el modelo 1P se está asumiendo en realidad que el
rendimiento en un ítem depende únicamente del nivel de rasgo del
sujeto y de la dificultad del ítem. Gráficamente, el funcionamiento de
cualquier ítem descrito por un modelo dicotómico unidimensional
puede representarse mediante la curva característica del ítem (CCI),
que pone en relación los niveles θ con sus correspondientes P(θ).

Figura 1. Curvas características de dos items para modelo 1P

1,0

,8

,6
P(θ)

,4

,2
ítem 1

0,0 ítem 2
-4,00 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 4,00
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50

Véase por ejemplo la figura 1, en ella se han representado las


curvas características de dos ítems según 1P: el ítem 1 con una
dificultad de 0 (curva más a la derecha), y el ítem 2 que tiene un
parámetro de dificultad igual a –2. La dificultad de un ítem indica
por tanto el grado en que su CCI está desplazada hacia la izquierda
(tendencia a la facilidad) o a la derecha (tendencia a la dificultad).
Para un ítem en concreto, basta con sustituir en la expresión del
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 17

modelo 1P los correspondientes valores θ y su parámetro b para


obtener los correspondientes valores P(θ).
Si se analizan con detalle la expresión de P(θ) y la figura
anterior, pueden comprobarse tres propiedades importantes de este
modelo:

a) Cuando el nivel de rasgo θ coincide con la dificultad del ítem,


la probabilidad de acertarlo es igual a 0.5. Dicho de otro
modo, la dificultad de un ítem es el valor θ tal que P(θ)=0.5.
b) Si el nivel θ es extremadamente bajo, la probabilidad de
acierto se aproxima a cero. En la expresión de P(θ) se puede
ver que cuando el nivel θ tiende a -∞, el valor P(θ) tiende a 0.
Es decir, este modelo considera que no se producen aciertos
por azar.
c) La pendiente que tiene la CCI en b es la misma para cualquier
ítem. Como veremos a continuación, tal pendiente tiene que
ver con la discriminación del ítem. Este modelo considera
que todos los ítems tienen la misma discriminación.

El modelo logístico de 2 parámetros (2P) incorpora a la función


logística un parámetro de discriminación del ítem (aj). Su expresión
matemática es:

Da (θ −b )
e j j
P (θ ) = Da (θ −b )
1+ e j j
donde aj es proporcional a la pendiente de la CCI en el valor θ = bj.
Este parámetro de discriminación, que suele oscilar entre 0 y 3,
indica el grado en que el ítem discrimina entre los niveles θ
superiores e inferiores a la dificultad del ítem. Si la CCI tiene poca
pendiente en bj (aj cercano a 0), el ítem resulta poco discriminativo;
si su pendiente es elevada, el ítem sirve para diferenciar los niveles de
rasgo por encima y por debajo de su dificultad.
18 TESTS ADAPTATIVOS INFORMATIZADOS

En la figura 2 se representan las CCI de dos ítems según el


modelo 2P. Ambos tienen la misma dificultad (b=0) pero diferente
discriminación (a1=2, a2= 1).
Podemos observar que el punto de intersección entre las dos CCI
indica precisamente que ambos tienen la misma dificultad, dado que
en este caso coincide en los dos ítems que θ=0 para P(θ) = 0.5.

Figura 2. Curvas características de dos items para modelo 2P


1,0

,8

,6
P(θ)

,4

,2
ítem1

0,0 ítem2
-4,00 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 4,00
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50

Además, puede verse también que la pendiente de ambos ítems


en b no es la misma. El ítem 1 discrimina mejor que el 2 entre los
sujetos que tienen un nivel de rasgo cercano a θ=0. Como ocurría en
el modelo 1P, este modelo no considera tampoco la probabilidad de
acierto aleatorio. Podemos comprobar también que, si en el modelo
2P se sustituye el parámetro a por el valor 1, el modelo resultante es
el 1P.
El modelo logístico de 3 parámetros (3P) añade al anterior un
nuevo parámetro (cj), denominado como parámetro de pseudoazar
(puede oscilar aproximadamente entre 0 y 0.5), que es la asíntota
inferior de la CCI y representa la probabilidad que tienen de acertar el
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 19

ítem personas con nivel θ extremadamente bajo (límite de P(θ)


cuando θ tiende a -∞). Su expresión matemática es:

Da (θ −b )
e j j
P (θ ) = c j + (1 − c j ) Da (θ −b )
1+ e j j
En la figura 3 se representan dos ítems con igual dificultad,
idéntica discriminación pero diferente parámetro de pseudoazar.
Mientras que para el ítem 1 c1=0.5, el parámetro de pseudoazar del
ítem 2 es c2=0.1. Si supiéramos, por ejemplo, que ambos ítems tienen
diferente número de opciones de respuesta, seguramente el ítem 2
tendría mayor número de opciones que el ítem 1, ya que resulta
menos probable de acertar teniendo un nivel de rasgo muy bajo.

Figura 3. Curvas características de dos items para modelo 3P


1,0

,8

,6
P(θ)

,4

,2
ítem 1

0,0 ítem 2
-4,00 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 4,00
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50

θ
20 TESTS ADAPTATIVOS INFORMATIZADOS

Algunas propiedades de este modelo son:

a) Cuando cj=0, el modelo resultante es el 2P.


b) El valor de cj suele asumir valores alrededor de 1/k, siendo k
el número de opciones de respuesta del ítem.
c) A diferencia de los modelos 1P y 2P, en el modelo 3P, P(bj)=
(1+cj)/2. De ahí que las CCI representadas en la figura 3 no
sean en principio muy ilustrativas para comprobar
visualmente la equivalencia en dificultad y discriminación de
los dos ítems.

2.3.- El supuesto de unidimensionalidad


Los tres modelos expuestos son modelos unidimensionales,
dado que suponen que el rendimiento en un ítem depende del nivel
que tienen las personas en un único rasgo θ. El grado de
unidimensionalidad de un test o de un banco de ítems puede evaluarse
mediante técnicas de análisis factorial exploratorio aplicadas a la
matriz de correlaciones entre los ítems (Lord y Novick, 1968). Una
vez extraída la matriz factorial sin rotar, se estudia el porcentaje de
varianza explicado por el primer factor. Algunos autores (Reckase,
1979) plantean que se cumplen los mínimos de unidimensionalidad
cuando este primer factor explica más del 20% de la varianza total.
Conviene considerar que siempre puede ganarse en
unidimensionalidad si después del primer análisis se eliminan los
ítems con cargas factoriales bajas en el primer factor sin rotar
(Lumsden, 1976). Otro aspecto importante es el tipo de correlación
más adecuada para el tipo de datos que pretendemos estudiar
(variables dicotómicas). Cuando se utiliza la correlación de Pearson,
el primer factor sin rotar correlaciona significativamente con la
proporción de aciertos en los ítems, lo cuál se interpreta como un
“factor espurio de dificultad”. Aunque tampoco está exento de
problemas, parece más adecuado un procedimiento (Lord, 1980) que
consiste en aplicar el análisis factorial sobre la matriz de
correlaciones tetracóricas, propuestas para el análisis de variables
dicotomizadas bajo el supuesto de distribución normal en las
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 21

variables continuas subyacentes. McDonald (1999) justifica y


recomienda el uso de modelos no lineales de análisis factorial.
Existen muchos otros métodos para comprobar el grado de
unidimensionalidad de las respuestas de una muestra a un test, varios
de los cuales se exponen en Cuesta (1996).

2.4.- Estimación del nivel de rasgo


La primera vez que se aplica un test a una muestra debemos
estimar los parámetros de los ítems, proceso que se denomina
calibración, y también los parámetros θ de los sujetos. Una vez que el
test está calibrado, el problema estadístico se reduce a estimar los
niveles de rasgo de los sujetos. Por motivos didácticos, vamos a
suponer en principio que estamos ante esta segunda situación. Vamos
a suponer además que un test está formado por 2 únicos ítems (los
que hemos utilizado en la figura 1 para explicar el modelo 1P) con
parámetros b1=0 y b2=-2. Supongamos que una persona acierta el
primero y falla el segundo. ¿Cuál es el nivel θ que más
probablemente le correspondería a esta persona? Para responder a
esta pregunta podemos obtener lo verosímil que resulta el patrón de
respuestas dado para cada nivel θ posible (tomando en principio 17
valores distintos en un rango desde –4 a +4). Como ha acertado el
primer ítem y ha fallado el segundo, para cada θ obtenemos el valor
L=P1(1-P2), siendo P1 y P2 las correspondientes probabilidades de
acierto obtenidas mediante el modelo 1P. Gráficamente, los
resultados L para cada valor θ serían los que se representan en la
figura 4.
Podemos observar en la gráfica que el nivel de rasgo que hace
más probable el patrón de respuestas observado es θ = -1, ya que el
valor máximo de L corresponde a dicho nivel de rasgo.
22 TESTS ADAPTATIVOS INFORMATIZADOS

Figura 4. Estimación de L para cada nivel de rasgo

,08

,06

L
,04

,02

0,00
-4,00 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 4,00
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50

El procedimiento que hemos seguido se denomina estimación de


máxima verosimilitud condicionada, dado que consiste en buscar el
valor θ asociado al máximo valor de la función de verosimilitud,
tomados los parámetros de los ítems como conocidos. Obsérvese que
se asume que, dado un nivel de rasgo concreto, la probabilidad de
emitir un patrón de respuestas determinado es igual al producto de las
probabilidades de emitir cada respuesta individualmente, lo que se
conoce como supuesto de independencia local, muy relacionado con
el de unidimensionalidad. Para Santisteban y Alvarado (2001) ambos
supuestos resultan equivalentes para datos estrictamente
unifactoriales.
En general, la función de verosimilitud se obtiene a partir de la
expresión:
n
L(u | θ ) = Π Pj j Q j
u 1− u j

j =1
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 23

donde u es el vector de respuestas (aciertos, 1, y fallos, 0) a los ítems,


Pj es la probabilidad de acertar el ítem j (uj=1) dado un nivel de rasgo
θ, y Qj es la probabilidad de fallarlo. Lo que significa que, dado un
determinado patrón de respuestas a los ítems que forman el test, el
valor L asociado a un nivel de rasgo θ se obtiene multiplicando las
correspondientes probabilidades de acierto y error obtenidas mediante
el modelo de TRI en uso.
Veamos otro ejemplo. Supongamos que una persona responde a
un test de 5 ítems, con los siguientes parámetros de dificultad: b1=-2,
b2=-1, b3=0, b4=1 b5=2. Supongamos que la persona acierta los tres
primeros ítems y falla los dos últimos. ¿Cuál será el nivel θ para el
que la función L alcanza el máximo valor? Fijando 17 valores θ
posibles y aplicando el modelo de Rasch, obtenemos los datos
señalados en la tabla 1.

Tabla 1. Ejemplo de cálculo de L para cada nivel de rasgo


θ P1 P2 P3 P4 P5 L=P1P2P3Q4Q5
-4,00 0,12 0,05 0,02 0,01 0,00 0,00
-3,50 0,18 0,08 0,03 0,01 0,00 0,00
-3,00 0,27 0,12 0,05 0,02 0,01 0,00
-2,50 0,38 0,18 0,08 0,03 0,01 0,01
-2,00 0,50 0,27 0,12 0,05 0,02 0,01
-1,50 0,62 0,38 0,18 0,08 0,03 0,04
-1,00 0,73 0,50 0,27 0,12 0,05 0,08
-0,50 0,82 0,62 0,38 0,18 0,08 0,15
0,00 0,88 0,73 0,50 0,27 0,12 0,21
0,50 0,92 0,82 0,62 0,38 0,18 0,24
1,00 0,95 0,88 0,73 0,50 0,27 0,22
1,50 0,97 0,92 0,82 0,62 0,38 0,17
2,00 0,98 0,95 0,88 0,73 0,50 0,11
2,50 0,99 0,97 0,92 0,82 0,62 0,06
3,00 0,99 0,98 0,95 0,88 0,73 0,03
3,50 1,00 0,99 0,97 0,92 0,82 0,01
4,00 1,00 0,99 0,98 0,95 0,88 0,01
24 TESTS ADAPTATIVOS INFORMATIZADOS

Por tanto, de los 17 niveles de rasgo considerados, la estimación


máximo verosímil coincide con el valor θ=0.5. En la última columna
de la tabla 1 podemos observar que también existen otros niveles de
rasgo adyacentes que resultan bastante probables, pero esto es otra
cuestión que trataremos posteriormente al hablar de la precisión
asociada a una estimación concreta.
El problema de estimación es mucho más complejo en
situaciones reales. En primer lugar, es necesario trabajar con
tamaños muestrales N muy altos (normalmente por encima de 500
sujetos), y no sólo con un sujeto como en los ejemplos anteriores. En
segundo lugar, la primera vez que se aplica el test necesitamos
estimar los parámetros de los sujetos y los parámetros de los n ítems
que forman el test, es decir, tenemos que realizar una estimación
conjunta. En tercer lugar, el problema de la estimación y los
requerimientos muestrales son mayores cuantos más parámetros
tenemos que estimar para los ítems. En cuarto lugar, los niveles de
rasgo considerados deben ser, desde luego, más de los 17 establecidos
en nuestro ejemplo. A la vista de lo anterior, se comprende que la
estimación máximo verosímil requiere la obtención de los valores de
los parámetros de las personas (θ) y de los ítems (a, b, y c, si
aplicamos el modelo 3P) que hacen máxima la función de
verosimilitud L. La solución a este problema está bien resuelto:
consiste en encontrar las soluciones del sistema de ecuaciones que se
obtiene al igualar a cero la derivada de L respecto a cada parámetro.
El sistema no tiene solución analítica y se recurre a procedimientos
numéricos para encontrar sus soluciones (ver Baker, 1992;
Hambleton y Swaminathan, 1985;). Por razones de simplicidad
matemática, se suele maximizar LnL en vez de L, pues es más fácil
de operar con LnL y se encuentran las mismas soluciones en uno y
otro caso. Por lo tanto, si tenemos N personas y n ítems, la expresión
a maximizar sería la siguiente:

N n
ln L = ∑∑ [ uij ln Pij + (1 − uij ) ln Qij ]
i =1 j =1
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 25

Una explicación detallada y en castellano del procedimiento


aproximación numérica (de Newton-Raphson) se encuentra en López
Pina (1995, apartado 5.2.3) y en Santisteban y Alvarado (2001,
apartado 2.3 del capítulo de estimación).
El método de estimación de máxima verosimilitud tiene una
característica que dificulta su uso para estimar progresivamente el
nivel de rasgo de una persona a la que se aplica un TAI: no permite
obtener estimaciones finitas de θ mientras un sujeto tiene un patrón
constante de respuestas (todo aciertos o todo errores). En el modelo
1P, si una persona responde a n ítems, cuyos parámetros suponemos
conocidos, el estimador máximo verosímil de su nivel de rasgo es el
valor de θ obtenido al igualar a cero la expresión:

n
∂ ln L(u j ) / ∂θ = D Σ (uij − Pij )
i =1

Se puede comprobar que a) si sólo ha habido aciertos (es decir uij


= 1, i: 1, 2, .. n), cuanto mayor es θ, más se acerca P al valor de 1 y
por lo tanto más cerca estamos de la solución de la ecuación. b) Si
sólo ha habido errores, ocurre lo mismo cuanto más pequeño sea θ.
Dicho de otro modo, cuando una persona obtiene un patrón constante
de respuestas no puede obtenerse un máximo en la función de
verosimilitud.
Una manera de resolver este problema es utilizar un
procedimiento de estimación bayesiano, que permitirá obtener
estimaciones finitas aún con patrones constantes de respuesta. La idea
fundamental es incorporar a la función de verosimilitud información
sobre la distribución a priori del rasgo en la población. Así, este tipo
de procedimientos establecen que el estimador de θ será la moda
(estimación bayesiana MAP) o la media (estimación bayesiana EAP)
de la distribución de probabilidad posterior de θ, P(θ|u), cuya
expresión es:
26 TESTS ADAPTATIVOS INFORMATIZADOS

g (θ ) L(u | θ )
P (θ | u ) = ∝ g (θ ) L(u θ )
L(u )

donde g(θ) es la función de densidad (distribución a priori) del rasgo,


L(u|θ) es la función de verosimilitud y L(u) es la verosimilitud del
patrón de respuestas u independientemente de θ.
Dado que el denominador es un valor concreto, puede afirmarse
que la función de densidad posterior, P(θ|u), es proporcional al
producto de la distribución a priori y la función de verosimilitud. Esto
significa que si la función g(θ) fuera la uniforme, el estimador
bayesiano coincidiría con el máximo verosímil. Siguiendo a Baker
(1992), puede demostrarse que, siendo g(θ) una distribución normal
N(µ,σ), para la estimación bayesiana MAP el máximo se encuentra
resolviendo la ecuación:
(θ − µ ) n
− + D Σ (uij − Pij ) = 0
σ2 i =1

Como puede verse en la expresión anterior, el estimador MAP


proporciona estimaciones finitas para θ, aún con patrones constantes
de respuesta, dada la incidencia del primer sumando en la ecuación.
La estimación de parámetros en TRI es un asunto complejo. Los
procedimientos de estimación vistos se combinan con tres estrategias
distintas y dan lugar a los métodos de estimación conjunta, marginal
o condicionada. En el primer caso, se estiman simultáneamente los
parámetros de los ítems y de las personas. En el segundo, a partir de
la distribución conjunta de los ítems y de las personas, se obtiene la
distribución marginal de los estimadores de los parámetros de los
ítems, y a partir de esta información se obtienen los parámetros de las
personas. En los métodos condicionados los parámetros de los ítems
se obtienen a partir de su distribución condicionada, en vez de la
marginal. Puede encontrarse una descripción detallada de estos
métodos y sus características en Santisteban y Alvarado (2001,
cap.5) y Revuelta y Ponsoda (2001, cap.3).
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 27

2.5.- Precisión de las estimaciones


Una de las propiedades de la estimación de máxima
verosimilitud es que, asintóticamente (es decir, con un número
razonablemente grande de ítems), la distribución del estimador de θ
es normal, con media θ y varianza igual a:

1
σ (2θˆ|θ ) = n
Pi´2

i =1 Pi Qi

donde P´es la derivada del correspondiente modelo. La raíz cuadrada


de la expresión anterior será el error típico de medida (Se). El
denominador de la expresión se denomina información del test o
información de Fisher, y suele simbolizarse como I(θ). Dicho de otro
modo, la información de un test para un valor de rasgo concreto es el
inverso de la varianza del estimador para ese nivel. Puede observarse
que la información del test es el resultado de sumar las informaciones
de los n ítems que lo integran. De la misma forma, la relación entre el
error típico de medida y la información puede expresarse como:

1
Se =
I (θ )

El valor de I(θ) para cada uno de los modelos logísticos se


obtiene de la siguiente forma:

1) Para el modelo 1P:


I (θ ) = D 2ΣPiQi
28 TESTS ADAPTATIVOS INFORMATIZADOS

2) Para el Modelo 2P:

I (θ ) = D 2 Σa 2 Pi Qi

3) Para el modelo 3P:

a 2Qi ( Pi − c ) 2
I (θ ) = D Σ2

Pi (1 − c) 2

A partir de las expresiones anteriores puede verse que la


información de un test, y por tanto el error típico de medida, para un
determinado nivel de rasgo, depende fundamentalmente: a) de los
parámetros de discriminación de los ítems (cuanto mayores sean los
parámetros a, mayor será el valor de la información), b) de los
parámetros de pseudoazar (cuanto más bajos sean los valores de c,
mayor será la información), c) del número de ítems que tenga
(suponiendo que los ítems tienen las propiedades psicométricas
usuales, a mayor longitud, mayor información), y d) de la
convergencia entre el nivel de rasgo θ y los parámetros de dificultad b
de los ítems (cuanto más próximos sean, mayor será el producto PQ,
y por tanto más elevada será la información). Esto tiene una capital
importancia para conseguir los objetivos que se pretenden con la
aplicación de los TAIs: a pesar de aplicar pocos ítems, particularidad
que en principio dificultaría la obtención de una adecuada precisión
en la medida, conseguiremos buenos niveles de precisión si
presentamos a una persona los ítems más apropiados para su nivel de
rasgo, es decir, aquellos ítems discriminativos y de dificultad
apropiada para su nivel.
En la figura 5 se representan las funciones de información de los
5 ítems y del test completo que sirvieron como ejemplo (tabla 1,
apartado 2.3) para describir el cálculo de la función de verosimilitud,
siguiendo el modelo 1P.
CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI 29

Figura 5. Funciones de Información de los ítem y del test

1,0

,8

,6 ITEST
I(θ)
I1
,4
I2

I3
,2
I4

0,0 I5
-4,00 -3,00 -2,00 -1,00 ,00 1,00 2,00 3,00 4,00
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50

A partir de la gráfica concluimos que el test resulta más


informativo para valores centrales de rasgo que para niveles
extremos. Resulta curioso que, a pesar de que el test dispone de 5
ítems heterogéneos en dificultad (lo cuál podría hacernos pensar que
resultaría igualmente informativo para los diferentes niveles de
rasgo), los niveles más elevados de precisión se obtienen para un
rango de valores centrales de rasgo, lo cuál resulta bastante habitual
en la mayoría de los tests o bancos de ítems de rendimiento óptimo.
Además, dado que se aplica el modelo 1P, podemos comprobar que el
mayor nivel de información de un ítem coincide con los valores θ que
se aproximan a su dificultad.
En el caso de la estimación bayesiana MAP, la varianza del
estimador es de nuevo asintóticamente el inverso de la función de
información (Mislevy y Bock, 1990), que en este caso queda como :
30 TESTS ADAPTATIVOS INFORMATIZADOS

1
J (θ ) = + I (θ )
σ2

con lo que puede observarse que la información para un mismo nivel


de rasgo es mayor en este método bayesiano que en el método de
máxima verosimilitud (tanto mayor cuanto menor sea la dispersión de
la distribución a priori de θ).
Capítulo 3
Diseño del banco de ítems

3.1.- Componentes de un banco de ítems


Un banco de ítems se puede considerar como una base de datos
sobre los ítems que está formada por una parte sustantiva (enunciado,
opción correcta, opciones incorrectas), cierta información
psicométrica (parámetros estimados de los ítems desde los desarrollos
de la TCT o de la TRI) y cualquier otra que pueda ser relevante (v.g.
contenido que mide cada ítem, tasas de exposición en aplicaciones
precedentes, distribución de respuestas en los distractores, etc.).
Ningún algoritmo adaptativo resolverá los problemas de
representación, tamaño o calidad psicométrica que pueda tener un
banco de ítems. Por tanto, todas las orientaciones que se establecen
para elaborar un buen banco (ver, por ejemplo, Barbero, 1999) son de
general aplicación al caso en que el banco de ítems sea la base
sustantiva fundamental de un TAI.

3.2.-Elaboración de ítems
a) Formato, nº de opciones y especificaciones de contenido.

Como en cualquier test, los ítems del banco pueden incluir


información verbal o gráfica, que puede ser presentada de forma
32 TESTS ADAPTATIVOS INFORMATIZADOS

estática o dinámica mediante medios técnicos diversos (la propia


pantalla, sistemas audio o vídeo, etc.).
Cuando se pretende medir el rendimiento máximo (v.g.
conocimientos o rasgos intelectuales), lo más usual es utilizar un
formato de respuesta de elección múltiple, aunque se están probando
sistemas adaptativos para ítems de respuesta construida, como pueden
ser los que se desarrollan para evaluar el nivel de conocimientos en
matemáticas o en programación informática. Algunos trabajos que
estudian el número óptimo de opciones que deben tener los ítems
(Abad, Olea y Ponsoda, 2001) concluyen que tanto los indicadores
psicométricos clásicos como los derivados de la TRI se mantienen en
niveles aceptables cuando se elaboran 3 buenas opciones de
respuesta. Cuando el objetivo es la medición del rendimiento típico
(v.g. rasgos de personalidad o actitudes) se establece un formato de
respuesta de categorías ordenadas.
De cualquier forma, en uno u otro formato, todas las
consideraciones técnicas sobre la construcción de ítems deben tenerse
en consideración en la elaboración del banco (ver, por ejemplo,
Prieto y Delgado, 1996). Entre otras muchas cosas, y
fundamentalmente cuando se quiere realizar una determinada
clasificación de los sujetos a partir de sus puntuaciones en el TAI
(aprobado-suspenso, apto-no apto, admitido-excluido, etc.), resulta
importante el asesoramiento por parte de los especialistas en el
contenido que pretende medir la prueba. Por ejemplo, en países donde
se aplican TAIs de conocimientos para objetivos de licenciatura, de
acceso a determinado tipo de estudios o de certificación, suele
formarse un comité técnico, formado por miembros de la asociación
profesional, especialistas en el campo de interés y expertos en
Psicometría, que se encargan de establecer los objetivos del test, los
criterios de rendimiento mínimo que definen el punto de corte, así
como de realizar la construcción inicial y la revisión técnica del
banco de ítems. Estos especialistas son también los que indican a los
psicómetras qué mínimos de contenidos (v.g. cierto número de ítems
para cada una de las categorías diferentes especificadas) deben estar
incluidos en todas las aplicaciones del TAI, de cara a preservar la
validez de contenido de las estimaciones que se realicen.
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 33

Para preservar el supuesto de independencia local, conviene que


se cuide especialmente la redacción de ítems, de modo que un ítem no
proporcione pistas para responder correctamente otro ítem. En el caso
de que varios ítems tengan evidentes relaciones sustantivas entre sí,
conviene establecer ciertas restricciones en el algoritmo de selección
para que no se presenten simultáneamente a un mismo sujeto.

b) Tamaño del banco

El número de ítems que deben elaborarse tiene mucho que ver


con otras consideraciones prácticas como, por ejemplo, con la
cantidad de restricciones que se establecen en el algoritmo de
selección de ítems, con el número previsible de aplicaciones del TAI
en un futuro inmediato o con el propósito de diseñar bancos de ítems
diferentes que se vayan rotando en las sucesivas aplicaciones.
Renom (1993) revisa varios trabajos donde se plantea el número
de ítems que debe tener un banco que se va a emplear en un TAI.
Algunos autores recomiendan un mínimo de 100 ítems, aunque lo
normal es que tenga más de 500. Otros aconsejan que el banco tenga
10 veces más ítems que los que se van a emplear como promedio en
la aplicación del TAI. Muchos de los TAIs operativos disponen de
bancos con más de 1000 ítems (Wise y Kingsbury, 2000). El CAT-
ASVAB, quizás el “buque insignia de los TAIs”, comenzó con la
redacción de unos 4000 ítems (450 para cada una de las 9 áreas de
contenido que incluye). El sistema CARAT (Computerized Adaptive
Reporting and Testing), empleado en Portland para evaluar 5 áreas
diferentes de conocimientos en educación primaria y secundaria,
dispone de un banco total de conocimientos matemáticos de 6.500
ítems calibrados, de los que se van construyendo bancos parciales
para diferentes niveles educativos (varios para cada nivel) que se van
usando de forma rotatoria por razones de seguridad.
Cuando se establecen diferentes categorías de contenido,
conviene que en cada una haya un número parecido de ítems (o en su
caso un número proporcional a las restricciones establecidas en el
algoritmo de selección) ya que, de lo contrario, los ítems que
pertenecen a las categorías menos numerosas pueden sobrexponerse
en las sucesivas aplicaciones del TAI. Adicionalmente al tamaño
34 TESTS ADAPTATIVOS INFORMATIZADOS

requerido, algunos autores (Bergstrom y Lunz, 1999) aconsejan que


la distribución de la dificultad de los ítems sea similar a la del rasgo
de la población de examinados.

3.3.- Calibración
Uno de los requerimientos que resultan más costosos en un TAI
tiene que ver con la necesaria calibración del banco de ítems a partir
de los desarrollos de un modelo concreto de la TRI. Algunos estudios
empíricos (Hetter, Segall y Bloxon, 1994) concluyen que la
calibración realizada a partir de la aplicación en lápiz y papel
proporciona resultados comparables a la que se obtiene en
aplicaciones informatizadas de los mismos ítems. Desde un punto de
vista operativo, este dato resulta importante dado que la aplicación
informatizada siempre resulta más costosa a todos los niveles.
Para el proceso de calibración debe decidirse el tamaño mínimo
muestral recomendable, el modelo TRI más apropiado y si se va a
establecer un determinado diseño de anclaje y equiparación. Como en
cualquier otro test, deben comprobarse también el grado de ajuste de
los ítems al modelo TRI seleccionado y otras propiedades
psicométricas adicionales.

a) Tamaño muestral

El tamaño de la muestra que se requiere para la calibración tiene


que ver fundamentalmente con el número de ítems que tiene el banco
(o cada uno de lo bloques de ítems que se establezcan) y con el
modelo de TRI que se va a aplicar (los modelos con más parámetros
requieren tamaños muestrales mayores). Una de las ventajas del
modelo de Rasch es que exige un tamaño muestral sensiblemente
inferior a otros modelos (con 200 sujetos puede ser suficiente).
Renom y Doval (1999) comentan que suele aceptarse como mínimo
un tamaño muestral de 500 personas por cada bloque de ítems en que
se divida el banco en el diseño de anclaje (véase el subapartado
siguiente). Un tamaño insuficiente puede dar lugar a estimaciones de
los parámetros de los ítems con alto nivel de imprecisión. En el caso
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 35

de los TAIs, por ejemplo, la sobrestimación de los parámetros de


discriminación de ciertos ítems puede dar lugar a medidas
sobrestimadas de precisión. De todas formas, siempre pueden
plantearse estudios de simulación para determinar los niveles de error
y sesgo en la estimación de los parámetros que se obtienen con un
banco concreto y ciertas condiciones muestrales particulares (tamaño,
distribución del nivel de rasgo, etc.).
A veces, las condiciones reales llevan, por ejemplo, a calibrar
mediante el modelo 3P un banco de 164 ítems de razonamiento
matemático en una muestra de 200 sujetos (Zickar, Overton, Taylor y
Harms, 1999), ya que el TAI correspondiente se aplicaba con
objetivos de selección de programadores informáticos en una empresa
de servicios financieros. Dada la escasez del tamaño muestral, estos
autores procedieron mediante simulación a calibrar el banco bajo dos
condiciones muestrales distintas (200 y 1000 sujetos simulados),
comprobando que bajo ambas condiciones los niveles de precisión y
sesgo que proporcionaba el TAI resultaban comparables.
Por poner otro ejemplo, los estudios de calibración del banco de
ítems del CAT-ASVAB, aplicando los desarrollos del modelo 3P, se
realizaron a partir de las respuestas de 1500 sujetos por ítem.

b) Diseño de anclaje y equiparación de parámetros

El elevado número de ítems que contienen los bancos hace


muchas veces inviable su aplicación completa a los mismos sujetos
para realizar la calibración. Una solución posible a este problema
sería aplicar subconjuntos diferentes de ítems a muestras distintas de
sujetos, y proceder por separado a la calibración de esos tests. Ahora
bien, si no se ha fijado la escala de medida para los niveles de rasgo θ
(su origen y su unidad de medida) los parámetros que se estimen para
los ítems no estarán expresados en la misma escala de medida. Para
resolver este inconveniente, suele establecerse un diseño de anclaje
cuya versión más común consiste en dividir el banco en diversos
tests diferentes que tienen un conjunto de ítems en común
(denominado como test de anclaje). Los diferentes tests serán
aplicados a muestras diferentes de sujetos. Por ejemplo, si el banco
está formado por 100 ítems pueden elaborarse 2 tests (X, aplicado en
36 TESTS ADAPTATIVOS INFORMATIZADOS

la muestra 1, e Y, aplicado en la muestra 2) de 60 ítems, cada uno


con 40 ítems diferentes y 20 que son comunes a ambos (test de
anclaje -V-). Se trata de que el test de anclaje sea representativo del
banco completo (v.g. en cuanto a dificultad prevista o en relación a
los subdominios que representan) y que suponga alrededor del 20%
del número de ítems que tienen los diferentes tests a equiparar (véase
Navas, 1996).
Dado que los ítems que componen el test de anclaje V se han
aplicado a muestras diferentes, el proceso de equiparación de
parámetros de los ítems más extendido consiste en seguir el
procedimiento siguiente:

a) Por tratarse de los mismos ítems, las estimaciones de


dificultad de los ítems de V habrán de estar relacionadas
linealmente. Por tanto, podremos expresar la dificultad de un
ítem en un grupo en función de la dificultad que ha
correspondido a ese mismo ítem en el otro grupo, mediante la
ecuación:
b2 = d + kb1
donde b1 y b2 son las estimaciones de los parámetros de
dificultad de los ítems que forman el test de anclaje V
obtenidas en el grupo 1 y 2, respectivamente.
A partir de las dificultades de los ítems de V en los dos
grupos se obtienen las constantes k y d. Una posibilidad es
tomar como valores de k y d los coeficientes de la ecuación
de regresión lineal que mejor predice las dificultades en el
grupo 2 partir de las del grupo 1. Otra posibilidad (Muñiz,
1997, pag. 154 y ss) es aplicar las siguientes expresiones:
Sb ( 2 )
k=
Sb (1)
siendo el numerador la desviación típica de los parámetros de
dificultad de los ítems que forman V en el test Y (aplicado al
grupo 2), y el denominador la correspondiente en el test X
(aplicado al grupo 1).
d = −k b1 + b2
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 37

donde b1 y b2 son, respectivamente, las medias de los


parámetros de dificultad de los ítems de anclaje obtenidas en
los tests X e Y.

b) Una vez transformadas las estimaciones de dificultad de los


ítems de anclaje del grupo 1 a la métrica del grupo 2,
mediante la misma ecuación pueden transformarse las
estimaciones de dificultad del resto de ítems (en nuestro
ejemplo, 40) aplicados al grupo 1, a la métrica establecida
como definitiva.

c) Si se han aplicado el modelo 2P o el modelo 3P, la


transformación para las estimaciones de los parámetros de
discriminación es:
a1
a2 =
k
Los parámetros de pseudoazar no necesitan transformación.

Aunque nuestro ejemplo se limita a establecer únicamente dos


bloques de ítems, en situaciones operativas con bancos muy grandes
(por ejemplo en el caso del banco inicial que soporta el CAT-
ASVAB) se establecen hasta más de 40 bloques distintos de ítems
con tests de anclaje encadenados. El banco de matemáticas del
sistema CARAT se dividió en 134 bloques.
Por otra parte, cuando un TAI tiene versiones iniciales en lápiz y
papel, suelen establecerse diseños de anclaje para equiparar sus
estimaciones de rasgo; es decir, para expresar las estimaciones del
TAI en la misma escala en que se expresaban las estimaciones en el
test convencional. En el caso del CAT-ASVAB, por ejemplo, se usó
el método de equipercentiles basado en las puntuaciones directas, que
era la escala del test de lápiz y papel de partida.
38 TESTS ADAPTATIVOS INFORMATIZADOS

c) Modelo de TRI

Aparentemente, el modelo 3P siempre sería preferible, en la


medida que es el que permite mayor flexibilidad para dar cuenta de
los datos empíricos. Sin embargo, esto no siempre resulta así de claro
porque, entre otras cosas, la cantidad de parámetros que se tienen que
estimar en este modelo (3*Nº de ítems) requiere tamaños muestrales
mucho más grandes que, por ejemplo, el modelo 1P. De hecho,
bastantes de los TAIs operativos que más se usan (v.g. el CAT-GRE
o pruebas adaptativas para la certificación de la profesión de
especialistas médicos) se fundamentan en bancos de ítems calibrados
mediante el modelo de Rasch. El sistema MATHCAT emplea el
modelo logístico de dos parámetros, ya que dispone de un
procedimiento de respuesta construida (teclear una solución
numérica) donde es mínima la probabilidad de acierto aleatorio.
Una vez aplicado el banco, algunos estudios preliminares
pueden ayudarnos a decidir sobre el modelo de TRI más apropiado.
Por ejemplo, obteniendo las tasas de acierto de los sujetos con bajo
nivel de rasgo en los ítems más difíciles podemos tener información
sobre el grado en que se han producido aciertos por azar (lo cuál
podría aconsejar la aplicación del modelo 3P). Estudiando la
variabilidad de los índices clásicos de discriminación de los ítems,
relacionados con sus parámetros aj, podemos obtener una
información inicial sobre la viabilidad del modelo 1P. Suele ser
frecuente en estas fases iniciales de análisis de ítems obtener los
indicadores psicométricos clásicos y, por ejemplo, eliminar los que
obtienen correlaciones biseriales bajas con las puntuaciones directas
en el total de la prueba. De cualquier forma, existen indicadores
estadísticos de bondad de ajuste que pueden aplicarse para tomar la
decisión sobre los ítems a eliminar y sobre el modelo a elegir.

d) Ajuste al modelo

Como ya dijimos, una de las principales ventajas de la TRI en


relación a la TCT es que puede contrastarse el grado de ajuste de los
modelos a los datos empíricos. En este sentido, las principales
comprobaciones que deben hacerse con el banco de ítems elaborado
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 39

inicialmente tienen que ver con: a) el grado de cumplimiento del


supuesto de unidimensionalidad, b) el grado de invarianza de los
parámetros (de los sujetos y de los ítems) estimados, y c) el grado en
que el modelo predice los resultados empíricos observados.
Respecto al tema de la unidimensionalidad, Wise y Kingsbury
(2000) recuerdan muy apropiadamente que un banco no tiene una
dimensionalidad determinada, sino que esta es una cualidad de las
respuestas emitidas por las muestras de sujetos que lo responden, y
por tanto puede variar de una muestra a otra. Por tanto, el grado de
unidimensionalidad de un banco debe analizarse cuando se diseña por
primera vez, cuando se aplica a muestras diferentes de la inicial y,
desde luego, cuando se añaden nuevos ítems. En el apartado 2.2
hemos visto algunos de los procedimientos más utilizados para
evaluar el grado de unidimensionalidad.
En cuanto a la invarianza de los parámetros, pueden realizarse
dos comprobaciones distintas:

a) En relación a la invarianza de las estimaciones de θ, podemos


obtener la correlación entre los niveles de rasgo que se
estiman para toda la muestra de sujetos con dos submuestras
distintas de ítems (v.g. los fáciles en el primer subtest y los
difíciles en el segundo). La correlación entre ambas
estimaciones debería ser próxima a 1.
b) En cuanto a la invarianza de las estimaciones de los
parámetros de los ítems, puede procederse a la calibración
del banco en dos submuestras distintas (v.g. una formada por
los sujetos de menos nivel y la otra por los sujetos con más
elevadas estimaciones de rasgo). Si aplicamos el modelo 1P,
la correlación entre los valores bj estimados en ambas
submuestras debería ser próxima a 1.

En realidad, la invarianza de los parámetros es una propiedad


derivada de un buen ajuste del modelo. Se han propuesto indicadores
estadísticos de bondad de ajuste para comprobar el grado en que cada
ítem individualmente o el banco de ítems al completo se ajustan a un
modelo determinado. Uno de los procedimientos más comunes
(Bock, 1972; descrito en Muñiz, 1997, pp. 73 y ss) consiste en
40 TESTS ADAPTATIVOS INFORMATIZADOS

comparar las CCI empíricas y teóricas, siguiendo el siguiente


procedimiento:

a) Dividir el continuo de rasgo θ en “k” intervalos o categorías


diferentes.
b) Obtener la probabilidad teórica P(θj) asociada al punto medio
del intervalo que predice el modelo correspondiente.
c) Obtener la proporción empírica de aciertos - Pe(θj)- de cada
una de las categorías.
d) A partir de los datos anteriores, calcular el valor que asume el
estadístico:

Q=∑
k [
n j P(θ j ) − Pe (θ j ) ] 2

j =1 P(θ j )[ 1 − P(θ j ) ]
con distribución Chi-cuadrado con k-s grados de libertad,
siendo s el número de parámetros del ítem según el
correspondiente modelo TRI. Los valores de Q superiores a
los valores críticos tabulares correspondientes indicarán un
desajuste estadístico entre el modelo y los datos empíricos en
el ítem. Si sumamos los n valores Q de un banco de ítems,
obtendríamos un indicador global de ajuste con distribución
Chi-cuadrado con[(n-1)(k-s)] grados de libertad.

e) Software

Quizás el programa para la estimación de parámetros más


empleado en la actualidad sea la versión para Windows de BILOG
(Mislevy y Bock, 1990) que emplea el método de máxima
verosimilitud marginal y los métodos bayesianos EAP y MAP para
estimar los parámetros de los 3 modelos logísticos. ASCAL y
RASCAL (Assesment Systems Corporation, 1994) permiten realizar,
respectivamente, una estimación pseudobayesiana según los modelos
2P y 3P (ASCAL) y 1P (RASCAL), de tal forma que combina una
estimación de máxima verosimilitud conjunta con el procedimiento
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 41

bayesiano MAP para la estimación de los niveles de rasgo, asumiendo


su distribución normal en la población. MULTILOG (Thissen, 1991)
y PARSCALE (Muraki y Bock, 1996) realizan las estimaciones de
los tres modelos logísticos y las de la mayoría de los modelos
politómicos; el primero permite la aplicación de modelos politómicos
nominales y ordinales, y realiza una estimación máximo verosímil
marginal para los parámetros de los ítems y permite la estimación
bayesiana para los parámetros de rasgo; el segundo realiza una
estimación de máxima verosimilitud marginal para los parámetros de
los ítems con formato de respuesta ordenada. Existen programas
específicos de estimación para el modelo de Rasch (v.g. WINSTEPS,
FACETS,...) que proporcionan información más detallada sobre las
propiedades de los parámetros estimados.

3.4.- Propiedades psicométricas


Hemos indicado que, en principio, cuanto mayor sea el número
de ítems que incluye el banco mayor eficiencia tendremos en la
aplicación del TAI. Si el rango de los niveles de rasgo de la muestra
es amplio, conviene disponer de un banco cuyos ítems sean
heterogéneos en sus parámetros de dificultad (idealmente, la
distribución del número de ítems para cada valor de dificultad debería
ser uniforme) y tengan parámetros de discriminación elevados (con
un número muy elevado de ítems para discriminaciones superiores a
1). Por el contrario, si los objetivos de la aplicación son selectivos,
conviene que existan muchos ítems de dificultad apropiada para el
nivel de rasgo donde se situará el punto de corte (no puede ocurrir,
por ejemplo, que existan pocos ítems difíciles si se va a admitir
aproximadamente al 2% de los candidatos que se presentan a un
proceso de selección). La representación gráfica de la función de
información será ilustrativa de la precisión que tendrá el banco para
diferentes niveles de rasgo. Si, como suele ocurrir, la distribución de
los parámetros de dificultad no es uniforme (dado que se dispone de
pocos ítems adecuados para los niveles extremos de rasgo), es muy
probable que las estimaciones de dichos niveles extremos se realicen
con más imprecisión que la asociada a los niveles centrales.
42 TESTS ADAPTATIVOS INFORMATIZADOS

Una parte importante de la investigación que hemos desarrollados


sobre tests adaptativos y autoadaptados ha tenido su base sustantiva en
un banco de ítems de vocabulario inglés, cuyas propiedades se
describen en Olea, Ponsoda, Revuelta y Belchí (1996). El banco inicial
estaba formado por 250 ítems, cada uno de los cuales consta de la
correspondiente palabra inglesa junto a 5 alternativas de respuesta,
entre las que se encuentra su traducción correcta al castellano. Se
intentó incluir palabras inglesas usualmente conocidas para diversos
niveles de dominio del idioma y de categorías gramaticales variadas.
El banco se aplicó inicialmente, mediante soporte informático y de
forma aleatoria, a una muestra de 425 personas1 de diferentes niveles
educativos (desde estudiantes de educación secundaria hasta doctores).
Cada persona debe seleccionar mediante el teclado la alternativa que
considera como correcta y confirmar su respuesta mediante la barra
espaciadora. A partir de las respuestas de esta muestra se obtuvo para
cada ítem, mediante los programas ITEMAN y ASCAL (Assessment
Systems Corporation, 1994): a) su índice de discriminación (correlación
biserial ítem-test), b) sus parámetros de discriminación (a), dificultad
(b) y pseuodoazar (c) según el modelo 3P, y c) el grado de ajuste
(medida Chi-cuadrado) de los datos empíricos al modelo. La
variabilidad de los índices de discriminación y la evidente posibilidad
de acierto aleatorio nos hizo elegir este modelo. Se eliminaron 29 ítems
por no manifestar buenos indicadores (índices de discriminación bajos o
valores Chi-cuadrado muy elevados), con lo que el banco definitivo
quedó constituido por 221 ítems, cuyas propiedades psicométricas
fundamentales se detallan en las figuras 6, 7 y 8:

1
Reconocemos la posibilidad de cierto grado de inestabilidad de los parámetros
estimados, debida a la ratio tan exigua entre sujetos e ítems y al número elevado de
opciones de respuesta que éstos tienen. El tamaño muestral empleado en este trabajo no
debe ser tomado como ejemplo de las necesidades muestrales que exige el modelo 3P.
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 43

Figura 6. Distribución de parámetros de discriminación


40

30

N
20

10

0
0.25 0.5 0.8 1.1 1.4 1.7 2 2.3

parámetro de discriminación (a)

Figura 7. Distribución de parámetros de dificultad

30

20
N

10

Figura 8. Información según nivel de rasgo


0
-3.2 -2.4 -1.6 -0.8 0 0.8 1.6 2.4 3.2

parámetro de dificultad (b)

Como puede observarse en la figura 6, la mayoría de los ítems


tienen parámetros de discriminación aceptables (entre 0.8 y 1.5).
44 TESTS ADAPTATIVOS INFORMATIZADOS

Figura 8. Información según nivel de rasgo


60

50

40
información

30

20

10

0
-3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5

niveles de rasgo

Respecto a los parámetros de dificultad (ver figura 7), la


distribución de frecuencias resulta bastante uniforme, excepto para
los niveles de rasgo extremadamente altos. En la Figura 8 podemos
ver que la función de información no es simétrica respecto al nivel de
rasgo cero, con lo que el banco resulta más informativo para los
niveles medios-altos que para los medios-bajos; podemos constatar
además que resulta muy informativo para los niveles centrales de
rasgo (aproximadamente entre –2 y 2). En relación al parámetro de
pseudoazar, la inmensa mayoría de los ítems obtuvieron un parámetro
estimado entre 0.18 y 0.25, lo cuál resulta bastante coherente si
recordamos que el número de opciones de respuesta de cada ítem era
5.
Para comprobar el grado de unidimensionalidad del banco, se
obtuvo la matriz de correlaciones tetracóricas entre los 221 ítems, con el
programa PRELIS de la versión para Windows de SPSS. El primer
autovalor de esta matriz representó el 25.0% de la varianza total, lo que
resultó sustancialmente más elevado que la varianza explicada por el
segundo autovalor (5.7%).
En relación a su validez como una medida del dominio del idioma
inglés, se realizaron algunas comprobaciones adicionales. En primer
CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS 45

lugar, en una muestra de 62 personas, las estimaciones de su nivel de


vocabulario realizadas mediante el modelo 3P se correlacionaron con 3
puntuaciones del “Oxford Placement Test” (Allan, 1992): con el subtest
de gramática (r=0.69), con el de “listening” (0.55) y con la puntuación
total (0.76). En segundo lugar, a partir de las respuestas de la muestra de
calibración, se aplicó un análisis de varianza de un factor, donde la
variable independiente era el nivel educativo (1º, 2º, 3º y 4º de
secundaria, estudiantes universitarios y doctores) y la dependiente, las
estimaciones del nivel de vocabulario. Prácticamente todas las
comparaciones de medias resultaron significativas, lo que indica la
capacidad del banco para discriminar los niveles de vocabulario
obtenidos en los diferentes niveles académicos.

3.5.- Mantenimiento y renovación del banco de


ítems
Respecto al mantenimiento, los estudios sucesivos del banco
pueden llevarnos a eliminar ítems con propiedades psicométricas
inadecuadas (por ejemplo, ítems desajustados al modelo de TRI
empleado, otros defectuosos en su redacción o algunos escasamente
discriminativos). El estudio de las tasas de exposición de los ítems
(número de veces que se han presentado a diversos evaluandos)
puede hacer que los responsables de la aplicación decidan posponer la
presentación de ítems que aparecen en un porcentaje elevado de las
aplicaciones del TAI.
De cara a la renovación y ampliación del banco, en los TAIs
operativos suelen incorporarse progresivamente nuevos ítems, que no
se usan para estimar el nivel de rasgo de los evaluandos. La
estimación de los parámetros de estos ítems nuevos se realiza
mediante un procedimiento denominado como calibración online,
considerando como parámetros de los sujetos las estimaciones
realizadas en el TAI con los ítems antiguos y reduciendo así el
problema estadístico a la estimación de los parámetros de los nuevos
ítems. En el caso del CAT-ASVAB, los ítems experimentales que se
incluyen en los TAIs operativos (uno sólo en cada aplicación) se
incorporan al inicio del test, cuando para un sujeto se aplican ítems de
46 TESTS ADAPTATIVOS INFORMATIZADOS

diferente dificultad debido a que las estimaciones de rasgo no son


precisas en las primeras fases de la aplicación, es decir, cuando se
realizan con pocos ítems. También mediante este procedimiento
pueden re-calibrarse los ítems originales a medida que se dispone de
más respuestas a los mismos; Glas (2000) propone varios
procedimientos para estudiar si los datos iniciales y los nuevos
pueden ser descritos mediante el mismo modelo de TRI, es decir, si
en ambos conjuntos de datos se mantienen los valores de los
parámetros estimados.
En el caso de TAIs que se aplican un número de veces muy
elevado, y por tanto con elevado riesgo de transmisión del contenido
de los ítems de una aplicación a otra, es posible establecer múltiples
bancos de ítems que se van usando de forma rotatoria. Así se hace,
por ejemplo, en el caso del CAT-GRE, que dispone de más de 70
bancos diferentes de ítems que se emplean de forma rotatoria en las
sucesivas aplicaciones.
Capítulo 4
Algoritmos adaptativos

4.1.- Proceso de aplicación de un TAI


En la actualidad la mayoría de los TAIs siguen estrategias de
selección de ítems denominadas como estrategias de ramificación
variable, lo que significa que se realiza una estimación del nivel de
rasgo tras la respuesta a cada uno de los ítems, a partir de la cual se
seleccionará el siguiente ítem a presentar.
Calibrado el banco de ítems, la aplicación de un TAI requiere un
algoritmo que incluya: a) un procedimiento para determinar el primer
ítem a presentar, b) un método estadístico para estimar después de
cada respuesta un nivel de rasgo provisional y la precisión asociada a
dicha estimación, c) un algoritmo para la selección sucesiva de ítems,
y d) un criterio para finalizar la presentación de ítems. El núcleo
fundamental de un algoritmo adaptativo consiste en establecer la
estrategia de selección progresiva de ítems que facilite una estimación
precisa del nivel de rasgo con la presentación de un número reducido de
ítems para cada evaluando. El proceso de aplicación de un TAI a un
evaluando puede resumirse en el diagrama de flujo que muestra la
figura 9.
La sesión se inicia con una determinada estrategia de arranque, que
consiste en establecer de alguna forma el nivel de rasgo inicial que se
asigna al evaluando y que determina, por tanto, cual será el primer ítem
a presentar. Después de que el evaluando responde al primer ítem, se
realiza, mediante procedimientos estadísticos bayesianos o máximo-
48 TESTS ADAPTATIVOS INFORMATIZADOS

verosímiles, una primera estimación (por supuesto, muy imprecisa) de


su nivel de rasgo. También se emplean procedimientos derivados de la
TRI para seleccionar el segundo ítem a presentar al evaluando,
considerando que sea apropiado para el primer nivel de rasgo
provisional estimado. Así pues, en cada paso del proceso, se procede a
la selección y presentación sucesiva de ítems, considerando el patrón de
respuestas (aciertos/fallos) que se dan a los ítems precedentes para la
estimación del nivel de rasgo provisional (y la precisión asociada a esta
estimación) en ese momento de la aplicación del TAI. Se requiere
además algún criterio para dar por terminada la secuencia de
presentación de ítems, que normalmente tiene que ver con la
consecución de cierto nivel de precisión o con el establecimiento de una
determinada longitud del TAI. Veamos con cierto detalle algunas de las
posibilidades a considerar para cada uno de estos componentes o
requerimientos.

4.2.- Procedimientos de arranque


Existen diversas formas de decidir cuál será el primer ítem que
se presentará a un evaluando. La elección entre una u otra dependerá
fundamentalmente de si se dispone o no de información previa de los
evaluandos en aplicaciones previas de la prueba o en otro tipo de
variables relacionadas con el rasgo que mide el TAI (v.g. curso, edad
o nivel manifestado en otros tests). En el caso de que se disponga de
información previa en determinadas variables, pueden considerarse
como predictoras del nivel de rasgo que interesa y realizarse
estimaciones mediante regresión para decidir el primer nivel que
asignaremos a cada evaluando. Por ejemplo, Schoonman (1989)
utiliza la estimación en el subtest “Names” de una batería adaptativa
de aptitudes intelectuales (GATB) para estimar el nivel inicial en los
otros tres subtests que componen la prueba (Computation, Words y
Arithmetic). En el sistema CARAT (Kingsbury y Houser, 1999), si no
se sabe nada del rendimiento previo del alumno, se eligen al azar los
primeros ítems (entre los que tienen dificultad media para ese nivel
educativo) para evitar que se repita la secuencia inicial en diferentes
estudiantes; cuando se dispone de evaluación previa de los alumnos
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 49

en otros tests aplicados previamente, se realiza una estimación


mediante regresión y el TAI comienza con un ítem ajustado en
dificultad al nivel de rasgo estimado en la regresión; otras veces se
utiliza como información previa sus calificaciones en las asignaturas
que se relacionan con los diversos tests o el rendimiento medio del
nivel educativo actual del evaluando.

Figura 9. Diagrama de flujo de la aplicación de un TAI


50 TESTS ADAPTATIVOS INFORMATIZADOS

Cuando en el proceso de evaluación, como ocurre en muchos


contextos reales, los responsables de la aplicación no tienen
información relevante sobre el rendimiento previsible de los
evaluandos, la estrategia de arranque puede establecerse:

a) Asignando un nivel de rasgo aleatorio entre un rango de


valores cercano a la media (por ejemplo, un valor
seleccionado al azar entre niveles de rasgo superiores a –0.4 e
inferiores a 0.4).
b) Aplicando un test corto inicial, heterogéneo en dificultad y
común a todos los sujetos, para estimar el nivel de rasgo
inicial a partir de datos empíricos.
c) Permitiendo al evaluando que elija el nivel inicial de
dificultad del ítem (estrategia típica de los tests
autoadaptados, que se comentarán más tarde).
d) Cuando se usan métodos bayesianos de estimación de los
niveles de rasgo, puede establecerse como nivel inicial la
media de la distribución a priori.
e) En algunos tests de certificación se inicia el TAI con un ítem
cuya dificultad se encuentra próxima al nivel θ que delimita
el punto de corte (Bergstrom y Lunz, 1999). Se establece
también una restricción que consiste en presentar los
siguientes 9 ítems con una dificultad que no se separe en más
de 0.10 logits del punto de corte establecido.
f) La versión adaptativa del GRE comienza con ítems fáciles,
dado que sus responsables quieren que los estudiantes
acierten los primeros ítems para incrementar su motivación
en la ejecución del resto de ítems.
g) En la aplicación simulada de ciertos TAIs se elige al azar el
primer ítem entre los 10 más informativos para θ = -1 (Yi,
2002).

Algunos de estos métodos pueden tener incidencia en la


estimación final del nivel de rasgo, fundamentalmente si el nivel
inicial asignado está lejos del nivel verdadero del evaluando. En estos
casos, con una persona en concreto, pueden producirse secuencias
iniciales de errores (o aciertos) que inciden en los niveles de rasgo
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 51

provisionales estimados tras responder a los primeros ítems de la


prueba. Esto tendría incidencia en el nivel de rasgo definitivo
estimado si se aplican pocos ítems (alrededor de 10 como criterio de
parada), mientras que se consigue recuperar el nivel de estimación al
nivel paramétrico si el TAI finaliza después de aplicar unos 20 ítems
(van der Linden y Pashley, 2000).

4.3.- Métodos de estimación del nivel de rasgo


Una vez que el evaluando responde al primer ítem, se requiere
aplicar un método estadístico para estimar un primer nivel provisional
de rasgo. En tests convencionales, existen programas de ordenador
para estimar el nivel de rasgo, que se aplican después de obtener el
patrón de respuesta a los ítems de cada evaluando. En el caso de un
TAI se requiere la programación específica del método estadístico de
estimación de los niveles de rasgo, ya que dicha estimación hay que
realizarla tras la respuesta a cada ítem, y determina también el
siguiente ítem a seleccionar. En la aplicación de un TAI debemos
estimar progresivamente niveles de rasgo, dando por conocidos los
parámetros de los ítems, lo cual tiene también algunos problemas que
pasamos a comentar, junto a algunas de las soluciones propuestas.
El método de máxima verosimilitud, como se dijo, no
proporciona estimaciones finitas mientras un evaluando tiene un
patrón constante de respuestas (todo aciertos o todo fallos), lo que
puede producirse en los primeros ítems que se le presentan. A este
problema se han dado varias soluciones:

a) Herrando (1989) propone que se considere, previamente a la


estimación del nivel de rasgo tras la respuesta al primer ítem,
que el evaluando ha acertado un ítem muy fácil (b=-4) y que
ha fallado otro muy difícil (b=4). De esta forma,
incorporando estas respuestas a dos ítems ficticios,
conseguiremos tener variabilidad en las respuestas desde el
inicio de la prueba.
52 TESTS ADAPTATIVOS INFORMATIZADOS

b) Dodd (1990) propone obtener las sucesivas estimaciones del


nivel de rasgo mediante las fórmulas que siguen a
continuación, hasta que sea posible estimar mediante el
procedimiento de máximo verosimilitud. Se parte de una
estimación de nivel de rasgo inicial. El primer ítem será el
más apropiado para dicha estimación inicial. Si el ítem es
acertado, se actualiza el nivel de rasgo mediante la expresión:

b − θˆi
θˆi +1 = θˆi + M
2
Si el primer ítem es fallado, la expresión a aplicar es:

b − θˆ
θˆi +1 = θˆi + m i
2
donde bM y bm son, respectivamente, los parámetros de
dificultad mayores y menores de los ítems que componen el
banco. Las expresiones se siguen aplicando hasta que se
obtiene un vector de respuestas que contenga tanto aciertos
como errores.

c) Revuelta y Ponsoda (1997) modifican el procedimiento de


Dodd (1990) y proponen que el valor de rasgo actualizado no
sea el punto medio entre el último valor de rasgo y el
parámetro de dificultad, sino la media o la mediana de una
distribución normal truncada en esos dos valores. De esta
forma se tiene en cuenta la distribución probable de los
niveles de rasgo en la población.

d) Yi (2002) aplica una estimación bayesiana EAP hasta que el


vector de respuestas tiene aciertos y errores; a partir de ese
momento aplica un método de máxima verosimilitud.

El problema que tiene el método de máxima verosimilitud con


los patrones constantes de respuesta podría resolverse también
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 53

mediante la aplicación de métodos bayesianos. Ahora bien, tampoco


estos carecen de problemas:

a) Uno importante es que la estimación del nivel de rasgo no


depende únicamente del rendimiento de la persona, sino de
los valores de media y varianza que se asignan a la
distribución a priori del rasgo en la población. Desde un
punto de vista aplicado, este hecho ha dado lugar a demandas
legales en Estados Unidos (Wise y Kingsbury, 2000).

b) Desde un punto de vista teórico, dependiendo de la


distribución a priori establecida puede darse una distribución
posterior multimodal, con lo que la estimación bayesiana
MAP puede referirse a un máximo local.

c) Por otra parte, tenemos el problema del sesgo de las


estimaciones que, aunque lo trataremos con más extensión en
los apartados finales de este texto, avanzamos someramente
en este momento. Normalmente, el sesgo en las estimaciones
es tanto mayor cuanto menor es la longitud del test, con lo
cuál podría representar un problema importante si, como es el
caso en los TAIs, se aplica un número reducido de ítems. Por
otra parte, en TAIs operativos, que establecen un tiempo
límite global para realizar la prueba, ocurre un problema con
los sujetos que se dejan ítems sin responder. En estos casos,
los procedimientos bayesianos sesgan hacia adentro la
estimación, es decir, proporcionan una estimación con cierta
regresión hacia la media de la distribución a priori del rasgo
(lo cuál puede favorecer a los sujetos de bajo nivel y
perjudicar a los de alto nivel). De este problema no escapan
los procedimientos de máxima verosimilitud, si bien la
dirección del sesgo es la contraria.
54 TESTS ADAPTATIVOS INFORMATIZADOS

4.4.- Algoritmos para la selección de ítems


Ya desde que se decide arrancar el TAI mediante un
procedimiento concreto, entra en funcionamiento uno de los
componentes fundamentales del algoritmo, que consiste en establecer
la forma de elegir el siguiente ítem a presentar después de estimar el
nivel de rasgo provisional de un evaluando. Mientras éste lee un ítem
y piensa sobre su respuesta, el algoritmo realiza los cálculos
oportunos para determinar cuál será el siguiente ítem a administrar si
se acierta o falla el ítem actual. De esta forma, el tiempo transcurrido
entre la emisión de una respuesta y la presentación del siguiente ítem
resulta imperceptible para el sujeto.
Los procedimientos de selección de los ítems han
experimentado importantes mejoras con el transcurso de los años. Los
primeros TAIs establecían procedimientos de selección de ítems
bastante rígidos (ver el apartado 1.2). Prácticamente cualquier
procedimiento actual de selección de ítems sigue una estrategia de
nivel múltiple con ramificación variable, que permite actualizar el
nivel de rasgo estimado para una persona después de responder
progresivamente a los ítems que se le presentan. Para un nivel de
rasgo estimado provisionalmente se selecciona el siguiente ítem
mediante alguno de estos dos criterios:

a) El criterio de máxima información consiste en seleccionar,


del banco de ítems disponible en un momento dado de la
aplicación, el ítem con mayor nivel de información (ver
apartado 2.4) para el nivel de rasgo actual estimado. En el
caso de estimar el nivel de rasgo por el método de máxima-
verosimilitud, la información que suministran los ítems tiene
una estrecha relación con la precisión con la que medimos el
nivel de rasgo. Supongamos que el TAI ha administrado
cinco ítems; habrá entonces 32 = 25 posibles patrones de
respuesta (u1, u2, .. u5). En 30 patrones se podrá obtener el
estimador máximo-verosímil. No se podrá obtener en los
patrones que sólo contengan aciertos o errores. Si
conociésemos el verdadero nivel de rasgo de la persona
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 55

podríamos calcular la varianza del estimador θˆ del siguiente


modo:

30
V = ∑ P (u1 , u 2 ,..u 5 θ )(θˆ − θ ) 2 ,
i =1

donde θ es la media de los estimadores, es decir:

30
θ = ∑ P (u1 , u 2 ,..u 5 θ )θˆ
i =1

El TAI, tras el quinto ítem, ofrecerá como varianza del


estimador el inverso de la información que suministran los
cinco ítems para el último nivel de rasgo estimado; este valor
es una aproximación a la varianza real, V. De haber
administrado 50 ítems, cabría un razonamiento similar. El
número de posibles vectores de respuesta sería mucho mayor
250, solamente en (250 – 2) de los cuales podrá obtenerse el
estimador máximo verosímil. La varianza del estimador sería
la varianza de estos posibles valores. Aplicado el test a una
persona, dará lugar a un vector de respuestas. El recíproco de
la información suministrada por los 50 ítems para la última
estimación del nivel de rasgo será la estimación de la
varianza del estimador θˆ . Cuanto mayor sea el número de
ítems, mejor estimación será de la varianza real el inverso de
la información suministrada por el conjunto de ítems
administrado.
Esto significa que si aplicamos este criterio de selección de
ítems, reduciremos progresivamente lo máximo posible la
incertidumbre sobre el nivel verdadero de rasgo. Si el banco
se ha calibrado mediante el modelo 1P, el ítem elegido será el
que tenga un parámetro de dificultad más próximo al nivel de
rasgo estimado tras la última respuesta del sujeto. Si se ha
empleado el modelo 3P, además de la proximidad entre
56 TESTS ADAPTATIVOS INFORMATIZADOS

ambas estimaciones incidirá en la información el valor de los


parámetros de discriminación y pseudoazar.

b) El criterio de máxima precisión esperada, también


denominado como método de Owen (1975), es un método de
selección bayesiano que consiste en elegir el ítem que
proporciona una varianza menor de la distribución posterior
del nivel de rasgo. Después de que el evaluando responde a
una secuencia de k ítems disponemos de la distribución
posterior de θ [es decir, P(θ|u)]. En este punto se estima la
precisión (varianza de la distribución posterior) que se
conseguiría si se acertara o fallara cualquiera de los ítems que
quedan disponibles en el banco, seleccionando el que
proporcione una menor varianza, es decir, una mayor
precisión esperada. En este caso ya no se busca el ítem que
más contribuye a la precisión de la estimación de un nivel
concreto de rasgo, sino el más apropiado para toda una
distribución de estimaciones.

Desde un punto de vista aplicado, el método de máxima


información ha sido el más empleado, entre otras cosas porque tiene
la ventaja, cada vez menos importante dada la potencia de los
ordenadores personales actuales, de que permite establecer tablas de
información calculadas de antemano, lo cuál contribuye a agilizar la
selección del siguiente ítem. Tiene sin embargo el inconveniente de
“quemar” ítems muy discriminativos entre los primeros que se
presentan, cuando el nivel de rasgo estimado puede estar alejado del
parámetro de rasgo del sujeto. Esto es algo importante, ya que
aparentemente estamos seleccionando ítems de alto poder
discriminante, cuando en realidad no es así (lo que se hace es emplear
ítems que serían apropiados para otros niveles de rasgo). ¿Por qué
entonces agotar ítems que pueden no ser informativos para el nivel de
rasgo real del evaluando y podrían sin embargo serlo para otros
sujetos? Dentro de las líneas actuales de investigación en TAIs
abordaremos algunas alternativas para resolver estos problemas.
El criterio de máxima precisión esperada se fundamenta en el
supuesto de distribución normal a priori de los niveles de rasgo en la
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 57

población. Computacionalmente, este método bayesiano es mucho


más exigente como procedimiento de selección de ítems. Esto ha
llevado a utilizar procedimientos híbridos de estimación-selección,
como el empleado en el CAT-ASVAB, que realiza una estimación
bayesiana del nivel de rasgo (con objeto de poder realizar
estimaciones finitas ante patrones constantes de respuesta) pero
selecciona los ítems según el principio de máxima información.
Parece (Segall y Moreno, 1999) que el procedimiento híbrido
proporciona mayor precisión y eficiencia (requiere menos ítems para
alcanzar un determinado nivel de precisión) que cualquiera de los dos
procedimientos aplicados individualmente.

Un problema común a ambos métodos es que presentan muchas


veces los ítems más discriminativos (y de menor parámetro de
pseudoazar cuando se emplea el modelo 3P). Esto puede tener como
consecuencia que estos ítems con mayores tasas de exposición se
difundan entre los evaluandos, con lo cual se pone en riesgo la
seguridad del test y por tanto la validez de las puntuaciones estimadas
a partir de las respuestas de los evaluandos (Wise y Kingsbury, 2000).
Este riesgo exigirá el establecimiento de métodos para el control de
la exposición, que actualmente representa un requisito de cualquier
TAI que se aplique en contextos de evaluación un número elevado de
veces. Según datos recientes (Hornke, 2000) existen bancos donde
más del 80% de los ítems prácticamente no se seleccionan en ninguna
de las aplicaciones (piénsese en los costes económicos asociados a su
elaboración), mientras que otros se presentan a más de la mitad de los
evaluandos que reciben el TAI (lo cuál incrementa el riesgo de que se
difundan para posteriores aplicaciones). No debe olvidarse que, dada
su escasa longitud, el efecto en ganancia ilegítima que tiene conocer
la respuesta correcta de un ítem es mucho mayor en un TAI que en un
test convencional.
Hoy en día, cualquier algoritmo de selección de ítems de los
TAIs operativos incorpora un procedimiento para reducir la tasa de
exposición de los ítems aplicados más frecuentemente e incrementar
la de los infrautilizados. Es importante considerar que todos los
procedimientos establecidos para controlar la exposición tienen
alguna repercusión en la precisión de las estimaciones, ya que tendrán
58 TESTS ADAPTATIVOS INFORMATIZADOS

como consecuencia no seguir estrictamente el método de la máxima


información. Algunos de los métodos de control de la exposición que
más se aplican en los TAIs operativos son los siguientes:

a) Método 5-4-3-2-1 (McBride y Martin, 1983): consiste en


administrar como primer ítem uno al azar entre los 5 más
informativos; como segundo, otro entre los 4 más
informativos; y así hasta el quinto, a partir del cuál se sigue el
criterio de máxima información.

b) Método “Randomesque” (Kingsbury y Zara, 1989): la


selección se realiza siempre al azar entre los 5 ítems más
informativos.

c) Método de Sympson-Hetter (Sympson y Hetter, 1985): quizás


el procedimiento más utilizado hasta el momento, consiste en
asignar a cada ítem un parámetro “ki”, que varía entre 0 y 1,
para controlar su tasa de exposición. Este valor se obtiene,
antes de la aplicación del test, mediante un estudio de
simulación que pone en relación la tasa de exposición
permitida –r- (prefijada según los intereses de la aplicación) y
la tasa obtenida para cada ítem mediante la simulación de
respuestas de una población amplia (ti). Si ti>r, entonces
ki=r/ti; de lo contrario, ki=1. Durante la aplicación del TAI se
selecciona el ítem más informativo para el último nivel de
rasgo estimado; se elige al azar un valor aleatorio entre 0 y 1;
si este valor es menor de “ki” se administrará el ítem; de lo
contrario, se sigue con el siguiente ítem más informativo
repitiendo el procedimiento.

La versión experimental del CAT-ASVAB empleaba el método


5-4-3-2-1. Posteriormente se implementó el método de Sympson-
Hetter, que precisamente se propuso en el contexto de esta prueba
para resolver algunos de los problemas que manifestaba el método
anterior. En el CAT-GRE se utilizó primero el método Randomesque
(seleccionando al azar entre los 10 ítems más informativos) y con
posterioridad se ha optado por el de Sympson-Hetter. Algunos TAIs
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 59

para objetivos de certificación seleccionan al azar cada ítem entre los


más informativos para un determinado rango de niveles de rasgo
(Bergstrom y Lunz, 1999). En el caso de TAIs para objetivos de
licenciatura y certificación, Way (1998) propuso que: a) el banco
tenga 8 veces más ítems que los que se van a aplicar en cada test, b)
como promedio, cada ítem no se presente a más del 15% de los
candidatos, c) como promedio, para cualquier par de candidatos, no
deben presentarse más de un 20% de ítems comunes, y d) para
cualquier par de personas con similar nivel de rasgo, no deben
solaparse más de un 40% de los ítems. Los requerimientos que
acabamos de exponer precisan la disponibilidad de métodos
condicionados de control de la exposición (véase Hontangas,
Ponsoda, Olea y Abad, 2000).
Ninguno de estos métodos carece de dificultades, pero la más
importante es que controlan la tasa máxima de exposición pero no
incrementan de forma apreciable la tasa de exposición de los ítems
menos discriminativos. En apartados posteriores veremos algunas
modificaciones interesantes para resolver estos problemas.
Además, alguno de los TAIs operativos incorporan restricciones
adicionales en el algoritmo de selección de los ítems, que pueden ser
de varios tipos. Unas tienen que ver con balancear los contenidos que
deben incluirse en cualquier aplicación (de forma que se preserve la
validez de contenido del test) y el formato de los ítems (para
asegurarse que todos los evaluandos reciben ítems con formato
similar). Otras restricciones evitan que se presente a la misma persona
ítems relativos al mismo contenido y que por tanto pueden colisionar
con el principio de independencia local. En definitiva, a los criterios
de selección de ítems estrictamente estadísticos se han añadido otro
tipo de criterios y restricciones, que tienen mucho que ver con que los
clientes de los TAIs (las instituciones o empresas donde se van a
aplicar) los acepten como pruebas justas y de validez aparente. Entre
los procedimientos más clásicos citaremos los siguientes:

a) Partición del banco. Uno de los primeros procedimientos


para incorporar restricciones no estadísticas en el algoritmo
de selección de ítems fue propuesto por Kingsbury y Zara
(1989), quienes dividieron un banco según varias categorías
60 TESTS ADAPTATIVOS INFORMATIZADOS

de contenido y establecieron un algoritmo para elegir el ítem


más informativo entre la categoría más numerosa de ítems.
Supongamos que cada ítem pertenece a una de cuatro
categorías de contenido y que queremos que el test presente
un 30% de los ítems de cada una de de las tres primeras
categorías y un 10% de la cuarta. Antes de seleccionar un
ítem, el test obtendría el porcentaje de ítems administrados de
cada categoría y determinaría en qué categoría la diferencia
entre el porcentaje de ítems administrados y el de referencia
es mayor. El siguiente ítem a administrar seria el ítem de la
categoría seleccionada que proporcionase la máxima
información para la estimación del nivel de rasgo actual.

b) Método de las desviaciones ponderadas. Stocking y Swanson


(1993) propusieron un procedimiento para formular
matemáticamente las restricciones establecidas por los
expertos (por ejemplo, un límite mínimo y máximo de ítems
para cada categoría de contenido) junto a otras restricciones
estadísticas (por ejemplo, límites para la función de
información). Cuando va a seleccionarse un ítem se considera
el valor que proporciona cada ítem disponible en el banco en
una función matemática donde se pondera de manera
diferente las desviaciones respecto a los límites establecidos
para cada restricción (ver más detalles en Olea, Ponsoda,
Revuelta, Hontangas y Suero, 1999).

c) Testlets. Wainer y Kiely (1987) establecieron unidades de


análisis alternativas a los ítems, que consistían en grupos de
ítems referidos a un mismo contenido (por ejemplo, preguntas
sobre comprensión lectora referidas a un mismo texto). Será
la selección de testlets, y no de ítems aislados, la que se
adaptará al nivel del evaluando.

d) Tests multietápicos informatizados. Propuestos por Lord


(1980) representan una extensión de la estrategia de dos
niveles a k-niveles, de tal forma que en los niveles últimos se
ubican tests, cada uno de los cuales es apropiado para niveles
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 61

homogéneos de rasgo. Un ejemplo de esta estrategia se aplica


en USA para la evaluación de conocimientos de medicina en
los exámenes de certificación de esta profesión, mediante el
denominado como sistema CAST (Luecht y Nungester,
2000).

4.5.- Procedimientos de parada


El algoritmo debe incluir también un procedimiento para dar por
concluida la prueba; es decir, para considerar que una estimación
provisional del nivel de rasgo es la que se va a tomar como
estimación definitiva para el evaluando. Las posibilidades que
tenemos son cuatro: a) el criterio de longitud variable, que consiste en
detener la aplicación cuando el error típico de medida desciende de
un valor predeterminado, b) el criterio de longitud fija, que consiste
en parar el test cuando se presentan un número determinado de ítems,
c) hacerlo mediante un criterio que combina los dos precedentes, y d)
un procedimiento especial de longitud variable, que consiste en dejar
de presentar ítems cuando el nivel de rasgo estimado se aleja
significativamente del punto de corte establecido.
La elección de uno u otro procedimiento depende
fundamentalmente de los objetivos de la aplicación y de las
propiedades psicométricas (distribuciones de los correspondientes
parámetros de los ítems) que tiene el banco. Por ejemplo, si el
objetivo es disponer de una primera evaluación de conocimientos en
el acceso a un determinado nivel educativo, un criterio de longitud
fija puede tener la ventaja de emplear en la sesión de evaluación un
tiempo parecido para todos los evaluandos (Wise y Kingsbury, 2000).
El problema de este procedimiento es que dispondremos de
estimaciones de rasgo con diferentes niveles de precisión;
normalmente, dado que las funciones de información de los bancos de
ítems no son uniformes (se alcanza menor información para los
niveles de rasgo muy bajos o muy altos, dado que es difícil elaborar
muchos ítems con alto valor discriminante para estos niveles), las
estimaciones de los evaluandos con niveles de rasgo extremos se
realizarán con menor precisión. Esto será grave cuando el banco
62 TESTS ADAPTATIVOS INFORMATIZADOS

disponga de pocos ítems informativos para niveles de rasgo muy


bajos o muy altos.
El procedimiento de longitud variable tiene la ventaja de
proporcionar estimaciones con la misma precisión, pero tiene la
desventaja de que el test tiene diferente longitud para los evaluandos,
lo cuál puede no ser bien percibido por aquellos que reciben pocos
ítems. Suele ser el procedimiento que se elige cuando las
consecuencias de la evaluación son especialmente importantes para
las personas; por ejemplo, en procesos de selección de personal o de
evaluación de conocimientos para obtener la licenciatura o la
certificación para desempeñar una determinada profesión. Una
manera de preservar cierto nivel de precisión sin que la sesión se haga
excesivamente larga consiste en emplear un criterio mixto. El sistema
CARAT utiliza un criterio de parada de este tipo, que consiste en
detener el test cuando se responden 22 ítems o cuando el error de
medida desciende de 0.4.
En algunos exámenes de certificación se ha decidido aplicar un
criterio de parada de longitud fija, ya que candidatos que no pasaban
la prueba, a los que se presentaban pocos ítems (según un criterio de
longitud variable), sentían que no habían tenido las suficientes
oportunidades para manifestar su competencia (Bergstrom y Lunz,
1999). En otros, sin embargo, se usa un criterio de longitud variable
estableciendo un mínimo de ítems a aplicar (60 en algunos casos) y
terminando la prueba cuando el nivel de rasgo estimado cae fuera del
intervalo de confianza establecido para el punto de corte. Este último
criterio de parada se emplea en tests referidos al criterio, donde los
objetivos de la aplicación tienen que ver con la clasificación de los
sujetos en uno de dos grupos (apto-no apto, aprobado-suspenso,
admitido-no admitido, etc.). Los evaluandos que tienen un nivel de
rasgo próximo al punto de corte establecido por los especialistas
necesitarán responder a un mayor número de ítems para así poder
determinar con cierto nivel de confianza que su estimación está por
encima o por debajo de dicho punto de corte. Por ejemplo, en el
MATHCAT se establecen dos puntos de corte (θ = -0.544 y θ = -
0.021) para clasificar a los evaluandos en uno de los 3 niveles de
conocimiento establecidos; el TAI finaliza cuando el intervalo de
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 63

confianza (con probabilidad 0.90) del nivel de rasgo estimado no


incluye ninguno de los puntos de corte.
En relación con el criterio de parada empleado, pueden surgir
problemas de sesgo en la estimación si un evaluando deja un número
elevado de ítems sin responder en el tiempo total asignado para la
sesión de evaluación. En el caso del CAT-ASVAB, donde se realizan
estimaciones bayesianas del nivel de rasgo, se ha propuesto un
procedimiento para corregir este problema en función de la cantidad
de ítems que se dejan sin responder (ver Segall y Moreno, 1999). En
la experiencia con el CAT-GRE se ha decidido estimar los niveles de
rasgo cuando se responde al menos al 80 % del número total de ítems
establecido para una sesión concreta de evaluación (Mills y Steffen,
2000); además, se han ensayado diferentes formas para puntuar los
tests incompletos: a) puntuar de modo que se penalice la cantidad de
ítems sin contestar, b) considerar que los ítems no alcanzados se
fallan, c) suponer que se aciertan por azar, o d) asumir que se aciertan
según las predicciones del modelo. Los responsables de esta prueba
han optado por el primer procedimiento, avisando previamente a los
alumnos, dado que consideran que es mejor animar a completar la
prueba en el tiempo prefijado que emplear cualquier procedimiento
corrector.

4.6.- Requisitos informáticos


La aplicación de los TAIs puede hacerse en ordenadores que
trabajan de forma independiente, en un sistema de red local o, lo que es
posible desde hace poco tiempo, a través de Internet. En el primer caso,
cada ordenador debe disponer del software completo que se necesita
para una sesión de evaluación. En caso de disposición en red, cada
ordenador puede conectarse con los restantes y con una unidad central
que controla el proceso de evaluación y registra los resultados. La
ventaja fundamental de una disposición en red se refiere al control
central del proceso, que permite diagnosticar posibles errores puntuales
en el momento de la evaluación (por ejemplo detectar patrones
aberrantes de respuesta) y centralizar toda la información de un grupo
de evaluandos. Sobre las posibilidades que ofrece Internet para
64 TESTS ADAPTATIVOS INFORMATIZADOS

cualquier tipo de test, Hontangas (1999) describe el procedimiento de


construcción, aplicación y transmisión de respuestas, así como el
software de programación disponible.
En cuanto a la configuración de los equipos, los avances técnicos
que tienen los ordenadores personales actuales (capacidad y rapidez de
procesamiento, amplitud de memoria, disposición de periféricos) son
suficientes para cubrir las necesidades que exigen los TAIs más usuales.
Ahora bien, conviene recordar algunas exigencias concretas (Olea y
Ponsoda, 1996):

a) En primer lugar, resulta imprescindible que transcurra un


período de tiempo prácticamente imperceptible entre la emisión
de una respuesta y la presentación del siguiente ítem. Hay que
considerar que el ordenador debe realizar en ese tiempo una
cantidad importante de operaciones (las más complejas son la
estimación provisional de un nivel de rasgo y la selección del
siguiente ítem) que se facilitan con procesadores rápidos. Una
estrategia frecuente es aprovechar los segundos en los que el
sujeto está pensando su respuesta para que el ordenador vaya
adelantando algunos de los muchos cálculos que ha de realizar.

b) En segundo lugar, necesitamos una importante capacidad de


almacenamiento permanente (donde resida la información sobre
el banco de ítems, los resultados de la calibración, las
instrucciones, los ejemplos de prueba, los resultados de cada
evaluando y el software) cuyos requisitos mínimos cumplen ya
la mayoría de las unidades de almacenamiento que incorporan
los ordenadores personales. Se precisa también una apreciable
cantidad de memoria RAM.

c) En tercer lugar, cuando el banco incluye ítems con contenido


gráfico, necesitamos una buena resolución de pantalla,
considerar las exigencias de almacenamiento que requiere este
tipo de ítems, y cuidar que la presentación y desaparición de los
ítems sean instantáneas y no graduales.
CAPÍTULO 4. ALGORITMOS ADAPTATIVOS 65

d) Finalmente, conviene simplificar al máximo el procedimiento


de respuesta mediante el teclado. Algo usual es hacer que el
evaluando marque la opción que crea correcta con las teclas del
cursor o con el ratón, y que presione ENTER o la barra
espaciadora para que la selección realizada sea considerada
como la respuesta proporcionada.

Respecto al software, tenemos la opción de programar los


algoritmos o de utilizar algunos programas disponibles en el mercado.
La idea básica que se sigue es la programación de módulos (que pueden
incluir variables, procedimientos o estructuras de datos), relativamente
independientes, pero entre los cuales pueden establecerse relaciones de
jerarquía según las cuales un módulo hereda las propiedades de otro.
Para Hambleton, Zaal y Pieters (1991), un software completo para una
evaluación adaptativa puede incorporar:

• Procedimientos de identificación de personas y pruebas


aplicadas.
• Texto y parámetros del banco de ítems.
• Un módulo de construcción de tests.
• Un módulo de presentación de ítems, que representa el núcleo
fundamental de un TAI. Podría encargarse de las siguientes
funciones: a) administración de los ítems de prueba, b) arranque
del test, c) selección sucesiva de ítems a aplicar y estimación
sucesiva de los niveles de rasgo, d) finalización de la prueba, e)
cálculo de la precisión con la que se ha obtenido la estimación
final, y f) almacenamiento de los resultados.
• Un módulo de baremación y de actualización del banco, que
sirve para tener información sobre el rendimiento de los
examinados y de la historia de cada ítem del banco (veces que
ha sido aplicado, información que permita futuras
recalibraciones,..).
• Un módulo para ofrecer al usuario un informe escrito de su
rendimiento.

En cualquier caso, el software debe facilitar la interacción con el


usuario, empleando expresiones simples, proporcionando ayuda en el
66 TESTS ADAPTATIVOS INFORMATIZADOS

proceso y facilitando una clara información sobre el rendimiento


obtenido.
También es posible recurrir a programas ya elaborados. Entre el
software disponible para realizar evaluaciones adaptativas
informatizadas, Hontangas (1999) describe las prestaciones de los dos
programas mas empleados: el paquete MicroCAT (Assessment Systems
Corporation, 1994) y el CAT Software System (Computer Adaptive
Technologies, 1994). El primero, sin duda el que más posibilidades
ofrece, permite construir bancos de ítems, calibrarlos desde diversos
modelos de la TRI, así como administrar tests convencionales,
informatizados y adaptativos informatizados que siguen estrategias
bayesianas o máximo verosímiles. En España se han desarrollado dos
programas con prestaciones mucho más limitadas: DEMOTAC
(Renom, 1993) y ADTEST (Ponsoda, Olea y Revuelta, 1994).
Capítulo 5
Propiedades psicométricas del TAI

Muñiz y Hambleton (1999) describen y comentan las directrices


específicas o requerimientos exigibles a cualquier TAI. Antes de que
los TAIs se encuentren operativos, normalmente se someten a muy
diversos controles psicométricos de calidad que básicamente tienen
que ver con su precisión y validez.

5.1.- Precisión
Como se dijo en apartados anteriores, una de las ventajas
fundamentales de la TRI es que proporciona medidas de precisión
(información o error típico de medida) condicionadas a los diferentes
niveles de rasgo; es decir, diferentes para distintos evaluandos.
Haciendo uso de esta propiedad, la eficiencia del TAI puede
estudiarse mediante los oportunos estudios empíricos o de
simulación, informando de los siguientes aspectos:

a) Error típico medio. o información que se obtienen para los


diferentes niveles de rasgo. Estos datos, ilustrativos de la
eficacia de los TAIs cuando se emplea un criterio de parada
de longitud fija o uno mixto, pueden obtenerse mediante
estudios empíricos promediando los valores para los
evaluandos con un mismo nivel de rasgo estimado. La
68 TESTS ADAPTATIVOS INFORMATIZADOS

precisión teórica que manifiesta el TAI puede estudiarse


también mediante procedimientos de simulación, obteniendo
el promedio de error típico para los diferentes niveles de
rasgo establecidos en el diseño.
b) RSME. ( ∑ (θˆ − θ )
i i
2
N ). Mediante simulación, puede
calcularse la raíz cuadrada del error cuadrático medio entre
las estimaciones de rasgo y sus correspondientes parámetros,
para valorar las discrepancias entre ambas.
c) Sesgo empírico. ( Σ(θˆi − θ i ) / N ). Mediante estudios de
simulación pueden obtenerse las diferencias medias entre los
niveles de rasgo estimados para los sujetos simulados y sus
correspondientes parámetros. En general, cuando los TAIs
son cortos, los procedimientos máximo verosímiles producen
un sesgo “hacia fuera” (infraestimando los niveles de rasgo
bajos y sobrestimando los altos) mientras que los
procedimientos bayesianos obtienen un sesgo “hacia adentro”
(sobrestimando los niveles bajos e infraestimando los altos).
d) Eficiencia. También mediante estudios empíricos o de
simulación, y fundamentalmente cuando el criterio de parada
es de longitud variable, puede estudiarse la cantidad media de
ítems que se requiere para alcanzar el error típico prefijado.
e) Correlación con las estimaciones obtenidas a partir del
banco. Mediante cualquiera de las dos metodologías pueden
correlacionarse las estimaciones obtenidas en el TAI con las
que se obtienen a partir de las respuestas (reales o simuladas)
al banco completo de ítems.
f) Procedimientos derivados de la TCT. Resulta factible aplicar
indicadores clásicos de fiabilidad, como por ejemplo el
coeficiente de fiabilidad test-retest o el coeficiente de
fiabilidad de formas equivalentes (cuando se dispone de dos
bancos diferentes).
CAPÍTULO 5. PROPIEDADES PSICOMÉTRICAS DEL TAI 69

5.2.- Validez
Un TAI, como cualquier otro test, debe someterse a las
oportunas comprobaciones empíricas de validez para estudiar el
grado en que se cumplen determinadas inferencias realizadas a partir
de las puntuaciones que proporciona. En este sentido, los algoritmos
adaptativos no garantizan en principio mayor o mejor prueba de
validez, aunque hay algunas consideraciones particulares que
debemos tener en cuenta.

a) En relación a la validez de contenido, las restricciones que se


impongan al algoritmo de selección de ítems pueden ayudar a
que la muestra de ítems que se presenta sea representativa de
todos los diferentes núcleos de contenido establecidos por los
especialistas en la fase de elaboración del banco de ítems.

b) En cuanto a la validez predictiva, suele ser común, dado los


contextos donde se aplican los TAIs, correlacionar sus
resultados con medidas externas que se quieren predecir. Así,
por ejemplo, un TAI de razonamiento matemático para
seleccionar programadores informáticos se correlacionó con
las valoraciones de los supervisores en rendimiento laboral de
programadores con mucha experiencia (Zickar et al., 1999).
Las estimaciones del CAT-ASVAB suelen correlacionarse
con las calificaciones que obtienen los reclutas en cursos
posteriores de adiestramiento militar.

c) Respecto a la validez de constructo, podríamos considerar


que ya las comprobaciones iniciales sobre la
unidimensionalidad del banco representa un primer estudio de
validez de constructo. Por otra parte, cuando los TAIs tienen
sus ancestros de lápiz y papel, suelen plantearse estudios para
comprobar la equivalencia entre ambas versiones. Se han
contrastado, por ejemplo, las capacidades predictivas del
CAT-ASVAB y del P&P-ASVAB (ancestro en lápiz y papel)
respecto al éxito obtenido posteriormente por los evaluandos
en cursos de adiestramiento. También puede estudiarse la
70 TESTS ADAPTATIVOS INFORMATIZADOS

equivalencia de la estructura factorial y de las cargas


factoriales de ambas versiones.

Para concretar con un caso la aplicación de algunos de estos


procedimientos para estudiar la precisión y validez, resumimos ahora
algunos de los estudios realizados sobre un TAI para evaluar el nivel
de vocabulario inglés. A partir del banco de ítems calibrado de
vocabulario inglés se elaboró un programa de ordenador (el programa
ADTEST) que convierte un banco calibrado en un TAI, con las
siguientes características: a) procedimiento de arranque aleatorio entre
niveles de rasgo medios, b) estimación de máxima verosimilitud, c)
selección de ítems según el principio de máxima información. Para
comprobar las cualidades psicométricas del TAI de vocabulario inglés
se diseñó un estudio de simulación (Ponsoda et al., 1994) en el que se
establecieron 15 niveles de parámetros θ (-3.5, -3,....3, 3.5) y se
realizaron 3.750 simulaciones (es decir, 250 sujetos simulados para cada
nivel). Siguiendo el procedimiento adaptativo, y definiendo un criterio
de parada mixto (finalizar la aplicación si Se < 0.30 o si se presentan 34
ítems), se obtuvieron los correspondientes niveles definitivos de rasgo
estimados ( θˆ ). Para cada uno de los niveles reales (parámetros) se
obtuvo:

a) El sesgo o media de las diferencias con los correspondientes


niveles estimados. La diferencia máxima se produjo para
niveles de rasgo bajos, y nunca superó el valor 0.09. Para
niveles de rasgo por encima de 0.5 el sesgo resultó
prácticamente nulo.
b) La media de los valores Se. Se obtuvieron mejores niveles de
precisión para los valores de rasgo medios y altos (en torno a
0.3), lo cuál puede deberse a la forma asimétrica que tenía la
función de información del banco de ítems.
c) La media del número de ítems administrados para conseguir el
criterio de parada. Para niveles de rasgo entre –2 y +2, es decir,
aproximadamente para el 95% de la población si el rasgo se
distribuye normalmente, se aplicaron menos de 20 ítems para
alcanzar el nivel de precisión establecido.
CAPÍTULO 5. PROPIEDADES PSICOMÉTRICAS DEL TAI 71

Se diseñó un estudio empírico (Olea et al., 1996), ya comentado


brevemente en el apartado 3.3, para obtener datos de precisión con
aplicaciones reales del TAI de vocabulario inglés y obtener información
sobre su validez predictiva. A una muestra de 62 estudiantes de un
centro de enseñanza del idioma inglés, se aplicó:

a) El TAI con las especificaciones descritas en el trabajo anterior.


b) Los ítems remanentes del banco, es decir, los ítems del banco
que no formaban parte del TAI.
c) Una prueba de papel y lápiz, el Oxford Placement Test (Allan,
1992), que proporciona dos puntuaciones distintas: una de
conocimientos gramaticales y otra de "listening" relativa a la
capacidad para entender el inglés en su expresión oral.

Se registró, además, el total de tiempos invertidos en las


respuestas al banco completo. Los principales resultados obtenidos
fueron los siguientes: a) Una correlación de 0.9 entre los niveles de
vocabulario estimados con el TAI y los correspondientes estimados a
partir de las respuestas a los 221 ítems; b) Una correlación
significativa negativa (r = -0.33) entre el tiempo invertido y el nivel
de vocabulario estimado; c) Relaciones lineales (simples y
multivariadas) significativas entre los niveles de vocabulario inglés
estimados (en el TAI y en el banco completo) y las dos medidas del
Oxford Placement Test, resultando más elevadas con el rendimiento
manifestado en gramática que en "listening".
Capítulo 6
Investigación actual en tests
adaptativos informatizados
En colaboración con
Pedro Hontangas (universidad de Valencia)
Francisco J. Abad y Javier Revuelta (UAM)

6.1.- Presentación
No son pocos los desafíos que tiene planteados la investigación
sobre TAIs para que resulten eficientes en diversos contextos de
evaluación psicológica y educativa, que tienen a su vez muy diversos
objetivos, necesidades y restricciones. En uno de los últimos
congresos de la National Council on Measurement in Education, una
de las principales reuniones científicas internacionales sobre
Psicometría, alrededor del 25 % de las comunicaciones se
relacionaron con investigaciones sobre TAIs (Ponsoda, 2000).
Mientras que los primeros libros específicos sobre el tema (v.g.
Wainer, 1990; Weiss, 1983) describían algoritmos de selección de
ítems muy básicos y escasas aplicaciones reales, los más actuales
(v.g. Drasgow y Olson-Buchanan, 1999; Olea, Ponsoda y Prieto,
1999; Sands, Waters y McBride, 1997; van der Linden y Glas, 2000)
incluyen la descripción pormenorizada de diversas aplicaciones en
programas de evaluación a gran escala y la revisión de las líneas de
investigación que se desarrollan sobre el tema en los últimos años,
74 TESTS ADAPTATIVOS INFORMATIZADOS

algunas de las cuales han dado lugar a cambios importantes en el


diseño y aplicación de los TAIs. En una reciente revisión
bibliométrica (García, 2002) sobre 5 de las principales revistas
científicas internacionales de Psicometría se detecta también una
importante presencia de esta temática en la investigación actual sobre
teoría de los tests. Prueba de este auge son también los números
monográficos dedicados al tema en Applied Measurement in
Education (1994), Applied Psychological Measurement (1999) y, en
España, una sección monográfica de la revista Psicológica (2000) y
una revisión actualizada de tendencias de investigación en
Metodología de las Ciencias del Comportamiento (Hontangas et al.,
2000).
Uno de los problemas tiene que ver con los métodos estadísticos
de estimación que se aplican, que pueden manifestar problemas de
precisión y sesgo cuando, como ocurre en los TAIs, el número de
ítems no es elevado; debemos considerar, además, que las
estimaciones provisionales de rasgo serán especialmente sensibles a
estos problemas, lo cual puede influir en el tipo de ítems que se van
seleccionando en la prueba. Muy en relación con estas estimaciones
provisionales (en las fases iniciales con elevado nivel de sesgo e
imprecisión) se encuentra el debate sobre el procedimiento aplicado
para la selección sucesiva de ítems: el método de máxima
información puede llevar a “gastar” los ítems más informativos para
niveles provisionales de rasgo que pueden estar alejados del
parámetro del sujeto, lo que ha llevado a ensayar procedimientos
alternativos de selección. Por otra parte, los métodos más
tradicionales de control de las tasas de exposición no resuelven bien
problemas como la infrautilización de una parte importante del banco
de ítems o su solapamiento, por lo que se han propuesto métodos
alternativos o métodos que resultan de modificar los que se
propusieron inicialmente. Una forma alternativa de abordar el
problema de la tasa de exposición, y quizás de resolver los enormes
requerimientos que exige la calibración de bancos, es la generación
automática de ítems.
En relación con los objetivos de evaluación para los cuales
resultan apropiados los TAIs, se intenta ampliar el tipo de rasgos que
se pueden medir mediante estrategias adaptativas, lo que dará lugar,
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 75

por ejemplo, al estudio de TAIs politómicos (para medir de modo


eficiente determinadas actitudes o rasgos de personalidad) o TAIs
multidimensionales (pruebas adaptativas que se fundamentan en
modelos de TRI multidimensionales). Cuando el objetivo de la
evaluación sea eminentemente clasificatorio, como ocurre en
determinados contextos educativos o de selección de personal, se
ensayarán estrategias adaptativas (TAIs de maestría) que tendrán
como objetivo fundamental optimizar la fiabilidad de la clasificación.
Tal como están diseñados los TAIs en la actualidad proporcionan
escasa información diagnóstica que, por ejemplo, pueda resultar útil
para el proceso de enseñanza-aprendizaje de los alumnos;
fundamentalmente desde contextos educativos, se intentan proponer
estrategias adaptativas que sean eficaces para planificar un
entrenamiento adaptativo.
Finalmente, y desde la experiencia acumulada sobre el impacto
que tienen los TAIs en quien los responde, se ha intentado mejorar las
condiciones de aplicación para que no tengan consecuencias
indeseables sobre el modo en que los evaluandos afrontan la prueba.

6.2.- Precisión y sesgo de las estimaciones


En el capítulo 3 del libro de Revuelta y Ponsoda (2001) y en el
capítulo 5 del libro de Santisteban y Alvarado (2001), ambos de esta
misma colección, se desarrollan con cierta extensión los principales
procedimientos de estimación de parámetros y sus propiedades.
Como en cualquier procedimiento estadístico de estimación de
parámetros, con la aplicación de un TAI se busca que las
estimaciones de rasgo sean precisas (con bajos errores típicos de
medida) e insesgadas . Cuando, como ocurre realmente en situaciones
aplicadas, los tests necesariamente deben tener una longitud reducida,
aparecen problemas de sesgo y precisión que se han estudiado
mediante procedimientos de simulación. Tanto la estimación de
máxima verosimilitud (ML) como las bayesianas (EAP y MAP)
producen problemas cuando se aplican tanto a tests convencionales
como a TAIs, aunque conviene matizar estos efectos.
76 TESTS ADAPTATIVOS INFORMATIZADOS

Respecto a la precisión, ya se comentó (apartado 2.4) que el


estimador bayesiano MAP tiene un menor error típico de medida para
un mismo nivel de rasgo que el máximo-verosímil. En cuanto al
sesgo, Kim y Nicewander (1993) han comprobado que en tests
convencionales la estimación por máxima verosimilitud produce un
sesgo “hacia fuera”; es decir, que se sobrestiman los niveles altos de
rasgo (sesgo positivo) y se subestiman los bajos (sesgo negativo). Lo
contrario ocurre con los métodos bayesianos, que suelen provocar
cierta regresión a la media de la distribución a priori. Lord (1983,
1986) derivó la función de sesgo teórico para el procedimiento de
máxima verosimilitud y su relación con el sesgo bayesiano-MAP ( I e
Ij son la información del test y del ítem, respectivamente, en θ; a, la
discriminación del ítem; P*, su probabilidad de acierto según el
modelo 2P; y n es el número de ítems del test):

∑a I
j =1
j j ( Pj* − 0.5)
SESGO( ML(θ )) ≈
I2
En la ecuación anterior puede comprobarse que el sesgo que
produce el método de máxima verosimilitud será mínimo cuando,
como ocurre en los TAIs, la dificultad de los ítems se ajusta al nivel
de rasgo del evaluando (entonces será cercano a cero el numerador).
Por ello se asume que la aplicación de este procedimiento a un TAI
produce estimaciones “esencialmente insesgadas”, ya que el sesgo
será mínimo cuando se aplique un número elevado de ítems. Wang y
Vispoel (1998) han comprobado que los métodos bayesianos
producen mayor sesgo absoluto y en dirección “hacia adentro”, lo
cuál podría perjudicar a los sujetos de alto nivel de rasgo y beneficiar
de forma ilegítima a los de nivel bajo. Si las estimaciones máximo
verosímiles son esencialmente insesgadas, en la expresión que sigue
puede comprobarse esta dirección del sesgo:
θ
SESGO( MAP(θ )) ≈ SESGO( ML(θ )) −
I
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 77

En los últimos años se han propuesto varios métodos para


reducir el sesgo. Los métodos correctivos son fundamentalmente
analíticos y actúan después de obtener una estimación, restando el
sesgo teórico correspondiente a partir de las fórmulas que hemos
visto. Los métodos preventivos modifican la función a maximizar,
con lo que intervienen antes de realizar la estimación. En Hontangas
et al. (2000) se citan algunos métodos preventivos máximo-
verosímiles y bayesianos.

Veamos como ejemplo un trabajo donde se estudia el sesgo que


pueden tener las estimaciones que se realizan con dos tests diferentes.
En un estudio empírico (Olea, Revuelta, Ximénez y Abad, 2000), en
el que se planteó un diseño inter-sujeto, se asignaron los sujetos
aleatoriamente a dos tipos de tests:

a) Un TAI que seleccionaba los ítems según el procedimiento de


máxima información, estimaba los niveles de rasgo mediante
el procedimiento de máxima verosimilitud y utilizaba un
criterio de parada de longitud fija (20 ítems).
b) Un test óptimo (TO) fijo de 20 ítems ordenados en dificultad,
seleccionado del banco para que resultaran óptimos para la
distribución de rasgo de la población [N(0.57; 0.92)]. Se
eligieron al azar 20 valores de la distribución anterior y se
eligieron los ítems que resultaban más informativos para esos
niveles de rasgo. Las estimaciones del nivel de rasgo en este
test se realizaron con el mismo procedimiento estadístico.

Ambos tests se fundamentaban en el banco de vocabulario inglés


(véase el apartado 3.3). De forma imprevista, el nivel de rasgo medio
estimado en el TO (0.92) fue significativamente más alto que el
correspondiente a la condición TAI (0.58), lo que en principio parece
contradecir la propiedad de invarianza de la TRI. En principio, este
resultado podría deberse al menos a dos razones: a) que el nivel de
rasgo de los sujetos en el TO fuese más elevado, o bien b) que se
cometiera cierto sesgo en las estimaciones máximo-verosímiles
realizadas en alguno o en ambos tests.
78 TESTS ADAPTATIVOS INFORMATIZADOS

Con objeto de aclarar las causas de las diferencias en nivel de


rasgo estimado, se plantearon dos estudios diferentes (Abad, Olea,
Real y Ponsoda , 2002):

a) Un estudio empírico, con un diseño intrasujeto en el que cada


participante recibió de forma consecutiva los dos tests (de tal
forma que se asegurase que el nivel de rasgo medio verdadero
es el mismo en las condiciones TAI y TO). En el TAI se
estimaron los niveles de rasgo según el procedimiento ML,
mientras que en el TO se aplicaron tanto el procedimiento
ML, como los bayesianos MAP y EAP, con dos
distribuciones a priori distintas: N(0, 1) y N(0.57, 0.92). A
partir de las fórmulas correspondientes se obtuvieron las
funciones de sesgo y error típico asociadas a cada uno de los
procedimientos de estimación.
b) Un estudio de simulación, donde se replicaron 100 muestras
partiendo de los parámetros θ, a, b y c estimados
empíricamente. A partir de los resultados de la simulación se
obtuvo el promedio en las 100 réplicas (para cada nivel de
rasgo) de: 1) los niveles de rasgo estimados, 2) el valor
RSME (raíz cuadrada de la media de los errores cuadráticos),
3) el sesgo, y 4) el error típico de medida.

Algunos de los principales resultados obtenidos en estos estudios


fueron los siguientes:

• El sesgo teórico (obtenido mediante la fórmula de Lord), para


los distintos valores de θ, de las estimaciones ML en el TAI
osciló entre 0.08 y –0.05, con una media de 0.0097. El
correspondiente a las estimaciones TO-ML osciló entre 0.13
y –0.14 (media 0.01), mientras que para TO-MAP se
encontró un sesgo negativo para los niveles altos de rasgo,
hasta un máximo de –0.40 (media –0.06).
• Los errores típicos medios obtenidos fueron 0.28 (TAI), 0.31
(TO-ML), 0.32 (TO-EAP) y 0.29 (TO-MAP).
• Las correlaciones entre las estimaciones proporcionadas por
el TAI y las realizadas a partir del TO estuvieron en torno a
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 79

0.80, mientras que las diferentes estimaciones en el TO


correlacionaron por encima de 0.99.
• El nivel de rasgo medio estimado en la condición TAI (0.71)
fue significativamente inferior a la media de las estimaciones
en la condición TO-ML (0.85). No se obtuvieron diferencias
significativas respecto a las estimaciones TO bayesianas.
• Respecto al estudio de simulación, puede decirse que en
general se obtienen los resultados derivados del estudio del
sesgo teórico.

Con este segundo trabajo, y dado el diseño de investigación


establecido, se asegura que las diferencias en nivel de rasgo estimado
encontradas en el primer trabajo no se deben a las diferencias en nivel
de rasgo que pudieran tener el grupo TAI del grupo TO. Aún así,
vuelve a aparecer una diferencia significativa entre la estimación ML
en el TAI y en el TO, que no pueden atribuirse a problemas de sesgo.
En el trabajo citado se abren vías alternativas de explicación.

6.3.- Alternativas a la información de Fisher


Los procedimientos de estimación de è m ás usuales (máxima
verosimilitud y bayesianos) producen estimaciones sesgadas cuando
se presentan pocos ítems. La existencia de sesgo y el gran error típico
de las estimaciones cuando el test es corto repercuten en la precisión
total de un TAI. Los ítems seleccionados son los más informativos
para la última estimación obtenida. Si ésta se aleja apreciablemente
de la estimación final, los ítems que resulten muy informativos para
estas estimaciones provisionales lo serán muy poco para la estimación
final. En consecuencia, algunos ítems habrán resultado escasamente
útiles en el test, de ahí el interés de explorar reglas alternativas de
medir la información de los ítems. Chen, Ankenmann y Chang (2000)
han comparado cinco reglas de selección de ítems diferentes y
comprobado su impacto en el sesgo, RSME y error típico del nivel de
rasgo estimado en las fases iniciales de un TAI. Las cinco funciones
de información aplicadas fueron las siguientes:
80 TESTS ADAPTATIVOS INFORMATIZADOS

a) La función de información de Fisher, Ij(è). Como vimos


(apartado 1.4), para un ítem “j”, siendo Pj(è) la probabilidad
de acierto, su información para un valor è viene dado por

I j (θ ) =
(P (θ ))
j
' 2

Pj (θ )Q j (θ )

b) La función de información de Fisher en un intervalo


propuesta por Veerkamp y Berger (1997), FIIj(è), viene dada
por la siguiente expresión
∞ θu

FII j (θ ) = ∫W (θ ) I
−∞
j (θ )dθ = ∫I
θl
j (θ )dθ

Ij(è) es la función de información de Fisher y W(è) es la


función de ponderación, con valor 1 cuando è ∈ (è l , è u), que
es el intervalo de confianza de la è estimada, y con valor 0
para valores è no comprendidos en el intervalo.

c) La función de Fisher con distribución posterior, FIPj(è). Al


principio del test, el intervalo de confianza puede no contener
la è final del sujeto, por lo que el ítem elegido no sería
apropiado. En esta regla de selección de ítems se toma como
función de ponderación la distribución posterior de è. Por lo
tanto,

FIPj (θ ) = ∫ p(θ | X
−∞
n ) I j (θ )dθ

d) La función de información de Kullback-Leibler, KLj( θˆ ). La


función de información global de Kullback-Leibler permite
saber la capacidad de un ítem para discriminar entre los
niveles è y è0:
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 81

 Pj (θ 0 )   1 − Pj (θ 0 ) 
KL j (θ || θ 0 ) = Pj (θ 0 ) log  + (1 − Pj (θ 0 ) )log 
 P (θ )   1 − P (θ ) 
 j   j 

Tomando como è0 el último valor estimado θˆ y siendo (èl ,


èu) su intervalo de confianza, el ítem a elegir sería el que
tuviese el mayor valor de KLj( θˆ ).
θu

KL j (θˆ) = ∫ KL (θ || θˆ)dθ
θl
j

e) Kullback-Leibler con distribución posterior, KLPj( θˆ ). En


este caso, en vez de ponderar por 1 la información de
Kullback-Leibler para las è incluidas en el intervalo (èl , èu), y
por cero las excluídas, se va a ponderar por la distribución
posterior de è.

KLPj (θˆ) = ∫ p(θ | X
−∞
n )KL j (θ || θˆ)dθ

La comparación entre las cinco reglas de selección de ítems


proporcionó los siguientes resultados: No hubo diferencias en
tests de más de 10 ítems. El número de ítems “10” resulta
mágico en este contexto. Cheng y Liou (2000) comprobaron
mediante simulación el sesgo y error típico de 4 algoritmos
diferentes, resultado de combinar dos métodos de estimación
(máximo-verosímil y máximo-verosímil ponderado de Warm
(1989)) y dos métodos de selección de ítems: la información
de Fisher y Kullback-Leibler. También obtuvieron que en
tests de más de 10 ítems no hay diferencias entre las cuatro
condiciones estudiadas.

Van der Linden (1998) y van der Linden y Pashley (2000)


exponen varios criterios de selección de ítem bayesianos, que
complementan el de máxima precisión esperada (definido en el
apartado 4.3). De los 3 que vamos a ver, los 2 primeros enfatizan el
modo de establecer la distribución a priori de θ, mientras que el
82 TESTS ADAPTATIVOS INFORMATIZADOS

último incorpora en la selección de ítems el error de estimación de


sus parámetros:

a) Cuando resulte posible, lo más sencillo sería establecer una


distribución a priori derivada de las estimaciones sobre el
rasgo obtenidas en estudios empíricos.

b) Cuando se dispone de información de los sujetos en X


variables adicionales relacionadas con θ, otra alternativa
bayesiana empírica consiste en fijar la distribución a priori a
partir de las estimaciones puntuales de rasgo realizadas
mediante la oportuna ecuación de regresión.

c) Si los errores de estimación de los parámetros de los ítems


son elevados, como ocurre cuando la muestra de calibración
es poco numerosa, los valores de estos parámetros pueden
actualizarse a medida que se dispone de mayor número de
respuestas. Básicamente, la idea es actualizar
progresivamente las estimaciones de los parámetros de los
ítems, no asignando estimaciones puntuales sino obteniendo
su distribución posterior dadas todas las respuestas
disponibles en un momento determinado, lo que supone
considerar la incertidumbre que tenemos en su estimación. De
esta manera, en la fórmula que permite obtener la distribución
posterior de θ (véase apartado 2.3), la expresión L(u|θ), que
es la función de verosimilitud asociada a un conjunto
concreto de parámetros de los ítems, se sustituye por un
promedio de las verosimilitudes posibles dada la distribución
posterior de estos parámetros .

6.4.- Restricciones en la selección de ítems


Si la selección de ítems se realizara únicamente mediante
criterios psicométricos, por ejemplo mediante el método de máxima
información, sin duda el más empleado en los programas de
evaluación mediante TAIs, no sólo se plantearía el problema de la
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 83

falta de control de la exposición de los ítems, sino que se


desatenderían otros aspectos importantes. Por ejemplo, los ítems más
informativos para determinados niveles de rasgo pueden corresponder
a temáticas concretas, lo que puede hacer que los evaluandos se
preparen especialmente en esos contenidos y no en otros. Además, los
responsables del programa de evaluación consideran importante que
la composición del test (contenidos evaluados, formato de los ítems,
posición aleatoria de la respuesta correcta,...) sea similar para los
diferentes sujetos. En algunas ocasiones, cuando el TAI tiene su
ancestro en un test fijo, conviene que ambos mantengan ciertas
condiciones formales similares.
Podríamos decir que los TAIs difícilmente serían aceptados en
contextos de evaluación si a sus bondades psicométricas no se
incorporan otro tipo de especificaciones no estadísticas. Algunos de
los procedimientos clásicos para incorporar restricciones en los
algoritmos de selección de ítems, que fueron expuestos en el apartado
4.3., pueden mejorarse notablemente. Por ejemplo, el método de las
desviaciones ponderadas, un procedimiento basado en heurísticos,
tiene el problema de que el mejor ítem en cada elección no lleva a
que el conjunto de ítems seleccionados al final sea el mejor
subconjunto posible para los requisitos impuestos. Los métodos
basados en la construcción de testlets o tests multietápicos
informatizados permiten sólo relativamente un auténtico proceso de
adaptación de la prueba al sujeto, con la consiguiente pérdida en
eficiencia.
Van der Linden y Reese (1998) aplican el método de la
programación lineal 0-1 a los TAIs para resolver los problemas que
tienen los métodos clásicos. En este procedimiento, la decisión sobre
los ítems que han de componer el test se resuelve como un problema
en el que hay que maximizar la información que el test proporciona,
sujeta a un conjunto de restricciones. Supongamos que queremos
formar el test más informativo para è 0 sujeto a las siguientes cinco
restricciones: a) no más de 10 de ítems de conocimiento, b) al menos
10 sobre aplicaciones, c) 5 ítems con gráficos, d) que su longitud sea
25 ítems, y e) los ítems 64 y 65 no deben ir en un mismo test. El
problema a resolver sería el que se describe a continuación.
84 TESTS ADAPTATIVOS INFORMATIZADOS

Sean xj, j= 1, ... J, las variables que representan si el ítem “j” ha


de formar parte (xj= 1) o no (xj= 0) del test. Ij(è0) es la información
del ítem “j” en è0. Los conjuntos de ítems sobre conocimientos, sobre
aplicaciones y con gráficos son V1, V2 y V3, respectivamente. El
J

∑I
j =1
j (θ 0 ) x j

problema consiste en encontrar los valores (0 ó 1) de las variables xj


que maximizan:

con las siguientes restricciones:


J

∑x
j =1
j = 25 , x 64 + x65 ≤ 1 , ∑x
j∈V1
j ≤ 10 , ∑x
j∈V2
j ≥ 10 , ∑x
j∈V3
j =5

El procedimiento anterior muestra como ensamblar un test fijo.


Cuando hay que generar un TAI, el procedimiento cambia algo dado
que debe actualizarse continuamente el nivel de rasgo estimado, y por
tanto también el test apropiado para ese nivel que cumpla las
restricciones impuestas. La secuencia de acciones a seguir es la
siguiente (van der Linden, 2000): a) Se comienza con una asignación
determinada de rasgo como criterio de arranque, b) antes de
administrar el primer ítem hay que ensamblar on-line un test
completo (denominado como shadow test), de acuerdo al
procedimiento anterior, que cumpla las restricciones y sea
máximamente informativo para el nivel inicial, c) a continuación, de
los ítems del test ensamblado, se administra el más informativo para
el primer nivel de rasgo asignado, d) se estima un nuevo nivel de
rasgo, e) para administrar el segundo ítem, se vuelve a ensamblar on-
line otro shadow test, introduciendo en él el ítem ya administrado, y
se elige el más informativo para el nuevo nivel de rasgo, f) se procede
de esta manera hasta que se cumpla el criterio de parada establecido.
En un TAI aplicado en un contexto de admisión escolar (el Law
School Admission Test), van der Linden y Reese (1998)
comprobaron que la precisión de θˆ no perdió eficiencia a pesar de
incorporar 433 restricciones. Van der Linden (2000) cita varios
trabajos en los que se utilizó la programación lineal para cumplir
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 85

restricciones sobre el tiempo necesario para responder a los ítems en


relación al tiempo disponible para finalizar el TAI, para incorporar
procedimientos de control de la exposición de los ítems y para
obtener puntuaciones en el TAI equiparadas con las de un test fijo.

6.5.- Control de la exposición


En el apartado 4.3 expusimos los procedimientos más utilizados
para el control de la exposición de los ítems y los problemas que se
intentaban resolver con ellos, que son fundamentalmente dos: evitar
una exposición excesiva de los que se aplican con mayor frecuencia
y, de forma secundaria, incrementar la exposición de los ítems
infrautilizados. Lejos de representar una línea de investigación
cerrada, en los últimos años se han propuesto nuevos procedimientos
y se ha comparado su eficacia con los más tradicionales. Por ejemplo,
Revuelta y Ponsoda (1998a) proponen dos nuevos procedimientos:

a) El método restringido consiste en fijar para cada ítem una


tasa máxima de exposición que, cuando se alcanza, hace que
el ítem no pueda presentarse. Por ejemplo, si la tasa de
exposición máxima se fija en un 30%, un ítem que se
presenta a un primer evaluando dejará de estar operativo en
las siguientes tres administraciones, pero podrá ser elegido y
administrado a un quinto evaluando: después de que se
presenta al primero, la tasa de exposición del ítem es del
100%, pero después del cuarto evaluando, la tasa será 25%
(inferior a la máxima establecida) y podrá ser seleccionado
para la quinta aplicación.

b) El Método progresivo consiste en obtener un peso w=(1-


s)R+sI para cada ítem y seleccionar como siguiente ítem el de
mayor peso. En la expresión anterior, I es la información del
ítem para el último nivel de rasgo estimado, R es un número
aleatorio extraído entre 0 y el máximo de los valores I, y s es
la proporción de ítems ya administrados en relación a la
longitud del TAI. Por tanto, el peso de un ítem resulta de la
86 TESTS ADAPTATIVOS INFORMATIZADOS

suma ponderada de un valor aleatorio y de la información del


ítem para el último nivel de rasgo estimado. La información
se pondera por el número de ítems administrados en ese TAI
en particular, mientras que el valor aleatorio se pondera por el
número de ítems que quedan por administrar en ese test. De
esta forma, al principio del TAI importa más el componente
aleatorio, y por tanto no se eligen en este momento los ítems
muy informativos, mientras que la información adquiere
mayor ponderación a medida que avanza la aplicación
(cuando el nivel de rasgo estimado está más cerca del
parámetro del evaluando).

En el mismo trabajo, estos autores comparan mediante


simulación la eficiencia de estos dos nuevos métodos con otros más
tradicionales (entre otros, los métodos 5-4-3-2-1, Randomesque y
Sympson-Hetter, descritos en el apartado 4.3) y con el método de
máxima información sin ningún tipo de restricción. Para los métodos
restringido y Sympson-Hetter se estableció una tasa máxima de
exposición de 0.4. Todos los métodos se probaron en dos condiciones
diferentes de parada del TAI: un criterio de longitud fija (35 ítems) y
otro mixto (error típico inferior a 0.22 ó aplicar 50 ítems). Se
simularon las respuestas de 2.000 sujetos, cuyos parámetros de rasgo
se distribuyeron N(0, 1), al test de vocabulario inglés. En un segundo
estudio se ampliaron las condiciones de simulación a otro tipo de
bancos, criterios de parada, tasas de exposición máximas y
distribuciones de los parámetros de los ítems. Como variables
dependientes establecieron el error típico de medida, el sesgo, el
número de ítems administrados, el porcentaje de ítems que no se
administran nunca y la tasa de exposición o porcentaje de veces que
se eligen los ítems (así como el coeficiente de variación, el mínimo y
el máximo de esta tasa de exposición). Algunos resultados
interesantes fueron: a) ninguno de los métodos resulta completamente
satisfactorio, b) los métodos 5-4-3-2-1 y Randomesque son los
preferibles cuando se desea que los evaluandos no reciban ítems
similares al comienzo del test, c) los métodos que consiguen reducir
en mayor grado la sobrexposición de algunos ítems son los de
Sympson-Hetter y restringido, d) el método progresivo es el que, sin
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 87

una perdida considerable en precisión, incrementa en mayor grado las


tasas de exposición de los ítems infrautilizados, e) un método que
combina los métodos progresivo y restringido consigue los resultados
globales más positivos en cuanto a precisión, reducción de las tasas
máximas de exposición y del número de ítems no seleccionados.
Existen otros problemas relacionados con las tasas de
exposición de los ítems, y por tanto con el establecimiento de
métodos para su control. El primero es que, aunque los métodos sean
eficaces para controlar la tasa máxima de exposición, puede ocurrir
que ciertos ítems siempre se presenten a evaluandos con un
determinado nivel de rasgo. Un segundo problema tienen que ver con
el grado de solapamiento entre cualquier par de ítems, es decir, con
su tasa de ocurrencia simultanea. La solución a estos problemas es la
elaboración de métodos de control de la exposición condicionados.
En Hontangas et al. (2000) y Stocking y Lewis (2000) se describen
algunos de estos métodos.

6.6.- Generación automática de ítems


La generación automática de ítems es un método de construcción
de bancos de ítems mediante algoritmos. Se encuentra todavía en fase
de investigación por lo que no existen ejemplos en los que se haya
logrado su aplicación completa. Sin embargo, es un tema activo de
trabajo en distintos centros de elaboración de tests y se espera su
aplicación en contextos reales en un futuro inmediato (Bejar, 1993;
Irvine, Dann y Anderson, 1990; Irvine y Kyllonen, 2002; Revuelta y
Ponsoda, 1999).
Mediante la generación automática de ítems lo que se construye
es un conjunto de reglas explícitas, susceptibles de programarse en un
ordenador, que determinan cómo deben construirse los ítems. De este
modo se obtienen todos los ítems posibles para un test determinado
(Hornke y Habon, 1986). Además, los ítems deben generarse con
unas propiedades psicométricas predichas de antemano. En lugar de
estimar la dificultad y otras propiedades mediante su aplicación a una
muestra, se intenta elaborar un modelo acerca del modo en que las
88 TESTS ADAPTATIVOS INFORMATIZADOS

personas resuelven una determinada tarea. Este modelo permitiría


predecir las propiedades de los ítems generados.
La generación de ítems puede aplicarse con independencia de
que el banco obtenido se utilice posteriormente para un TAI o para
otros tipos de tests. Sin embargo, en el contexto de los TAIs, resulta
especialmente ventajosa por dos razones principales:

a) Permite mejorar la adaptación del TAI a cada sujeto. Con la


generación no existe un banco prefijado. Simplemente se
intenta construir para cada evaluando aquel ítem que resulta
máximamente informativo para su nivel de rasgo entre todos
los posibles ítems que resultan admisibles para el test.
b) Constituye una solución al problema del control de la tasa de
exposición, dado que se contará con un banco de ítems del
tamaño más grande posible, lo que aumenta las posibilidades
de construcción de tests diferentes.

Los dos grandes retos de la generación de ítems son elaborar un


programa para crear los ítems y obtener un método de estimación de
su dificultad. La elaboración de ítems resulta más o menos
complicada dependiendo del formato de los mismos. En tests con un
bajo contenido verbal puede resultar sencillo elaborar un algoritmo
que genere los ítems. Sin embargo, si el contenido verbal es elevado
la tarea se complica enormemente y no parece que puedan obtenerse
resultados a corto plazo. Bejar (1990) presenta un ejemplo en un test
de capacidad espacial, Bejar y Yocom (1991) en un test de figuras
enmascaradas y Embretson (1994) en un test de figuras
tridimensionales.
El problema de estimar la dificultad depende de la calidad del
modelo psicológico disponible acerca de la tarea. Un modelo
psicométrico utilizado con frecuencia para relacionar la dificultad con
el contenido es el denominado LLTM (Fischer, 1973; Fischer y
Pendl, 1980). Una descripción detallada puede encontrarse en
Santisteban y Alvarado (2001, apartado 4.4.3). Supongamos que para
resolver un ítem el sujeto tiene que realizar p operaciones. Las
variables Ci1, Ci2, ..., Cip se utilizan para describir la frecuencia con
que es necesario aplicar cada operación en el ítem i. Entonces el
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 89

parámetro de dificultad bi del ítem se descompone de forma lineal en


la dificultad de las operaciones implicadas en su resolución:
p
bi = β 0 + ∑ β k Cik
k =1

Siendo β 1, ..., β p los parámetros de dificultad de cada operación


y β 0 una constante. A partir de esta dificultad predicha se obtiene la
probabilidad de acierto según el modelo de Rasch. Es importante
advertir que este modelo únicamente incorpora p+1 parámetros de
dificultad, independientemente de cuantos ítems se elaboren. De esta
forma es posible predecir la dificultad de los nuevos ítems conocida
la dificultad de las operaciones necesarias para su resolución.
También se han propuesto extensiones del LLTM para el caso de que
se utilice una respuesta politómica (Fischer y Parzer, 1991) o ítems
con diferentes discriminación (Embretson, 1999).
Revuelta y Ponsoda (1998b) muestran un ejemplo de aplicación
en un test de análisis lógico y cómo la generación de ítems permitiría
maximizar la información obtenida acerca de los examinados. En
concreto, su punto de partida es una versión de lápiz y papel del test
DA5 (SHL, 1996) e intentar desarrollar una versión adaptativa del
mismo test basada en la generación de ítems. El test de lápiz y papel
consta de 50 ítems que miden análisis lógico con un aspecto similar al
de la figura 10.

Figura 10. Item similar a los del test DA5

Para resolver el ítem es necesario realizar mentalmente dos


transformaciones distintas sobre las figuras que aparecen en la
90 TESTS ADAPTATIVOS INFORMATIZADOS

columna izquierda y escoger una respuesta entre las cinco alternativas


presentadas, marcadas con las letras A hasta E. Las transformaciones
a realizar se indican mediante las instrucciones codificadas que
aparecen dentro de un círculo en la parte izquierda del ítem.

En el estudio realizado por Revuelta y Ponsoda (1998b):

a) Los ítems pueden incluir 10 instrucciones u operaciones


diferentes con diferentes sentidos: por ejemplo rotar la figura
adyacente de distintas maneras, intercambiar una figura con
la que aparece en la fila superior, omitir una figura o ignorar
alguna otra instrucción. Utilizando el modelo LLTM es
posible predecir el 47% de la varianza en dificultad de los
ítems a partir de la frecuencia de aparición de las
instrucciones en el ítem. Además se encontró que la dificultad
de cada instrucción es tanto más elevada cuanto mayor sea la
carga en memoria de trabajo que produzca en el sujeto,
midiéndose esta carga por el número de figuras que es
necesario manipular mentalmente de forma simultánea.

b) A continuación se desarrolló un método para generar todos


los posibles ítems para este test, estableciendo las
combinaciones válidas de instrucciones. De esta manera es
posible obtener un banco compuesto por 4242 ítems.

c) Finalmente, se comparó la función de información de un TAI


aplicado a partir del banco generado con la del test original.
El resultado indica que el TAI basado en el banco generado
funciona razonablemente bien, pero no para los niveles bajos.
Esto se debe a que el modelo LLTM resultó especialmente
impreciso para predecir la dificultad de los ítems más fáciles.

En la mayoría de los casos no se dispone de un modelo


suficientemente exacto de la dificultad del ítem. Aún así es posible
aplicar la generación automática utilizando la metodología de ítems
isomorfos. Supongamos que se dispone de un banco elaborado y
calibrado por el método tradicional. Cada ítem de este banco puede
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 91

tomarse como modelo para elaborar isomorfos, que son ítems


superficialmente diferentes al original pero con una lógica similar de
resolución. Por esta razón cabe esperar que los parámetros de los
isomorfos sean similares, aunque no necesariamente iguales, a los del
modelo. Por ejemplo, se dispone del siguiente ítem cuya dificultad es
b = 1.3:

Indique la letra que continúe la serie:

ABCGHID_

Pueden generarse varios isomorfos cuya regla de resolución sea


la misma (MNOSTUP_ , GHIMNOJ_, etc.). Las dificultades de los
isomorfos deben ser parecidas dado que se resuelven del mismo
modo. Sea bi el parámetro de dificultad estimado del ítem (modelo) i.
Los parámetros de los isomorfos obtenidos de un modelo siguen una
distribución f (b) con media bi y varianza σi2. Por tanto, cuanto menor
sea la varianza σi2 más parecida será la dificultad de los isomorfos a
la del modelo, es decir, el proceso de creación de isomorfos será mas
preciso. Cuando se genera un isomorfo se desconoce su verdadera
dificultad, únicamente se sabe que la distribución de esa dificultad es
f (b). Por esto se utiliza la función de distribución conjunta de la
respuesta del sujeto, indicada por u, y la dificultad del isomorfo:

f (u, b | θ )= p(u | θ , b) f (b)

siendo p (u | θ , b) la función de probabilidad de la respuesta


observada correspondiente al modelo de un parámetro. Por tanto, la
distribución marginal de u, conocida también como función esperada
de respuesta es (Mislevy, Sheehan y Wingersky, 1993):

f (u | θ )= ∫ p (u | θ , b) f (b)db
92 TESTS ADAPTATIVOS INFORMATIZADOS

La función f (u|θ) se utiliza como modelo psicométrico para puntuar


a los sujetos en lugar de utilizar p (u | θ , b) , como es tradicional. La
ventaja de f (u|θ) sobre p (u | θ , b) es que tiene en cuenta la
imprecisión con que se conocen los parámetros de los ítems, mientras
que al utilizar p (u | θ , b) para puntuar a los sujetos se está
asumiendo que el nivel de dificultad es conocido con absoluta
certeza.
Es importante estudiar qué efecto tiene la imprecisión con que se
conocen los parámetros de los isomorfos, la varianza σi2, en la
precisión con que se estima θ (Meisner, Luecht y Reckase, 1993). A
mayor varianza, mayor diferencia entre los parámetros del modelo y
los del isomorfo. Esta imprecisión debe aumentar la varianza error del
estimador de θ. En ocasiones se utiliza el modelo logístico de tres
parámetros, por lo que la función esperada de respuesta es:

f (u |θ )= ∫∫∫ p(u |θ , a, b, c) f (a, b, c) da db dc

La función f (a, b, c) que indica la imprecisión es una normal


multivariante. Cuanto mayor sea la magnitud de las varianzas y
covarianzas de esta distribución, menor será la precisión. Al igual que
p(u | θ , a, b, c) , la función f (u|θ) puede representarse para distintos
valores de θ. Cuanto mayor sea la imprecisión de los isomorfos, se
encuentra que la función f(u|θ) es más plana en comparación
con p (u | θ , a, b, c) . Esto significa que cuanto mayor sea la
incertidumbre en los parámetros del ítem, menos información
proporciona acerca de θ. Por ejemplo, la figura 11 muestra el valor de
p(u | θ , a, b, c) para un ítem con parámetros (a=1.4, b=0.4 y c=0.1),
junto con la función esperada de respuesta para un determinado nivel
de imprecisión.
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 93

Figura 11. Funciones p (u | θ , a, b, c) y f(u|θ)

P (u θ, a, b, c)

f (u θ)

Revuelta (2000) estudió el efecto de la imprecisión con que se


generan los isomorfos en la fiabilidad de las puntuaciones de los
sujetos en un TAI. Para ello, se toma como punto de partida un banco
calibrado según el modelo de tres parámetros y se analiza la precisión
del TAI si la precisión de los isomorfos tomara diferentes valores
arbitrarios. Las dos variables independientes son la magnitud de las
varianzas y covarianzas de la distribución f (a, b, c) y el porcentaje
de isomorfos que se utilizan en el test. También se incluyó un grupo
control en el que no se incluyen isomorfos. En cada condición se
aplicó un TAI a varios miles de sujetos simulados y se cuantificó la
imprecisión con que se estima la θ del sujeto. Los resultados
principales del estudio fueron:

a) No se produjo sesgo en la estimación del rasgo en ninguna de


las condiciones puestas a prueba.
b) El aumento en el porcentaje de isomorfos en el test y la
mayor imprecisión en sus parámetros producen un aumento
en el error de estimación del rasgo. Además, se encontró un
94 TESTS ADAPTATIVOS INFORMATIZADOS

efecto de interacción. A mayor porcentaje de isomorfos más


acusada es la pérdida de información acerca de θ debida al
aumento de la imprecisión en los parámetros de los
isomorfos.
c) En condiciones realistas, la información acerca de θ
proporcionada por un TAI basado en isomorfos está
aproximadamente entre un 50% y un 80% de la que se
obtendría en un TAI sin isomorfos.

6.7.- Nuevos modelos


La mayoría de los TAIs han sido elaborados para medir rasgos
intelectuales o conocimientos, y su fundamentación psicométrica es la
de los modelos dicotómicos unidimensionales de la TRI. Sin
embargo, se están ensayando TAIs sustentados en modelos
multidimensionales para evaluar el rendimiento que depende del nivel
en múltiples rasgos. Algunos trabajos (v.g. Abad., Ponsoda y
Hontangas, 1998) ponen en duda la robustez de los modelos
unidimensionales en el tratamiento de las respuestas a ítems cuya
resolución requiere un cierto nivel en varios rasgos. La opción actual
es un claro intento por aplicar modelos de TRI multidimensionales
tanto en la selección de ítems como en las estimaciones de rasgo.
Además, el tipo de constructos psicológicos a evaluar mediante TAIs
se ha incrementado mediante el estudio de la eficiencia de pruebas
adaptativas para ítems de respuesta graduada, basadas en los modelos
politómicos de la TRI, la mayoría pensados para la medición de
actitudes y rasgos de personalidad.

6.7.1. Modelos multidimensionales

• TAIs multi-unidimensionales: Mini-TAIs

Respecto a cómo afrontar desde una perspectiva adaptativa el


tema de la multidimensionalidad, se ha propuesto (Schnipke y Green,
1995) la construcción de los denominados como mini-TAIs, que
consisten en dividir un banco de ítems en tantos bancos
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 95

unidimensionales como puedan establecerse, de modo que cada TAI


selecciona ítems en uno de ellos. Para llegar a la puntuación final de
un evaluando se agregan las diferentes estimaciones realizadas (por
ejemplo, obteniendo las medias de las estimaciones realizadas en los
mini-TAIs). El diseño de mini-TAIs no parece ser la mejor estrategia
para afrontar el tema de la multidimensionalidad ya que, entre otras
cosas, el trabajo con bancos pequeños incrementa los problemas
relacionados con la sobre-exposición de los ítems.

• Testlets:

Un testlet es un conjunto de ítems sobre un estímulo común. En


un test de compresión lectora, por ejemplo, el estímulo podría ser un
párrafo de varias líneas de texto y los ítems varias preguntas de
opción múltiple sobre el párrafo. Este tipo de tests surgieron (Wainer
y Kiely, 1987) como respuesta a una crítica común a los ítems de
opción múltiple: su falta de contexto.
Con los ítems de un testlet no es fácil cumplir el principio de
independencia local. Las respuestas a dos ítems suelen mantener una
correlación positiva, ya que la probabilidad de acertar (fallar) ambos
ítems a la vez es mayor (menor) que la esperada si hubiese
independencia local. Entre las razones que se dan para explicar esta
correlación positiva están las siguientes: incorrecta comprensión del
estímulo, descuido en su lectura, o una frustración general con el
estímulo en cuestión.
Tres han sido los principales tratamientos psicométricos dados a
los testlests (Wainer, Bradlow y Du, 2000):

a) Tratar los ítems como si fuesen ítems ordinarios tomados de


un banco, sin considerar que algunos se basan en el mismo
estímulo. En este caso, no se tiene en cuenta el
incumplimiento de la independencia local y las consecuencias
son dos: a) una sobrestimación de la precisión en la
estimación de los niveles de rasgo, y b) un mayor sesgo en la
estimación de los parámetos de dificultad y discriminación.
La dependencia y estos efectos son tanto más importantes
cuanto mayor es el número de ítems de cada testlet. Parece
96 TESTS ADAPTATIVOS INFORMATIZADOS

que cuando el número es 4-6 por testlet, estos efectos no son


importantes (Wainer et al., 2000, p. 247).

b) Una segunda posibilidad es aplicar modelos politómicos de la


TRI. En este caso, un testlet se considera un ítem en el que las
posibles respuestas son el total de posibles aciertos. Un testlet
con cuatro ítems podrá considerarse un ítem politómico con
respuestas: 0, 1, 2, 3 y 4. Un inconveniente de este modo de
proceder es que se pierde la información sobre las respuestas
a los ítems particulares. Otra alternativa sería considerar
como cantidad de respuestas el número total de posibles
resultados (2k, en el caso de “k” ítems). La dificultad ahora es
la gran cantidad de respuestas disponibles cuando k pasa de 3.

c) La tercera alternativa consiste en plantear un nuevo modelo


TRI que añade un parámetro adicional para ítems anidados en
el mismo testlest. La probabilidad de acierto en un ítem viene
dada por la siguiente expresión:
1− ci
Pi (θ ) = c i +
1 + exp( −Da i ( θ − θ t ( i ) − bi ))

donde los parámetros θ, ai, bi y ci tienen el mismo significado


que en el modelo de 3 parámetros. La única diferencia con
este modelo es el termino añadido θt(i) . Este término se
refiere a un rasgo secundario de los sujetos, distinto de θ, que
les facilita o dificulta el rendimiento en el testlet t. Esa
habilidad lleva el subíndice t porque afecta al rendimiento del
sujeto en todos los ítems del testlet t. Cada sujeto tiene tantos
parámetros θt como testlets haya en la prueba, puesto que el
rasgo secundario no tiene por qué ser el mismo de un testlet a
otro. El modelo considera fija (e igual a 0) la media de las θt(i)
referidas a un mismo testlet. La varianza de θt es proporcional
a la importancia del rasgo secundario. En la fígura 12 se
representa la probabilidad de acierto a un ítem con ci = 0, ai =
1 y bi=0 como una función (multidimensional) de θ y θt(i).
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 97

Para θ fijamos la desviación típica a 1; para θt(i) fijamos la


desviación típica a 1 (figura 12.a), 0.50 (figura 12.b) y 0.01
(figura 12.c). Una forma de representar el efecto de la
desviación típica en la probabilidad de acierto es representar
sólo los valores plausibles para θ y θt(i) según esa
variabilidad. En las figuras se observa cómo a medida que
disminuimos la varianza de θt(i) la probabilidad depende más
exclusivamente de θ. Obsérvese que, siendo la misma
función, sólo hemos variado los valores de θt(i) representados.

Figura 12. Probabilidad de respuesta desde un modelo Testlet.

a) Alta dependencia local b) Baja dependencia local c) Ausencia de dependencia local.

Como veremos inmediatamente, este modelo es equivalente a


otros multidimensionales que en vez de manipular la varianza de la
dimensión secundaria incluyen un parámetro de discriminación para
esa dimensión adicional. Wainer y Wang (2000) aplican este modelo
a los testlets del TOEFL (Comprensión Lectora y Comprensión Oral)
y muestran el sesgo de estimación en los parámetros al usar los
programas convencionales (v.gr., BILOG). Al final de ese trabajo se
plantean algunas de las preguntas que la investigación sobre testlets
debe resolver. Por un lado, debe investigarse cuáles son las causas
concretas que hacen que en unos testlets aparezca mayor dependencia
local que en otros. Por otro lado, debe explicarse cómo el sesgo de
98 TESTS ADAPTATIVOS INFORMATIZADOS

estimación en a puede ir en cualquier sentido (infra o sobre-


estimación). Finalmente, aunque en ambos trabajos se destaca como
ventaja la posibilidad de construir TAIs sin establecer a priori la
constitución interna del testlet, la estabilidad y ajuste de los
parámetros en esa situación están por comprobar.
Glas, Wainer y Bradlow (2000) obtienen los estimadores de
máxima verosimilitud marginal del modelo anterior. En un TAI con
testlets, cabrían dos opciones: a) la selección de los ítems sin tener en
cuenta su pertenencia a testlets (es decir, no considerando el posible
incumplimiento de la independencia local), o b) considerando su
pertenencia al testlet. En este caso, el TAI elegiría el testlet más
informativo y a continuación el ítem más informativo, dentro del
testlet elegido, para el último nivel de rasgo estimado. Glas et al.
(2000) comprobaron que las estimaciones del nivel de rasgo son más
precisas si se tiene en cuenta el testlet al que pertenece cada ítem.

• TAIS multidimensionales:

Los modelos multidimensionales de la TRI sirven para estimar el


rendimiento cuando depende del nivel en varios rasgos diferentes,
que pueden o no estar relacionados entre sí. Existen dos tipos de
modelos: los no compensatorios y los compensatorios. Los modelos
no compensatorios, como el MLTM (Multicomponent Latent Trait
Model) se han utilizado generalmente en el análisis de los procesos
que intervienen en la resolución de los ítems. En estos modelos la
probabilidad de acierto requiere la resolución completa de un
conjunto de procesos; por completa se indica que el ítem se fallará en
el momento en el que un proceso no se ejecute correctamente; el
modelo se expresa como un producto de probabilidades:

p
e(θm −bim )
p
Pi (θ ) = ∏ Pim (θ m ) = ∏ (θm −bim )
m=1 m=1 1 + e

donde θ es un vector de p componentes de procesamiento que


intervienen en la resolución del ítem i; bim es el parámetro de
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 99

dificultad asociado a la resolución del proceso m; Pim(θm) es la


probabilidad de ejecutar el proceso m correctamente. En la figura 13
se representa la probabilidad de respuesta como función de 2
procesos (bim = 0 para todo m). Sólo aquellas personas que obtienen
un nivel de ejecución alto en ambos procesos obtienen una
probabilidad de respuesta próxima a 1.

Figura 13. Probabilidad de Respuesta Modelo No Compensatorio

Sin embargo, los modelos que por ahora centran el interés


investigador son los modelos compensatorios, más cercanos al terreno
más familiar del Análisis Factorial (McDonald, 2000). En estos
modelos la probabilidad de respuesta es función de una combinación
lineal de dimensiones. Así, por ejemplo, el modelo logístico
multidimensional de 3 parámetros se formula como:

1 − ci
Pi (θ ) = ci + p

∑ − Da im θ m + bi
1+ e m =1

donde θ es un vector de p rasgos que intervienen en la resolución del


ítem i; bi es el parámetro de dificultad; ci el parámetro de pseudoazar;
100 TESTS ADAPTATIVOS INFORMATIZADOS

y aim es el parámetro de discriminación asociado a la dimensión m. Si


ci=0, se obtiene el modelo logístico multidimensional de 2
parámetros. Si p = 1, la expresión es la del modelo unidimensional de
3 parámetros. El modelo asume que cada ítem tiene parámetros
únicos de dificultad y pseudoazar, mientras que tiene diferentes
parámetros de discriminación aim para cada uno de los rasgos
subyacentes (indica la importancia del rasgo m en el ítem i y se
relaciona estrechamente con la saturación factorial del ítem i en el
factor m).

Figura 14. Probabilidad de Respuesta Modelo Compensatorio

En la figura 14 se representa la probabilidad de respuesta como


función de 2 dimensiones (ai1 = ai2 = 1; bi = 0; ci = 0). Como se puede
ver, ambas dimensiones, al poseer igual discriminación, tienen
idéntico efecto en la probabilidad de respuesta. Por otro lado, sujetos
con valores muy bajos en una dimensión no tienen un rendimiento
mínimo si los valores son altos en la otra dimensión. En ese sentido,
el modelo se denomina compensatorio. Una descripción más
detallada de los modelos multidimensionales puede encontrarse en
Santisteban y Alvarado (2001, apartado 4.4.3).
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 101

Segall (1996) y van der Linden (1999) han desarrollado


procedimientos de estimación máximo-verosímiles y bayesianos de
los niveles de un evaluando en los p rasgos, así como los algoritmos
de selección sucesiva de los ítems. El algoritmo de selección
multidimensional proporciona ventajas sobre el unidimensional sólo
cuando las dimensiones están relacionadas (estructura oblicua) y/o los
ítems poseen un patrón de saturaciones complejas (y no una
estructura simple).
Conocida la matriz de varianza-covarianza de los “p” rasgos,
Var(θ), que informa de la precisión con que cada uno es estimado, el
siguiente paso es establecer el criterio numérico para ordenar los
ítems en términos de información; esto se hace considerando los
objetivos del evaluador; podemos tomar como medida del sujeto, z,
p
una combinación lineal de habilidades ( z = ∑ λ m θ m ) en la que el
m =1
tamaño de cada peso λm represente el interés en reducir el error de
medida de la habilidad m. El siguiente ítem a administrar será el que
produzca un menor valor de Var(z).
p p p
Var ( z ) = ∑ λ2mVar (θ m ) + ∑∑ λmλnCov(θ m ,θ n )
m =1 m =1 n =1

Si todas las dimensiones son importantes, entonces λm = 1 para


todo m. Si sólo la dimensión m es importante, entonces λm = 1 y el
resto de las λ = 0; en este último caso, Var (θ m ) es el valor utilizado
para la selección.
Además de las ventajas asociadas a los modelos
multidimensionales (permiten evaluar el rendimiento en tareas
complejas, incluir contenidos diferentes y estimar simultáneamente el
nivel en los distintos rasgos), los TAIs multidimensionales parecen
ser más eficientes que los unidimensionales (reducen hasta en un
tercio la longitud del test) y proporcionan estimaciones con mejores
propiedades (mayores correlaciones con los parámetros y menor
sesgo). Respecto a sus inconvenientes, Hontangas et al. (2000)
señalan la necesidad de muestras grandes para la estimación de
102 TESTS ADAPTATIVOS INFORMATIZADOS

parámetros y todas las especificaciones que requieren: número y


relación entre las dimensiones, relaciones intra e inter-ítems, etc.
En un trabajo reciente, Segall (2001) muestra cómo utilizar los
modelos multidimensionales para medir una única dimensión. Según
el autor, una de las dimensiones evaluadas y útiles en la medida de la
inteligencia es la habilidad cognitiva general. Sin embargo, los
procedimientos tradicionales, incluidos los de TRI unidimensional, no
se han traducido en mejoras en la evaluación del factor general. Esto
se debe a que estos procedimientos son óptimos para aplicarse a tests
unidimensionales recogiendo su varianza específica pero no su
varianza común. Segall (2001) utiliza el Análisis Factorial Jerárquico
para obtener los parámetros de los ítems del ASVAB en dimensiones
ortogonalizadas; cada uno de los 420 ítems del ASVAB tiene
saturaciones en 3 dimensiones: una dimensión general (Inteligencia
General o θg), una dimensión específica independiente de la general
(por ejemplo Verbal) y una dimensión aún más específica y también
independiente de las anteriores (por ejemplo Conocimiento de
Palabras). El algoritmo de selección bayesiano utilizado minimiza la
varianza posterior de la dimensión general. En este trabajo se
comparan varias condiciones:

a) Test fijo y puntuación directa: la suma de las puntuaciones en


un test fijo de 105 ítems.
b) TAI unidimensional: con un banco de 420 ítems, se aplica un
TAI de longitud fija (60 ítems). Se obtiene una estimación
única de θ.
c) TAI multi-unidimensional: se aplican 4 TAIs de longitud fija
(15 ítems) a cada sujeto, uno para cada área de contenido. θ
es la suma de los niveles de rasgo estimados en cada TAI.
d) Test fijo y estimación multidimensional: tras aplicar un test
fijo de 105 ítems se utiliza un algoritmo multidimensional
para la estimación de θ.
e) TAI multidimensional: selección y puntuación
multidimensional en un TAI de longitud fija (60 ítems).

En el estudio de simulación se muestra que mediante la


aplicación del modelo multidimensional, y gracias al algoritmo de
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 103

selección, se puede conseguir una medida “casi perfecta” de la


habilidad general. Mediante el algoritmo de puntuación
multidimensional se obtienen también algunas mejoras. El peor
rendimiento se obtiene en el test fijo, a pesar de que la longitud del
test es casi el doble que en la condición TAI. Otras aplicaciones del
modelo para la estimación simultánea de varías dimensiones pueden
obtenerse en el trabajo de Segall (1996) aunque las conclusiones
(ventajosas para los modelos multidimensionales) son muy similares
a las aquí descritas.

6.7.2. Modelos politómicos

Se ha probado también la viabilidad de los denominados como


TAIs politómicos, sustentados en modelos TRI politómicos. En estos
modelos la probabilidad de seleccionar una determinada categoría de
respuesta es función del nivel de rasgo del sujeto y de los parámetros
del ítem. La ventaja de estos formatos es que proporcionan más
información que los dicotómicos para estimar el nivel de rasgo. Así,
por ejemplo, el modelo de respuesta graduada de Samejima, aplicable
a los formatos de respuesta de categorías ordenadas típicos de las
escalas de actitudes o los tests de personalidad, se formula de la
siguiente forma:
Da (θ − b )
e j jk
P (θ ) =
*
Da (θ − b )
1 + e j jk
jk

Esta expresión, que corresponde al modelo logístico 2P (véase


2.1), pone en relación la probabilidad de que un sujeto (con un nivel
de rasgo θ) seleccione una categoría de respuesta k o superior en el
ítem j, siendo a el parámetro de discriminación del ítem (único para
dicho elemento) y b el parámetro de localización (también
denominado como parámetro de dificultad) de la categoría k (habrá k-
1 parámetros de localización). El parámetro de discriminación estará
relacionado con la pendiente en θ=b, en la expresión anterior. Los
parámetros de localización determinarán la separación entre las
104 TESTS ADAPTATIVOS INFORMATIZADOS

curvas; un valor de b concreto indica el valor del nivel de rasgo para


el que es 0.5 la probabilidad de elegir la alternativa k o alguna
superior. Por ejemplo, para un ítem con 4 categorías de respuesta y
parámetros (a= 1, b2= -1, b3= -0.5, b4= 1.5) tendríamos las siguientes
tres funciones de probabilidad acumuladas que se muestran en la
figura 15 (por supuesto, la función acumulada para la primera
categoría no se representa porque sería igual a 1 para cualquier nivel
de rasgo).

Figura 15. Funciones de probabilidad del ítem

1,0

,8

,6
P*

,4

,2

0,0
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50
-3,00 -2,00 -1,00 ,00 1,00 2,00 3,00

niveles de rasgo

Será suficiente con restar las probabilidades de dos categorías


adyacentes para obtener la probabilidad de que un sujeto seleccione
una categoría concreta:
Pjk (θ ) = Pjk* (θ ) − Pj*( k +1) (θ )

Lo que daría lugar en nuestro ejemplo a las 4 funciones de


respuesta (tantas como categorías) de la figura 16.
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 105

Figura 16. Funciones de respuesta del ítem


1,0

,8

,6
P

,4

,2

0,0
-3,50 -2,50 -1,50 -,50 ,50 1,50 2,50 3,50
-3,00 -2,00 -1,00 ,00 1,00 2,00 3,00

niveles de rasgo

En la Figura 15 puede comprobarse, por ejemplo, que una


persona con nivel de rasgo igual a –0.5 tiene una probabilidad de 0.5
de seleccionar una de las dos categorías de respuesta superiores (3 ó
4), pues el parámetro b de la curva intermedia es precisamente –0.5.
En la Figura 16 podemos comprobar que la función de respuesta de la
primera categoría es monótona decreciente, que la correspondiente a
la última categoría es monótona creciente (mayor probabilidad cuanto
mayor es el nivel de rasgo) y que las de las categorías centrales son
unimodales (lo que significa que serán los sujetos con un cierto nivel
central de rasgo los que más probabilidad tienen de seleccionarlas).
Se han presentado otros muchos modelos de TRI politómicos, que
pueden consultarse en Santisteban y Alvarado (2001, apartado 4.4.1).
Los hay que son modificaciones del modelo de Samejima, otros que
se derivan del modelo politómico de Rasch y hay modelos específicos
para los ítems con repuesta nominal.
En su revisión sobre la investigación desarrollada con TAIs
politómicos, Dodd, de Ayala y Koch (1995) señalan que pueden
manifestar niveles aceptables de precisión aunque el banco en que se
106 TESTS ADAPTATIVOS INFORMATIZADOS

sustentan contenga un número reducido de ítems; en varios estudios


de simulación se concluye que los niveles medios de error de medida
son aceptables para diferentes niveles de rasgo con bancos de unos 30
ítems. Esto es así cuando se emplea como criterio de selección el de
máxima información del ítem y cuando se establecen otros
alternativos (por ejemplo, el criterio de máxima información de la
categoría, el criterio de máxima cercanía entre el parámetro de
localización y el nivel de rasgo estimado, o el criterio de máxima
información para un determinado rango de valores de rasgo).
Respecto a los procedimientos de estimación empleados, una de las
dificultades del método de máxima verosimilitud es que no se pueden
realizar estimaciones finitas mientras un sujeto elige una de las
categorías extremas de respuesta (la primera o la última), lo cuál se ha
intentado resolver mediante procedimientos stepsize como los
descritos para los modelos dicotómicos y mediante la aplicación de
procedimientos de estimación bayesianos. Aunque todavía no existen
TAIs politómicos operativos, se ha ensayado su funcionamiento con
diversos cuestionarios de personalidad, escalas de actitudes hacia el
consumo de alcohol y de los consumidores hacia determinados
servicios.

Aguado (2000) diseñó un banco de 28 ítems para medir el ajuste


emocional, a partir de diferentes concepciones teóricas del constructo
y de diversos autoinformes ya validados. El formato de respuesta
incluía 6 categorías ordenadas, desde “totalmente adecuado” hasta
“totalmente inadecuado” para describir el modo de sentir o
comportarse habitualmente. Para estudiar las propiedades
psicométricas del banco realizó las siguientes comprobaciones: a) un
análisis clásico de los ítems (media, varianza, índice de
discriminación y consistencia interna cuando se elimina el ítem) y de
la consistencia interna del banco (α=0.92), b) un estudio de validez
convergente (correlaciones en torno a 0.8 con la escala N del
cuestionario EPQ y con la escala de ajuste emocional del BFQ), c) un
estudio de validez factorial del que se obtuvieron 5 factores
correlacionados, d) mediante el programa PARSCALE se estimaron
los parámetros de rasgo y de los ítems según el modelo de respuesta
graduada de Samejima: se obtuvieron las funciones de información y
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 107

de error típico de medida para los niveles de rasgo entre –4 y +4 y la


distribución de los parámetros de discriminación y de localización, y
e) para comprobar el grado de invarianza conseguido se
correlacionaron los niveles de rasgo estimados en dos mitades del
banco (r=0.87) y las correlaciones entre los parámetros estimados en
dos muestras distintas (correlación alrededor de 0.96 para ambos
parámetros).
En un estudio de simulación se estudiaron las propiedades de un
TAI politómico, basado en el modelo de Samejima, con las siguientes
características: a) procedimiento de arranque: selección de un nivel θ
aleatorio entre –1 y +1, b) procedimiento de estimación de máxima
verosimilitud para estimar los niveles de rasgo, c) selección sucesiva
de ítems según el criterio de máxima información, y d)
establecimiento de diversos criterios de parada, unos de longitud fija
(determinado número de ítems) y otros de longitud variable (alcanzar
determinado error típico de medida). Se simularon las respuestas de
1100 sujetos (100 para cada uno de los 11 niveles de rasgo
prefijados). Como variables dependientes fundamentales se
establecieron el nivel medio de sesgo (diferencias entre el nivel de
rasgo estimado y el parámetro), error típico de medida (en las
condiciones de parada de longitud fija) y número de ítems
administrados (en las condiciones de longitud variable). El trabajo
concluye que, excepto para los niveles extremos de ajuste emocional,
con una media de 10 ó 15 ítems el TAI consigue estimaciones
razonablemente precisas, incluso más precisas que las
proporcionadas por otros cuestionarios de mayor longitud.

6.8.- Condiciones de aplicación


En un proceso real de evaluación psicológica o educativa, donde
las consecuencias del rendimiento en los tests son importantes para
las personas, la consecución de la mejor calidad psicométrica posible
de las estimaciones no debería entrar en colisión con el
mantenimiento de ciertas condiciones mínimas de confortabilidad, de
manera que la realización del test sea lo menos aversiva posible para
los evaluandos. En principio, cuando la aplicación de un TAI tiene
108 TESTS ADAPTATIVOS INFORMATIZADOS

importantes consecuencias para quien lo responde, la situación de


evaluación tiene componentes estresantes adicionales a los que se
plantean en la aplicación de los tests convencionales de rendimiento,
en primer lugar porque se trata de una prueba informatizada (los
evaluandos pueden tener más o menos experiencia con los
ordenadores, así como diferente predisposición hacia su uso), en
segundo lugar porque el propio algoritmo de selección lleva a que se
acierte aproximadamente un 50% de los ítems presentados (lo que
puede romper con la concepción más tradicional de que cuantos más
ítems se aciertan mayor nivel se manifiesta en el test), y en tercer
lugar porque los TAIs operativos tienen en algunos aspectos menos
flexibilidad que los tests convencionales (lo más usual es que no
permitan omitir, diferir o cambiar respuestas). En este sentido, se ha
desarrollado toda una línea de investigación aplicada que pretende
incrementar la sensación subjetiva de éxito o el grado de control que
el evaluando tiene en la sesión de evaluación. En definitiva, se
intenta diseñar pruebas adaptativas que, manteniendo en lo posible
sus beneficios de tipo psicométrico, no tengan desventajas
motivacionales adicionales a las que tienen los tests convencionales.
Se han ensayado TAIs fáciles que permiten tasas de aciertos
superiores a las que se obtienen en los algoritmos adaptativos más
comunes, se han probado TAIs que permiten la revisión (y el
cambio) de las respuestas como cualquier otro test convencional y
algunas variantes interesantes (como los tests autoadaptados
informatizados) que permiten al evaluando cierto grado de control
sobre el nivel de dificultad de la prueba.

• TAIs fáciles

Independientemente del nivel de rasgo de las personas, en un


TAI suelen acertarse aproximadamente la mitad de los ítems que se
presentan. Además, el procedimiento de selección de los ítems impide
que, como es usual en otros tests convencionales de rendimiento
óptimo, éstos se presenten secuencialmente de más fáciles a más
difíciles. Algunos autores (v.gr., Andrich, 1995) advierten que estas
características de los TAIs pueden tener algún efecto negativo en el
estado motivacional con que los evaluandos afrontan la prueba.
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 109

Lunz y Bergstrom (1994) propusieron variantes fáciles de los


TAIs que no seleccionaban el ítem más informativo, lo cuál según el
modelo 1P coincidiría con el ítem cuya probabilidad de acierto para el
último nivel de rasgo estimado fuera más próxima a 0.5, sino que
consistían en elegir en cada momento el ítem cuya probabilidad de
acierto fuera algo superior (0.6 ó 0.7). Como es lógico, un TAI fácil
necesitará aplicar un mayor número de ítems para alcanzar la misma
precisión que un TAI convencional fundamentado en el principio de
máxima información. Estas mismas autoras (Bergstrom y Lunz,
1999) informan que, en contextos operativos de certificación para
licenciados en enfermería y medicina, ajustan la dificultad del TAI a
una probabilidad de 0.6. Prefieren compensar la ligera pérdida que se
produce en precisión con una mayor aceptación del procedimiento
por parte de los candidatos.

• Revisión de respuestas en TAIs

La oportunidad de revisar y cambiar las respuestas iniciales que


un evaluando da a los ítems de un test es algo usual en las pruebas
convencionales. Los evaluandos perciben que la posibilidad de
revisar respuestas contribuye a que la prueba sea más justa y a reducir
el nivel de ansiedad ante la situación de evaluación, lo que puede
hacer que ciertas personas rindan mejor ante una situación que puede
resultar estresante.
En el caso de los TAIs, algunas razones pueden hacer
desaconsejable permitir la revisión y cambio de respuestas: en primer
lugar, puede incrementar el tiempo invertido en la sesión de
evaluación; en segundo lugar, puede afectar a la precisión de las
estimaciones, dado que algunos ítems ya no serían los más
informativos para el nivel de rasgo estimado después de la revisión;
finalmente, es posible que algunos evaluandos (si conocieran el
funcionamiento de un TAI y el procedimiento empleado para estimar
su nivel) utilicen en la primera aplicación del TAI estrategias
ilegítimas de respuesta (por ejemplo, fallar deliberadamente algunos
ítems, para que los siguientes que se le presenten sean muy fáciles) y
así intentar incrementar su nivel estimado en la prueba (después de
acertarlos en la fase de revisión). Respecto a este último
110 TESTS ADAPTATIVOS INFORMATIZADOS

inconveniente, Stocking (1997) obtuvo en un estudio de simulación


menor sesgo y mayor precisión cuando la revisión se realizaba por
bloques de ítems que cuando se planteaba al final de la primera
aplicación del TAI. En algunas pruebas de certificación operativas se
ha comprobado que cerca del 70% de los candidatos cambian alguna
de las respuestas dadas en la primera aplicación del TAI (Bergstrom y
Lunz, 1999). Con objeto de evitar estrategias de ganancia ilegítima
asociadas a la revisión, en estos TAIs se controla de forma continuada
el porcentaje de ítems que va acertando un candidato. Si el porcentaje
de la primera aplicación es sensiblemente menor al que se espera (el
test está ajustado para que se produzca un 60% de aciertos) lo que se
hace es cambiar el algoritmo de selección para presentar los más
informativos para el punto de corte (y no para el nivel de rasgo actual
estimado).
En lo que se refiere a las tasas de cambio de respuestas en los
TAIs, y sus efectos en cuanto a nivel de rasgo estimado y precisión,
en los estudios empíricos realizados se puede concluir que: a)
aproximadamente el 60% de los evaluandos cambian al menos una
respuesta, b) entre las respuestas cambiadas, alrededor del 50% son
de error a acierto, c) de los sujetos que modifican respuestas, entre un
42 y un 52% mejoran su nivel en el test, mientras que lo reducen no
más del 15%, d) la pérdida en precisión asociada a la revisión es
escasa (el cociente entre las varianzas de los errores antes y después
de la precisión es superior a 0.97), d) las ganancias medias después de
la revisión oscilan entre 0.2 y 0.7, e) los sujetos de alto nivel de rasgo
se aprovechan más de la revisión, f) el tiempo de la sesión se
incrementa entre un 37 y un 61% cuando se incluye la posibilidad de
revisar respuestas.
En un trabajo sobre el tema (Olea et al., 2000) se compararon
empíricamente los efectos que tiene la revisión de respuestas en un
TAI y en un test fijo informatizado (TFI) de la misma longitud,
evaluando el nivel de ansiedad-estado de los sujetos antes y después
de la aplicación completa de los tests. Algunos de los principales
resultados obtenidos fueron los siguientes:

• El grupo de sujetos a los que se permitió la revisión obtuvo


un descenso significativo de la ansiedad después de responder
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 111

a los tests, mientras que el grupo al que no se permitió revisar


incrementó significativamente su nivel de ansiedad estado.
• En la condición TAI, más del 80% de los evaluandos decidió
modificar alguna de sus respuestas iniciales; entre ellos, un
67% mejoró su nivel después de la revisión y un 25% lo
empeoró. El 43% de las respuestas cambiadas fueron de error
a acierto, mientras que sólo un 15% fueron de acierto a error.
• La correlación entre los niveles de rasgo estimados antes y
después de la revisión fue de 0.95 (en el TAI) y 0.94 (en el
TFI).
• En ambos tests, después de la revisión se incrementó
significativamente el nivel de rasgo medio estimado, el
número de aciertos y el tiempo empleado en la sesión de
evaluación. Descendió el nivel de ansiedad estado y no
aparecieron diferencias significativas en precisión.

En un segundo trabajo (Revuelta, Ximénez y Olea, en prensa) se


proponen nuevos procedimientos de revisión de respuestas y se
analizan sus consecuencias.

• Tests autoadaptados informatizados (TADIs).

Rocklin y O´Donnell (1987) propusieron un procedimiento


alternativo para intentar controlar la ansiedad de evaluación que
pueden experimentar los sujetos cuando responden a los TAIs. La
idea consistió en permitir a los evaluandos ajustar de forma dinámica
el nivel de dificultad de los ítems que debían responder, hasta situarse
en el nivel que les permitiera un rendimiento óptimo. Para ello,
propusieron dividir el banco de ítems en varias categorías de
dificultad (normalmente entre 5 y 8) y permitir al evaluando, antes de
responder a cada ítem, situarse en la categoría que considere más
adecuada para su nivel; un test autoadaptado informatizado (TADI)
selecciona en cada momento el ítem más informativo de la categoría
elegida por el evaluando y proporciona feedback sobre el resultado
obtenido (acierto o fallo).
En lo últimos años se han realizado algunas revisiones (Wise,
1999; Wise, Ponsoda y Olea, 2002) sobre la investigación que se ha
112 TESTS ADAPTATIVOS INFORMATIZADOS

desarrollado sobre tests autoadaptados (normalmente estudios


empíricos donde se aplican a grupos distintos un TADI y un TAI), de
la que pueden extraerse las siguientes conclusiones:

• Aunque en algunos trabajos se obtienen mayores niveles de


rasgo estimado en la condición TADI, en la mayoría no se
obtienen diferencias significativas respecto a la condición
TAI. Se obtienen mayores diferencias en submuestras de
sujetos que manifiestan mayor nivel de ansiedad-rasgo.
• No existen resultados consistentes respecto al pretendido
descenso de ansiedad postest, aunque parece que las
estimaciones de rasgo en los TADIs correlacionan menos (y
de forma menos negativa) con los niveles de ansiedad de los
evaluandos.
• Prácticamente en todos los estudios empíricos se obtiene
mayor nivel de imprecisión (mayor error típico de medida) en
la condición TADI que cuando se aplica un TAI.
• El tiempo invertido en la sesión de evaluación se incrementa
entre un 20 y un 30%.

S.L. Wise, uno de los autores que más investigación han


realizado sobre el tema, considera que estos dos últimos
inconvenientes hacen a los TADIs una alternativa de evaluación poco
atractiva, a menos que se demuestre en un futuro próximo que sus
estimaciones resultan más válidas que las de los TAIs.
Los previsibles beneficios de los TADIs, fundamentalmente
respecto al incremento en nivel de rasgo estimado y al descenso en
ansidad estado, se han intentado explicar de forma diferente. Así,
Rocklin (1994) plantea la “hipótesis de auto-regulación”, según la
cuál el evaluando que responde a un TADI ajusta su nivel de ansiedad
al nivel que le resulta más adecuado para conseguir un rendimiento
óptimo; Vispoel y Coffman (1994) plantean la “hipótesis de
distracción”: los evaluandos prestan más atención a la tarea en un
TADI que en un TAI; Wise (1994) propuso la “hipótesis de control
percibido”, que mantiene que los efectos beneficiosos se deben a que
el evaluando tiene mayor grado de control sobre una situación que le
puede resultar estresante.
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 113

Olea, Ponsoda y Wise (1995) encontraron que en un TADI se


obtuvieron mayores tasas de acierto y menor nivel de ansiedad
postest que en un TAI, lo que en principio puede hacer pensar que es
la sensación subjetiva de éxito (y no tanto el tipo de test) la
responsable del descenso en ansiedad. Para intentar clarificar estos
efectos, se planificó un segundo estudio (Ponsoda, Olea, Rodríguez y
Revuelta, 1999) manipulando la dificultad en ambos tipos de tests.
Concretamente, y a partir de un banco de ítems de vocabulario inglés
calibrado según el modelo 3P, se establecieron 4 tipos de tests
diferentes:

• TAI-Fácil: mediante una ligera modificación en el algoritmo


de selección de máxima información, se elegía el ítem más
informativo para la estimación actual de rasgo menos 0.5.
• TAI-Difícil: seleccionaba en cada momento el ítem más
informativo para el nivel de rasgo estimado más 0.5.
• TADI-Fácil: mediante instrucciones verbales, se instaba a los
sujetos a que eligieran categorías (y por tanto los ítems) de
dificultad que les resultaran accesibles para su nivel. El banco
de ítems se dividió en 5 categorías ordenadas de dificultad.
• TADI-Difícil: se instruía a seleccionar categorías de
dificultad auténticamente desafiantes, diciéndoles que los
aciertos en los ítems difíciles tenían más peso en la
calificación final que los obtenidos en ítems fáciles.

Los sujetos se asignaron de forma aleatoria a una de las 4


condiciones. Cada uno de los tests finalizaba cuando se presentaban
20 ítems. Antes y después del test cada sujeto debió responder a dos
versiones equivalentes de 10 ítems de la escala de ansiedad estado de
Spielberger, Gorsuch y Lushene (1970). En la tabla 2 se muestran las
medias en nº de ítems acertados y en las diferencias en ansiedad
estado (entre el pretest y el postest) en cada una de las cuatro
condiciones.
114 TESTS ADAPTATIVOS INFORMATIZADOS

Tabla 2. Media de ítems acertados


Tipo de test Ítems acertados Ansiedad Pre-Postest
TAI-Fácil 15.15 1.07
TAI-Difícil 8.62 -0.84
TADI-Fácil 15.73 1.50
TADI-Difícil 13.04 0.18

Puede observarse cierta relación entre los niveles de ansiedad


estado y la dificultad de cada una de las condiciones o tipos de tests:
en el TAI-Difícil se produce un incremento de la ansiedad, mientras
que cuando se obtienen tasas elevadas de acierto se experimenta
cierto descenso en la ansiedad-estado. No hubo diferencias
significativas entre los diferentes tipos de tests en el nivel medio de
rasgo estimado. La precisión fue mayor en las condiciones TAI. Se
obtuvieron diferencias significativas en ansiedad (diferencias pre-
postest) entre los dos tipos de TAIs.

6.9.- Otros objetivos de investigación


Fundamentalmente en contextos de evaluación educativa y
exámenes de certificación resulta frecuente la elaboración de tests de
maestría, para clasificar con precisión a los sujetos en uno de dos
grupos (aprobados-suspensos, admitidos-no admitidos, novatos-
expertos, etc.). Determinadas estrategias adaptativas pueden resultar
más eficientes que los tests convencionales, en el sentido de optimizar
la consistencia de las clasificaciones mediante la presentación de un
número reducido de ítems.
La estrategia más tradicional es la establecida en los tests de
maestría adaptativos, que son TAIs convencionales cuyo criterio de
parada tiene que ver con que el intervalo de confianza establecido a
partir del nivel estimado de è incluya o no el punto de corte fijado por
los expertos en el contenido de la prueba. Obviamente, el intervalo
será más estrecho a medida que aumenta la presentación de ítems y se
requerirá la aplicación de un número más elevado de ítems para los
evaluandos cuyo nivel de rasgo se encuentre próximo al punto de
corte. Razonando como es usual en Estadística Inferencial (Pardo y
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 115

San Martín, pp. 161 y ss), el intervalo de confianza de è será


( θˆ + zα / 2 S e , θˆ + z1−α / 2 S e ), donde Se es el error típico de medida
y zá es el valor de la distribución normal, N(0, 1), tal que P(Z < zá) =
á.
Una segunda estrategia, que da lugar a los denominados tests de
maestría secuenciales, consiste en aplicar un procedimiento de
parada fundamentado en el cociente de verosimilitudes (Spray y
Reckase, 1996). Proporciona una mayor precisión en las
clasificaciones que la obtenida con los tests de maestría adaptativos:

a) Se plantea en primer lugar una región de indiferencia en torno


al punto de corte ( θ 0 ± δ ).
b) Se formulan las siguientes hipótesis estadísticas:

H 0 :θ ≥ θ e ≡ θ 0 + δ H1 :θ ≤ θ d ≡ θ 0 − δ
c) Se fijan las probabilidades de error α (rechazar la hipótesis
nula cuando es verdadera) y β (mantener la hipótesis nula
cuando es verdadera la alternativa).
d) Usando el test de razón de verosimilitud de Wald se obtiene
la razón entre las verosimilitudes, LR, definido como :
LR = L(θ e ) / L(θ d ) .
e) Si LR ≤ β /(1 − α ) se mantiene H 0 , si LR ≥ (1 − β ) / α se
rechaza, y si se encuentra entre los dos valores anteriores
continúa la presentación de ítems.

Se han ensayado además tests de maestría secuenciales con dos


puntos de corte (Eggen, 1999) y otros donde se aplican los desarrollos
de la teoría bayesiana secuencial de la decisión (v.gr. Vos, 2000), que
permiten la selección de ítems considerando criterios adicionales a los
psicométricos (v.gr. costes económicos o errores en la clasificación) y
utilizar modelos de medida alternativos a la TRI. Vos y Glas (2000)
proponen un procedimiento para aplicar tests de maestría adaptativos
a testlets.
116 TESTS ADAPTATIVOS INFORMATIZADOS

También en contextos de evaluación educativa resulta algo


prioritario obtener información diagnóstica sobre los déficits de
conocimiento o procesamiento de los alumnos, para tenerla en cuenta
en lo que idealmente sería un proceso de enseñanza adaptado a las
necesidades individuales. En este sentido, Hontangas et al. (2000)
reflejan las limitaciones que tienen los TAIs convencionales para
cubrir los requerimientos de una buena evaluación educativa y
describen algunos nuevos enfoques adaptativos (unos fundamentados
en la TRI y otros propuestos en el marco de los Sistemas Tutores
Inteligentes) que pretenden acercar la evaluación y el adiestramiento.
Entre estos nuevos enfoques, destacamos algunos procedimientos de
TRI para clasificar a los alumnos en determinados estados de
conocimiento según sus déficits de procesamiento (Tatsuoka y
Tatsuoka, 1997), otros que se fundamentan en las relaciones de
dependencia entre los ítems para conseguir objetivos análogos (por
ejemplo, los que se fundamentan en la Teoría del Espacio de
Conocimiento -Dowling, Hockemeyer y Ludwing, 1996-) y,
finalmente, los que pretenden aplicar los desarrollos sobre Redes
Bayesianas para evaluar destrezas complejas (v.gr., Almond y
Mislevy, 1999). También se ha probado la eficacia de TAIs
fundamentados en bancos de ítems con formato de respuesta
construída (v. gr., Bennett, Steffen, Singley, Morley y Jacquemin,
1997).

Describiremos brevemente, como ilustración de este último


grupo de aportaciones, la estrategia de evaluación diagnóstica
adaptativa propuesta por Tatsuoka y Tatsuoka (1997). Esta estrategia
se apoya en la metodología del espacio-regla (Tatsuoka, 1983, 1985;
Tatsuoka y Tatsuoka, 1987), que tiene por objeto determinar los
estados de conocimiento o los errores cognitivos en que incurren los
alumnos en algún dominio de contenidos. Hay bastantes estudios que
utilizan esta metodología para analizar temas como la resolución de
problemas sobre suma de números con signo (Tatsuoka, 1985),
ecuaciones lineales (Birenbaum, Kelly y Tatsuoka, 1993),
multiplicación y división con exponentes (Birenbaum y Tatsuoka,
1993), fracciones (Tatsuoka y Tatsuoka, 1997), compresión lectora
(Buck, Tatsuoka y Kostin, 1997) y también dominios más complejos,
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 117

como la arquitectura (Katz, Martínez, Sheehan y Tatsuoka, 1998). La


mayoría de estos estudios emplean esta metodología con tests fijos
convencionales, habiendo sido utilizada de manera adaptativa
únicamente en el trabajo de Tatsuoka y Tatsuoka (1997). En líneas
generales, el método del espacio-regla consiste en lo siguiente:

a) Identificar las destrezas y conocimientos elementales,


denominadas atributos Ak, que intervienen en la ejecución de
las tareas que constituyen el dominio objeto de evaluación.
Los atributos se obtienen mediante un análisis de los
requisitos cognitivos de una muestra representativa de estas
tareas. Por ejemplo, si el objeto de evaluación es la suma de
fracciones, cada atributo puede ser un elemento o una etapa
del proceso para realizar la operación:

A1 = separar la parte entera de la parte fraccionaria


A2 = obtener un denominador común
A3 = sumar los numeradores
etc.

b) Elaborar un matriz de incidencia, Q, con la que describir los


ítems del banco (i=1,...,n) a partir de los atributos (k=1,...,K)
necesarios para resolverlos correctamente. Si la destreza k es
requerida por el ítem i, el elemento qik de la matriz Q será 1, y
si la destreza no es requerida, qik valdrá 0, Por ejemplo, en
bancos de tres ítems explicados por dos atributos, la matriz de
incidencia podría ser:

Banco 1 Banco 2
I1 I2 I3 I1 I2 I3
Atributos A1 1 0 1 1 1 1
A2 0 1 0 0 1 0

c) Identificar los estados de conocimiento (o uso de reglas


erróneas, conceptos mal comprendidos, etc.), ECh, que se
pretende diagnosticar. Los ECh se definen como una
combinación de atributos básicos que se poseen y carecen, o
118 TESTS ADAPTATIVOS INFORMATIZADOS

que son dominados y no dominados. En el caso de intervenir


K destrezas puede haber hasta 2K estados de conocimiento, es
decir, los resultantes de formar todas las combinaciones
posibles de atributos presentes, Ak=1, o ausentes, Ak=0,
simultáneamente. En el ejemplo, tenemos cuatro estados: no
poseer ninguna destreza (EC1), poseer sólo una (EC2 y EC3) y
poseer las dos (EC4). A cada ECh le corresponde un patrón
ideal de respuestas, uh, que indica los ítems que deberían ser
acertados, uhi=1, y fallados, uhi=0.

Patrones ideales de respuesta


Atributos Banco 1 Banco 2
A1 A2 I1 I2 I3 I1 I2 I3
Estados de EC1 0 0 0 0 0 0 0 0
Conocimiento EC2 1 0 1 0 1 1 0 1
EC3 0 1 0 1 0 0 0 0
EC4 1 1 1 1 1 1 1 1

En la práctica, el número de estados de conocimiento suele


ser menor que 2K, ya que algunos de ellos no son
identificables a partir el banco de ítems disponible. Por
ejemplo, en el banco 2, según lo visto en “b)”, para acertar los
ítems 1 y 3 se ha de tener la destreza A1 y para acertar el ítem
2 ambas destrezas. Por lo tanto, en el estado EC1 (ninguna
destreza) habrá que esperar que se fallen los tres ítems. En el
estado EC4 (ambas destrezas), habrá que esperar tres aciertos.
En el estado EC2 (sólo destreza A1), habrá que esperar acierto
en los ítems 1 y 3 y fallo en el 2. En el estado EC3 (sólo
destreza A2), habrá que esperar fallo en los tres ítems. En
consecuencia, a partir del banco 2, no son identificables los
estados EC1 y EC3, pues ambos producen el mismo patrón
ideal. Un análisis lógico de la matriz Q permitirá detectar las
combinaciones de atributos que son incompatibles en el
banco de ítems. Por ejemplo, el programa BUGLIB (Varadi y
Tatsuoka,1989) permite identificar todos los estados de
conocimiento admisibles en un matriz de incidencia
utilizando reglas de álgebra booleana.
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 119

También hay que tener en cuenta que en el conjunto de


patrones de respuesta posibles, uj, hay muchos que no
corresponden directamente a ningún estado de conocimiento.
En el ejemplo (banco 1) habría cuatro: 110, 100, 110 y 011.
Estos patrones no ideales, ue, se consideran desviaciones de
los patrones ideales, uh, de los estados de conocimiento, ECh.
Las desviaciones pueden deberse a que los estados de
conocimientos o la aplicación de reglas que implican están
sujetas a errores aleatorios. Es decir, personas con el mismo
nivel de rasgo o el mismo estado de conocimiento (v.gr., en el
caso de 8 ítems ordenados por dificultad creciente,
uh=11110000), pueden mostrar empíricamente diferentes
patrones por la influencia de factores como la adivinación
(v.gr., ue=11110001) o el descuido (v.gr., ue=01110000);
mientras que sujetos con distinto nivel pueden obtener el
mismo patrón de respuesta uh por motivos similares. En
síntesis, el problema es cómo asignar los patrones ue a un ECh
en base a su semejanza con los patrones uh. La solución es
proponer un criterio común para compararlos (apartado d) y
utilizar técnicas de reconocimiento y clasificación de patrones
estadísticos para tomar las decisiones (apartado e).

d) Definir el espacio de clasificación, denominado espacio-


regla, en el que situar los patrones de respuesta, uj, y
establecer su correspondencia con los estados de
conocimiento, ECh. Se trata de un espacio cartesiano de dos
dimensiones: 1) el nivel, θ, y 2) el grado de adecuación de los
patrones de respuesta, ζ, al comportamiento esperado por
algún modelo de la TRI. La primera indica el nivel global, θj,
más compatible con el patrón de respuestas, uj, mostrado por
el sujeto. El nivel de rasgo es estimado por cualquiera de los
métodos descritos en el apartado 2.3, a partir de uj y los
parámetros de sus ítems. La segunda corresponde al índice
ECI4 de Tatsouka (1985) para analizar patrones de respuesta
aberrantes o atípicos:
120 TESTS ADAPTATIVOS INFORMATIZADOS

f (u j )
ζj =
Var[ f (u j )]

siendo,
n
f (u j ) = ∑ [ pi (θ j ) − u i ][ pi (θ j ) − T (θ j )]
i =1
n
var[ f (u j )] = ∑ pi (θ j )[1 − pi (θ j )][ p i (θ j ) − T (θ j )] 2
i =1

pi(θj), la probabilidad de acertar el ítem i con habilidad


estimada θj

T(θj), la media de las pi(θj) de los n ítems aplicados

Todos los patrones de respuesta, uj, son situados en este


espacio como puntos xj=(θj, ζ j). En el caso de los estados de
conocimiento, ECh, dado que su aplicación está sujeta a la
aparición de errores aleatorios, hay cierta variabilidad en
torno a los puntos xh que idealmente les corresponden y, por
ello, se representan como elipsoides en lugar de puntos (ver la
figura 17). Según Tatsuoka y Tatsuoka (1987), cada ECh tiene
un elipsoide definido por una distribución normal bivariada,
con centroide en xh=(θh , ζh) y matriz de covarianzas Σh, que
por tratarse de dimensiones independientes es:

 I (θ h ) −1 0
∑h  0
= 
 1
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 121

Figura 17. Representación del espacio-regla


(+, patrones uj; elipses, ECh).

e) Clasificar los patrones de respuesta, uj, en uno de los estados


de conocimiento, ECh. Se utilizan técnicas similares a las
empleados para el reconocimiento y clasificación de patrones
estadísticos. El procedimiento consiste en calcular la
distancia del punto xj=(θj, ζj) del patrón de respuesta uj a los
centroides de los estados de conocimiento xh=(θh, ζh). La
métrica utilizada es la distancia de Mahalanobis, D 2jh , cuya
expresión es:

D 2jh = (x j − x h ) ∑ (x − xh )
' -1
h j

A partir de las distancias, se seleccionan los dos estados de


conocimientos más próximos ECr y ECs, es decir, aquéllos
con los valores D2 más pequeños, y se aplican reglas
bayesianas para tomar la decisión de cuál de ellos es más
122 TESTS ADAPTATIVOS INFORMATIZADOS

probable que haya generado el patrón uj. A partir de las


probabilidades de error de clasificación obtenidas, εr y εs, se
asigna al sujeto el estado de conocimiento cuya probabilidad
sea más baja. Las fórmulas para efectuar estos cálculos
pueden encontrarse en Tatsuoka y Tatsuoka (1987).

Una vez descrita la metodología del espacio-regla, el proceso de


evaluación adaptativa consistirá en seleccionar los ítems más
apropiados para encontrar el estado de conocimiento del sujeto de la
manera más eficiente posible. En cuanto a las partes del algoritmo
adaptativo, se procedería del siguiente modo:

a) El ítem inicial será seleccionado a partir de cualquiera de los


criterios generales de arranque ya comentados (en el apartado
4.1).
b) Después de la administración de un ítem, se estima el nivel de
rasgo del sujeto y se calcula el índice de ajuste del patrón de
respuestas resultante, con lo que se obtiene un punto en el
espacio-regla.
c) El ítem siguiente es seleccionado utilizando la forma de
operar de las técnicas de aceleración usadas en los métodos
de optimización. El próximo ítem será el que maximice la
distancia al punto estimado previamente. Es decir, para cada
ítem del banco no presentado, se calculan los puntos que le
corresponderían en caso ser acertado y fallado. Se calculan
las distancias entre estos puntos y el anterior, y se selecciona
el ítem cuya distancia sea mayor.
d) El test termina cuando el punto estimado se estabiliza en
alguna zona del espacio-regla, o sea, cuando la distancia entre
el punto obtenido en el ítem n y el n+1 sea inferior a un
criterio de convergencia. También se puede combinar con
otros criterios adicionales, como haber aplicado un número
mínimo de ítems, etc.

Una vez terminada la aplicación del TAI se clasifica al sujeto en


el estado de conocimiento que le corresponda, tal como hemos
descrito en el apartado e sobre el método del espacio-regla. El
CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS 123

resultado es una estimación global de la habilidad y un diagnóstico


cognitivo a partir del patrón de atributos del estado de conocimiento
asignado.
Adicionalmente, la información obtenida sirve para diseñar
programas de enseñanza específicos adaptados a las necesidades de
cada alumno, los cuales consisten en disponer las actividades de
entrenamiento en una secuencia apropiada según indican las
distancias existentes entre estados de conocimiento. Es decir, una vez
el alumno ha sido clasificado en un estado de conocimiento y se han
detectado las destrezas que le faltan o la naturaleza de los errores que
comete, se le ofrece, primero, instrucción específica en las destrezas
que corresponden al estado más próximo (menor distancia de
Mahalanobis), después en el siguiente mas cercano a éste, y así
sucesivamente hasta alcanzar la competencia plena. De este modo, la
evaluación y la enseñanza pueden quedar integradas en un mismo
sistema.
Referencias bibliográficas

Abad, F., Olea, J. y Ponsoda, V. (2001). Analysis of the optimum


number alternatives from the Item Response Theory. Psicothema
13, 1, 152-158.
Abad, F., Olea, J., Real, E. y Ponsoda, V. (2002). Estimación de
habilidad y precisión en tests adaptativos informatizados y tests
óptimos. Un caso práctico. Revista Electrónica de Metodología
Aplicada, 7, 1, 1-20.
Abad, F.J., Ponsoda, V. y Hontangas, P. (1998): El efecto de la
multidimensionalidad en las estimaciones de un modelo
unidimensional de la TRI. Psicológica, 19, 41-51.
Abernathy, L.J. (1986). Computerized placement tests: A revolution
in testing instruments. New York: College Board.
Aguado, D. (2000). Garantías científicas de un banco de ítems para
la evaluación del ajuste emocional. Características
psicométricas de su administración en formato de test
adaptativo informatizado. Tesis doctoral. Facultad de Psicología
de la Universidad Autónoma de Madrid.
Allan, D. (1992). Oxford Placement Test 1. Oxford: Oxford
University Press
Almond, R.G. y Mislevy, R.J. (1999). Graphical models and
computerized adaptive testing. Applied Psychological
Measurement, 23, 223-237.
Andrich, D. (1995). Review of the book Computerized Adaptive
Testing: A Primer. Psychometrika, 4, 615-648.
Assessment Systems Corporation (1994). MicroCAT Testing System.
St. Paul. MN: Author.
Baker, F.B. (1992). Item Response Theory. Parameter estimation
techniques. New York: Marcel Dekker.
126 TESTS ADAPTATIVOS INFORMATIZADOS

Barbero, M.I. M. (1999). Gestión informatizada de bancos de ítems. En


J.Olea, V. Ponsoda y G. Prieto (Eds). Tests informatizados.
Fundamentos y aplicaciones.(pp. 63-83). Madrid: Pirámide.
Bejar, I. I. (1990). A generative analysis of a three dimensional
spatial task. Applied Psychological Measurement, 14 (3) 237-
245.
Bejar, I. I. (1993). A generative approach to psychological and
educational measurement. En N. Frederiksen, R. J. Mislevy e I.
I. Bejar (Eds.). Test theory for a new generation of tests. (pp.
323-358). Hillsdale, NJ: LEA.
Bejar, I. I. y Yocom, P. (1991). A generative approach to the
modeling of isomorphic hidden figure items. Applied
Psychological Measurement, 15 (2) 129-137.
Bennet, R.E., Steffen, M. Singley, M.K., Morley, M. y Jacquemin, D.
(1997). Evaluating an automatically scorable open-ended response
type for measuring mathematical reasoning in computerized
adaptive testing. Journal of Educational Measurement, 34, 162-
176.
Bergstrom, B. y Lunz, M. (1999). CAT for certification and licensure.
En F. Drasgow y J. B. Olson-Buchanan (Eds.). Innovations in
computerized assessment.(pp. 67-92).Mahwah, NJ: LEA.
Binet, A. y Simon, Th.A. (1905). Méthodes nouvelles pour le
diagnostic du niveau intellectual des anormaux. L´Anneé
Psychologie, 11, 191-336.
Birenbaum, M. y Tatsuoka, K.K. (1993). Applying an IRT-based
cognitive diagnostic model to diagnose students’knowledge
states in multiplication and division with exponents. Applied
Measurement in Education, 6, 255-268.
Birenbaum, M., Kelly, A., y Tatsuoka, K.K. (1993). Diagnosing
knowledge states in algebra using the rule space model. Journal
for Research in Mathematics Education, 24, 442-459.
Bock, R.D. (1972). Estimating item parameters and latent ability
when responses are scored in two or more nominal categories.
Psychometrika, 37, 29-51.
Bradlow, E.T., Wainer, H. y Wang, X. (1999). A bayesian random
effects model for testlets. Psychometrika, 64, 153-168.
REFERENCIAS BIBLIOGRÁFICAS 127

Buck, G., Tatsuoka, K.K., y Kostin, I. (1997). The subskills of


reading: rule-space analysis of a multiple-choice test of second
language reading comprehension. Language Learning, 47, 423-
466.
Chen, S.-Y., Ankenmann, R.D. y Chang, H.H. (2000). A comparison
of item selection rules at the early stages of computerized
adaptive testing. Applied Psychological Measurement, 24, 241-
255.
Cheng, P. E. y Liou, M. (2000). Estimation of trait level in
computerized adaptive testing. Applied Psychological
Measurement, 24, 257-265
Computer Adaptive Technologies (1994). CAT software System.
Chicago, IL: Author.
Cuesta, M. (1996). Unidimensionalidad. En J. Muñiz (Coord.)
Psicometría.(pp. 239-292). Madrid: Universitas.
Cusick, G.M. (1989). Computer-assisted vocational assessment.
Vocational Evaluation and Work Adjustment Bulletin, 22, 1, 19-
23.
Dodd, B.G. (1990). The effect of item selection procedures and
stepsize on computerized adaptive attitude measurement using
the rating scale model. Applied Psychological Measurement, 14,
355-366.
Dodd, B.G., de Ayala, R.J. y Koch, W.R. (1995). Computerized
adaptive testing with polytomous items. Applied Psychological
Measurement, 19, 5-22.
Dowling, C.E., Hockemeyer, C. y Ludwig, A.H. (1996). Adaptive
assessment and training using the neighbourhood of knowledge
states. En C. Frasson, G. Gauthier, y A. Lesgold (Eds.).
Intelligent Tutoring Systems. Heidelberg: Springer-Verlag.
Drasgow, F. y Olson-Buchanan, J.B. (1999). Innovations in
computerized assessment. Mahwah, NJ: Erlbaum.
Eggen, T.J.H.M. (1999). Item selection in adaptive testing with the
sequential probability ratio test. Applied Psychological
Measurement, 23, 249-261
128 TESTS ADAPTATIVOS INFORMATIZADOS

Embretson, S. E. (1994). Application of cognitive design systems to


test development. En C. R. Reynolds (Ed.). Advances in
cognitive assessment. An interidisciplinary perspective. (pp. 107-
135). New York: Plenum Press.
Embretson, S. E. (1999). Generating items during testing.
Psychometric issues and models. Psychometrika, 64 (4) 407-433.
Fischer, G. H. (1973). The linear logistic test model as an instrument
in educational research. Acta Psychologica, 37, 359-374.
Fischer, G. H. y Parzer, P. (1991). An extension of the rating scale
model with an application to the measurement of change.
Psychometrika, 56 (4) 637-651.
Fischer, G. H. y Pendl, P. (1980). Individualized testing on the basis
of the dichotomous Rash model. En L. J. T. van der Kamp, W. F.
Langerak y D. N. M. de Gruijter (Eds.) Psychometrics for
educational debates. New York: John Wiley & Sons.
Carcía, C. (2002). Proyecto docente de Psicometría. Madrid:
Universidad Autónoma.
Glas, C.A.W., Wainer, H. y Bradlow, E.T. (2000). MML and EAP
estimation in testlet-based adaptive testing. En W.J. van der
Linden y C.A.W. Glas (Eds.). Computerized adaptive testing.
Theory and practice. (pp 271-287).Dordrecht: Kluwer Academic
Publishers.
Hambleton, R. y Swaminathan, H. (1985). Item response theory.
Principles and applications. Boston: Kluver Nijhoff.
Hambleton, R., Zaal, J.N., Pieters, J.P.M. (1991). Computerized
adaptive testing: Theory, applications, and standards. En R.K.
Hambleton y J.N. Zaal (Eds.) Advances in Educational and
psychological testing. (pp. 341-366). Boston: Kluwer.
Herrando, S. (1989). Tests adaptativos computerizados: una sencilla
solución al problema de la estimación con puntuaciones
perfecta y cero. II Conferencia Española de Biometría.
Biometric Society. Segovia.
Hetter, R.D., Segall, D.O. y Bloxon, B.M. (1994). A comparison of
item calibration media in computerized adaptive testing. Applied
Psychological Measurement, 18(3), 197-204.
Hontangas, P. (1999). Software para la construcción y administración
de tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto
REFERENCIAS BIBLIOGRÁFICAS 129

(Eds.). Tests informatizados: Fundamentos y aplicaciones.(pp.


251-286).Madrid: Pirámide.
Hontangas, P., Ponsoda, V., Olea, J. y Abad, F. (2000). Los tests
adaptativos informatizados en la frontera del siglo XXI: Una
revisión. Metodología de las Ciencias del Comportamiento, 2
(2), 183-216.
Hontangas, P., Ponsoda, V., Olea, J. y Wise, S.L. (2000). The choice
of item difficulty in self-adapted testing. European Journal of
Psychological Assessment 16, 1, 3-12.
Hornke, L.F. (2000). Item response times in computerized adaptive
testing. Psicológica, 21 (1-2), 175-189.
Hornke, L. F. y Habon, M. W. (1986). Rule based item bank
construction and evaluation within the linear logistic framework.
Applied Psychological Measurement, 10 (4) 369-380.
Irvine, S. H., Dann, P. L. y Anderson, J. D. (1990). Towards a theory
of algorithm determined cognitive test construction. British
Journal of Psychology, 81, 173-195.
Irvine, S. H. y Kyllonen, P. (Eds.) (2002). Item generation for test
development. Mahwah, NJ: Erlbaum Publishers.
Katz, I.R., Martínez, M.E., Sheehan, K, M., y Tatsuoka, K.K. (1998).
Extending the rule space methodology to a semantically-rich
domain: Diagnostic assessment in Architecture. Journal of
Educational and Behavioral Statistics, 24, 254-278.
Kim, J.K. y Nicewander W.A. (1993). Ability estimation for
conventional tests. Psychometrika, 58, 4, 587-599.
Kingsbury, G.G. (1990). Adapting adaptive testing: Using the
MicroCAT Testing System in a local School District.
Educational Measurement: Issues and Practice, 9, 2, 3-6.
Kingsbury, G.G. (1996). Item review and adaptive testing. Paper
presented an the annual meeting of the NCME, New York.
Kingsbury, G.G. y Houser, R. (1993). Assessing the utility of item
response models in computerized adaptive testing. Educational
Measurement: Issues and Practice, 12 (1), 21-27.
Kingsbury, G.G. y Houser, R. (1999). Developing computerized
adaptive tests for school children. En F. Drasgow y J. B. Olson-
Buchanan (Eds.), Innovations in computerized assessment. (pp.
93-116).Mahwah, NJ: LEA.
130 TESTS ADAPTATIVOS INFORMATIZADOS

Kingsbury, G.G. y Zara, A.R. (1989). Procedures for selecting items


for computerized adaptive tests. Applied Measurement in
Education, 2, 359-375.
López Pina, J.A. (1995). Teoría de respuesta a los ítems:
Fundamentos. Murcia: DM-PPU.
Lord, F.M. (1970). Some test theory for tailored testing. En W. H.
Holtzman (Ed.) Computer assisted instruction, testing and
guidance. (pp. 139-183). New York: Harper and Row.
Lord, F.M. (1971a). The theoretical study of the measurement
effectiveness of flexilevel tests. Educational and Psychological
Measurement, 31, 805-813.
Lord, F.M. (1971b). The self-scoring flexilevel test. Journal of
Educational Measurement, 8, 147-151.
Lord, F.M. (1971c). Tailored testing, an application of stochastic
approximation. Journal of de American Statistical Association,
66, 707-711.
Lord, F.M. (1977). A broad-range test of verbal ability. Applied
Psychological Measurement, 1, 95-100.
Lord, F.M. (1980). Applications of Item Response Theory to practical
testing problems. Hillsdale, NJ: LEA.
Lord, F.M. (1983). Unbiased estimators of ability parameters, of their
variance, and of their parallel-forms reliability. Psychometrika,
48, 233-245.
Lord, F.M. (1986). Maximum likelihood and Bayesian parameter
estimation in item response theory. Journal of Educational
Measurement, 23, 157-162.
Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test
scores. Reading, MA: Addison-Wesley.
Luecht, R.M. y Nungester, R.J. (2000). Computerized-adaptive
sequential testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp 117-
128).Dordrecht: Kluwer Academic Publishers.
Lumsden, J. (1976). Test Theory. Annual Review of Psychology, 27,
251-280.
Lunz, M.A. y Bergstrom, B.A. (1994). An empirical study of
computerized adaptive test administration conditions. Journal of
Educational Measurement, 31, 251-263.
REFERENCIAS BIBLIOGRÁFICAS 131

Martínez Arias, R. (1995). Psicometría: Teoría de los tests


psicológicos y educativos. Madrid: Síntesis.
McBride, J.R. (1988). A computerized adaptive version of the
Psychological Corporation´s Differential Aptitude Battery.
Paper presented at the annual meeting of APA, Atlanta, GA.
McBride, J.R. y Martin, J.T. (1983). Reliability and validity of
adaptive ability tests in a military setting. En D. J. Weiss (Ed.).
New Horizons in testing: Latent trait test theory and
computerized adaptive testing (pp 223-236). New York:
Academic Press.
McDonald, R.P. (1999). Test Theory: A unified treatment. New
Jersey: LEA.
McDonald, R.P. (2000). A basis for Multidimensional Item Response
Theory. Applied Psychological Measurement, 24, 99-114.
Meisner, R., Luecht, R. y Reckase, M. (1993). The comparability of
the statistical characteristics of test items generated by computer
algorithms. American College Testing Research Report Series,
93-3.
Mills, C.N., Potenza, M.T., Fremer, J.J. y Ward, W.C. (Eds.) (2002).
Computer-based testing: Building the foundation for future
assessment. Mahwah, NJ: LEA.
Mills, C.N. y Steffen, M. (2000). The GRE computer adaptive test:
Operational issues. En W.J. van der Linden y C.A.W. Glas
(Eds.). Computerized adaptive testing. Theory and practice. (pp
75-100). Dordrecht: Kluwer Academic Publishers.
Mislevy R.J. y Bock R.D. (1990). Bilog 3. Scientific Software, Inc.
Mooresville, Indiana.
Mislevy, R. J., Sheehan, K. M. y Wingersky, M. (1993). How to
equate tests with little or no data. Journal of Educational
Measurement, 30 (1) 55-78.
Mislevy, R.J. y Almond, R.G. (1996). Graphical models and
computerized adaptive testing. CSE Technical Report 434.
University of California.
Muñiz, J. (Coord.) (1996). Psicometría. Madrid: Universitas.
Muñiz, J. (1997). Introducción a la teoría de respuesta a los ítems.
Madrid: Pirámide.
132 TESTS ADAPTATIVOS INFORMATIZADOS

Muñiz, J. y Hambleton, R. (1999). Evaluación psicométrica de los


tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto (Eds.).
Tests informatizados: Fundamentos y aplicaciones. (pp. 23-
52).Madrid: Pirámide.
Muraki, E. y Bock, R.D. (1996). Parscale. IRT based test scoring and
item analysis for graded-open exercises and performance tests.
Chicago, Il.: Scientific Software International.
Navas, M.J. (1996) . Equiparación de puntuaciones. En J. Muñiz
(Coord.). Psicometría. (pp. 293-369).Madrid: Universitas.
Olea, J. y Hontangas, P. (1999). Tests informatizados de primera
generación. En J. Olea, V. Ponsoda, y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 111-
125).Madrid: Pirámide.
Olea, J. y Ponsoda, V. (1996). Tests adaptativos informatizados. En J.
Muñiz (Coord..) Psicometría. (pp. 730-783).Madrid: Universitas.
Olea, J., Ponsoda, V. y Prieto, G. (1999) (Eds.). Tests informatizados:
Fundamentos y aplicaciones. Madrid: Pirámide.
Olea, J., Ponsoda, V., Revuelta, J. y Belchí, J. (1996). Propiedades
psicométricas de un test adaptativo informatizado de vocabulario
inglés. Estudios de Psicología, 55, 61-73.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P., y Abad, F.J. (2001).
Requerimientos, aplicaciones e investigación en tests adaptativos
informatizados. Apuntes de Psicología, 19, 1, 11-28.
Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P. y Suero, M. (1999).
Investigación en tests adaptativos informatizados. En J. Olea, V.
Ponsoda y G. Prieto (Eds). Tests informatizados. Fundamentos y
Aplicaciones. (pp. 163-185).Madrid: Pirámide.
Olea, J., Ponsoda, V. y Wise, S. (1995). Tests adaptativos y
autoadaptados informatizados: Efectos en la ansiedad y en la
precisión de las estimaciones. Ponencia presentada en el IV
Simposium de Metodología de las Ciencias del Comportamiento.
Murcia.
Olea, J., Revuelta, J., Ximénez, C. y Abad, F.J. (2000). Psychometric
and psychological effects of review on computerized fixed and
adaptive tests. Psicológica, 21, 157-173.
REFERENCIAS BIBLIOGRÁFICAS 133

Owen, R.J. (1975). A bayesian sequential procedure for quantal


response in the context of adaptive mental testing. Journal of the
American Statistical Association, 70, 351-356.
Pardo, A. y San Martín, (1998). Análisis de datos II. Madrid:
Pirámide.
Parshall, C.G., Davey, T. y Pashley, P.J. (2000). Innovative item
types for computerized testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing: Theory and
practice (pp. 129-148). Dordrecht: Kluwer Academic Publishers.
Parshall, C.G., Spray, J.A., Kalohn, J.C. y Davey, T. (2001).
Practical considerations in computer-based testing. New York:
Springer.
Ponsoda, V. (2000). Overview of computerized adaptive testing
special section. Psicológica, 21(1 y 2), 115-120
Ponsoda, V., Olea, J. y Revuelta, J. (1994). ADTEST: A computer
adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 54 (3), 680-686.
Ponsoda, V., Olea, J., Rodriguez, M.S. y Revuelta, J. (1999). The
effects of test difficulty manipulation in computerized adaptive
testing and self-adapted testing. Applied Measurement in
Education, 12, 167-184.
Ponsoda, V., Wise, S.L., Olea, J. y Revuelta, J. (1997). An Investigation
of Self-Adapted Testing in a Spanish High School Population.
Educational and Psychological Measurement 57(2), 210-221.
Prieto, G. y Delgado, A. (1996). Construcción de ítems. En J. Muñiz
(Coord.). Psicometría. (pp. 105-138). Madrid: Universitas.
Reckase, M.D. (1979). Unifactor latent trait models applied to multi-
factor tests: Results and implications. Journal of Educational
Statistics, 4, 207-230.
Reese, L.M., Schnipke, D.L. y Luebke, S.W. (1997). Incorporating
content constrains into a multi-stage adaptive testlet design.
Paper presented at the annual meeting of the AERA, Chicago.
Renom, J. (1993). Tests adaptativos computerizados: Fundamentos y
aplicaciones. Barcelona: PPU.
Renom, J. y Doval, E. (1999). Tests adaptativos informatizados:
Estructura y desarrollo. En J. Olea, V. Ponsoda y G. Prieto
134 TESTS ADAPTATIVOS INFORMATIZADOS

(Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp.


127-162).Madrid: Pirámide.
Revuelta, J. (2000). Estimación de habilidad mediante ítems
isomorfos. Efectos en la fiabilidad de las puntuaciones.
Psicothema, 12, 2, 303-307.
Revuelta, J. y Ponsoda, V. (1997). Una solución a la estimación
inicial en los tests adaptativos informatizados. Revista
Electrónica de Metodología Aplicada 2, 2, 1-6.
Revuelta, J. y Ponsoda, V. (1998a). A comparison of item exposure
control methods in computerized adaptive testing. Journal of
Educational Measurement 35, 4, 311-327.
Revuelta, J. y Ponsoda, V. (1998b). Un test adaptativo informatizado
de análisis lógico basado en la generación automática de ítems.
Psicothema, 10, 3, 753-760.
Revuelta, J. y Ponsoda, V. (1999). Generación automática de ítems.
En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests informatizados.
Fundamentos y aplicaciones. (pp. 227-250).Madrid: Pirámide.
Revuelta, J. y Ponsoda, V. (2001). Fundamentos de Estadística.
Madrid: UNED.
Revuelta, J., Ximénez, C. y Olea, J. (en prensa). Psychometric and
psychological effects of item selection and review on
computerized testing. Educational and Psychological
Measurement.
Rocklin, T.R. (1994). Self-adapted testing. Applied Psychological
Measurement 7, 3-14.
Rocklin, T.R. y O’Donnell, A.M. (1987). Self-Adapted testing: A
performance improving variant of computerized adaptive testing.
Journal of Educational Psychology, 79, 315-319.
Sands, W.A., Waters, B.K. y McBride, J.R. (Eds.) (1997).
Computerized adaptive testing. From inquiry to operation.
Washington: American Psychological Association.
Santisteban, C. (1990). Psicometría: Teoría y práctica en la
construcción de tests. Madrid: Norma.
Santisteban, C. y Alvarado, J. (2001). Modelos psicométricos. Madrid:
UNED
REFERENCIAS BIBLIOGRÁFICAS 135

Schnipke, D.L. y Green, B.F. (1995). A comparison of item selection


routines in linear and adaptive tests. Journal of Educational
Measurement, 3, 227-242.
Schoonman, W. (1989). An applied study on computerized adaptive
testing. Amsterdam: Swets & Zeitlinger.
Segall, D.O. (1996). Multidimensional Adaptive Testing.
Psychometrika, 61, 331-354.
Segall, D.O. (2001). General Ability Measurement: An application of
multidimensional Item Response Theory. Psychometrika, 66 (1),
79-97.
Segall, D.O. y Moreno H.E. (1999). Development of the
computerized adaptive testing version of the Armed Services
Vocational Aptitude Battery. En F. Drasgow, y J.B. Olson-
Buchanan (Eds.). Innovations in computerized assessment. (pp.
35-66). Mahwah, NJ: LEA
SHL (1996). DA5: Diagramas codificados. SHL, Madrid: Psicologos
Organizacionales.
Spilberger, C.D., Gorsuch, R.L. y Luschene, R.E. (1970). Manual for
the state-trait anxiety inventory. Palo Alto, CA: Consulting
Psychologist’s Press.
Spray, J.A. y Reckase, M.D. (1996). Comparison of SPRT and
sequential Bayes procedures for classifying examinees into two
categories using a computerized test. Journal of Educational and
Behavioral Statistics, 21, 405-414.
Stocking, M.L. (1997). Revising item responses in computerized
adaptive tests: A comparison of three models. Applied
Psychological Measurement, 21, 129-142.
Stocking, M. L. y Lewis, Ch. (2000). Methods of controlling the
exposure of items in CAT. En W.J. van der Linden y C.A.W.
Glas (Eds.). Computerized adaptive testing. Theory and practice.
(pp. 163-182). Dordrecht: Kluwer Academic Publishers.
Stocking, M.L. y Swanson, L. (1993). A method for severely
constrained item selection in adaptive testing. Applied
Psychological Measurement, 17, 277-292.
Stocking, M.L. y Swanson, L. (1998). Optimal design of item banks
for computerized adaptive tests. Applied Psychological
Measurement, 22, 271-279.
136 TESTS ADAPTATIVOS INFORMATIZADOS

Sympson J.B. y Hetter R.D. (1985) Controlling item exposure rates


in computerized adaptive testing. 27th Annual Meeting of the
Military Testing Association. San Diego. CA.
Tatsuoka, K.K. (1983). Rule space: An approach for dealing with
misconceptions based on item response theory. Journal of
Educational Measurement, 20, 345-354.
Tatsuoka, K.K. (1985). A probabilistic model for diagnosing
misconceptions by the pattern classification approach. Journal of
Educational Statistics, 10, 55-73.
Tatsuoka, K.K., y Tatsuoka, M.M. (1987). Bug distribution an
statistical pattern classification. Psychometrika, 52-193-206.
Tatsuoka, K.K. y Tatsuoka, M.M. (1997). Computerized cognitive
diagnostic adaptive testing: effect on remedial instruction as
empirical validation. Journal of Educational Measurement, 34,
3-20.
Thissen, D. (1991) MULTILOG user’s guide. Chicago. Ill.: Scientific
Software International.
Thompson, T.D. y Davey, T. (1999). CAT procedures for passage-
based tests. Paper presented at the annual meeting of the
NCME, Montreal, Canada.
Urry, V.W. (1977). Tailored testing: A successful application of item
response theory. Journal of Educational Measurement, 14, 181-
196.
van der Linden, W.J. (1998). Bayesian item-selection criteria for
adaptive testing. Psychometrika, 62, 201-216.
van der Linden, W.J. (1998). Optimal assembly of psychological and
educational tests. Applied Psychological Measurement 22, 195-
211.
van der Linden, W.J. (1999). Multidimensional adaptive testing with
a minimum error-variance criterion. Journal of Educational and
Behavioral Statistics, 24, 398-412.
van der Linden, W.J. (2000). Constrained adaptive testing with
shadow tests. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 27-
52).Dordrecht: Kluwer Academic Publishers.
REFERENCIAS BIBLIOGRÁFICAS 137

van der Linden, W.J. y Glas, C.A.W. (Eds.) (2000). Computerized


adaptive testing. Theory and practice.Dordrecht: Kluwer
Academic Publishers.
van der Linden, W.J. y Pashley, P.J. (2000). Item selection and
ability estimation in adaptive testing. En W.J. van der Linden y
C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and
practice. (pp 1-25).Dordrecht: Kluwer Academic Publishers.
van der Linden, W.J. y Reese, L.M. (1998). A model for optimal
constrained adaptive testing. Applied Psychological
Measurement, 22, 195-211.
Varadi, F. y Tatsuoka, K.K. (1989). BUGLIB. Programa de
ordenador no publicado.
Veerkamp, W.J.J. y Berger, M.P.F. (1997). Some new item selection
criteria for adaptive testing. Journal of Educational and
Behavioral Statistics, 22, 203-226
Vispoel, W.P. y Coffman, D.D. (1994). Computer-adaptive and self-
adaptive music listening tests: Psychometric features and
motivational benefits. Applied Measurement in Education, 7, 25-
52.
Vos, H.J. (2000). A Bayesian procedure in the context of sequential
mastery testing. Psicológica, 21 (1 y 2), 191-211.
Vos, H.J. y Glas, C.A.W. (2000). Testlet-based adaptive mastery
testing. En W.J. van der Linden y C.A.W. Glas (Eds.).
Computerized adaptive testing. Theory and practice. (pp. 289-
310).Dordrecht: Kluwer Academic Publishers.
Wainer, H. (2000a). Computerized adaptive testing: A primer. 2ª
edición. Hillsdale, New Jersey: LEA. (1ª edición: 1990).
Wainer, H. (2000b). CATs: Whither and whence. Psicologica, 21, 121-
133.
Wainer, H., Bradlow, E.T. y Du, Z. (2000). Testlet response theory: An
analog for the 3PL model useful in testlet-based adaptive testing.
En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized
adaptive testing. Theory and practice. (pp. 245-270).Dordrecht:
Kluwer Academic Publishers.
Wainer, H. y Eignor, D. (2000). Caveats, pitfalls, and unexpected
consequences of implementing large-scale computerized testing.
138 TESTS ADAPTATIVOS INFORMATIZADOS

En H. Wainer (Ed.). Computerized adaptive testing: A primer.(pp.


271-300). 2ª edición. Hillsdale, New Jersey: LEA.
Wainer, H. y Kiely, G. (1987). Item clusters in computerized adaptive
testing: A case for testlets, Journal of Educational Measurement
24, 185-202.
Wainer, H. y Wang, X. (2000). Using a new statistical model for
testlets to score TOEFL. Journal of Educational Measurement,
37, 3, 203-220.
Wainer, H., Lewis, C., Kaplan, B. y Braswell, J.(1991). Building
Algebra Testlets: a comparison of hierarchical and linear
structures. Journal of Educational Measurement,28, 311-323.
Wang, T. y Vispoel, W.P. (1998). Properties of ability estimation
methods in computerized adaptive testing. Journal of
Educational Measurement, 35, 109-135.
Warm, T. A. (1989). Weighted likelihood estimation of ability in item
response theory. Psychometrika, 54, 3, 427-450.
Way, W.D. (1998). Protecting the integrity of computerized testing item
pools. Educational Measurement: Issues and Practice, 17, 17-26.
Weiss, D.J. (1974). Strategies of adaptive ability measurement.
Research Report 74-5. Dep. of Psychology, U. of Minnesota.
Weiss, D.J. (1983). New horizons in testting: Latent trait test theory and
computerized adaptive testing. New York: Academic Press.
Wise, S.L. (1994) . Understanding self-adapted testing: The perceived
control hypothesis. Applied Measurement in Education, 7, 15-24.
Wise, S.L. (1999). Tests autoadaptados informatizados:
Fundamentos, resultados de investigación e implicaciones para
la práctica. En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests
informatizados: Fundamentos y aplicaciones. (pp. 189-206).
Madrid: Pirámide.
Wise, S.L. y Kingsbury, G. (2000). Practical issues in developing and
maintaining a computerized adaptive testing program. Psicológica,
21, 135-155.
Wise, S.L., Ponsoda, V. y Olea, J. (2002). Self-adapted testing: An
overview. Int. J. Cont. Engineering Eduction and Lifelong
Learning, 12 (1-4), 107-122.
REFERENCIAS BIBLIOGRÁFICAS 139

Yi, Q. (2002). Incorporating the Sympson-Hetter exposure control


method into the a-stratified method with content blocking. Paper
presented at the annual meeting of AERA, New Orleans, LA.
Zickar, M.J., Overton, R.C., Taylor, R.y Harms, H.J. (1999). The
development of a computerized selection system for computer
programmers in a financial services company. En F. Drasgow y
J.B. Olson-Buchanan (Eds.). Innovations in computerized
assessment. (pp. 7-34).Mahwah, NJ: LEA

View publication stats