Está en la página 1de 16

De la Teoría Clásica de los Tests a los Tests Adaptativos Computarizados: Una revisión.

José E. Díaz Camacho


Universidad Autónoma de Baja California(1)

Resumen

En los últimos 30 años, la metodología y las técnicas de elaboración de tests han


manifestado un desplazamiento cada vez más marcado de los sistemas tradicionales de
exámenes, fundamentados en la teoría clásica de los tests, hacia los sistemas adaptativos
de evaluación. Esta transición ha sido propiciada por los desarrollos que han tenido lugar
en el contexto de la teoría de los tests y, en particular, en la teoría de respuestas por ítem,
así como por el desarrollo alcanzado por la tecnología computacional. El desarrollo de la
teoría clásica de los tests ha evolucionado de una posición pragmática caracterizada por
la elaboración de reactivos y pruebas, cuyo único requisito era mantener cierta
consistencia entre sí, hacia una fase en la cual las pruebas cuentan con un mayor
sustento en postulados teóricos acerca de la personalidad, el aprendizaje, el
comportamiento y los principios que regulan la interacción entre los factores estructurales
hereditarios y los factores ambientales. La elaboración de tests de acuerdo a la teoría
clásica, conlleva ciertas limitaciones debidas principalmente a la dependencia que hay
entre cada reactivo y la prueba de que forma parte, así como la que existe entre cada
reactivo y la población utilizada para normar la prueba, lo que limita las posibilidades de
predecir el comportamiento ante reactivos específicos. Nuevas aproximaciones, como la
teoría de respuestas por ítem, han sido elaboradas para resolver las limitaciones
planteadas por la teoría clásica de los tests y han presentado nuevas técnicas para el
desarrollo de estos instrumentos de medida. Uno de los resultados de la teoría de
respuestas por ítem es que al permitir establecer estadísticos para cada reactivo
individual y de manera independiente, se proporciona un modelo teórico excelente para la
elaboración de tests adaptativos computarizados, caracterizados básicamente por
presentar reactivos diferentes a cada examinado, dependiendo de sus respuestas a los
reactivos anteriores. Otra de las herramientas que han sido de considerable valor para los
nuevos tests adaptativos computarizados es el desarrollo de los sistemas de cómputo que
permiten manejar grandes bases de reactivos de una manera interactiva y con una gran
velocidad de proceso.

SUMMARY

During the last 30 years, test development methodology and techniques have gradually
suffered an increasing shift from a traditional position based on the classical test theory, to
the adaptive tests. This shift has been produced as a result of several factors, the most
important being, the new test theory, and specially, the item response theory. Another
important factor is the development of computational technology. Test theory has evolved
from a pragmatical strategy aimed to build items and tests with no other requirement than
to get certain consistency among them, to a new stage in which tests have more solid
theoretical foundations in such psychological topics like personality, learning and the
principles describing the interaction among structural and hereditary factors. Test
development according to classical test theory carries on certain limitations, like the
dependency each item has on the test to which it belongs and on the population used to
norm the test. These shortcomings prevent the posibility to predict subjects' performance
to an specific item. Item response theory is a new approach developed to solve these
shortcomings of the classical test theory and in doing so, has dealt to the development of
new measurement instruments. One of the results of item response theory is to provide for
each specific item, statistical parameters that are independent of any other factor.
Consecuently, it creates a theoretical framework for the development of computerized
adaptive tests. Accordingly, computerized adaptive tests, allow the examiner to present
different items for each examinee depending on the responses to previous items. This new
type of tests would not be possible, the computerized tecnology had no been evolved to
such a levels as to be able to interactively handle great amounts of data in such a high
processing speed.

Introducción

Los últimos treinta años han visto un desarrollo acelerado de los sistemas adaptativos de
evaluación aplicados a diversas áreas del conocimiento. Sin embargo, esta tecnología
para la evaluación, no habría sido posible sin la evolución de varias áreas del
conocimiento entre las que se encuentran la Teoría de Respuesta por ítem (Item
Response Theory) y la tecnología computacional que tanto en hardware como en
software, ha permitido disponer de herramientas muy rápidas y con una gran capacidad
de almacenamiento y recuperación de información. Este trabajo comenta los principales
desarrollos que tuvieron lugar en la Teoría Clásica de los Tests, señalando los problema
que motivaron la emergencia de una nueva teoría: la Teoría de Respuestas por Item.
Asimismo, relaciona las contribuciones de la Teoría de Respuestas por Item y la
tecnología computacional con el desarrollo de los sistemas adaptativos de evaluación.

La Teoría Clásica de los Tests.

Se denomina Teoría Clásica de los Tests (TCT) al conjunto de principios teóricos y


métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación,
validación e interpretación de distintos tipos de tests y que permiten derivar escalas
estandarizadas aplicables a una población (Hambleton, 1994). Los principios en que se
basa son relativamente simples y se aplican tanto a las pruebas de desempeño, como a
las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado
procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo
general, tres grandes etapas que se identifican por su objeto de interés primordial, así
como por los métodos cuantitativos y tipos de análisis teóricos que utilizan.
La primera etapa que Cattell (1986) denomina itemetría, se caracteriza principalmente por
la construcción de pruebas conformadas por reactivos cuyas propiedades estadísticas
eran el centro de atención principal. Los tests se consideraban como el producto de la
integración de un conjunto de reactivos cuyas propiedades estadísticas tenían que ser
determinadas antes de que se les incluyera en esa prueba particular.

Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal


virtud de la escala y se medía a partir de la correlación entre los reactivos individuales y el
instrumento en su conjunto. Si la correlación eral alta, se decía que los reactivos eran los
adecuados. Sin embargo, con frecuencia resultaba que la correlación no era tan buena, y
el resultando era que se obtenían reactivos deficientes y la prueba en su conjunto era de
escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y
tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del
test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas
paralelas y de división por mitades.

La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el


análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre
precisión de la medida, las técnicas para el tratamiento del error y el uso generalizado del
error estándar de la medida como la medida básica del error (Kaplan & Saccuzzo, 1993).
Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown
(Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach
(Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso
generalizado de la curva normal, las pruebas de significancia, el uso de las correlaciones
múltiples y la fórmula de atenuación, etc. Sin embargo, por lo que respecta a la teoría de
la personalidad, a decir de Cattell (1986b), "ésta vivía en un mundo habitado por ítems y
apreciaciones subjetivas sobre conceptos tales como extraversión, superego, inteligencia,
persistencia, etc."(p. 5) Es decir, la fase de desarrollo de reactivos y su agrupamiento para
conformar tests, fue una fase fundamentalmente pragmática, sin gran sustento en teorías
de la personalidad que permitieran relacionar la parte cuantitativa con la conceptual
acerca del comportamiento.

La siguiente etapa es la que Cattell (1986b) denomina psicometría estructural y se


caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis
factorial con sus variantes técnicas R-, dR- y P- como un medio para encontrar la
"estructura natural" de las habilidades en el contexto de los factores culturales, la dotación
genética, la personalidad, los rasgos, los motivos dinámicos y las dimensiones que dan
lugar a la acción y al comportamiento. Su objetivo primordial no era como tal, aplicar
pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre
personalidad, y los fundamentos de la investigación experimental multivariada
(cuantitativa por naturaleza), así como analizar las interacciones dinámicas entre los
rasgos y los estadíos de la personalidad. Los tests se consideraban significativos en la
medida que armonizaban con los constructos teóricos (Marx, 1963) formulados
conceptualmente. Sus mayores logros los obtuvo en los trabajos de Spearman(1927),
Thurstone(1938), Horn(1967), Guilford(1956), Eysenck(1959) y otros que contribuyeron a
crear una base uniforme y coherente de los procesos psicológicos, lo cual dió a la teoría
de la personalidad una nueva imágen: cientifíca y con mayor sustento experimental.

La construcción de tests verdaderamente estructurados se produjo como resultado de


esta etapa, por lo menos en lo que respecta a las fases iniciales de desarrollo de los tests.
Un resultado marginal de la convergencia de esta concepción más elaborada de los tests
y el desarrollo cuantitativo, hasta cierto punto desarticulado, de los procedimientos
psicométricos, fue que las nuevas teorías de la personalidad crecieron en un terreno ya
ampliamente abonado por las primeras pruebas y métodos de escalamiento.

La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las


aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicológicos con las
mediciones y estrategias estructurales" (Cattell, 1986b, p 6). Ese tipo de leyes, según
Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios
empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en
forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la
modulación de los estados psicológicos producidos por las relaciones psicofisiológicas.

De esta forma, el uso funcional de los tests es sólo posible en el psicólogo formado con
base en las modernas teorías de la personalidad y del aprendizaje y sustentadas en las
técnicas de medición y experimentación (Cattell, 1986a). En otras palabras, la
observación de correlaciones sistemáticas, consistentes y significativas entre las medidas
obtenidas en diferentes tests se refiere (fuera de la explicación trivial de covariación), no
sólamente a una variación concomitante entre medidas, sino a uno o varios posibles
factores como el traslapamiento de componentes psicológicos en el individuo o grupo que
está siendo observado, la convergencia de condiciones ambientales que determinan
patrones específicos de comportamiento, o la acción de factores genéticos estructurales
que determinan pautas específicas de comportamiento (Tryon, 1935; y Anastasi, 1970).
Así, el sustrato de la etapa funcional en el desarrollo de los tests hace referencia a rasgos
que por lo regular connotan niveles de organización en el comportamiento que se
manifiestan a través de diferentes medidas captadas en los tests psicológicos.

En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas


orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde a fin de
cuentas, los constructos psicológicos teóricos se definían operacionalmente como
"aquéllo que mide la prueba x"); hacia etapas conceptualmente más elaboradas en que
los tests se derivan de teorías del comportamiento más articuladas y donde cada reactivo
tiene un significado conceptual definido en un contexto teórico particular.
Limitaciones de la Teoría Clásica de los Tests.

De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de


desempeño máximo involucra la selección de reactivos de acuerdo a su contenido, nivel
de dificultad y poder de discriminación. Los reactivos más deseables son los que poseen
un nivel mayor de discriminación. El nivel de dificultad por su parte, se ajusta de acuerdo
a: 1. El propósito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se
aplicará la prueba.

Los índices estadísticos empleados por la TCT no se mantienen constantes cuando se


aplican a poblaciones que difieren en habilidad respecto de la población empleada para
obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de
reactivos depende de qué tan parecida es la población con la cual se obtuvieron los
índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande,
los índices obtenidos de los ítems no serán apropiados para la población objetivo. En
otros términos, la teoría clásica de los tests no puede predecir cómo responderá un
individuo a los ítems a menos que esos ítems hayan sido previamente administrados a
personas similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests,
regularmente el grupo a partir del cual se obtienen los índices y el grupo al cual el test va
dirigido, difieren considerablemente.

Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de
grupos que difieren de la población a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems
que van a ser incluídos en el banco, deben ser determinadas. Los ítems con frecuencia
denominados "experimentales", se incluyen en un test que es administrado a un grupo de
personas de tal manera que se obtienen como resultado, los índices de esos reactivos.
Por supuesto, no todos los reactivos experimentales serán incluídos en un test particular.
Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes
reactivos experimentales y las diferentes formas se aplican a grupos distintos de
examinados. Dado que generalmente no es posible asegurar que las diferentes formas
del examen sean administradas a grupos equivalentes, los índices de los reactivos
experimentales que se aplicaron a grupos distintos no pueden ser equivalentes
(Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluídos en el
examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test
construído a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las
poblaciones que pudieran ser seleccionadas en un momento dado.

Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro
problema de la teoría clásica de los tests está en la precisión de la medición. Y es que en
la teoría clásica de los tests, la contribución de un ítem a la confiabilidad de la prueba no
depende de las características del reactivo sólamente, sino que también depende de la
relación que hay entre el reactivo en questión y los otros reactivos del test. Por lo tanto, no
es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo
consiguiente, tampoco su participación al error estándar de la medida (Hambleton,
Swaminathan, & Rogers, 1991).

Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la
etapa funcional de los tests, a un punto en que la conceptualización de los resultados de
los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados
procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba
en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco
conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos
como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con
la teoría de respuestas por ítem. No obstante, la contribución principal de este nuevo
esquema conceptual no está primordialmente, en el uso de constructos hipotéticos o
variables interventoras como explicación del comportamiento; sino más bien, en hacer
referencia a las relaciones consistentes y sistemáticas observadas por la investigación
experimental como un sustento sobre el cuál fincar la elaboración de los reactivos y su
escalamiento para determinar a qué magnitud del rasgo definido corresponden.

La Teoría de Respuestas por Item.

La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del
esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los
procedimientos delineados por la Teoría de Respuestas por Item (TRI) [Del inglés: Item
Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los
problemas que presentaba la Teoría Clásica de los Tests (Hambleton & Swaminathan,
1985) y que no habían sido resueltos de una manera satisfactoria. Algúnos de esos
problemas son:

(1) El uso de índices de los reactivos cuyos valores dependen de la población particular
de la cuál fueron obtenidos, y

(2) La estimación de la habilidad del examinado depende del conjunto específico de


reactivos incluídos en la prueba.

Es decir, las características del examinado y las características de la prueba no pueden


separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de
los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro.

Las características del examinado en las cuales la teoría TRI está interesada, son la
"habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del
llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza
observada en la prueba en questión" (Hambleton, Swaminathan, & Rogers, 1991)

La habilidad del examinado se define sólo en términos de una prueba específica. Si el test
es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el
examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la
prueba se define como "la proporción de examinados en el grupo de interés, que contestó
el reactivo correctamente" (Hambleton, et. al. 1991) Por lo tanto, el que un ítem sea difícil
o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su
vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.

De la misma forma, el nivel de discriminación de los reactivos y los coeficientes de validéz


y confiabilidad de la prueba se definen también en base a las características del grupo
particular de examinados. Así, las características del test y de los reactivos cambian a
medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar
examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas
características se obtuvieron utilizando diferentes grupos de examinados.

Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo
tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de
eliminar mediante la TRI. Aunque se reconoce que tal dependencia no es imposible de
romper mediante la TCT mediante el uso de técnicas sofisticadas de análisis estadístico
(Cattell, 1986b), el problema conceptual aún se mantiene.

Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo.


No se toma en consideración cómo responde el exáminado a un reactivo dado, y por lo
tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un
examinado particular ante un reactivo individual. Es decir, la teoría clásica de los tests no
permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular
ante un reactivo dado. Esta posibilidad de predicción es importante en una gran variedad
de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un
profesional ante diferentes tipos de situaciones prácticas.

De acuerdo a Hambleton, et. al., (1991), las principales características de la TRI como
una alternativa a la teoría clásica de los tests son:
1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidas;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se expresa al nivel del reactivo más que al nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad.

Algúnas otras ventajas de la TRI explican su popularidad, siendo la más importante para
fines prácticos, que los examinados no necesitan contestar el mismo conjunto de ítems a
fín de ser comparados con una misma escala (Ozen & Reise, 1994)

Los dos principios basicos que de acuerdo con Hambleton, et. al., (1991), sustentan a la
TRI, son:
"(1) La ejecución de un examinado en una prueba pueden ser predichos por un conjunto
de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el
reactivo, pueden describirse por una función monotónicamente incrementada llamada
función característica del reactivo o curva característica del ítem (CCI). Esta función
especifica que a medida que el nivel del razgo incrementa, también incrementa la
probabilidad de una respuesta correcta ante ese reactivo." (p.7)

De acuerdo a los modelos matemáticos utilizados por la TRI, la probabilidad de que un


examinado responda correctamente ante un ítem dado, depende de la habilidad del
examinado y de las características del reactivo. Los modelos TRI incluyen supuestos
acerca de los datos a los que se puede aplicar el modelo, aún cuando la viabilidad de los
supuestos no puede determinarse directamente. Evidencias adicionales deben ser
reunidas y evaluadas. El ajuste global del modelo a los datos de la prueba pueden por
supuesto, ser también evaluados.

Son supuestos de la TRI:

1. Sólo puede medirse una habilidad por el reactivo que forma parte del examen; este es
el supuesto de la unidimensionalidad; y,

2. La función característica del reactivo refleja la relación real que hay entre las variables
no observables (habilidades) y las variables observables (las respuestas a los reactivos;
Hambleton, et. al., 1991)

Si se construye una prueba a partir de la TRI, la dificultad de los reactivos y la habilidad


del examinado se miden en la misma escala, haciendo posible seleccionar reactivos que
son más útiles en ciertos puntos de la escala de habilidades. Por ejemplo, si se desea
determinar el punto de inflexión que separa a profesionales certificados de los
profesionales no certificados, la TRI permite seleccionar reactivos para producir una
prueba que tenga el nivel deseado de precisión para medir cualquier nivel de habilidad
(Hambleton, et. al., 1991)

Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste de los siguientes
cuatro pasos:

"1. Decidir acerca de la forma deseada de la función de información de la prueba o curva


de información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el
área de la curva de información de la prueba, de tal manera que saturen el área bajo la
curva de la función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la
prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la selección de los reactivos hasta que la función de información de la prueba
se aproxime a la función de información deseada con un grado satisfactorio." (p. 23)

Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos


puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los
reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en
los procedimientos de selección de los contenidos pueden generar una prueba con un
bajo nivel de validez de contenido (Hambleton, et. al., 1991).

Otro problema de la TRI es que cuando se utilizan funciones de información de los


reactivos durante el desarrollo de una prueba, es probable que los valores sean
sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba
construída con ítems de valores elevados puede ser que no corresponda a los de la
prueba esperada. Como consecuencia, la función de información de la prueba será
sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para
compensar esta sobrevaloración. Otra solución podría ser emplear muestras más
grandes, de forma que se realice una estimación más adecuada de los parámetros de los
reactivos (Hambleton, et. al., 1991)

En resúmen, la TRI es una teoría dirigida a establecer situaciones que permiten predecir
el comportamiento del examinado ante ítems particulares de un test, o ante test
completos, con base en un rasgo o patrón de comportamiento. Los dos postulados
básicos son: que la ejecución del examinado ante el test es parte de una sóla habilidad o
rasgo y que la relación entre estos dos se manifiesta conforme a una función
monotónicamente incrementada llamada función característica del ítem (o función de la
respuesta). La TRI es consistente con la teoría de las habilidades latentes que postula
que los individuos varían en el rasgo o habilidad que mide el test y que éstos se
distribuyen en un contínuo que va de bajo a alto. La probabilidad de responder un ítem
correctamente varía con la habilidad y es baja si el nivel de habilidad es baja y alta para
niveles altos de habilidad. Esto se visualiza mediante la curva característica de ítem, la
cual es diferente para cada reactivo y para el test en su conjunto. Los modelos de
respuesta por ítem tienen múltiples aplicaciones en pruebas de amplia aplicación en los
Estados Unidos de Norteamérica como son el Scolastic Assessment Test (SAT) y el
General Educational Development (GED). Muchas empresas e instituciones utilizan los
modelos de respuesta por ítem en el desarrollo de sus tests, tales como Educational
Testing Service (ETS), The Psychological Corporation, CTB/McGraw-Hill y otros
importantes desarrolladores de pruebas.

El Desarrollo de la Tecnología de Computadoras.

Varios eventos relacionados con la tecnología computacional han sido significativos para
permitir el desarrollo masivo de los sistemas adaptativos de evaluación que pertecencen a
la categoría de exámenes hechos a la medida en virtud de que se adaptan a la capacidad
de cada examinado. El primero de ellos es indudablemente el desarrollo que a partir de
1970 han tenido las computadoras personales, permitiendo cada vez más una alta
velocidad de proceso y una capacidad de almacenamiento muy por encima de lo que
hubiera podido pensar en ese año.

Otro evento significativo es la fabricación de software cada vez más potente cuyo inicio se
marcó indudablemente, por una parte, con el desarrollo del sistema operativo MS-DOS
(2), y por otra, por el sistema D-Base II (3), ambos para computadoras personales. Antes
de estos dos desarrollos, tanto los sistemas operativos como las bases de datos operaban
sólo en computadoras de las llamadas mainframes y requerían de una capacidad de
memoria y dispositivos de almacenamiento muy superiores a lo que las computadoras de
aquellos tiempos podían razonablemente manejar. La principal ventaja que se obtuvo con
el desarrollo de los modernos sistemas operativos fue la interactividad entre el usuario y la
computadora, mientras que con las bases de datos, fue la posibilidad de almacenar y
recuperar grandes cantidades de información por medio de procedimientos bastante
simples. Ambos elementos con la capacidad para almacenarse en pequeñas
computadoras que se encuentran al alcance de cualquier usuario individual.

Recientemente, las bases de datos creadas con una filosofía orientada a objetos facilita el
desarrollo de sistemas inteligentes de evaluación que no sólo permiten almacenar y
recuperar información de una manera flexible, sino que además, pueden programarse
fácilmente de manera que pueden tomar decisiones en base a las respuestas de los
usuarios y tomar la forma de sistemas inteligentes o sistemas expertos.

Esto se debe a que la filosofía orientada a objetos permite replicar en el ambiente


simbólico del lenguaje de la computadora, las relaciones que se observan en los objetos
en el ambiente natural de trabajo de una manera más fiel de lo que sucedía con los
sistemas anteriores de programación. De hecho, crear un sistema de cómputo implica
crear en la computadora, una imagen de una parte del ambiente real al que ese sistema
pretende aplicarse. Lo que sucede con los lenguajes orientados a objetos es que es
posible crear en la computadora, entidades simbólicas a las que se les asignan
propiedades semejantes a las observadas en la realidad. Y también es posible hacer que
esas entidades u objetos se comuniquen entre sí conforme a las propiedades o reglas de
interacción que han sido definidas. Así, algúnas funciones humanas como el
razonamiento deductivo observado en el silogismo y algunas otras operaciones lógicas,
pueden reproducirse en el ambiente simbólico de la computadora.

En el caso de los sistemas adaptativos de evaluación, se han identificado las funciones


que una base de datos debe poseer para permitir una óptima utilización del sistema. En
este caso, la base de datos se conforma en una buena parte por una base de reactivos,
cada uno de los cuales es una entidad o registro que posee ciertos atributos. Los
parámetros estadísticos básicos del reactivo son los atributos del registro y cada vez que
el reactivo es extraído de la base de reactivos y contestado por un examinado, se
actualizan estos parámetros.

Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta y
principios de los setenta en la Gran Bretaña, pero por lo general, terminaron en fracasos
debido a las enormes cantidades de papel y recursos administrativos y de organización
que se requerían (Hambleton, 1986). La segunda generación surgió a mediados de los
ochenta cuando las computadoras fueron capaces de almacenar, recuperar y evaluar los
reactivos de una prueba.

Con un banco de reactivos adecuadamente desarrollado y los reactivos


convenientemente valorados, la construcción de las pruebas se convierte en el siguiente
paso inevitable. De acuerdo con Hambleton (1986), las características deseables de un
banco de reactivos computarizados son las siguientes:

1. Debe proporcionar mecanismos que permitan el fácil acceso a los reactivos así como a
la información estadística sobre su uso, representatividad y dificultad asociada con ellos.

2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, así como un
esquema adecuado para clasificar esos objetivos.

3. Debe contener algorítmos rápidos de búsqueda y recuperación de los reactivos que se


usarán para aplicar las pruebas.

4. Debe poseer algorítmos automatizados para configurar los exámenes.

5. Debe disponer de mecanismos interactivos de presentación de los reactivos.

6. Debe contar con rutinas adecuadas para realizar el análisis de los reactivos y el
almacenamiento de los datos asociados con los ítems del examen.

Los bancos de reactivos se hacen más refinados a medida que los exámenes van siendo
aplicados y conforme las estadísticas de los reactivos se van acumulando al evaluarse los
reactivos. Esta propiedad de retroalimentación es una característica muy poderosa de los
bancos de reactivos (Linden, 1986), puesto que cada vez que ese reactivo es
administrado, se actualizan los atributos correspondientes de ese registro en la base. Así,
los ítems que no identifican la habilidad que con ellos se pretende medir, se modifican o
se desechan definitivamente.

Los Sistemas Adaptativos de Evaluación

Las pruebas adaptativas se aplicaron por primera vez a la medición de diferencias


individuales por Binet y Simon (DuBois, 1970) en lo que más tarde vendría a ser conocido
como las pruebas de inteligencia de Binet. En general, durante el proceso de
administración de la prueba, los tests adaptativos involucran la selección de un conjunto
de items para cada examinado, que miden de una mejor manera algúna característica
psicológica de la persona.

Binet operacionalizó el proceso adaptativo con un examinador experto. En el test de Binet,


el examinador hacía primero una estimación del nivel de habilidad de un individuo para
determinar un nivel de edad con el cual comenzar el test. Cada pregunta se calificaba a
medida que era contestada y el examinador decidía si el siguiente bloque de preguntas
deberían ser más fáciles o más difíciles. Este proceso se repetía hasta que se obtenía un
efecto de tope y el nivel basal se había establecido. Esos dos niveles, la edad mental en
la cual el examinado contesta todos los reactivos incorrectamente y todos los ítems
correctamente, definen el rango de medición adecuada para ese individuo. Los reactivos
por debajo del nivel basal son demasiado fáciles para el examinado y, por lo tanto, no se
administran. Los ítems por arriba del efecto de tope son demasiado difíciles para el
examinado y por lo tanto, tampoco se administran. Ninguno de esos dos conjuntos de
reactivos proporcionan información valiosa respecto de ese individuo y en realidad, son
los ítems que se encuentran entre el nivel basal y el nivel de tope, los que proporcionan
información útil acerca del individuo en cuestión.

Los exámenes adaptativos computarizados son una forma especial de los "tests a la
medida" que involucran la selección de reactivos mientras el test está siendo
administrado, y los reactivos administrados a cada individuo se escogen de acuerdo al
nivel de dificultad que requiere el examinado (Weiss, 1983).

La aplicación de un exámen adaptativo se inicia con la aplicación de un reactivo


determinado por el examinador y los siguientes reactivos se determinan a partir de las
respuestas del examinado a los reactivos anteriores. Los tests adaptativos no son como
los tradicionales que aplicaban un conjunto fijo de reactivos a un grupo de examinados,
sino más bien, son exámenes individualizados para cada examinado. Los reactivos que
se aplican a cada examinado se seleccionan del banco de reactivos dependiendo de la
precisión con que respondió a las preguntas anteriores (ERIC, 1983). Cada reactivo de la
base de ítems está asociado con un nivel de dificultad, y por lo tanto, mientras el
examinado responde correctamente, los siguientes reactivos que se presentan son de una
dificultad mayor. Por el contrario, si responde en forma incorrecta, los siguientes reactivos
son de menor dificultad.

Entre las ventajas que presenta el uso de exámenes adaptativos está el que los
resultados pueden proporcionarse inmediatamente después del exámen y que no hay
problemas de seguridad de los exámenes dado que cada exámen es diferente. También
está el hecho de que la estandarización de las condiciones de aplicación del exámen
mejoran debido, principalmente, a la aplicación computarizada. Entre las ventajas
económicas está el que no se necesita de personal especializado para la aplicación de las
pruebas (Martois, 1983)
Entre las limitaciones para el uso de los exámenes adaptativos está el que se requiere de
una gran capacidad de almacenamiento en grandes bancos de reactivos a fín de asegurar
buenos resultados. Los resultados de los exámenes adaptativos dependen, además, de la
precisión con que han sido evaluados los reactivos que los conforman (ERIC, 1983). Es
también importante contar con una base de reactivos suficientemente grande y
correctamente cotejados con la distribución de las habilidades que están siendo
evaluadas (Green, Bock, Linn, Lord y Reckase, 1985). Por lo tanto, se requiere de una
base de reactivos considerablemente grande y adecuadamente dimensionada respecto
de un nivel amplio del rasgo que está siendo medido.

Una limitación importante del uso de los tests adaptativos computarizados (TAC), se
relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas que se
sustentan en la TRI requieren que se mida un sólo rasgo y que la cuantificación se dé en
torno a una sóla dimensión, de lo contrario, la aplicación podría ser cuestionable (Laurier,
1990).

Otra limitación radica en lo que en las pruebas de lápiz y papel se denomina "omisión" y
que se refiere al hecho de que la pregunta no es contestada. En el caso de los TAC, la
prueba no puede continuar mientras no se seleccione una opción. Por lo tanto, no hay
nada previsto para las no respuestas (Wainer, 1993). Tampoco hay posibilidades de
cambiar una respuesta una vez que ésta se ha contestado, pues de inmediato aparece
otro reactivo en la pantalla.

Conclusiones

La Teoría Clásica de los Tests (CTT) ha mostrado diferentes grados de sofisticación que
han ido desde una fáse práctica, caracterizada por la elaboración de ítems y tests sin otro
fín que obtener relaciones consistentes entre las partes y los tests en su conjunto; hasta la
fase, conocida como estructural, en la cual la elaboración de tests se da a partir de los
resultados de la investigación empirica y conceptual obtenida de los diferentes campos de
la psicología, propiciando el desarrollo de test con un sustento teórico y experimental más
sólido.

Han existido sin embargo, problemas conceptuales de la TCT que limitaban su aplicación
a condiciones específicas, tales como la dependencia que hay entre cada ítem particular y
la prueba de que forma parte, así como la que existe entre cada ítem y la población
empleada para normalizar la prueba. Estas limitaciones entre otras, dieron lugar a la
formulación de la Teoría de Respuestas por Items (TRI), cuyos procedimientos
psicométricos y conceptualizaciónes teóricas permitieron superar estos problemas.

Debido a que en un exámen adaptativo cada examinado responde a un conjunto de


reactivos particular que es diferente al que responden los otros examinados, un modelo
que permite determinar los parámetros estadísticos de cada ítem en forma independiente
del test del que forma parte resulta ser el medio más adecuado de análisis, y ésto es lo
que se obtiene mediante el uso de la TRI. Por esta razón, ambos modelos conceptuales
son complementarios.

Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus posibilidades de
implementación se han visto renovadas a raíz del desarrollo de la tecnología
computarizada que se populariza durante los 80's. Esta es otra razón importante por la
cuál es de esperarse que los tests adaptativos computarizados tengan ahora un desarrollo
sin precedentes y se conviertan en la forma rutinaria de evaluación a partir de los 90's.

Finalmente, el uso generalizado de los tests adaptativos en educación debe verse


acompañado del desarrollo de sistemas computarizados que no sólo permitan su
aplicación, sino también, contengan algoritmos de calificación y actualización de los
estadísticos básicos de los reactivos conforme a los últimos desarrollos en la teoría de los
tests y específicamente, de la teoría de respuestas por ítem.

Referencias.

Anastasi, A. (1970). On the formation of psychological traits. American Psychologist, 25,


899-910.

Cattell, R. B. (1986,a). Scales and the Meaning of Standardized Scores. In R. B. Cattell,


and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments.
New York: Brunner/Mazel, Publishers.

Cattell, R. B. (1986b). Structural Tests and Functional Diagnoses. In R. B. Cattell, and R.


C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New
York: Brunner/Mazel, Publishers.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.


Psychometryca, 16, 297-334.

ERIC Clearinghouse on Tests, Measurement, and Evaluation. (1983). Computerized


adaptive testing: ERIC Digest. Princeton, N.J.: ERIC Document Reproduction Service.

DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn and Bacon.

Eysenck, H. J. (1959). Intelligence assessment: A theoretical and experimental approach.


British Journal of Educational Psychology, 37, 81-98.

Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A plan for
scaling the computerized adaptive Armed Services Vocational Aptitude Battery (ASVAB).
San Diego, CA: Navy Personnel Research and Development Center, Manpower and
Personnel Laboratory.

Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956), 53, 267-293.

Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and
applications. Boston, MA: Kluwer-Nijhoff Publishing.

Hambleton, R. K. (1986). The changing conception of measurement: A commentary.


Applied Psychological Measurement, 10 (4), 415-421.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item


Response Theory. (Vol-2). Newbury Park, CA: Sage.

Hambleton, R. K. (1993). Principles and selected applications of Item Response Theory. In


Linn, R. L. (Ed.) Educational Measurement. Phoenix, AZ: Oryx.

Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action, November, 23-
31.

Kapan, R. M. & Saccuzzo, D. P. Psychological testing: Principles, applications and issues.


Pacific Grove, CA: Brooks-Cole.

Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of reliability.


Psychometryca, 2, 151-160.

Laurier, M. (1990, April). What we can do with computerized adapting testing... and what
we cannot do. Paper presented at the Annual Meeting of the Regional Language Center
Seminar, Singapore.

Linder, van der, W. J. (1986). The changing conception of measurement in education and
psychology. Applied Psychological Measurement, 10, 325-332.

Lord, F. M. (1977). Practical applications of item characteristic curve theory. Journal of


Educational Measurement, 14, 117-138.

Lord, F. M. (1980). Application of Item Response Theory to practical testing problems.


Hillsdale, N.J: Lawrence Erlbaum Associates.

Marx, M. H. (1953). The General Nature of Theory Construction. In M. H. Marx (Ed.)


Theories in Contemporary Psychology. New York: MacMillan, 1963.

Martois, J. S. (1983). What is computer adaptive testing? Unpublished manuscript.

Ozen, D. J., & Reise, S. P. (1994). Personality assessment. In L. W. Porter & M. R.


Rosenzweig, Annual Review of Psychology. Palo Alto: Annual Reviews.

Spearman, C. E. (1904). The proof and measurement of association between two things.
American Journal of Psychology, 15, 201,-293.

Spearman, C. E. (1927). The abilities of man. New York: Macmillan.

Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, 1.

Tryon, R. C. (1935). A theory of psychological components -an alternative to


"mathematical factors." Psychological Review, 42, 425-454.

Wainer, H. (1993). Some practical considerations when converting a linearly administered


test to an adaptive format. Educational Measurement: Issues and practice, 12 (1), 15-20.

Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New Horizons in
testing: Latent trait theory and computer adaptive testing (pp. 1-8). New York: Academic
Press.

Weiss, D. J. and Vale, C. D. (1987). Computerized Adaptive Testing for Measuring


Abilities and other Psychological Variables. In Butcher, J. N. (Ed). Computerized
Psychological Assessment. New York: Basic Books.)

Pies de Página.

(1) Este trabajo fue desarrollado gracias al financimiento otorgado por el Programa
Interinstitucional de Investigaciones sobre Educación Superior (PIIES) a la Universidad
Autónoma de Baja California.

(2) MS-DOS es una marca registrada y patentada por Microsoft Corporation, Inc.

(3) DBase-II es una marca registrada y patentada por Ashton Tate, Inc

También podría gustarte