Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
SUMMARY
During the last 30 years, test development methodology and techniques have gradually
suffered an increasing shift from a traditional position based on the classical test theory, to
the adaptive tests. This shift has been produced as a result of several factors, the most
important being, the new test theory, and specially, the item response theory. Another
important factor is the development of computational technology. Test theory has evolved
from a pragmatical strategy aimed to build items and tests with no other requirement than
to get certain consistency among them, to a new stage in which tests have more solid
theoretical foundations in such psychological topics like personality, learning and the
principles describing the interaction among structural and hereditary factors. Test
development according to classical test theory carries on certain limitations, like the
dependency each item has on the test to which it belongs and on the population used to
norm the test. These shortcomings prevent the posibility to predict subjects' performance
to an specific item. Item response theory is a new approach developed to solve these
shortcomings of the classical test theory and in doing so, has dealt to the development of
new measurement instruments. One of the results of item response theory is to provide for
each specific item, statistical parameters that are independent of any other factor.
Consecuently, it creates a theoretical framework for the development of computerized
adaptive tests. Accordingly, computerized adaptive tests, allow the examiner to present
different items for each examinee depending on the responses to previous items. This new
type of tests would not be possible, the computerized tecnology had no been evolved to
such a levels as to be able to interactively handle great amounts of data in such a high
processing speed.
Introducción
Los últimos treinta años han visto un desarrollo acelerado de los sistemas adaptativos de
evaluación aplicados a diversas áreas del conocimiento. Sin embargo, esta tecnología
para la evaluación, no habría sido posible sin la evolución de varias áreas del
conocimiento entre las que se encuentran la Teoría de Respuesta por ítem (Item
Response Theory) y la tecnología computacional que tanto en hardware como en
software, ha permitido disponer de herramientas muy rápidas y con una gran capacidad
de almacenamiento y recuperación de información. Este trabajo comenta los principales
desarrollos que tuvieron lugar en la Teoría Clásica de los Tests, señalando los problema
que motivaron la emergencia de una nueva teoría: la Teoría de Respuestas por Item.
Asimismo, relaciona las contribuciones de la Teoría de Respuestas por Item y la
tecnología computacional con el desarrollo de los sistemas adaptativos de evaluación.
De esta forma, el uso funcional de los tests es sólo posible en el psicólogo formado con
base en las modernas teorías de la personalidad y del aprendizaje y sustentadas en las
técnicas de medición y experimentación (Cattell, 1986a). En otras palabras, la
observación de correlaciones sistemáticas, consistentes y significativas entre las medidas
obtenidas en diferentes tests se refiere (fuera de la explicación trivial de covariación), no
sólamente a una variación concomitante entre medidas, sino a uno o varios posibles
factores como el traslapamiento de componentes psicológicos en el individuo o grupo que
está siendo observado, la convergencia de condiciones ambientales que determinan
patrones específicos de comportamiento, o la acción de factores genéticos estructurales
que determinan pautas específicas de comportamiento (Tryon, 1935; y Anastasi, 1970).
Así, el sustrato de la etapa funcional en el desarrollo de los tests hace referencia a rasgos
que por lo regular connotan niveles de organización en el comportamiento que se
manifiestan a través de diferentes medidas captadas en los tests psicológicos.
Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de
grupos que difieren de la población a la que van dirigidos, puede verse al estructurar
bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems
que van a ser incluídos en el banco, deben ser determinadas. Los ítems con frecuencia
denominados "experimentales", se incluyen en un test que es administrado a un grupo de
personas de tal manera que se obtienen como resultado, los índices de esos reactivos.
Por supuesto, no todos los reactivos experimentales serán incluídos en un test particular.
Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes
reactivos experimentales y las diferentes formas se aplican a grupos distintos de
examinados. Dado que generalmente no es posible asegurar que las diferentes formas
del examen sean administradas a grupos equivalentes, los índices de los reactivos
experimentales que se aplicaron a grupos distintos no pueden ser equivalentes
(Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluídos en el
examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test
construído a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las
poblaciones que pudieran ser seleccionadas en un momento dado.
Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro
problema de la teoría clásica de los tests está en la precisión de la medición. Y es que en
la teoría clásica de los tests, la contribución de un ítem a la confiabilidad de la prueba no
depende de las características del reactivo sólamente, sino que también depende de la
relación que hay entre el reactivo en questión y los otros reactivos del test. Por lo tanto, no
es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo
consiguiente, tampoco su participación al error estándar de la medida (Hambleton,
Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la
etapa funcional de los tests, a un punto en que la conceptualización de los resultados de
los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados
procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba
en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco
conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos
como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con
la teoría de respuestas por ítem. No obstante, la contribución principal de este nuevo
esquema conceptual no está primordialmente, en el uso de constructos hipotéticos o
variables interventoras como explicación del comportamiento; sino más bien, en hacer
referencia a las relaciones consistentes y sistemáticas observadas por la investigación
experimental como un sustento sobre el cuál fincar la elaboración de los reactivos y su
escalamiento para determinar a qué magnitud del rasgo definido corresponden.
La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del
esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los
procedimientos delineados por la Teoría de Respuestas por Item (TRI) [Del inglés: Item
Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los
problemas que presentaba la Teoría Clásica de los Tests (Hambleton & Swaminathan,
1985) y que no habían sido resueltos de una manera satisfactoria. Algúnos de esos
problemas son:
(1) El uso de índices de los reactivos cuyos valores dependen de la población particular
de la cuál fueron obtenidos, y
Las características del examinado en las cuales la teoría TRI está interesada, son la
"habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del
llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza
observada en la prueba en questión" (Hambleton, Swaminathan, & Rogers, 1991)
La habilidad del examinado se define sólo en términos de una prueba específica. Si el test
es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el
examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la
prueba se define como "la proporción de examinados en el grupo de interés, que contestó
el reactivo correctamente" (Hambleton, et. al. 1991) Por lo tanto, el que un ítem sea difícil
o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su
vez, la habilidad de los examinados depende del nivel de dificultad de la prueba.
Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo
tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de
eliminar mediante la TRI. Aunque se reconoce que tal dependencia no es imposible de
romper mediante la TCT mediante el uso de técnicas sofisticadas de análisis estadístico
(Cattell, 1986b), el problema conceptual aún se mantiene.
De acuerdo a Hambleton, et. al., (1991), las principales características de la TRI como
una alternativa a la teoría clásica de los tests son:
1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidas;
2. Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3. El modelo se expresa al nivel del reactivo más que al nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad.
Algúnas otras ventajas de la TRI explican su popularidad, siendo la más importante para
fines prácticos, que los examinados no necesitan contestar el mismo conjunto de ítems a
fín de ser comparados con una misma escala (Ozen & Reise, 1994)
Los dos principios basicos que de acuerdo con Hambleton, et. al., (1991), sustentan a la
TRI, son:
"(1) La ejecución de un examinado en una prueba pueden ser predichos por un conjunto
de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los
examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el
reactivo, pueden describirse por una función monotónicamente incrementada llamada
función característica del reactivo o curva característica del ítem (CCI). Esta función
especifica que a medida que el nivel del razgo incrementa, también incrementa la
probabilidad de una respuesta correcta ante ese reactivo." (p.7)
1. Sólo puede medirse una habilidad por el reactivo que forma parte del examen; este es
el supuesto de la unidimensionalidad; y,
2. La función característica del reactivo refleja la relación real que hay entre las variables
no observables (habilidades) y las variables observables (las respuestas a los reactivos;
Hambleton, et. al., 1991)
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste de los siguientes
cuatro pasos:
En resúmen, la TRI es una teoría dirigida a establecer situaciones que permiten predecir
el comportamiento del examinado ante ítems particulares de un test, o ante test
completos, con base en un rasgo o patrón de comportamiento. Los dos postulados
básicos son: que la ejecución del examinado ante el test es parte de una sóla habilidad o
rasgo y que la relación entre estos dos se manifiesta conforme a una función
monotónicamente incrementada llamada función característica del ítem (o función de la
respuesta). La TRI es consistente con la teoría de las habilidades latentes que postula
que los individuos varían en el rasgo o habilidad que mide el test y que éstos se
distribuyen en un contínuo que va de bajo a alto. La probabilidad de responder un ítem
correctamente varía con la habilidad y es baja si el nivel de habilidad es baja y alta para
niveles altos de habilidad. Esto se visualiza mediante la curva característica de ítem, la
cual es diferente para cada reactivo y para el test en su conjunto. Los modelos de
respuesta por ítem tienen múltiples aplicaciones en pruebas de amplia aplicación en los
Estados Unidos de Norteamérica como son el Scolastic Assessment Test (SAT) y el
General Educational Development (GED). Muchas empresas e instituciones utilizan los
modelos de respuesta por ítem en el desarrollo de sus tests, tales como Educational
Testing Service (ETS), The Psychological Corporation, CTB/McGraw-Hill y otros
importantes desarrolladores de pruebas.
Varios eventos relacionados con la tecnología computacional han sido significativos para
permitir el desarrollo masivo de los sistemas adaptativos de evaluación que pertecencen a
la categoría de exámenes hechos a la medida en virtud de que se adaptan a la capacidad
de cada examinado. El primero de ellos es indudablemente el desarrollo que a partir de
1970 han tenido las computadoras personales, permitiendo cada vez más una alta
velocidad de proceso y una capacidad de almacenamiento muy por encima de lo que
hubiera podido pensar en ese año.
Otro evento significativo es la fabricación de software cada vez más potente cuyo inicio se
marcó indudablemente, por una parte, con el desarrollo del sistema operativo MS-DOS
(2), y por otra, por el sistema D-Base II (3), ambos para computadoras personales. Antes
de estos dos desarrollos, tanto los sistemas operativos como las bases de datos operaban
sólo en computadoras de las llamadas mainframes y requerían de una capacidad de
memoria y dispositivos de almacenamiento muy superiores a lo que las computadoras de
aquellos tiempos podían razonablemente manejar. La principal ventaja que se obtuvo con
el desarrollo de los modernos sistemas operativos fue la interactividad entre el usuario y la
computadora, mientras que con las bases de datos, fue la posibilidad de almacenar y
recuperar grandes cantidades de información por medio de procedimientos bastante
simples. Ambos elementos con la capacidad para almacenarse en pequeñas
computadoras que se encuentran al alcance de cualquier usuario individual.
Recientemente, las bases de datos creadas con una filosofía orientada a objetos facilita el
desarrollo de sistemas inteligentes de evaluación que no sólo permiten almacenar y
recuperar información de una manera flexible, sino que además, pueden programarse
fácilmente de manera que pueden tomar decisiones en base a las respuestas de los
usuarios y tomar la forma de sistemas inteligentes o sistemas expertos.
Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta y
principios de los setenta en la Gran Bretaña, pero por lo general, terminaron en fracasos
debido a las enormes cantidades de papel y recursos administrativos y de organización
que se requerían (Hambleton, 1986). La segunda generación surgió a mediados de los
ochenta cuando las computadoras fueron capaces de almacenar, recuperar y evaluar los
reactivos de una prueba.
1. Debe proporcionar mecanismos que permitan el fácil acceso a los reactivos así como a
la información estadística sobre su uso, representatividad y dificultad asociada con ellos.
2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, así como un
esquema adecuado para clasificar esos objetivos.
6. Debe contar con rutinas adecuadas para realizar el análisis de los reactivos y el
almacenamiento de los datos asociados con los ítems del examen.
Los bancos de reactivos se hacen más refinados a medida que los exámenes van siendo
aplicados y conforme las estadísticas de los reactivos se van acumulando al evaluarse los
reactivos. Esta propiedad de retroalimentación es una característica muy poderosa de los
bancos de reactivos (Linden, 1986), puesto que cada vez que ese reactivo es
administrado, se actualizan los atributos correspondientes de ese registro en la base. Así,
los ítems que no identifican la habilidad que con ellos se pretende medir, se modifican o
se desechan definitivamente.
Los exámenes adaptativos computarizados son una forma especial de los "tests a la
medida" que involucran la selección de reactivos mientras el test está siendo
administrado, y los reactivos administrados a cada individuo se escogen de acuerdo al
nivel de dificultad que requiere el examinado (Weiss, 1983).
Entre las ventajas que presenta el uso de exámenes adaptativos está el que los
resultados pueden proporcionarse inmediatamente después del exámen y que no hay
problemas de seguridad de los exámenes dado que cada exámen es diferente. También
está el hecho de que la estandarización de las condiciones de aplicación del exámen
mejoran debido, principalmente, a la aplicación computarizada. Entre las ventajas
económicas está el que no se necesita de personal especializado para la aplicación de las
pruebas (Martois, 1983)
Entre las limitaciones para el uso de los exámenes adaptativos está el que se requiere de
una gran capacidad de almacenamiento en grandes bancos de reactivos a fín de asegurar
buenos resultados. Los resultados de los exámenes adaptativos dependen, además, de la
precisión con que han sido evaluados los reactivos que los conforman (ERIC, 1983). Es
también importante contar con una base de reactivos suficientemente grande y
correctamente cotejados con la distribución de las habilidades que están siendo
evaluadas (Green, Bock, Linn, Lord y Reckase, 1985). Por lo tanto, se requiere de una
base de reactivos considerablemente grande y adecuadamente dimensionada respecto
de un nivel amplio del rasgo que está siendo medido.
Una limitación importante del uso de los tests adaptativos computarizados (TAC), se
relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas que se
sustentan en la TRI requieren que se mida un sólo rasgo y que la cuantificación se dé en
torno a una sóla dimensión, de lo contrario, la aplicación podría ser cuestionable (Laurier,
1990).
Otra limitación radica en lo que en las pruebas de lápiz y papel se denomina "omisión" y
que se refiere al hecho de que la pregunta no es contestada. En el caso de los TAC, la
prueba no puede continuar mientras no se seleccione una opción. Por lo tanto, no hay
nada previsto para las no respuestas (Wainer, 1993). Tampoco hay posibilidades de
cambiar una respuesta una vez que ésta se ha contestado, pues de inmediato aparece
otro reactivo en la pantalla.
Conclusiones
La Teoría Clásica de los Tests (CTT) ha mostrado diferentes grados de sofisticación que
han ido desde una fáse práctica, caracterizada por la elaboración de ítems y tests sin otro
fín que obtener relaciones consistentes entre las partes y los tests en su conjunto; hasta la
fase, conocida como estructural, en la cual la elaboración de tests se da a partir de los
resultados de la investigación empirica y conceptual obtenida de los diferentes campos de
la psicología, propiciando el desarrollo de test con un sustento teórico y experimental más
sólido.
Han existido sin embargo, problemas conceptuales de la TCT que limitaban su aplicación
a condiciones específicas, tales como la dependencia que hay entre cada ítem particular y
la prueba de que forma parte, así como la que existe entre cada ítem y la población
empleada para normalizar la prueba. Estas limitaciones entre otras, dieron lugar a la
formulación de la Teoría de Respuestas por Items (TRI), cuyos procedimientos
psicométricos y conceptualizaciónes teóricas permitieron superar estos problemas.
Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus posibilidades de
implementación se han visto renovadas a raíz del desarrollo de la tecnología
computarizada que se populariza durante los 80's. Esta es otra razón importante por la
cuál es de esperarse que los tests adaptativos computarizados tengan ahora un desarrollo
sin precedentes y se conviertan en la forma rutinaria de evaluación a partir de los 90's.
Referencias.
Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A plan for
scaling the computerized adaptive Armed Services Vocational Aptitude Battery (ASVAB).
San Diego, CA: Navy Personnel Research and Development Center, Manpower and
Personnel Laboratory.
Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956), 53, 267-293.
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and
applications. Boston, MA: Kluwer-Nijhoff Publishing.
Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action, November, 23-
31.
Laurier, M. (1990, April). What we can do with computerized adapting testing... and what
we cannot do. Paper presented at the Annual Meeting of the Regional Language Center
Seminar, Singapore.
Linder, van der, W. J. (1986). The changing conception of measurement in education and
psychology. Applied Psychological Measurement, 10, 325-332.
Spearman, C. E. (1904). The proof and measurement of association between two things.
American Journal of Psychology, 15, 201,-293.
Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New Horizons in
testing: Latent trait theory and computer adaptive testing (pp. 1-8). New York: Academic
Press.
Pies de Página.
(1) Este trabajo fue desarrollado gracias al financimiento otorgado por el Programa
Interinstitucional de Investigaciones sobre Educación Superior (PIIES) a la Universidad
Autónoma de Baja California.
(2) MS-DOS es una marca registrada y patentada por Microsoft Corporation, Inc.
(3) DBase-II es una marca registrada y patentada por Ashton Tate, Inc