Está en la página 1de 18

Psicológica (1994) 15, 175-208.

Teoría Clásica de los Tests versus Teoría de Respuesta al Item

¡

María José Navas.

U.N.E.D. Madrid.

La década de los 80 ha sido testigo de la transición de la teoría clásica de los tests a la teoría de respuesta al item (Baker, 1989). El presente trabajo tiene. por objetO reflexionar acerca del papel que han jugado y juegan ambos modelos en el campo de la medida psicológica y educativa. Para ello se realizará, en primer lugar, un breve recorrido hislórico por dichas teorías y se examinará el modo en que abordan el problema básico de la medida. A continuación, se analizarán las semejanzas y. diferencias ·que existel1 en aspectos como los supuestos en los que se basan, el modo de evaluar la precisión de la medida, la dependencia/independencia contextual de los

parámetros, etc

teorías a importantes problemas psicométricos, como el estudio del sesgo, la equiparación de puntuaciones y la construcción de tcsts, examinando para ello los tests referidos al criterio, los tests a medida y los bancos de ¡tems.

Por último se. estudiarán las respuestas que dan estas

PALABRAS CLAVE: Teoría clásica de los tests, teoría de respuesta al item, sesgo, equiparación , teSL<; referido~ al criterio, tests a medida, bancos de items.

El campo de la medida ha avanzado de fOffi1a muy significativa durante . los últimos 25-30 años, hasta el punto de que la medición psicológica y educativa es ahora más útil que nunca para individuos particulares, instituciones y sociedad en general (Snow y Lohman, 1989). Son muy numerosos los cambios que han acontecido en las últimas décadas y estos cambios han resultado ser críticos o 'dramáticos' (Yoes, 1990), ya que ban supuesto un giro muy importante tanto en los modelos de medida como en el campo práctico de la evaluación . Un cambio sin duda fundamental ha sido la transición , durante la década de los ochenta, desde la Teoría Clásica de los Tests (TCf) a la Teoría de Respuesta al Item (TRI). Esta teoría representa, de hecho, el mayor avance en la medición psicológica y educativa en los últimos años y tiene actualmente un status hegemónico dentro de la Psicometría (Muñiz y Hambleton, 1992).

176

MI Nayas

El objetivo del presente trabajo es examinar las semejanzas Y diferencias entre el modelo clásico y los modelos de respuesta al item (Goldstein Y Wood, 1989). Para ello, en primer ténnino, se realizará un breve recorrido histórico por ambos modelos teóricos: cúando surgen Y en qué contexto particular, qué difusión han tenido y porqué. Además, se analizará cómo abordan el problema central de cualquier teoría de tests: la relación entre la actuación -observable- del sujeto en el test con la habilidad o rasgo -inobservable- que éste pretende medir. En segundo lugar, se analizarán las diferencias que existen entre la TCf y la TRI en relación a aspectos como los supuestos en los que se basa una Y otra, el modo en el que se evalúa la precisión de la medida, la dependencia/independencia contextual de los

parámetros de los modelos, etc

las respuestas que dan estas teorías a importantes problemas psicométricos, como el estudio del sesgo de los items, la equiparación de puntuaciones Y la construcción de tests, examinando para ello los Tests Rereridos al Criterio (TRC), los tests a medida y los bancos de items. Para finalizar se harán algunas reflexiones acerca del peso específico de estos modelos, acerca de lo que han supuesto Y suponen realmente la TCT y la TRI en el campo de la

El tercer apartado está dedicado a estudiar

medida psicológica y educativa.

INTRODUCCION

La TCf ha sido el modelo dominante en la teoría de tests durante gran parte de siglo y, aun hoy en día, tiene una vigencia más que notable en el campo de la práctica de la evaluación psicológica Y educativa. Esta teoría arranca de los trabajos pioneros de Spearman (1904, 1907, 1913) Y se desarrolla en conjunción con las teorías sobre la inteligencia. No en vano, Spearman no es sólo el padre de la TCf sino que es también el primero en formular una teoría psicológica de la inteligencia (Spearrnan, 1923, 1927). A su vez, los orígenes de la TRI se pueden remontar a los trabajos de Thurstone en la década de los 20. Sin embargo, a pesar de la aparición de trabajos esporádicos en los años 30 y 40 (Lawley, 1943, 1944; Richardson, 1936; Tucker, 1946), es en la década de los 50 y 60 cuando realmente emerge la TRI, siendo un hito fundamental en la historia de estos modelos la publicación en 1968 del libro de Lord y Novick Statictical Theories of Mental Tests Scores, que señala el comienzo de la influencia de la TRI. A partir de ese momento, se multiplican los trabajos con estos modelos, se amplía cada vez más su campo de aplicación, aparecen monografías sobre el tema en las revistas más importantes del área, a la vez que crece considerablemente el número de libros y manuales publicados Y se 'generaliza su uso en grandes empresas y compañías de tests, así como en los departamentos de educación de distintos países y estados americanos (Goldstein, 1987; Guion e Ironson, 1983; Hambleton, Swaminathan, Arrasmith, Gower, Rogers y Zhou, 1986; Messick, Beaton y Lord, 1983; Mislevy y Bock, 1989; pandey y Carlson,

Teoría de lesls

177

1983; Raju, Steinhaus, Edwards y Delessio, 1991; van Thiel y Zwarts, 1986; Yen, 1983). No obstante, a pesar de que los orígenes de la TRI son sólo un poco

posteriores a los de la TCf, hay que esperar a la década de los 80 para asistir

a la transición de la TCf a la TRI (Baker, 1989) y es que, por un lado, la TRI

se desarrolla en un contexto bastante diferente al de la TCf, su desarrollo no se vincula a teorías de la inteligencia sino a problemas técnicos en la construcción de tests y en la estadística matemática (Embretson, 1985) y, por otro, aunque las ideas no son nuevas, el soporte matemático, informático y tecnológico necesario para ser aplicada sí lo es (Jaeger, 1987). Es decir, sólo recientemente se ha dispuesto de la tecnología necesaria de ordenador para

implementar los algoritmos que

pemiten estimar los parámetros de estos

. Como señalan certeramente Gulliksen (1961) Y Lewis (1986), el

problema central de la teoría de tests es la relación entre la habilidad del sujeto

y su puntuación observada en el tests: el objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos poseen la característica

o rasgo inobservable que mide el test, a partir de las respuestas que éstos han

dado a los elementos que forman el mismo. Es decir, para medir o, mejor dicho, estimar las características latentes de los sujetos es necesario relacionar éstas con la actuación observable en una prueba y esta relación debe de ser

adecuadamente descrita por una función matemática. En efecto, tanto la TCf como la TRI tratan de estimar o inferir una variable qqe no se puede observar directamente, una variable latente: la puntuación verdadera V -en la TCT- y el nivel 8 en el rasgo latente -en la TRI-. No obstante, conviene notar que V y 8 son el mismo rasgo o habilidad latente, si bien expresados en escalas diferentes, en distintas métricas. Realmente, la diferencia entre el modelo clásico y los modelos de respuesta al item estriba en la ecuación que relaciona la variable inobservable con la actuación observable en el test. En el caso de la TCT, esta relación viene expresada por una función lineal entre la puntuación verdadera de un sujeto . . en el test y la puntuación que, de hecho, ha obtenido (X=V+E). En el caso de la TRI, esta relación viene expresada por una función no lineal entre el nivel del sujeto en el rasgo latente y las respuestas dadas a los items del test

 

n

(V(8) =

I

P .(8))

i =1

l

·

. Esta ecuación, conocida como función característica

del test, es además la ecuación que permite pasar de la métrica del parámetro de habilidad en la TCf a la métrica del paránletro de habilidad en la TRI.

En un intento de buscar la unidad subyacente a la diversidad de modelos del análisis multivariable, McDonald (1986, 1989) caracteriza a la TRI dentro de los modelos del factor común y considera que la TCT es solamente un caso especial de la teoría del factor común. Asimismo, Weiss· (1983) sostiene que 'la TCf es un modelo de rasgo latente, aunque un modelo muy sencillo' (p. 3). En definitiva, lo que se quiere poner de

178

MJ. Navas

manifiesto es que la TCf y la TRI pueden ser consideradas como teorías que se solapan parcialmente, sólo que la TRI hace supuestos más fuertes y obtiene, por tanto, resultados más fuertes que la TCT. Esta afirmación general, sin embargo, debe ser convenientemente matizada o puede inducir a error. En efecto, el hecho de imponer más y más fuertes restricciones a los datos redunda en la obtención de resultados también más fuertes, pero a costa de incrementar (1) el tamaño muestral y (2) la complejidad matemática de las técnicas usadas para la estimación de parámetros. Como señala de forma muy gráfica Muñiz (1992), 'la parsimonia y la sencillez del modelo lineal clásico lo hace apropiado en numerosas ocasiones en las que la maquinaria pesada de la TRI no puede maniobrar con eficacia' (p. 22). Y es que al basarse la TCT en supuestos débiles, éstos son satisfechos por la mayor parte de las matrices de datos obtenidas en la aplicación de tests. Esta es la razón que explica que el modelo clásico haya sido aplicado a una gran variedad de problemas de construcción de tests y de análisis de sus puntuaciones.

DIFERENCIAS EN LOS MODELOS

Uno de los aspectos que ha recibido numerosas críticas en el modelo clásico se relaciona, precisamente, con los supuestos de los que parte, ya que no son falsables sino que tienen un carácter claramente tautológico (Hambleton y van der Linden, 1982; Warrn, 1978). Esta deficiencia es superada por los modelos de la TRI puesto que sus supuestos sí son susceptibles de comprobación empírica. Uno de los supuestos más criticados es el de la independencia de las puntuaciones verdaderas y el error, supuesto que, ya intuitivamente, resulta bastante cuestionable. Lo que este supuesto viene a decir es que la precisión de la medida es independiente de la habilidad del sujeto o del nivel que éste muestra en el rasgo o característica evaluados. Este punto conduce directamente al segundo aspecto que ha sido seriamente cuestionado en la TCf: la evaluación de la precisión de la medida. Los dos índices básicos de precisión de la medida en la TCT son el error típico de medida y la fiabilidad del test.

El problema que plantea el error típico de medida es doble. Por un lado, se define para un test global, no para cada item particular y, por otro, la TCT supone que es el mismo para todos los niveles del rasgo latente evaluado, supone que la varianza error es homocedástica en todos los niveles de e. Por lo que respecta a la fiabilidad, hay que señalar que, según Weiss y Davinson (1981), la mayor debilidad de la TCT reside en el hecho de que las estimaciones de la fiabilidad son específicamente una función del conjunto particular de items y de la muestra de sujetos sobre la que han sido recogidos los datos, razón por la cual su generalizabilidad resulta bastante limitada. Además, este carácter dependiente del grupo puede dar lugar a inconsistencias

importantes.

.

·1

Teoria de tests

179

En efecto, si se evalúa a un mismo sujeto con un mismo test en dos ocasiones distintas con muestras diferentes de sujetos -aunque el patrón de respuestas del individuo en cuestión se puede Suponer que es el mismo-, el error cometido al evaluar a dicho sujeto será distinto en las dos ocasiones y los valores estimados para su puntuación verdadera también diferirán, ya que el coeficiente de fiabilidad será distinto, al modificarse la variabilidad de las muestras. La siguiente cita de van der Linden (1986) ilustra ésta y otras inconsistencias posibles generadas en el marco de la TCf:

'En principio, para cualquier dominio de conocimiento o habilidad, se pueden diseñar multitud de items diferentes. De este modo, todos los tests se seleccionan de un dominio virtualmente infinito de items Dado que son posibles muchas selecciones de items y cada una de ellas tiene el mismo derecho a ser considerada como el 'el test estandard', surge un serio

problema: la teoría clásica de los tests proporciona distintas escalas de puntuaciones verdaderas en distintos tests. Incluso es posible que las distintas

tal

caso, la asignación de puntuaciones en un test estandard no puede seguir siendo condiderada como un intento serio de medida'. (pp. 327-8).

Otros problemas que se plantean al modelo clásico en relación al concepto de fiabilidad son, por un lado, el hecho de que su definición se apoya en gran medida en la disponibilidad de medidas paralelas y, tal Como se señalan Hambleton y van der Linden (1982), éstas son bastante difíciles de obtener en la práctica y, por otro lado, el coeficiente de fiabilidad sugiere un modo de seleccionar items para construir tests contradictorio, en algunos aspectos, con el sugerido por el coeficiente de validez (Rubin y Babbie,

1989).

.

I escalas ordenen de forma diferente a la misma población de sujetos. En

I

I

. Todas estas deficiencias conducen a autores como Samejima (1977) a

concluir que 'la fiabilidad es un concepto muerto en la teoría de tests' (p. 243)

ó a Lumsden (1976) a afim1ar que 'no tiene sentido.continuar prolongando la vida de la puntuación verdadera y del coeficiente de fiabilidad, definidos según el modelo clásico, como conceptos de la teoría de tests' (p. 261).

I La alternativa que ha planteado la TRI a la fiabilidad definida según el modelo clásico es la fiabilidad como información. En efecto, la función de información del item (y del ~est)son medidas locales de fiabilidad (Boekkooi­ Timminga y van der Linden, 1988) que especifican la precisión con la que el item (o el test) mide cada una de los posibles valores de la escala e de habilidad. Es decir, la función de la infom1ación, a diferencia del error típico de. medida, varía a lo largo de la escala e pero no depende de la muestra de sUjetos que ha respondido a los items del test en cuestion sino únicamente de los items que lo integran. Además, es posible evaluar la contribución

i indivi~ualde .cada item a la precisión total del test, lo que permitirá

! seleCCIonar los !tems de un modo no contradictorio con otros criterios también

e~ la construcción de tests (no se producirá un choque entre

imp?:rantes

fiablhdad y validez, Como en el modelo clásico).

.

180

MJ. Navas

Ahora bien, la característica que diferencia radicalmente la TCf de la

TRI es el carácter dependiente/independiente de los parámetros del modelo

(Bock y Wood, 1971; Gulliksen, 1986; Hambleton Wright, 1968). En la TCT, los parámetros de los

dependen, respectivamente, de las características de los items del test Yde la muestra de sujetos a la que éste ha sido aplicado. El valor de la variable medida depende del instrUmento utilizado para medirla y, a su vez, las carecterísticas de dicho instrUmento por las de la muestra de sujetos a la que éste fue aplicado. Como señalan Muñiz y Hambleton (1992), 'si se aspira a una medición rigurosa y científica, resulta difícil justificar que las mediciones

Y Swaminathan, 1985;

sujetos Y de los items

estén en.función del instrUmento utilizado' (p. 44). Por el contrario, en la TRI los parámetros del item son independientes de la habilidad de los sujetos utilizados en su estimación y el nivel de un sujeto en el rasgo latente no depende de los items concretos que se han utilizado para estimarlo. Es justamente la invarianza de los parámetros del modelo en la TRI lo que permite abrir nuevas perspectivas en la teoría de tests, ya que se va a poder dar respuesta a cuestiones que la TCT no podía responder adecuadamente

(Lord, 1980). Una cuestión interesante que también emerge de este carácter dependiente o independiente de los parámetros tiene que ver con el significado e interpretación de la escala de puntuacienes con la que se trabaja. En el caso de la TCT, la muestra en la que se estiman los parámetros de los items ' se asume representativa de la población de sujetos a la que posteriormente se va a aplicar el test y, por consiguiente, se utiliza como grupo de referencia o norma con la que se compararán las puntuaciones obtenidas en la prueba por otroS sujetos. Por tanto, el significado de la escala de puntuaciones así generada tiene un carácter absoluto en su origen y unidad de medida. Por el contrario, en la TRI la escala e es invariante respecto al conjunto de items utilizados para estimar el rasgo latente pero es arbitraria, ya que su origen y unidad de medida no están determinados, no son fijos sino que varían de una aplicación a otra, por lo que sólo tienen sentido las comparaciones entre sujetos (o entre items), aunque también ofrece posibilidades muy interesantes para interpretaciones referidas a la norma, muy útiles en audiencias no profesionales.

DIFERENCIAS EN LA RESPUESTA A PROBLEMAS APLICADOS

Son muchos los autores que subrayan la capacidad de los modelos de la TRI para dar soluciones potentes a una gran variedad de problemas psicométricos aplicados (Hambleton y Swaminathan, 1985; Harrison, 1986; Lord, 1980; Weiss, 1983). Como señala este último autor, una de las grandes aportaciones de la TRI es su capacidad de aplicación a situaciones prácticas de medida, que resultaban ciertamente problemáticas desde la pespectiva clásica.

I

'1 I

TeorÍLl de tests

181

En este apartado, se tratará de ilustrar de forma breve algunas de las aplicaciones más interesantes de la TRI, poniendo especial énfasis en aquellas en las que esta teoría realiza una aportación novedosa a los planteamientos del modelo clásico. Concretamente, se comentarán las aplicaciones de la TRI en el estudio del sesgo, en la equiparación de puntuaciones y en la construcción de tests.

Sesgo · En la actualidad, los métodos de estudio del sesgo basados en la TRI son muy populares y son los métodos preferidos, des~e el punto de vista teórico, por muchos investigadores (Mellenbergh, 1982;Shepard, Camilli y Averill, 1981; Shepard, Carnilli y Williams, 1984, 1985). Si se defme como itemo test sesgado aquél que da: lugar a medidas distintas en sujetos con el mismo nivel en el rasgo o variable medida por el item o el test, resulta bastante obvio que la TRI tiene algo que decir sobre la cuestión. En efecto, un item estará sesgado si su curva característica es distinta para diferentes grupos de sujetos: un item está sesgado si es distinta la probabilidad que tiene un sujeto de responder correctamente según penenezca a un grupo u otro, supuesto que su nivel en la escala e sea el mismo. Esta definición de sesgo con la que opera la TRI engancha directamente con las definiciones más comúnmente aceptadas: se define el sesgo como dimensionalidad respecto al grupo (Ackerman, 1993), como una violación de la independencia condicional (Mellenbergh, 1985, 1989; Oon, 1992) o como funcionamiento diferencial del item. Este último término se está imponiendo cada vez más en la literatura sobre el término tradicionalmente utilizado sesgo, ya que parece

más adecuado para distinguir la evidencia empírica de la existencia de un rendimiento diferencial necesario -impacto- de la conclusión de que el item o el test están sesgados. Precisamente, ésta es una de las críticas fundamentales que se hace a los métodos de la TCT para estudiar el sesgo: su incapacidad para manejar adecuadamente las diferencias reales en habilidad entre los grupos de interés. Como señalan claramente Hunter (1975), Lord (1977) y Peterson (1977) ,los métodos clásicos pueden confundir las diferencias reales en la habilidad media de los grupos con el sesgo. Los métodos usados por la TCT para la detección del sesgo son dos y se basan en los parámetros fundamentales del item en esta teoría: el método delta (Angoff, 1972; Angoffy Ford, 1973; Angoffy Sharon, 1974), basado en las diferencias en el parámetro de dificultad obtenido en cada grupo, y el método de la discriminación (Green y Draper, 1972; Ozenne, van Gelder y Cohen, 1974), basado en las diferencias en la correlación biserial puntual obtenida en cada grupo. El problema que plantea el uso del método delta es que no tiene en cuenta la discriminación del item, lo que supone que, en presencia de grupos con distinta habilidad, se va a confundir la discriminación con el sesgo: las diferencias en discriminación crean diferencias en el valor de la dificultad del item en los grupos y éstas son interpretadas erróneamente como indicadores

182

MJ. Navas

del sesgo. Y es que el parámetro de dificultad del item en la TCf es tanto una medida de la actuación del grupo como una característica del item. En definitiva, el método delta produce evidencia espúrea de sesgo a no ser que todos los items tengan la misma capacidad discriminativa o que los grupos comparados tengan una habilidad media similar. Angoff (1982) propone una modificación del método para corregir estas fuentes de error. Shepard, Camilli y Williams (1985) comparan este índice modificado con otros índices de sesgo habitualmente utilizados y concluyen que su eficacia es similar a la

.

2

del índice X para identificar sesgo conocido, cuando se trabaja con tamaños muestrales pequeños (N ~300). El problema que plantea el uso del método de la discriminación es, obviamente, el mismo que el senalado para el método delta cuando los grupos difieren en habilidad. Ironson y Subkoviak (1979) y Merz y-Grossen (1979) comparan este inétodo con otros índices y concluyen que es claramente inadecuado en la detección del sesgo. Los métodos basados en la TRI superan a los métodos clásicos por varias razones. En primer lugar, la in varianza de los parámetros del modelo en la TRl hace que sea mucho menos probable la confusión entre diferencias reales en habilidad y sesgo. En el caso de la TRI, el parámetro de dificultad del ítem está en la misma escala que el parámetro de habilidad pero no se relaciona en modo alguno con la actuación del grupo. En segundo lugar, los métodos de la TRI examinan el funcionamiento diferencial del item a lo largo de toda la escala e de habilidad y no en el punto que corresponde a la habilidad media de los grupos implicados en el estudio. En tercer lugar, la TRI estudia el sesgo condicionado al nivel de habilidad de los sujetos de la muestra, pero condicionado al nivel real, no al observado en la habilidad o rasgo medido por el test. Como ya se ha señalado anteriornlente, la idea básica en estos métodos es calcular y comparar lá curva característica del item (CCI) en los grupos de interés (Rudner, 1977). La comparación de las curvas obtenidas se puede realizar de distinta forma. Un modo habitual consiste en calcular el área existente entre las curvas, bien el área total (Hambleton y Rogers, 1989a; Kim y Cohen, 1991; Raju, 1988, 1990; Rogers y Hambleton, 1989), bien las diferencias al cuadrado entre las probabilidades de una respuesta correcta para cada valor de la escala e (Linn, Levine, Hastings y Wardrop, 1981), bien esas diferencias ponderadas por la varianza error de dicha probabilidad. Según Shepard, Camilli y Williams (1984), este último índice es el más adecuado para cuantificar las diferencias entre las CCIs de los distintos grupos. Otra posibilidad es comparar no directamente las curvas sino los parámetros que las caracterizan: comparar los valores de los parámetros de los items obtenidos en uno y otro grupo, probar la hipótesis nula de igualdad de las CCIs (Hulin, Drasgow y Komocor, 1982; Lord, 1977, 1980; Mellenbergh, 1972; Wright, Mead y Draba, 1976). Además de estadísticos

I

I

I

Teoría de tests

183

para probar dicha hipótesis, la TRI dispone de otros índices para evaluar el tamaño del sesgo encontrado. MeIlenbergh (1989) hace una presentación sistemática y clara de los estadísticos e índices más comúnmente utilizados. Las limitaciones de esta aproximación se relacionan con el recurso a pruebas estadísticas de significación en tamaños muestrales grandes, habi.tualmente . requeridos para un uso adecuado de los modelos de la TRI.

Otra aproximación muy fructífera en la comparación de las CCIs es la que utiliza el recurso a una línea base que ayude en la interpretación de los resultados obtenidos al comparar las CCfs de los grupos de interés. La línea base se define (1) mediante la construcción de la distribución muestra! del estadístico utilizado como indicador de sesgo a partir de dos submuestras aleatorias extraídas de un mismo grupo (Linn y Harnish, 1981), ó (2) mediante la simulación de la distribución muestral en el supuesto de que no existe sesgo (Hambleton, Rogers y Arrasmíth, 1986; Rogers y Hambleton, 1989), ó (3) comparando las CCIs obtenidas en submuestras aleatorias, extraídas bien del grupo mayoritario, bien del grupo minotario, bien de ambos (Shepard, Camilli y WilIiams, 1984; Wilson-Burt, Fitzmatin y Skaggs, 1986). La ventaja que presenta la simulación es que no es necesario reducir la muestra a la mitad y, dadas las exigencias en cuanto a tamaño muestra! de los modelos de la TRI, ésta es una ventaja a tener en cuenta. Un último método a destacar dentro de los métodos basados en la TRI para el estudio del sesgo es el propuesto por Linn y Harnish (1981) y conocido como pseudométodo de la TRI. Muy brevemente, este método consiste en lo siguiente: en el grupo minoritario se compara la CCI teórica obtenida en el grupo combinado Con la CCf empírica obtenida en el grupo . minoritario, concluyendo que el item está insesgado si ambas curvas son - parecidas. Shepard, Camilli y Williams (1985) sostienen que éste debe de ser pequeño. el método de elección cuando el tamaño muestral de uno de los grupos es

El cuadro pintado hasta ahora presenta a los métodos basados en la TRI no sólo como los preferidos desde el punto de vista teórico sino también como métodos muy adecuados para la detección del sesgo. Ahora bien, no están exentos de problemas. Ya se ha señalado una de las cuestiones más espinosas que tienen planteados estos modelos y es la relativa a los grandes tamaños muestrales necesarios para garantizar la adecuación en el funcionamiento de estos métodos (Hoover y Kolen, 1984). Además, la utilización de la TRI Supone el recurso a procedimientos sofisticados y co~tosos, desde el punto de vista computacional, que pueden limitar

senamente su uso. Otro problema importante tiene que ver con la incidencia que pueden tener la variaciones muestrules en la estimación de parámetros: es posible que las diferencias observadas cntre las CCIs de los grupos se deban

a

no. la .existenci~de sesgo en el item en cuestión sino a que el error de estImaCIón cometldo en uno y otro grupo es, sencillamente, distinto. Este problema se puede acentuar, además, si los grupos de interés difieren notablemente en su habilidad media . Una última cuestión que no puede ser

184

MJ. Navas

obviada es la posible introducción de error como consecuencia de la equiparación -absolutamente necesaria- de las estimaciones de los parámetros obtenidas en uno y otro grupo (Cole y Moss, 1989). Toda esta problemática hace inevitable una referencia a métodos que constituyen una aproximación a los métodos basados en la TRI, como son los

2

.

métodos de X (Camilli, 1979; Scheuneman, 1979), el modelo logit (Mellenbergh, 1982; van der Flier, Mellenbergh, Ader y Wijn, 1984), el método Mantel-Haenszel (Holland y Thayer, 1986, 1988), la medida omnibus (Johnson, 1989) y el modelo de regresión logística (Swaminathan y

Rogers,

1990). Aunque, posiblemente, el método más profusamente utilizado

2

.

es el de X , el que está recibiendo últimamente más atención es el método de Mantel-Haenszel,ya que comparte con los métodos basados en la TRI algunas de sus características más deseables pero no comparte la mayor parte de las dificultades que éstos presentan. Si a esto se añade su simplicidad conceptual, la disponibilidad de pruebas de significación y se considera, además, que hay estudios que ponen de manifiesto que existe un acuerdo importante entre los resultados obtenidos con este método y con los métodos basados en la TRI (Hambleton y Rogers, 1989a; Hambleton, Rogers y Arrasmith, 1988), resulta patente que estos últimos métodos han encontrado un 'competidor' serio en el método de Mantel-Haenszel.

Equiparación ' El proceso de equiparación de puntuaciones es un proceso fundamental cuando se trabaja con distintos instrumentos de medida, ya que representa el medio básico de que se dispone para poder garantizar la adecuada comparación de las puntuaciones obtenidas en distintas pruebas: es el proceso que permite el desarrollo de una conversión del sistema de unidades de un test al sistema de unidades de otro (Angoff, 1984). Tradicionalmente, la TCT ha utilizado dos métodos muy sencillos pero eficientes en algunas situaciones de equiparación: el método lineal yel método equipercentil. Skaggs y Lissitz (1986a) hacen una exhaustiva revisión de la literatura sobre equiparación de puntuaciones y señalan que los métodos clásicos funcionan muy bien en situaciones de equiparación horizontal, es decir, con tests de dificultad similar y con inuestras de sujetos con un nivel parecido en la habilidad medida por los tests. Ahora bien, ésta es sólo una de las muchas situaciones que se pueden plantear a la hora de equiparar puntuaciones. Este no es, sin embargo, el mayor inconveniente de los métOdos de la TCT en este campo sino que éste radica en las condiciones que la TCf impone a los tests para que sus puntuaciones puedan ser equiparadas:

simetría, invarianza y equidad (equity ). El problema que se plantea con estos requisitos es que, tal como señala Lord (1980; 1982), las puntuaciones de los tests sólo pueden satisfacer estos criterios cuando no hay necesidad de

Te(lría de tests

185

equiparación. En efecto, si se admite que el proceso de equiparación debe ser tal que para sujetos con la misma habilidad debe ser indiferente realizar un test u otro, está claro que los tests deben ser bien perfectamente fiables, bien formas estrictamente paralelas, en la acepción fuerte del término (Samejima, 1977). Por consiguiente, una equiparación estricta s610 es posible cuando es innecesaria (Muñiz, 1990). y es que las condiciones formuladas, ¡ clásicos especialmente de equiparación. la de equidad, son muy difíciles de cumplir utilizando métodos

I

La gran ventaja que presenta trabajar con modelos de la TRI es que,

, dentro de este marco, se obvia la necesidad de equiparar las puntuaciones de los tests, por la propiedad de invarianza de los parámetros del modelo. No es necesario equiparar las puntuaciones de dos sujetos que han realizado tests distintos porque el parámetro de habilidad e es invariante respecto al conjunto de items utilizados en su estimación. Por esta razón, hay autores como Cook y Eignor (1983), Hambleton, Swaminathan y Rogers (1991) y Kolen (1988) que prefieren hablar de escalamiento para lograr comparabilidad

en vez de equiPantción: la escala e es invariante pero arbitraria, por lo que es

necesario escalarla,

Además de superar las condiciones exigidas por la TCT para la equiparación, la TRI posibilita la equiparación de puntuaciones en situaciones en las que ésta no era posible trabajando con la TCT.

determinar su origen y unidad de medida

Uno de los supuestos implícitos en la condición de equidad es que los tests deben de tener la misma fiabilidad lo que, a su vez, implica que stricto sensu sólo se pueden equiparar tests Con niveles semejantes de dificultad (si varía el nivel de dificultad los tests no medirán con la misma precisión en todos los pUntos de la escala de habilidad), lo que excluye automáticamente a los métodos clásicos Como métodos de elección en situaciones de equiparación vertical. Ahora bien, su inadecuación a priori para este tipo de situaciones no significa que no se hayan utilizado (Harris, 1991; Kolen, 1981; Marco, Petersen y Stewart, 1983; Patience, 1981), pero los trabajos realizados confirman que se trata de métodos poco válidos -especialmente el método lineal- para equiparar las puntuaciones de tests con distinto nivel de dificultad (Skaggs y Lissitz, 1986b) o incluso con distinto contenido o longitud (Peterson, Cook y Stocking, 1983). Sin embargo, si se cumplen los supuestos del modelo, los métodos de equiparación de la TRI sí deberían de funcionar bien en todas las combinaciones de diferencias en la dificultad del

test y en la habilidad de los

grupos (Cook Y Eignor, 1983, 1989).

Como ya se indicó, en situaciones de equiparación horizontal los métodos d~ la TCT funcionan muy bien si los grupos de sujetos alos que se les hll? aplIcado las pruebas tienen niveles de habilidad similares: el panorama

los cambIa grupos conforme de sujetos. van variando en dificultad las formas del test y en habilidad

. Marco, Petersen y Stewart (1983) llevan a cabo un estudio de

equiparación en el que manipulan distimas variables -nivel de dificultad de los

186

MI Navas

tests, nivel de habilidad de las muestras, tipo de test de anclaje y tipo de criterio- y concluyen que, en las situaciones de equiparación horizontal, la TCf y la TRI proporcionan resultados similares sólo cuando se trabaja con muestras aleatorias de sujetos. Este estudio confirma lo ya apuntado por Kolen y Whitney (1982), Lord (1975) y Marco, Petersen y Stewart (1980): la similitud entre la TCT y la TRI cuando se trabaja con tests paralelos y grupos equivalentes de sujetos y la superioridad de la TRI frente a la TCf en tests no paralelos y con grupos no equivalentes de sujetos. Ahora bien, este resultado tampoco se ha encontrado de forma unívoca en la literatura. En efecto, Skaggs y Lissitz (1986b) llevan a cabo un estudio de simulación en el que comparan el método lineal, equipercentil y los basados en los modelos logísticos de uno (lPL) y tres parámetros (3PL), cuando se equiparan tests que varíán en dificultad, discriminación y pseudoadivinación, concluyendo que el método de elección cuando varían considerablemente los tests es el equipercentil. Harris y Kolen (1986) realizaron un estudio en el que confirmaron la robustez frente a diferencias en la habilidad del grupo del método lineal, del equipercentil y del 3PL. A su vez, Skaggs y Lissitz (1986c, 1988) trabajan con datos simulados utilizando el método equipercentil, el 3PL y el 1PL. Concluyen también la invarianza de los tres métodos de equiparación respecto al nivel de habilidad de los sujetos utilizados. A pesar del marcado carácter específico de algunas aplicaciones de la TRI a situaciones de equiparación en las que la TCT puede aportar poco, su

de la eval uación psicológica y educativa

pueden justificar su inclusión aquí. La primera aplicación se relaciona con lo que Se ha dado en llamar pre-equiparación y consiste, sencillamente, en equiparar las puntuaciones de dos tests antes de que se haya aplicado uno de ellos (Bejar y Wingersky, 1982). Otra aplicación muy interesante es la llevada a cabo por Holmes (1980): equipara las puntuaciones de un test construido a partir de un banco de items local con las puntuaciones de un test estandarizado para el que se dispone de información normativa a nivel nacional. Por último, Cook, Dunbar y Eignor (1981) realizan un estudio en el que demuestran que es posible equiparar las puntuaciones de tests no paralelos aplicados a grupos no equivalentes de sujetos cuando no existen items en común ni tests de anclaje. Hasta el momento se ha realizado únicamente un análisis comparativo de la TCf y la TRI acerca de las condiciones necesarias para llevar a cabo una equiparación y acerca de las situaciones que se pueden manejar desde una y otra perspectiva teórica. A continuación, se describirá brevemente lo que aporta de novedoso la TRI a la metodología de equiparación de las puntuaciones.

En primer lugar, la TRI ofrece varias posibilidades a la hora de equiparar puntuaciones: se pueden equiparar las puntuaciones verdaderas, las puntuaciones observadas y las puntuaciones en la escala e de habilidad.

interés y relevancia en la práctica

Muy brevemente:

Teoría de tests

se consideran equivalentes

187

las puntuaciones

verdaderas de dos tests cuando corresponden al mismo nivel de habilidad. Según Cook y Eignor (1983), este método es adecuado cuando Se trabaja con tests cuyo nivel de dificultad difiere considerablemente. La equiparación de

las puntuaciones observadas en la TRI (Lord, 1980) se realiza aplicando el método equipercentil a las distribuciones estimadas para las puntuaciones observadas en los dos tests a equiparar. Lord y Wingersky (1983) llevan a cabo un estudio comparando estos dos métodos y aIlfIllan que producen . prácticamente los mismos resultados. Ahora bien, a igualdad de resultados, el método de las puntuaciones observadas resulta más complicado y costoso y es dependiente del grupo en el que se estiman las puntuaciones.

.

La segunda gran aportación de la TRI tiene que ver con la equiparación

de la escala de habilidad y consiste en un nuevo

que definen la relación

lineal que existe entre las estimaciones de la habilidad de sujetos evaluados con distintos conjuntos de items o tests (la escala e es invariante frente a una transformación lineal). Este método, conocido como método de la curva caracteristica del test (CCn, fue propuesto por Haebara (1980) y Stocking y

de las puntuaciones e

método para determinar los parámetros (ex y 13)

Lord (1983) y consiste en determinar los valores de ex y 13 de forma que se minimicen las diferencias cuadráticas entre las puntuaciones verdaderas de los dos tests a equiparar en la muestra considerada. Stocking y Lord (1983) comparan este método con el método iterativo de la media y la desviación típica robustas y ponderadas en más de una veintena de pares de tests y concluyen que, en todas las comparaciones; el método de la ccr proporciona un ajuste mejor a las dificultades estimadas de los items. Realmente, la ventaja que presenta este método frente al método de la media y la desviación típica -en cualquiera de sus variantes- es que, pard detemunar el valor de ex y

p. el método de la eCT utiliza información de todos los parámetros que definen la Ccr, mientras que el método de la media y la desviación típica sólo utiliza información relativa al parámetro b. Un método simple y económico que también utiliza información sobre todos los parámetros del ítem e incluso .

2

(1985). sus errores típicos de estimación es el método de X

propuesto por Divgi

En suma, se puede decir que la TRI proporciona un marco teórico óptimo en el que se desvanece en parte la problemática asociada a la equiparación de puntuaciones ya que, en ciena medida, se obvia la necesidad de equ~parar;ofrece la posibilidad de equiparar destintos tipos de pun~acIonesy apona metodología propia para la equiparación. Ahora bien, conVIene tener presente que 'ningún método es Superior alos demás en todos los C?,ntextos. El método de equiparación que resulta ser mejor parece ser una f~nc!on ~e muchos !actores, incluyendo la longitud y contenido del test, la dIStribUCIón del parametro de habilidad de la muestra y de dificultad de los

188

M

I.

Navas

items, cómo se estiman los parámetros y cómo se hace la igualación' (Skaggs y Lissitz, 1986a, p. 516).

Construcción de ~ Ya en 1980, Willingham afmna que 'los métodos de la TRI no son la panacea pero que con e·l tiempo deberían de proporcionar un aumento importante en la flexibilidad y precisión en la construcción de tests' .(p. 74). La realidad no ha desmentido sus palabras. Son muchas las aportaciones que la TRI ha realizado a la teoría de tests en este campo, por dos razones fundamentales. " En primer lugar, la invarianza de los parámetros del modelo en la TRI abre nuevas posibilidades en el campo de la evaluación psicológica y educativa. En efecto, si la escala e es invariante respecto al conjunto de items administrados, es posible comparar a sujetos que han realizado tests diferentes, que han respondido a distintos conjuntos de items. Esto significa que es posible utilizar con garantía diseños como el muestreo matricial múltiple (Bock y Mislevy, 1981, 1988; Pandey, 1988; Sirotnik, 1974; Sirotnik y Wellington, 1977), muy económico y eficiente en proyectos de evaluación a gran escala. Asimismo, si se dispone de un conjunto calibrado de items, se puede determinar cuál sería el comportamiento de un sujeto -cuya habilidad se conoce de antemano- en un test sin necesidad de aplicarlo, sin más que calcular la probabilidad que éste tiene de responder correctamente a cada item del test y sumar estas probabilidades. Esta cuestión es sumamente interesante pues puede permitir, por ejemplo, evaluar a un sujeto con un TRC y, al mismo tiempo, dar una interpretación referida a la norma. En segundo lugar, la función de información constituye una herramienta muy valiosa a la hora de construir y revisar distintas versiones o métodos de puntuación de un test. En efecto, cuando en el proceso de estimación de parámetros se utiliza el método maximo-verosímil o se pondera de forma óptima los estimadores, se obtiene una función de información para el test que es la suma de las funciones de información de cada uno de los items que componen el test. Esto significa que si se dispone de un conjunto de items calibrados, se puede saber, antes de aplicar el test, cuál es la contribución individual de cada item a la información que el test proporciona sobre el rasgo latente. Pero hay más : dado que la información depende directamente de e, se puede saber a priori qué items son los que proporcionan más información sobre el rasgo latente en cada uno de los puntos de la escala e. Además, la dificultad del item y la habilidad del sujeto, a diferencia de lo que ocurre en la TCT, se miden en la misma escala, lo que permite fácilmentela selección de los items más útiles en determinadas regiones de la" escala e. Todo esto permite construir tests que sean máximamente eficientes para cumplir el objetivo para el que fueron diseñados.

Teorfa de tests

189

Según Hambleton, Swaminathan y Rogers (1991), éste es el caballo de batalla para los métodos de la TCf en la construcción de tests: no se pueden seleccionar los items de forma que el test cumpla unas determinadas especificaciones en cuanto a precisión de la medida. Yes que en la TCf no es posible determinar ni la discriminación de un itero ni su contribución a la fiabilidad del test de forma independiente de las características del resto de items que integran el test, ya que la puntuación en .el test depende de la selección particular de items que se haya hecho. Por consiguiente, en la TCf la evaluación se realiza a posteriori, no conforme se va construyendo el test. La TRI, sin embargo, no sólo permite construir tests con características muy determinadas en cuanto al error de medida admisible en cada zona de la escala e, sino que posibilita la evaluación del test a priori, antes de ser construido. Y es que la TRI, como su propio nombre indica, tiene como unidad básica de análisis el item mientras que en la TCf el modelado tiene lugar a nivel de test, no de item: la TCT no proporciona información sobre la

actuación en items concretos e individuales,

sujetos con un determinado nivel de habilidad a Ítems particulares. Como

no indica cómo responderán

señalan certeramente Hambleton y van der Linden (1982), mientras que la TCf proporciona modelos de puntuaciones de tests, la TRI consiste en modelos que proporcionan puntuaciones de tests y de Ítems.

Dentro del campo de la construcción de tests, la TRI ha realizado aportaciones fundamentales en tres grandes áreas, a saber: en los TRCs, en los tests a medida y en los bancos de items.

Tests referidos al criterio

Según Hambleton y Rogers (l989b), el interés en la evaluación referida al criterio y el resurgir Con fuerza de la TRI han ido paralelos en el tiempo,

TRCs. proporcionando esta última un marco muy apropiado para la construcción de

La TCT se revela como un modelo poco adecuado en el campo de los TRCs, ya que los parámetros que en es le modelo se utilizan para caracterizar los items -dificultad y discriminación- no permiten determinar en qué parte de la escala funciona mejor el item, es decir, en qué parte de -la escala tiene una dificultad más adecuada o acorde Con la puntuación de Corte tomada como criterio y en qué parte de la escala discrimina más entre los sujetos. Además, la dificultad del item no se puede relacionar con el aspecto o característica evaluada por el test, ya que están en escalas diferentes. Por tanto, los parámetros del item en la TCT no se pueden usar para seleccionar de forma óptima los items que deben ser utilizados para construir un TRC. La TRI, sin embargo,Constituye una aproximación mucho más adecuada para los TRCs. En "efecto, uno de los criterios que se utiliza con más frecuencia consiste en que el sujeto debe conocer o dominar una serie determinada de cuestiones que, a su vez, se operativiza en que el sujeto debe responder correctamente un deternlinado porcentaje de items en un test que

190

MI Navas

represente, de forma adecuada , el dominio o campo de conocimiento que se está evaluando. En la TRI, la puntuación de cone 1t y el aspecto o rasgo

V(8)

que se trata de evaluar 8 están directamente relacionados (1t = - .n-) y

esta relación da una pauta básica en la construcción de un TRC. Sea 1to el criterio que deben superar los sujetos para que se pueda considerar que dominan adecuadamente la materia evaluada. Pues bien, la selección de los items debe-de realizarse de modo que su discriminación sea máxima en el

punto 8

que proporcionan la mayor información en ese punto de la escala. De este modo, se estimará de forma más precisa la zona de la escala asociada a 1to que es la zona en la que es más fácil cometer un error de clasificación. El procedimiento descrito se conoce como el método óptimo de selección de items en un TRC. Un método similar a éste es el método óptimo del contenido (optima/-content method ), que es idéntico al anterior sólo que se pone una restricción al test final y es que debe de satisfacer una serie de condiciones en cuanto a especificaciones de contenido. De Gruijter y Hambleton (1983) y Hambleton y de Gruijter (1983) comparan estos dos métodos de selección de items con los usados tradicionalmente por laTcr: el método aleatorio -selección de una muestra aleatoria o estratificada aleatoria de items- y el método clásico -selección de items con índices moderados de dificultad y con índices altos de discriminación-o Estos estudios ponen de manifiesto que, en la región de interés cercana a la puntuación de cOrte, los dos métodos basados en la TRI proporcionan casi el doble de información que el método clásico y el aleatorio. De especial interés es el método óptimo del contenido porque, a la hora de seleccionar iterns, combina criterios estadísticos con criterios relacionados con el contenido. Como señalan Kingston y Stocking (1986), esta consideración es básica en la construcción de un TRC. Van der Linden y Boekkoi-Timminga (1989) han desarrollado un procedimiento que permite la selección de items a partir de la función de información especificada para el test pero que, a su vez, permite el cstablicimiento de condiciones que aseguren la validez de contenido del test y la longitud deseada para el mismo, entre otras características. Una herramienta muy útil a la hora de construir y evaluar un TRC es el programa TESTLEN, creado por MilIs y Simon (1981). Este programa simula las respuestas de sujetos a TRCs via la TRI, proporcionando la posibilidad de manipular factores como la distribución de las puntuaciones de dominio, la elección de la puntuación de cone, las características estadísticas del banco de items, la longitud del test y el método de selección de iterns. Por último, no se puede cerrar este apartado sin hacer referencia a un trabajo de Lewis y Sheehan (1990), a caballo entre los TRCs y los tests a medida. Estos autores desarrollan la idea de un test de dominio computerizado (CMT: Computerized Mastery Test). En este tipo de test se

asociado a 1to y, dentro de éstos, habrá que seleccionar los items

Teoría de tests

191

conjuga la idea de la evaluación individualizada con los TRCs del siguiente modo: se aplican tests más cortos a ~os sujetos que son claramente competentes o incompetentes y tests más largos a los sujetos para los que no está tan clara la decisión acerca de su competencia (regla de terminación adaptada al sujeto). De es~emo<;i~,~egúnlos au.t~~esse puede :educ~ra la mitad la longitud del test Sin peIJUlcIo en la preclSlon de las claSIficacIones. Además, otra característica que hace panicularmente interesante a este tipo de test es que el proceso secuencial de evaluación opera no sobre items individuales sino sobre bloques de items.

Esta idea de combinar los tests a medida con los TRCs no es nueva. Ya en 1982, Weiss apunta que los tests a medida diseñados para llevar a cabo clasificaciones dicotómicas presentan mejoras respecto a los tests convencionales diseñados para el mismo objetivo y describe estudios que muestran una reducción en la longitud del test y un aumento en la precisión de la clasificación a favor de los tests a medida (Kingsbury y Weiss, 1979, 1980, 1981). Estudios posteriores de estos dos autores realizados en 1983 vuelven a poner de manifiesto que este método combinado puede dar lugar a una clasificación más eficiente que los tests convencionales de longitud fija.

Tests a medida

La idea de la evaluación individualizada, de la aplicación de tests adaptados o hechos a la medida de los sujetos objeto de la evaluación no es en absoluto nueva sino que, Como señala Weiss (1985), se remonta ya a los trabajos de Binet y Simon sobre la inteligencia en 1908. Sin embargo, apenas se trabajó sobre esta idea hasta finales de la década de los 60 . Una razón básica para entender el abandono de esta orientación durante más de medio siglo se relaciona con la ausencia hasta la década de los 70 de ordenadores interactivos que hicieran factibles los tests a medida . Con el advenimiento de los ordenadores, la evaluación individualizada se conviene en evaluación individualizada computerizada (CAT: Computerized Adaptive Testing). Bunderson, Inouye y Olsen (1989) se refieren al CAT como a la segunda la generación sigla crucial en la en medida CATes educativa la C. computerizada y Wainer (1990) señala que

Van der Linden y Zwarts (1989) consideran que Son dos los hechos que han posibilitado la automatización en la evaluación. El primero de ellos sería, como ya se ha señalado, la introducción a gran escala del ordenador en los cole~iosy el interés creciente que sus aplicaciones en el proceso educativo ha SUscItado entre los profesores y administradores educativos. El segundo sería la introducción de la TRI en la teoría de tests. Según Weiss y Vale (1987),.'~u~n~o.se c?mbina Con la TRI y la aplicación computerizada, la evalua~IonrndIylduaJ¡~daproporciona una familia de técnicas que dan lugar a SOI.uclones mas efectIvas y eficientes a una gran variedad de problemas de ~e~l~a'~p.260).Como señala Weiss (1983), aunque la evaluación md~VlduaJ¡zadano depende de la TRI, ésta sí resulta sumamente útil a la hora de Implementar de forma efectiva la primera. Hamblenton, Swaminathan y

192

M.J. Navas

Rogers (1991) van todavía más lejos al afirmar que el CAT no sería realmente factible sin la TRI.

La idea básica de los métodos del CAT basados en la TRI es la siguiente. Se trata de escoger items cuya dificultad sea similar al nivel estimado en el rasgo latente del sujeto, de modo que al aplicar items con esas

caractensucas ,.

dI e rasgo

latente es muy precisa. La característica distintiva es la selección automatizada

(b.""e

1

a

"fi=l,n

a

)l

a esumacloQ que se o uene

,

de los items durante el proceso de aplicación del test Kingsbury y Zara (1989) y Thissen y Mislevy (1990) señalan dos . estrategias fundamentales en la selección de items cuando se uúliza la TRI para implementar el CAT. La primera de ellas es la estrategia de máxima información (Weiss, 1982): se selecciona el item que proporciona la máxima información en el nivel estimado de habilidad del sujeto en cuestión. Variaciones interesantes de este método son las realizadas por Green, Bock, Humphreys, Linn y Reckase (1984), que proponen una selección aleatoria de entre todos los items que proporcionan máxima información para un valor e determinado y la realizada por Sympson, Weiss y Ree (1982), que proponen una estrategia estratificada de máxima infomlación, muy útil cuando puede resultar problemático el tiempo de CPU en el ordenador. Theunissen (1985, 1986) Y Theunissen y Verstralen (1986) fueron los primeros en formular modelos de optimización para implementar procesos de selección de items basados en funciones de información. La segunda gran estrategia utilizada por la TRI es la selección bayesiana del item (Owen, 1969, 1975): se selecciona el item que reduce en mayor medida la varianza de la distribución a . posteriori del valor estimado de la habilidad e. Ahora bien, ¿qué ventajas reales presenta el uso de la TRI en el CAT frente al uso de métodos de la TCT -métodoup-and-down de rama fija o variable, método bietápico o multietápico-, considerablemente más fáciles de implementar que los primeros? Weiss y Vale (1987) sostienen que la ventaja fundamental de los métodos basados en la TRI son la eficiencia y el control sobre la precisión en la medida. Por eficiencia se quiere significar que un CAT permite obtener la mayor cantidad de información sobre el sujeto por item aplicado. Esto se traduce lógicamente en un incremento en la precisión de la medida y en un considerable ahorro de tiempo, ya que se requiere sólo entre un 10 y un 50% del número de items que exigiría un test no adaptado a la características del sujeto para proporcionar la misma información sobre su habilidad (Brown y Weiss, 1977; Kent y Albanesse, 1987; Kiely, Zara y Weiss, 1983; McBride y Martin, 1983; Moreno, Wetzel, McBride, 1984; Olsen, 1990; Warm, 1978; Weiss, 1982). Por control se quiere significar que se puede evaluar la habilidad de . cada sujeto con un nivel previamente especificado de error. La TRI permite determinar no sólo los items que tienen una dificultad similar al nivel . estimado inicialmente para el sujeto que se desea evaluar sino los items que,

Teoría de tests

193

.en ese nivel, proporcionan la máxima información sobre el rasgo latente, los items que en ese nivel estiman de forma más precisa el rasgo latente. Esto no es posible en la TCT ya que la precisión de la medida es independiente del nivel del rasgo latente que se mide con el test: el error típico de medida es el miyno en todos los puntos de la escala e. Además, el nivel de precisión en

. la medida de la habilidad proporciona en la TRI un criterio para la terminación

del test individualizado: la aplicación del test termina cuando el error típico de

estimación de e muestra un valor idéntico al establecido por el evaluador de antemano. Esto representa una ventaja importante frente a los métodos de la TCT ya que, en la perspectiva clásica, la única regla lógica de terminación del . test representaba, paradójicamente, una seria limitación al CAT: la regla consistía en la aplicación de un determinado número -fijo- de items. Estrechamente ligada con la anterior se encuentra otra de las ventajas de la TRI y es que con su aplicación se obtiene una mayor validez aparente, ya que el sujeto no tiene que responder items demasiado fáciles -que pueden aburrirle- o demasiado difíciles -que pueden desmotivarle y generar ansiedad~ medida . Estos (Homke, items contribuyen 1981). muy poco 11 la precisión y a la economía de la

Por último, la gran ventaja que presenta la TRI sobre la TCT en el campo del CATes que la habilidad del sujeto y la dificultad de los items están en la misma escala, 10 que proporciona una pauta clara en la selección Óptima de los items: aplicar items de dificultad similar al nivel estimado para la habilidad del sujeto para obtener estimaciones precisas de la misma. Esto es imposible trabajando con el modelo clásico ya que los parámetros de habilidad y dificultad están en métricas distintas. En" este caso, para seleccionar los items es necesario acudir a estructuras ramificadas basadas en el índice de dificultad de items individuales o grupos de items. Para complicar todavía más las Cosas, las puntuaciones obtenidas por distintos sujetos no son directamente comparables. Sin embargo, si se dispone de un banco de items calibrados según un modelo de TRI se pueden obtener puntuaciones comparables cuando se aplican distintos items a distintos sujetos, ya que el parámetro de habilidad es invariante respecto al conjunto particular de items

administrados a cada sujeto.

.

Bancos de items

Un banco de items no es más que un conjunto de elementos que miden un mismo rasgo, campo o área de conocimiento, almacenados en un ordenador junto con sus propiedades estadísticas, junto con sus parámetros.

Es decir, un banco de items es un conjunto de items calibrados, un conjunto

misma de items escala caracterizados por unos parámetros que han sido estimados en la

Los primeros trabajos realizados sobre bancos de items tuvieron lugar al final de la década de los 60 y comienzos de los 70 pero fracasaron, según Hambleton (1986), debido a la ingente cantidad de papel y al nivel de

194

M.J. Navas

aplicación y organización necesarias para implantarlos. Y es que los procedimientos implicados en un banco de iteros -almacenamiento, clasificación y recuperación de items, estimación y actualización de los valores estimados para los parámetros de los items, diseño y puntuación de los tests, estimación y actualización de distribuciones normativas- difícilmente pueden ser implimentados sin el recurso a un ordenador (Brzezinski y Hiscox, 1984). Van der Linden y Eggen (1986) señalan dos ventajas fundamentales de los bancos de items frente a los tests estandarizados. La primera de ellas tiene . que ver con la flexibilidad que esta alternativa introduce en la evaluación en el campo psicológico y educativo: se posibilita la construcción de tests basándose únicamente en consideraciones prácticas de carácter específico, relacionadas con las necesidades de evaluación que, en un momento determinado, exigen el desarrollo de un test concreto. La segunda ventaja tiene que ver con el uso eficiente en las respuesta de los sujetos a los items:

cualquier conjunto de datos se puede incorporar al sistema para una actualización periódica de las estimaciones de los parámetros de los items. Otra ventaja adicional de los bancos de items sobre los tests estandarizados es, como se ha puesto de manifiesto en los dos apartados anteriores, que permite el desarrollo significativo de la evaluación individualizada y de la evaluación referida al criterio. Aunque, en principio, tanto la TCf como la TRI pueden trabajar con bancos de items, la TCf resulta poco adecuada para operar con ellos. Un banco de items tiene sentido si presenta una dimensión considerable, si contiene un cierto número de items. En caso contrario, se está trabajando con la noción clásica de tests. Pues bien, dado que en la TCT los parámetros de los items dependen de la muestra de sujetos que ha sido utilizada para estimarlos y, dado que todos los sujetos de la muestra no pueden responder a todos los items del banco, es difícil conseguir que los valores estimados para los parámetros de todos los items sean estrictamente comparables. 'Por el contrario, la invarianza de los parámetros del item en la TRI convierte a esta teoría en el marco adecuado para trabajar con bancos de items, ya que permite disponer de una escala común para los parámetros de todos los items. Una vez estimados y puestos en dicha escala los parámetros de los items del banco, se puede pasar a utilizar el modelo de la TRI como un modelo de medida para determinar el nivel en el rasgo latente dé los sujetos, para estimar el parámetro de habilidad. Si el patrón de respuesta del sujeto es válido, entonces su medida estima el nivel de dominio del sujeto en términos de todos los items que definen el banco (no sólo en términos de los items que le han sido realmente aplicados) y la posición del sujeto en el rasgo o campo de conocimiento evaluado por el banco lo sitúa en relación a todos los sujetos que, en algún momento, han realizado items de ese banco, no lo relaciona únicamente con los sujetos que han respondido al mismo conjunto de items (Wright y Bell, 1984). En suma, a diferencia de la TCT, la TRI proporciona

Teoría de tests

195

un marco adecuado para una interpretación de las puntuaciones en el test referida al criterio pero, al mismo tiempo, también referida a la norma. En un intento de integrar la construcción y el análisis de iteros con la teoría psicológica, Homke y Habon (1986) ~onstruyen ~n banco d.e.636 items mediante el recurso a reglás que combInan operacIOnes cognItIvas. Aplican estos i~ems, agrupados en .35 tests distintos! a una muestra ~e 7400 sujetos (aproxImadamente, cada Item es respondido por 211 sUJetos) y utilizan el modelo logístico lineal (Fischer, 1974), revelando el análisis que existen 446 items homogéneos. Este resultado pone de manifiesto claramente que las operacione~cognitiva~utilizadas ~la hora de cons?"Uir los items explican bastante ~Ien los para~etro~ de dIficultad d~ los nusmo~. En este punto reside preCIsamente el Interes de este estudIO, ya que Ilustra la posibilidad de calibrar los items de un banco antes. de ser realmen~eaplic~~os, siempre y cuando se recurra para su constrUCCIón a una teona cogmtIva sustantiva: se supone que ésta puede proporcionar las reglas necesarias para construir items cuyo nivel de dificultad sea estimable, en gran medida, a partir de las demandas cognitivas del item, antes de su aplicación efectiva. Aunque ésta es una posibilidád interesante, la literatura psicométrica lo que ilustra de forma sistemática es el uso de bancos de items en combinación Con una teoría de tests, fundamentalmente la TRI, aunque también en algunos casos la TCT (véase, por ejemplo, Nitko y Hsu, 1984).

Como señalan Mi.lIman y Aner (1984), los bancos de items presentan características muy diversas. Los hay que representan conjuntos . computerizados de decenas de miles de items (Brown, 1982; Epstein, 1974; Rentz y Bashaw, 1977) y los hay también que representan a conjuntos de items muy pequeños, mecanografiados en fichas-índice y reproducidos en los tests de forma mecánica o manual (Mershon, 1982; Rodel, 1979). La diversidad en los bancos de items no sólo está presente en sus características sino también en sus ámbitos de aplicación. Así se han construído bancos de items en sectores tan distintos como las Fuerzas Armadas, grandes compañías de tests y en impon¿p1tes organizaciones médicas y relacionadas con la salud, pero donde se ha observado el desarrollo más floreciente ha sido en el campo educativo. De nuevo, la diversidad de aplicaciones es la tónica dominante, desde el programa de evaluación del sistema educativo americano (NAEP:

National Assessment 01 Educational Progress) y los bancos de items de la International Association lor the Evaluation 01 Educational Achievement

(LEA) hasta las aplicaciones· dentro del aula, pasando por los distritos estados escolares o países. y los Departamentos o Ministerios de Educación de distintos

.~ título de ejemplo, dentro de los bancos de items desarrollados para ser utIhzados en el COntexto del aula se pueden citar los trabajos de Nitko y Hsu (l?84~l' O'Brien y Hampilos (1988). Nitko y Hsu (1984) desarrollan una aphcacIOn para ordenadores personales que pretende ser una herramienta que puedan usar los profesores para mejorar la enseñanza y los tests o pruebas que pasan a sus alumnos, así como para evaluar e informar sobre el

196

MJ. Navas

aprendizaje de los mismos. Las limitaciones de este trabajo tienen que ver con

el tamaño de la muestra de sujetos e items que admite, con la imposibilidad de

aplicaciones computerizadas de los tests y con el uso de parámetros del item en la TCT. O'Brien y Hampilos (1988) estudian la plausibilidad de la creación de un banco de items a partir de un test construido por un profesor y aplicado a dos clases distintas de. alumnos -comparables- cuya instrucción ha corrido a cargo de la misma persona. En EE.UU., los distritos escolares de Florida, Los Angeles, Oregon y Portland, entre otros, han desarrollado proyectos que suponen la construcción, para áreas curriculares de interés, de bancos de items y escalas de rendimiento basadas en modelos de la TRI para aplicar tests y proporcionar información a los centros escolares y a la opinión pública. Por ejemplo, en 1978 el Centro para el Desarrollo de Tests de Los Angeles trató de calibrar los items de un área curricular detenninada -las Matemáticas- en distintos cursos. Menos ambiciosos que este proyecto son los trabajos realizados por Bejar, Weiss y Kingsbury (1977), Douglas (1980) y Eisenberg y Book (1980) en los que se incluye un solo curso escolar, no varios como en el anterior. Otros proyectos que también surgieron en EE.UU. se pueden encontrar en los trabajos de Foster y Archer (1977), Foster y Doherty (1978), Hankins (1990), Koslin, Koslin, Zeno y Wainer (1977), Smith (1985) y Wongbundhit (1985).

Ahora bien, EE.UU. no es el único foro en el que se crean bancos de items sino que éstos se desarrollan también en países como Australia .' (Cornish y Wines, 1977; Hill, 1985; Tognolini, 1982), Austria (Kubinger, 1985), Canadá (Popyuk, 1982) o Gran Bretaña (Choppin, 1968, 1976, 1978, 1981; Elliot, 1983; Haksar, 1983; Pollitt, ¡(&(¿ 1985; Wood y Skurnik, 1969); Por último, como ejemplos del uso de bancos de items en Departamentos de Educación se señalará el trabajo de Burke, Kaufman y Webb (1985), desarrollado en el Departamento de Instrucción Pública de Wisconsin, y el trabajo de van Thiel y Zwarts (1986), en el Instituto de la Medida Educativa de Holanda (CITO). El banco de items de Wisconsin es un sistema computerizado de 1()()()()

items repartidos en tres áreas (matemáticas, lenguaje y lectura) para los curso

3 Q a 12 Q , cuyo objetivo es proporcionar

escolares que participan en el programa de evaluación de competencia llevado a cabo por dicho estado. Es muy efectivo para el examen y selección de items

y para la producción impresa de tests, pero no almacena información

estadística sobre los items sino únicamente información relativa a su contenido y objetivos curriculares.

tests a los centrós de los distritos

Van Thiel y Zwarts (1986) desarrollan un sistema de evaluación (TSS:

Testing Service System) que es un sistema integrado para el almacenamiento

de los items y la construcción y análisis de tests, en el que se utiliza como

herramienta de desarrollo

ellSAC (lnformation System Work and Analysis

oi Change). Este sistema tiene dos variantes: el CITO-TSS y el TSS de

(

Tcoría de tcsts

197

centros. El CITO-TSS es un sistema Con dos actividades fundamentales: la construcción de bancos de items, que estructura en térn1inos de su contenido y características psicométricas, y la construccion de tests a partir de los items del bé1l)co, los cuales, a su vez, pueden ser también almacenados en un banco de tests. El TSS de centros está dirigido a profesores sin conocimientos específicos ni de psicometría ni de metodología de la evaluación y proporciona a los mismos la posibilidad de construir tests a partir de los bancos de items creados por el CITO-TSS, aunque es también posible que los profesores creen sus propios items y los utilizen de fonna conjunta con los del banco. Asimismo, este sistema pennite la evaluación individualizada, a través de la creación y aplicación de tests a medida Una vez procesadas las deci~ionesdel respuestas, se profesor. generan informes que pueden ser muy útiles para la toma de

CONSIDERACIONES FINALES

A lo largo de estas páginas, se ha puesto de manifiesto que la TRI es una teoría de tests conceptualmente más poderosa que la Ter (Baker, 1985), pennite solucionar problemas difíciles de abordar desde la perspectiva clásica pero, además, esta teoría abre vías a nuevas preguntas y fonnas de investigar en Psicometría y tiene profundas implicaciones para la mejora de la medida psicológica (Weiss, 1983). Como señala Hambleton (1989a), las características distintivas de la TRI son las que han dado lugar al desarrollo de procedimientos muy prometedores en el ámbito de la evaluación computerizada. De hecho, este autor considera el uso de la TRI como un prerrequisito en un sistema de evaluación que se precise de operativo. Sin embargo, no se puede olvidar que siempre es conveniente plantearse 'qué es mejor, una solución basada en una teoría fuerte (restrictiva) a la que la realidad no se ajusta muy bien (por ejemplo, la teoría del rasgo latente) o un procedimiento ad hoc con una base teórica débil (no restrictiva), si es que la tiene. Para algunos problemas, la respuesta a esta cuestión es clara, siendo preferida la teoría del rasgo latente pero para otros problemas la respuesta está lejos de ser obvia' (Traub y Wolfe, 1981, p. 342). Wood (1987) subraya la importancia del problema del ajuste de los datos a los modelos de la TRI y señala, asimismo, que esta teoría tiende a producir 'ceguera' a la significación del mundo real, ya que conduce por sí misma a la matematización y trivialización de los problemas. Ahora bien, tampoco hay que perder de vista el gran avance que Supone la modelización del error en la TRI y la posibilidad de respuesta a problemas y aplicaciones psicométricas que introduce la independencia Contextual de los parámetros del modelo. El caso de la construcción de bancos de items como metodología de construcción de tests' es un ejemplo incontestable de la superioridad de la TRI sob~e}~ ~er: ~s difícil con.cebir los bancos de items sin la TRI pero también es dlÜctllmaglllar la TRI SIn los bancos de items. De hecho, el tandem TRI­ Bancos de items está realmente sustituyendo en el campo de la evaluación

198

MJ. Navas

psicológica y educativa al tandem clásico TCT-Tests estandarizados. Como señala Hambleton (1989b), 'los modelos de la TRI han demostrado ser muy útiles a los expertos en medida para resolver una variedad de problemas de medida. Pero la TRI no es una varita mágica con la que tocar un conjunto de datos para solventar la falta de adecuación en el diseño de un test o en los procedimientos de evaluación. Al contrario, los constructores del test deben centrar su atención en cuestiones de contenido del test, en la preparación de items técnicamente correctos y en otras prácticas de evaluación importantes. Entonces, cuando se encuentra que los datos del test se ajustan en un grado razonable a los modelos de la TRI y cuando se usan e interpretan correctamente los modelos y resultados asociados, los modelos de la TRI serán muy útiles para dar cuenta de un gran número de cuestiones técnicas que surgen en el desarrollo y uso de los tests' (p. 125). En cualquier caso, hay que convenir con Yen (1986) que lo que sí es importante e innegable es que la TRI 'ha sacado a relucir supuestos tradicionales de medida y convenciones que exigen un reexamen y que ponen de manifiesto que se necesita más investigación para definir los rasgos de rendimiento, para reevaluar los convenciones de medida, para examinar las propiedades de distintos métodos de escalamiento, para desarrollar criterios para juzgar la calidad de distintas escalas y asegurar la significación de las decisiones educativas, basadas en resultados de las escalas de medida' (p. ·

322).

.

ABSTRACT

The decade of the 1980s saw the basis of measurement practice begin to make the transition from c1asical test thcory to item response thcory (Baker, 1989). This work aims to think about the role playcd by these modcls in tbe field of psychological and cducational mcasurementFirst of all, we will briefly examine the history of both test theories and the way they cope with the basic mcasurement problem . Then, it will be discussed tbe similariúes and differences in such aspects as assumptions made by tbe models, tbe

Finally, it

will be considercd how these test tbcorics solve sorne measurement problems

assessment of measurement error, tbe parameters invariance, etc

as important as item and test

particulary criterion-referenccd tests, tailorcd tesl" and item banks. ­

bias , cquating scores and test construcúon,

KEY WORDS: Classical test theory, item response thcory, bias, equating, criterion-referenced tests, tailorcd tests, item banks.

Teoría de leSls

REFERENCIAS

199

Ackerrnan, T. (1993): Differenlial ilem funclioning as a funClion of lhe valid Sublesl space. Comunicación presentada en la 1993 European Meeting of the Psychometric Society, Barcelona Angoff W. H. (1972): A lechnique for Ihe invesligalion of cullural differences. Comunicación presentada en la reunión de la American Psycholigical Associaúon (APA), Honolulu. Angoff, W. H. (1982): Use of difficulty and discrimination índices for detecting item bias.

En R.

The Johns Hopkins University.

A. Berk CEd.), Handbook of melhods for delecling lesl bias. Baltimore, MD:

W. H. (1984): Scales, norms and equivalent scores. Princeton, NJ: Educatonial Testing Service.

Angoff, W. H. y Ford, S. F. (1973): ltem-mce interaction on a test of sholasúc aptitude. Joumal ofEduca/ional Measuremenl. 10. 95-106.

Angoff,

.

. Angoff, W. H y Sharon, A. L. (1974): The eva1ution of differences in test performance of two or more groups. Educalional and psychological Measuremenl, 34, 807-816. Baker, F. B. (1985): The basics ofilem response lheory. Portsmouth, NH: Heinemann . Baker, F. B. (1989): Computer tcchnology in test construction and processing. En R. L. Linn CEd.), Educational Measurement. New York: Macmillan. Bejar, 1. l.; Weiss. D. J. Y Kingsbury, G. (1977): Calibralion of an ilem pool for Ihe adaplive measuremen/ of achivement (Psychometric Metbods Program Research

N2.

Psychology.

Repon

Minneapolis:

University

of

Minnesota,

Department of

Bejar, 1. I Y Wingersky, M. S. (1982): Astudy of the pre-equating based on item response theory. Applied Psychological Measuremenl. 6. 309-325.

Binet, A. y Simon, T. H. (1908): Le devclopment de L'Année Psychologique,1J, 191-244.

Bock, R. D. Y Mislevy, R. J. (1981): An item response curve model for matrix-sampling

grade-Lhree assesmenl. New DireClions for Tesling and

nntelligence chez les enfants. .

data: The California

Measuremenl, 10,65-90. Bock, R. D. Y Mislevy, R. J. (1988): Comprehensive educational assessment for the States: The duplex designo Educalional Evalualion and Policy Analysis.lo, 89-105. Bock, R. D. YWood, R. (1971): Test theory. Annual Review of Psychology, 22, 193-224. Boekkooi-Timminga, E. y van der Linden, W. J. (1988): Algoritbms for automated test construction. En F. Maarse, L. Mulder, W. Sjoaw y A. Akkerman CEds.), Swets Compulers y Zeiúinger. in psychology: melhods. inslrumenlalion and psychodiagnoslic. Lisse:

Brown, B. (1982): Automaled test quiz produclion. Classron computer News, 2, 4, 33-35. Brown, J. M. Y Weiss, D. J. (1977): An adaplive lesling slralegy for aéhievemenl lesl

(Research Repon Nº. 77-6). Minneapolis: University of Minnesota,

balleries

Department of Psychology, Psychometrics MeLhods Programo

Brzezinski, E. J.

Y Hiscox, M. D. (1984): Microcomputers and testing . Educalional

Measuremenl: Issues and Praclice. 3, 4-34.

Bunderson, C. V:; Inouye, D. K. Y Olsell, J . B. (1989): The four generations of

computerized

Measurement. New York: MacMillan .

educational

measurernent.

En

R. L. Linn (Ed.), Educalional

Burke, N. W.; Kaufman, B. D. Y Webb, N. L. (1985): The

Wisconsin

Ílem bank:

Development.

Public Instruetion.

operalion and relaled issues. Madinson Wisconsin Departrnent of

200

M

l.

Navas

Camilli, G. (1979): A critique of lhe chi-square melhod of assessing item bias. Laboratory ofEducational Rescarch, Boulder, CO: University ofColorado. Cole, N. S. y Moss, P. A. (1989): Bias in tr.st use. En R. L. Linn (Ed.), Educalional Measuremenl. New York: MacMillan. Cook, L. L.; Dunbar, S. B. y Eignor, D. R. (1981): IRT Equaling: A flexible alternative lo conventional melhods for solving praclical lesling problems. Comunicación presentada en la reunión anual de la American Educational Research Association (AERA)¡National Council on Measurement in Education (NCME), Los Angeles. Cook, L. L. Y Eignor, D. R. (1983): Practical considerations regarding the use of item response theory to equate tests. En R. K. Hambleton, (Ed.), Applications of Ilem Response Theory. Vancouver, BC: Educational Research Institute of British Columbia. Cook, L. L. Y Eignor, D. R. (1989): Using ítem response theory in test score equating. lnlernalionalJournal of Educalional Research. 13,2, 161-173. Comish, G. y Wines, R. (1977): Malhemalics profile series. Hawthom, Victoria:

Australian Council for Educational Research. Choppin, K H. (1968)): An item bank using sample-free calibration. Nalure. 219, 870­

872.

Coppin, B. H. (1976): Recent developments in ítem banking. En D. N. M. de Gruijter y L. J. Th. van der Kamp (Eds.), Advances in Psychological and Educational Measuremenl. New York: Wiley. Choppin, B. H. (1978): llem banking and lhe monitoring of achievemenl research in progress series (N2 1). Slough, England: National Foundation for Educational Research. Choppin, B. H. (1981): Educational Measurement and the ítem bank model. En C. Lacey y D. Lawton (Eds.), lssues in evalualion and accounlability. London: Methuen. Divgi, D. R. (1985): A minium chi-square method for developing a common metric in IRT. Applied Psychological Measuremcnl, 9,4,413415. Douglas,1. B. (1980): Applyng lalenllrait lheory 10 a classron examinalion syslem: Model comparison and selection. Comunicación presentada en la reunión anual de la AREA, Boston.

Eisenberg, E. M. Y Book, C. L. (1980): Applyng lalenl lraÍl lheory 10 a course examination syslem: AdminiSlration, maintenance and lraining. Comunicación presentada en la reunión anual de la AREA, Boston. ElIiot, C. D. (1983): Brilish ability scales. Manuals 1-4. Windsor, England: NFER­ Nelson.

EmbrelSOn, S. (1985): Studying intelligence with test theory models.Current Topics in Human lnlelligence, 1,98-140. Epstein, M. G. (1974): Classificalion schemefor items in CAT. Comunicación presentada en la Computer Assisted Test Construction conference, San Diego (Ed 110505). Fischer, A. G. (1974): Einführung in die Theorie psychologischer Tesis. Bem: Huber. Foster, F. y Archer, G. (1977): The Rasc/¡ calibraled item bank: A new 1001 for

Schools, Oregon State

Department of Education. Foster, F. y Doherty, V. (1978): Using lhe Rasch approach 10 measuremenl lO solve praclical schoollesling problems. Comunicación presentada en la reunión anual de

la AREA, Toronto. Goldstein, H. (1987): Multilevel models in educational and social research. London: Oxford Univers"ity Press.

. compelency based evalualion . POrlland OR: Portland

Teoría de lesls

201

Goldstein, H. YWood, R. (1989): Five decades of item response modelling. British Journal of Malhemalical and Slalislical Psychology, 42, 139-167. Green, B. F. ; Bock, R. D. ; Humphreys, L. G. ; Linn, R. B. Y ReclcaSe, M. D. (1984):

Technical guidelines for assessing computerized adaptive tests. Journal 01 Educalional Measurement, 21,4,347-360. Green, B. F. Y Draper, J. F. (1972): ExploralOry sludies of bias in achievemenl leSls. Comunicación presentada en la reunión anual de la AREA, Honolulú.

. Gruijter, D. N. M. de y Hambleton, R. k. (1983): Using ítem response models in criterion­ referenced test ítem selection. En R. K. Hambleton (Ed.), Applicalions of ítem

.

Institute of British

. Guion, R. M. Y Ironsoo, G. H. (1983): latent trait theory for organizational research. Organizalional Behavior & Human Performance, 31,1,54-87. Gulliksen, H. (1961): Measurement of leaming and mental abilities. Psychomelrika. 26.

response lheory.

Columbia.

Vancouver,

BC:

Educational Research

93-107.

Gulliksen.

H. (1986): Perspective on edutational measuremenL Appied Psychological

Measurement. 10, 109-l32.

Haebara, T. (1980): Equating logistic ability scales by a weighted least squares method. Japanese Psychological Research, 22,144-149. Haksar, L. (1983): Dcsign and usage of an item bank. Programmed learning and educaJional

lechnology, 20, 253-262.

Hambleton, R. K. (1986): The changing cOllception of measurement: A commentary. Appied Psychological Measurement, 10,415421.

Hambleton, R. K. (1989a): Principies and ScIccted applications of item response theory. En R. L. Linn (Ed.), Educational Measuremenl. New York: MacMillan.

Hambleton, R.

K. (1989b): Applications of itcm response theory.lnlernalional Joumal of

Educalional Research, l3, 2,123-125

Hambleton, R. K. Y Gruijter, D. N. M. de (1983): Applications of item response models to criterion-referenced test ítem sclection. 10urnal of Educational Measurement, 20,4,

355-367.

.

.

Hambleton, R. K. Y Rogers, J. (1989a): Detccting potentially biased test items:

of IRT area and Mantel-Haenszel methods. Applied Measurement in 2.4, 3l3-334.

Hambleton, R.

Solving criterion-referenced measurement

Comparison

Educalion,

K. Y Rogers, J. (l989b):

problems l3,2, 145-160. with item response modelsJnternalional.lournal of Educalional Research,

Hambleton, R. K.; Rogers, J. y Arrasmith, D. (1986): ldentifying pOlenliaUy biased leSl ítems: Acomparision of lhe Manlel-Iiaenszel slalislic and several ítem response

lheory

Washington.

melhods. Comunicación presentada en la reunión anual de la APA,

Hamblelon, R. K. ; Rogers, J. y Arrasmith, D. (I988): Identifying pOlen/iaUy biased lest items: Acomparision of lhe Manlel-Iiaenszel slalislic and several ilem response

lheory melhods

(LabOflltory of Psychometric and Evalutive Research Report N2.

154). Amhersl: Universíty of MassachusctlS, School of Education.

Hambleton, R.

K. Y Swaminathan, H. (1985): Item Response Theory: Principies and

.

Applicalions. Boston: Kluwer-Nijhoff.

Hambleton, R. K. Y Swaminathan, H. Arrasmith. ; Gower, C. ; Rogers, J. y Zhou, A.

lO assess and enhance basic job skills

of (Au MassachussetlS. Force Research Repon N°. 2). Amherst, MA: School of Education, University

(1 ~86):Developmenl of an inlegraled syslem

202

MJ. Navas

Hambleton, R. K. Y Swaminathan, H. y Rogers, J. (1991): Fundamenlals 01 item response

lheory. Sage.

Hamb1eton, R. K. Y van der Linden, W. J. (1982): Advances in lRT and applications: An

introduction. Applied Psychological MeasuremenL, 6, 4, 373-378.

Hankins, J. A. (1990): Florida's vocational testing programo Journal 01 Employmenl

Counseling. 27, 3, 130-138. Harris, D. J. (1991): A comparision of Angoff's Design 1 and Ddesing 11 for vertical

equating using traditional and IRT

methofology. Journal

01 Educalional

Measuremenl. 28, 3, 221-235. Harris, D. J. Y Kolen, M. J. (1986): Effect of examinee group on equating relationships.

Applied Psychological Measuremenl, 10.35-43.

Harrison, D. A. (1986): Rohustness of lRT parameter estirnation to violations of the

unidimensionality assumption.

Journal 01 Educational Slaiislics. 11,2,91-115.

Hill, P. W. (1985): The TesIs 01 Reading Comprehension (TORCH).

Comunicación

presentada en la reunión anual de la IEA, Oxford.

Holmes, S. (1980): ESEA Tille 1 linking projecl: Final repon Salem, OR: Oregon

Dcparunent of Education.

. Holland, P. W. y Thayer, D. T. (1986): Differenlial item lunclioning and Ihe Manlel­

Haenszel procedJ,¡re (Tcchnical Report NQ. 86-89). Princeton, NJ: Educational Testing Service.

Holland, P. W. y Thayer, D. T. (1988): Differential ilem performance and Ihe Manlel­

Haenszel procedure. En H. Wainer y H. 1. Braun (Eds.), Tesl validily. Hillsdale, NJ:

Lawrence Earlbaun Associatcs, Inc

. Hoover, H. D. Y Kolen, M. J. (1984): The reliability oC six item bias indices. Applied

.

Psychological Measurement. 8, 173-181.

Hornke, L.F. (1981): Computeruntcrstütztes Testen (CUT) von PrüfungsangsL Zeitschrifl

lür Differenlielle und Diagnositsche PSJchologie, 2, 325-335.

Hornke, L. F. Y Habon, M.W. (1986): Rulcd-bascd item bank construction and evaluation

within the linear logistic framework. Applied psychological Measuremenl. 10,369­

380.

C. L.; Drasgow, F y Komocar, J. (1982): Applications of item response theory to

analysis of auitude scale translations. J(Jurnal 01 Applied Psychology, 67, 818-825.

Hulin,

Hunter, J.

E. (1975): A critical analysis 01 the use 01 item means and ilem-lesl co"elations

lo delermine Ihe presence or absence 01 contenl bias in achivemenl test ilems.

Comunicación presentada en la Nation:!l lnstitute of Education Conference on Test Bias, Annapolid, MD. lroson, G. H. Y Subkoviak, M. (1979): A comparision of several methods of assessing

item bias. Journal 01 Educalional Measuremenl, 16,209-225.

Jaeger, R. M. (1987): T~o decades of revolution in educational measurement? Educalional

Measurement: Issues and Praclice, 4, 6-14.

Johnson, E. G. (1989): Theoretical justification of the omnibus measure of differential item

En B. J. King. R. Bertrand y F. A. Dupuis, A world 01 differences. An

(Technical Report). relative efficiency and validity

Kent, T. H. Y Albanese, M. A. (1987): A comparision of the

functioning.

Inlernalional Assessment 01 Mathematics and Science

of tailored tesLS. and conventional quizzcs . Evalulion and la, 1,67-69.

lhe

Heallh 01 Prolessions.

Kiely, G. L.; Zara, A. R. YWeiss, D. J. (1983): Alternatelorms reliabilily and concurrenl validity 01 adaplive and conventionallesls with mililary recruils . Infonne presentado

al Navy Personnes Research and Devclopment Center, San Diego.

Kirn

Teoría de lesls

203

S. y Cohen, A. S. (1991): A comparision of two area measures for detecting

, differential item functioning. Applied Psychological Measuremenl, 15, 3,269-278.

Kingsbury, G. G. Y Weiss, D. J. (1979): An adaptive lesling stralegy lor maslery decisions

(Research Report N° 79-5). Minneapolis: University of Minnesota, Department of

Psych010gy, Psychometric Methods Programo

.

Kingsbury, G. G. Y Weiss, D. J

(1980): A compari.s~on 01

adaptive. sequential and

conventionaltesting strategles lor maslery declSlons (Research Report NO. 80-4).

Minneapolis: University of Minnesota, Department of Psychology, Psychometric Methods Program, Computerized Adaptive Testing Kingsbury, G. G. Y Weiss, D. J. (1981): A . validiry comparision 01 ad~ptive a?d

convenlional strategieslor mastery lestlng (Research Report 81-3) Minneapohs:

of Minnesota, J;>epartment of Psychology, Computerized Adaptive

Testing Laboratory. Kingsbury, G. G. Y Weiss, D. J. (1983): A comparision of IRT-hased adaptive mastery testing and a sequential mastery testing procedure. En D. J. Weiss (Ed.), New

University

horizons in testing: Latenttrait lesttheory and computerized adaptive testing. New

Yorlc Academic Press. Kingsbury, G. G. Y Zara, A. R. (1989): Proccdures for selecting items for tomputerized

adaptive tests. Appied Measurement in Education. 2. 4. 359.375.

Kingston, N. M.

construccion. Comurucación presentada en la reunión de la APA, Washington. Kolen, M. J. (1981): Comparison of traditional and IRT methods for equating tests. Journal

y Stoking, M. (1986): Psychometric

issues

in

IRT-based

test

01 Educational Measurement.18. 1.11.

Kolen, M. J. (1988): Traditional equating methodology. Educalional Measurement: Issues

and Practice, 7, 4, 29-36.

Kolen, M. J. Y Whitney, D. R. (1982): Comparision of four procedures for equating

the

. Test

of General Educational Development. JOUrnal 01 Edllcational Measuremenl, 19,

4,279-293.

Koslin, B.; Koslin, S.; Zeno, S. y Wainer, H. (I977): The validiiy and reliabiliry 01 the Degree Associates. 01 Reading Power Test. Elmsford NY: Touchstone Applied Sciences

Kunbinger, K. D. (1985): On a Rasch model based test lor noncomputerized adaptive

Comunicación presentada en la 13th IPN Conference on Latent Trait and

Latent Class Models in Educational Research, Kiel. Lawley, D. N. (1943): On problems connected with ítem selection and test construction.

testing.

Proceeding 01 the Royal Sociery olEdinburgh. 61,273-287.

Lawley,

.

D. N. (1944): The factorial analysis of multiple ítem tests. Proceeding 01 the

Royal Society 01 Edinburgh. 62-A, 74-82.

Lewis, C.

theory and

Psychometrika:

The

past twenty-five

years.

Lewis, C. Sheehan, K. (1990): Using bayesian decision theory lo design a computerized

masLCry tesL Applied Psychological Measurement.14. 4, 367-386.

Linn, R. L. Y Harnisch. D. L. (1981): Intcraction between item Content and group

membership 109-118. on achievement

test items. Journal 01 Educational Measurement. 18,

,

Linn, R. L. ; Levine. M. V. ; Hastings, C. N. y Wardrop, J. L. (1981): Item bias in a test

of reading comprehension.

Applied Psychological Measurement. 5. 159-173.

Lord, F. M. (1975): A su:vey 01 equating melhods based on item characteristic curve theory

(Research BulIeun N°. 75-13). Princeton, NJ: Educational Testing Service.

204

MJ. Navas

Lord, F. M. (1977): Practical applications of item charactenstic curve theory. Princeton,

NJ: Educational Testing Service.

.

Lord, F.M. (1980): Applications of item response theory to practical testing problems.

Hillsdale, NI: LEA. Lord, F. M. (1982): Standard error of an cquating by IRT. Applied

Measurement. Lord, F. M. Y Novick, M. R. (1968): Statisticaltheories of mental test scores. New York:

Psychological

Addison Wesley.

Lord, F. M. Y Wingersky, M. (1983): Comparision of IRT observed-score and true-score

-equatings- (Research BuIletin N°. 83-86). Princelon, NI: Educational Testing Service. Lumsden, I. (1976): Test theory. En M. R. Rosenzweig y L. W. Poner (Eds.), Annual Review of Psychdlogy. Palo Allo, CA: Annual Reviews Inc Marco, G. L.; Petersen, N. S. y Stewart, E. E. (1980): A lest of the adequacy of curvilinear score equating methods. En D. 1. Weiss (Ed.), Proceedings 01" the 1979

CompUlenzed AdaptiveTesling Conference. Minneapolis.

Marco, G. L.; Petersen, N. S. y Stewart, E. E. (1983): A test of the adequacy of curvilinear score equating modeIs. En D. I. Weiss (Ed.), New Honzons in Testing: LatentlTail

theory and computenzed adaptive testing. New York: Academic Press.

McBride, I. R. Y Martín, J. T. (1983): Reliabilily and validity of adaptive ability tests in a

military seLting. En D. I. Weiss (Ed.), New Horizons in Testing: LatentlTait theory and computerized adaptive testing. New York: Academic Press.

McDonald, R.P. (1986): A survey of sorne sludíes in methods for the structural anaIysis of multivariate data in Lhe social sciences.lnterchange, 17,2,25-40. McDonald, R.P. (1989): Future directions for item response theoryJnternacional Journal of

Educational Research. 13,2, 205-220.

MelIenbergh, G. I. (1972): ApplicabililY of the Rasch model in two cultures. En L. I. C. Cronbach y P. J. D. Drenth (Eds.), Mental tests and cultural adaption. The Hague:

Mouton. MelIenbergh, G. J. (1982): Conlingency tablc modcls for assessing item bias. Journal of

Educational Statistics. 7. 105-118.

MeIlenbergh, G. J. (1985): Vraag-onzuiverheid: definitie, delectie en onderzoek (ltem bias:

Definition, detcction and explanaLion) . Nederlands Tijdschrift Voor de Psychologie,

40,425-435.

MelIenbergh, G. J. (1989): Item bias and ilem response Lheory. International Journa1 of

Educational Research. 13,2, 127-143.

Mershon, D. H. (1982): An inexpensive system for producing examinations with minimal typing and proofreading. Teaching ofPsychology. 9,2,108-109.

Merz, W. R. y Grossen, N. E. (1979): An empirical invesligation of sixmelhods for

examining test item bias. Informe presentado al National Inslilute of Education, GraIl~NIE-6-78-0067, California State UniversilY; Sacramento_ Messick. ; Beaton, A . y Lord, F. M. (1983): A new designfor a new era. Princeton, NI:

Educational Testing Service.

Millman, J. y Arter, J. A. (1984): Issues in ilem banking. JournaJ of Educacional Research,

21,315-330.

.

MilIs, C. N. y Simon, R. (1981): A method for determinig the length of cnterion­ referenced tests using reliability and validity indices (Laboratory of Psychometric and

Evaluation Research Repon N°. Universily of Massachussets.

110). AmherSl. MA:

School of Education,

Teoría de tests

205

Mislevy, R. J. Y Bock, R. D. (1989): A hierarchical item response model for educational

testing.

En R. D. Bock (Ed.), Multilevd analysis of educational data. New York:

Academic Press. Moreno, K. E.; Wetzel, C. D.; McBride, J. R. Y Weiss, D. J. (1984): Relationship between corresponding Armed Services Vocational Apitude Bauery (ASVAB) and computerized adaptive testing (CAT) sublests. Applied Psychological Measurement, 8. 155-163.

Muñiz,

J. (1990): Teoría de respuesta a los Items: Un nuevo enfoque en la evoluci6n

psicol6gica y educativa.

Madrid: Pirámide.

Muñiz, J. (1992): Teoria clásica de los tesIS. Madrid: Pirámide.

Muñiz, J. y Hambleton, R.

K. (1992): Medio siglo de teoría de respuesta a los ilems.

Anuario de Psicol6gica. 52, 41-66.

Nitko, A. J. Y Hsu, T. C. (1984): A comprehensive microcomputer c1assroom testing

syslem.Journal ofEducational Measurement. 21,377-390_

O'Brien, M. L. Y Hampilos, 1. P. (1988): The feasibility of creating an item bank

from a

teacher-made test using

Measurement. 48, 201-212.

theRasch

mOdel. Educational

and

Psychological

. Olsen, J. B. (1990): Appying computerized adaptive testing in schools. Measurementand

Evaluation in Counseling and Development. 23, 1,31-38.

Oort, F. J. (1992): Using reslIicled faclor analysis lo dCClCCl item bias. Methodika. VI,

150-166.

Owen, R. J. (19.69): A bayesian appoach to tailored testing (Research Report 69-92) . Princeton NJ: Educational Tesling Servicc. Owen, R. J. (1975): A bayesian sequential proccdure for quantale response in the eontext of

356. adaptive mental testing . Journal of the American Statistical Association. 70, 351­

Osenne, D. G.; Gelder, N. C. van y Cohen, A. J. (1974): Emergency school aid act

(ESAA) national evaluation. achievement test standardization. Santa Monica,

. California: Systems Developmem COrporation.

Pandey, R. T. (1988): Application of multiple matrix sampling in large-scale assessment

programs. Comunicación presentada en el Symposium on Large-Scale Assessments in an Intemational Perspective, Deideshcim. Pandey, T. H. Y Carslon, D. (1983): Applicalion of item response modeIs to reporting

assessment data. In R. K. Hamblelon (Ed.), Applications of item response theory.

Vancouver, BC: Educational Rcscarch Institule of British Columbia.

Paúence, W. (1981): A comparision of latent lrail and equipercentile methods ofvertically .

Angeles. equaling tests. Comunicación presentada en la reunión anual del NCME, Los

Petersen, N. S. (1977): Bias inthe selection rule: Bias in the test.

Comunicación

of presentada Leyden, The en el NeLherlands. Third Internalional Symposium on Educational Testing, University

Petersen, N. S., Cook, L. L. Y Stocking, M. L. (1983) : IRT versus conventional equating

methods:

2,137-156.

A comparative Sludy of scale stability. Journal of Educational Statistics. 8,

Pollit, A. B. (.1979): Item banking issues in educatio/lal assessment. Edinburgh: Scottish

.

·Educatlon DepartmenL

Pollit, A. B. (1985): Ilem banking and school assessmenL En N. EntwhisUe (Ed.) New

Directions in Educational Psychology. Easl Susscx. England: The Falmer Press.

206

MI Navas

Popuyk, W. (1982): A model for an item bank in second language proficiency testing. Comunicación presentada en el 5lh Internalional Congress of Applied Linguisúcs, Montreal. Raju, N. S. (1988): The area betwccn two item characteristic curves. Psychometrika, 53,

495-502.

Raju, N. S. (1990): Deterrnining lhe significance of esúmated signed and unsigned areas between two item response functions. Applied Psychological Measurement, 14,2,

197-207.

Raju, N. S. ; Steinhaus, S. D. ; Edwards,l. E. Y Delessio, J. (1991): A 10gistic reg¡:ession modcl for personnel selecúon. Applied Psychological Measurement, 15,2, 139-152. Rentz, R. R. Y Bashaw, W. L. (1977): The Naúonal Reference Scale for Reading: An application of lhe Rasch model. JournalofEducaJional M easurement. 14, 161-179. Richardson, M. W. (1936): The relaúonship between difficulty ánd lhe differential validit)r of a test Psychometrika, 1, 33-49. Rodel, L. J. (1979): CAM~s coordinator manual. Hopkins Independent School District274, MN (ED 183580)

Rogers, J.

for use in item bias sludies. Educational and Psychological Measurement, 49, 355­

Y Hambleton, R. k. (1989): Evalualion of computer simulated baseline statistics

369.

Rubin, A. y Babbie, E. (1989): Research methods for social work. Belmont, CA:

Wadswonh. Rudner, 1. M. (1977): Weakly paralell tests in lalent trail lheory wilh sorne criúcims of CIT. Psychometrika, 42, 2,193-198. Scheuneman, J. (1979): A melhod of assessing bias in tesl items. Journal of Educational

Measurement,16.3,143·152.

Shearp. L. A.; .Camilli, G. Y Averill, M. (1981): Comparision of procedures for detecting

test item bias wilh bolh inlernal and external ability crileria. Journal of Educational Statistics, 6,317-375. Shearp, L. A.; Camilli, G. y Williams, D. M. (1984): Accounting for statisticaI artifacts in item bias research. Joumal of Educational Statistics, 9, 93-128. Shearp, L. A.; Camilli, G. y Williams, D. M. (1985): Validity of approximation techniques for detecling ilem bias. Journal of Educational Measurement, 22,2,77­

105.

Sirotnik. K. (1974): Introduclion lO matrix sampling for lhe practilioner. En w. J. Popham (Ed). Evaluation in Education: Current Applications. Berkeley; CA: McCutchen Publishing Corporation. Sirotnik, K. y Wellinglon, R. (1977): Indidence sampling: An integrated lheory for 'matrix sampling'. Journal of Educational Measurement,14. 4,343-399. Skaggs, G. y Lissitz, R.W. (1986a): IRT tesl equaúng: Relevant issues and a review of recent research. Review of Educational Research, 56, 495-529. Skaggs, G. y Lissitz, R.W. (1986b): An exploration of lhe robustness of four test equaúng models. Applied Psychological Measurement. 10, 303-317. Skaggs, G. y Lissitz, R.W. (1986c): The effecl of examinee ability on tesl equating invariance. Comunicación presentada en la reunión anual de la AREA, San Francisco.

Skaggs. G. y Lissitz,.R.W. (1988): Effect of 0xamine ability on test equating invariance. Applied Psychological Measurement. 12, 1,69-82. Smilh, I. L. (1985): Content validity study of the AASPB item bank. New York:

Professional Examination Service, Division ofRcarch and Development.

Teoría de tests

W7

Snow. R.

E.

educational

York: Macmillan.

Y Lohman, D. F.

Implications of cognitive psychology for

measuremenL En R. L. Linn (Ed.), Educational Measurement. New

(1989):

Spearman,

C. (1904): The proof and measurement of association belween two lhings.

American Journal of Psychology, 15, 72-101.

Spearman,

C. (1907): Demostration of formulae for true measurement of correlation.

American Journal ofPsychology, 18, 161-169.

Spearrnan, C.

(1913): CorrelaLions of sums and differences. British Journal of Psychology,

Speannan,

England: Mcmillan and Company. Ltd Spearman, C. (1927): The abilities of man oNew York: Mcmillan.

Stoking, M. y Lord,

C. (1923): Tlze nature of intelligence and the principies of cognition. London,

F. M. (1983): Developing a common metric in IRT. Applied

. Psychological Measurement, 7, 2,201-210.

Swaminalhan, H. y Rogers. J. (1990): Detecúng differential item funcúoning using Iogistic regression procedures. Journal of Educational Measurement. 27, 4,361-370. Sympson, J. B. ; Weiss, D. J. Y Ree, M. J. (1982): Predictive validity of conventional ami adaptive tests in an Air Force training environment (AFHRL TR 8140). Brooks Air

Laboratory. Force TX: Manpower and Personnel

Division, Air . Force Human Resources

Theunissen. T. J. J. M. (1985): Binary programming and test designo Psychometrika, 50,

411420.

Theunissen, T. J. J . M. (1986): Sorne applications of opLimization algorithms in test design and adaptive testing. Applied Psychological Measurement,lO, 333-344. Theunissen, T. J. J. M. Y Verstralen, H. H. F. M. (1986): Algoritem voor het sarnenstellen van tOCsLsen. En W. J. van der Linden (Ed. ), Moderne methoden Voor toetsgebruik en constructie. Lisse, The Netherlands: University of Twente.

Wainer (Ed.),

CompUlerized Adaptive Testing. A Primer. Hillsdale, NJ: LEA. Tognolini, J. (1982): Pupil achievemem in stage 6 mathematics (Discussion paper N2. 15). Perth: Education DepartJnent of Weslern Australia.

Traub. R. E. YWolfe, R. G. (1981): Latent trait theories and lhe assessment of educaúonal achievcment Review of Research in Education, 9, 377435.

Tucker, L. R. (1946): Maxium validity of a test with equivalent items. Psychomem'ka, 11,

Thissen,

D.

y

Mislevy. R.

J.

(1990):

Tcsting

algorithms.

En

H.

1-13.

'

van der Flier, H. ; Mellenbergh, G. J. ; Ader, H. J. Y Wijn, M. (1984); An iteraúve item . bias detection method. fournal ofEducational Measurement. 21. 131-145. van der Linden, W. J. (1986): The changing conception of measurement in educaúon and

PSychology. Applied PSYChological Measurement, 10,4,325-332.

van der ~inden,Y1. J. YBoc~ooi-Timminga,E. (1989): A maximun model for test design wlth practlcal constra.mts. Psychometrika, 54,237-247. van der Linden, W. J. y Eggent, T. J. H. M. (1986): An empirical bayesian approach to item banking. Applied Psychological Measurement, 10,345-354.

van der Li~den.W. J. '! Zwarts, M. A. (1989) : Sorne procedures for computerized ability testlng./mernatlOnal Journal of Educational Research. 13, 2, 175-187.

van Thiel, C. C. y Zwarts,

M. A. (1986): Development of a testing service system.

Hillsdale, NJ: LEA.

Applied Psychological Measurement, 10, 391404. . Wainer, H. (1990): Computerized adaptive testing: A primer.

.

Warm, T. A. (1978): A primer.of IRT. U. S. Coa,t Guard lnsutute Oklahoma City.

208

MI Navas

Weiss, D. J. (1982): Improving measurement quality and efficiency with adapLive tesLing. Applied Psychological Measurcment. 6,4,473-492. Weiss, D. J. (1983): New horizons in testing. New York: Academic Press.

Weiss, D. J. (1985): AdapLive testing by

Psychology, 53, 774-789. Weiss, D. J. Y Davinson, M. L. (1981): Test Theory and methods. Annual Review of Psychology, 32,629-658. Weiss, D. 1. Y Vale, C. D. (1987): Adaptive tesLing. Applied Psychology: An lnternational Review, 36, 3/4,249-262.

Wilson-Burt, C; FitzmanLin, R. D. Y Skaggs, G. (1986): Baseline strategies in evaluating IRT item bias indices. Comunicación presentada en la reunión anual de la AREA,

computer.

.

.lournal of Consulting and Clinical

San Francisco.

.

Willingham, W.W. (1980): New melhods and direcLions in achivement measuremenL New Directionsfor Testing and Measurement, 5,73-80. Wongbundhit, Y. (1985). ltem banking procedure and quality control in Dade County public schools. Comunicación presentada en la reuninón anual de la AERA, Chicago. Wood, R. (1987). Measurement and assessment in education and psychology. Philadelphia, PA: Falmer Press. Wood, R. y Skurnik, L.S. (1969): ltcm banking. London: NaLional Foundation for EducationaI Research. Wright, B.D. (1968): Sample-frec test calibration and person measuremenL Proceedings of lhe 1967 Invitational Conference on Tr.sting Problems. Princeton, NJ: EducaLionaI Testing Service. Wright, B.D. y Bell, S.R. (1984).ltem banks: What, why and how. Journal of Educational Measurement, 21, 4,331-346. Wright, B.D. , Mead, R. y Draba, R. (1976): Detecting and correcting item bias with a logistic response model (Rcsearch Memorandum No. 22). Chicago: University of Chicago, Statistical Lab., Departrnent of Education. Yen, W.M. (1983): Tau equivalence and equipcrcentile equating. Psychometrika, 48, 353­

369.

Yen, W.M. (1986): The choice of scales for educational measurement: An IRT perspective. Journal of Educational Measurcment, 23,299-325. Yoes, M.E. (1990): A comparison of microcomputer-based item parameter estimation procedures used with the 3-parametcr lRT model. Comunicación presentada en la reunión anual del NCME, Boston.

(Revisión aceptada: 18/11193)

the 3-parametcr lRT model. Comunicación presentada en la reunión anual del NCME, Boston. (Revisión aceptada: 18/11193)