Está en la página 1de 11

Revista Argentina de Clnica Psicolgica

ISSN: 0327-6716
racp@aigle.org.ar
Fundacin Aigl
Argentina

Attorresi, Horacio Flix; Lozzia, Gabriela Susana; Abal, Facundo Juan Pablo; Galibert, Mara Silvia;
Aguerri, Mara Ester
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos
psicolgicos
Revista Argentina de Clnica Psicolgica, vol. XVIII, nm. 2, agosto, 2009, pp. 179-188
Fundacin Aigl
Buenos Aires, Argentina

Disponible en: http://www.redalyc.org/articulo.oa?id=281921792007

Cmo citar el artculo


Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. 179

Teora de Respuesta al tem


Conceptos bsicos y aplicaciones para
la medicin de constructos psicolgicos
Horacio Flix Attorresi,
Gabriela Susana Lozzia,
Facundo Juan Pablo Abal,
Mara Silvia Galibert
y Mara Ester Aguerri*

Resumen

El objetivo de este trabajo es introducir al lector en las nociones bsicas de la Teora de Res-
puesta al tem (TRI). La Primera Parte describe las limitaciones de la perspectiva clsica y define
los conceptos fundamentales de la TRI: Curva Caracterstica, Parmetros, Funcin de Informacin,
Estimacin y Ajuste de los modelos. La Segunda Parte revisa desarrollos aplicados efectuados a
partir de los nuevos avances de esta teora. Se trata el anlisis del funcionamiento diferencial de
los tems y la construccin de bancos de tems y tests adaptativos informatizados. Se reconoce la
necesidad de una formacin ms slida sobre la TRI en los especialistas en Evaluacin Psicolgica
de Argentina.

Palabras clave: teora de Respuesta al tem, psicometra, modelos psicomtricos.


Key words: item response theory, psychometrics, psychometric models.

Los tests son procedimientos de recoleccin dominio o rasgo psicolgico que se pretende medir
de informacin sobre un individuo o grupo utiliza- y; c) el error de medida que conlleva todo proceso
dos habitualmente en Evaluacin Psicolgica. La de medicin.
construccin de los mismos se basa en modelos Desde su primera formulacin (Spearman, 1904),
psicomtricos que permiten evaluar la calidad de la la Teora Clsica de los Tests (TCT) ha servido como
medida y dar garantas de la misma. En el campo de modelo para dar una interpretacin a los puntajes de
la Psicometra, la Teora de los Tests constituye el las personas en los tests. A pesar de su expansin y
marco de referencia terico y metodolgico que rene vigencia, la literatura sobre Teora de los Tests de
los modelos que subyacen a la elaboracin y uso de los ltimos cuarenta aos ha registrado un desplaza-
tests (Muiz, 1997). miento gradual hacia teoras y tcnicas de medicin
Los modelos que componen la Teora de los Tests psicolgica superadoras de la perspectiva clsica.
formalizan las interrelaciones de tres componentes Aunque se han propuesto numerosos modelos a lo
que intervienen en la medicin mediante tests: a) largo de la historia de la Psicometra, la Teora de
la puntuacin observada tras la administracin del Respuesta al tem (TRI) es el desarrollo ms recono-
test (el puntaje total en un test o la respuesta de un cido (Hambleton & Swaminathan, 1985; Lord, 1980;
individuo a un tem), b) un valor inobservable del Martnez-Arias, 1995; Muiz, 1997).
Quizs es conveniente resaltar la idea de que
* Horacio Flix Attorresi, Gabriela Susana Lozzia, Facundo Juan tanto la TCT como la TRI persiguen el mismo objetivo:
Pablo Abal, Mara Silvia Galibert y Mara Ester Aguerri. estimar el error que se comete al intentar medir un
Instituto de Investigaciones de la Facultad de Psicologa, UBA.
Rivera Indarte 132, 1A, (1406), Ciudad Autnoma de Buenos Aires. fenmeno psicolgico especfico. Son construcciones
E-Mail: hattorre@psi.uba.ar tericas (con menor o mayor grado de complejidad
REVISTA ARGENTINA DE CLNICA PSICOLGICA XVIII p.p. 179-188
2009 Fundacin AIGL. y profundidad) respecto de un mismo hecho. Ambas
180 Horacio Flix Attorresi, Gabriela Susana Lozzia, Facundo Juan Pablo Abal, Mara Silvia Galibert y Mara Ester Aguerri

teoras plantean un modelo y un conjunto de supues- puntuaciones obtenidas no son estrictamente equi-
tos, que si se cumplen, garantizan la precisin de la parables, dado que no se encuentran en la misma
medida. Tambin cabe destacar que la coexistencia escala.
de ambas teoras no implica su incompatibilidad. 2) Las propiedades de los tems y del test estn
Lejos de competir, estos modelos se complementan determinadas por las caractersticas de los examina-
en la prctica psicomtrica para realizar un anlisis dos. Esto implica que aquello que se est midiendo
ms profundo y exhaustivo de la calidad y/o del afecta al instrumento utilizado para medir. Sera como
funcionamiento del test. pensar que un kilo de acero puede pesar distinto a
El objetivo de este trabajo es definir brevemente un kilo de plumas.
los conceptos bsicos de la TRI para introducir en Estas limitaciones de la TCT fomentaron la apari-
las caractersticas ms importantes de este enfoque cin de nuevas teoras de medicin psicolgica. En la
psicomtrico. Por este motivo, se han pensado dos dcada del 60, surgieron los primeros desarrollos de
partes para organizar este texto. La Primera Parte la TRI, un enfoque emergente del campo educativo
recorre a nivel terico las nociones fundamentales de que se propuso profundizar el estudio de las propie-
la TRI. La Segunda Parte revisa un conjunto de desa- dades psicomtricas de los tems y de los tests.
rrollos efectuados a partir de los nuevos avances de
esta teora y, al mismo tiempo, muestra ejemplos para Teora de Respuesta al tem
que el lector interesado conozca el alcance potencial
de estas aplicaciones. La denominacin TRI agrupa lneas de investi-
gacin psicomtricas independientes iniciadas por
Desarrollo Rasch (1960) y Birnbaum (1968). El factor comn de
estos desarrollos es que establecen una relacin
entre el comportamiento de un sujeto frente a un
Primera parte. Conceptos elementales para
tem y el rasgo responsable de esta conducta (rasgo
comprender la TRI.
latente). Para ello, recurren a funciones matemticas
que describen la probabilidad de dar una determi-
Teora Clsica de Tests. Generalidades y limita-
nada respuesta al tem para cada nivel del rasgo
ciones.
medido por este.
La TCT surgi del modelo lineal de puntuaciones El objetivo sustancial de la TRI es la construccin
formulado por Spearman (1904) y alcanz su forma- de instrumentos de medicin con propiedades invari-
lizacin ms precisa en la obra de Novick (1966). Su antes entre poblaciones. Si dos individuos presentan
formulacin matemtica es bastante simple y supone idntico nivel de rasgo medido ambos tendrn igual
que el puntaje observado de un sujeto en un test es probabilidad de dar la misma respuesta, independien-
el resultado de la suma del valor real (puntaje verda- temente de la poblacin de pertenencia. Esto conlleva
dero) y el error de medicin. un gran beneficio respecto de la TCT en tanto que es
posible evitar el uso de un grupo normativo.
La propuesta de Spearman se asemeja a la forma
de medir en las ciencias duras. Si se realizan mltiples Mientras que en la TCT se modeliza sobre el
mediciones de una longitud, la mejor estimacin de puntaje verdadero en una prueba particular, en la
la longitud verdadera resultar del promedio de TRI se toma al tem como unidad de anlisis y se
todas las observaciones efectuadas. Si cada una de modeliza directamente sobre el rasgo latente. El nivel
las mediciones que se ejecutan son independientes y de rasgo latente que presenta un individuo es fruto
el error de medida en cada una de ellas es aleatorio, de una estimacin a partir del patrn de respuestas
el promedio de ste tender a cero (dado que las manifestado en un conjunto de tems. Si se vara el
observaciones que subestimaron a la puntuacin conjunto de tems utilizado se mantiene la puntuacin
verdadera se cancelaran con aqullas que la sobre- estimada aunque eventualmente hayan cambiado las
estimaron). De esta forma, tras infinitas mediciones, propiedades psicomtricas de los reactivos. Por lo
el promedio de las puntuaciones empricas obtenidas tanto, la TRI permite mediciones invariantes ms all
podra considerarse igual a la verdadera. de los tems que componen el instrumento.
Pero las crticas al modelo y sus supuestos sur- Hambleton y Swaminathan (1985) tambin resca-
gieron tempranamente (Thurstone, 1928): tan la importancia de las medidas locales de precisin
que proporciona la TRI. Desde la TCT se indica la fia-
1) El resultado obtenido al medir una variable es
bilidad como un valor global y constante para todos
inseparable del test usado, lo cual sera como pensar
los niveles del rasgo. Sin embargo, se sabe que los
que el peso de un objeto depende de la balanza que
tests suelen ser ms precisos para discriminar en un
se utilice. Si se mide una variable psicolgica con dos
determinado rango de la variable y menos en otros.
tests diferentes (que miden el mismo constructo) las
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. 181

La TRI provee informacin respecto del grado de mayor de rasgo en el individuo. El grfico de dicha
exactitud con que se mide la variable en funcin de funcin matemtica se denomina Curva Caracterstica
sus diferentes niveles. Estas medidas de precisin del tem (CCI).
locales se hacen operativas mediante las Funciones Si se supone que el rasgo medido es una habili-
de Informacin de los tems y del Test desarrolladas dad, de un modo intuitivo se podra conjeturar que
por Birnbaum (1968). cuanto ms hbil es la persona mayor probabilidad
Todas estas caractersticas bsicas de la TRI son tendr de contestar correctamente el tem que mide
las que ayudan a encontrar respuestas a los prin- esa habilidad. De igual manera podra entenderse
cipales inconvenientes observados en la TCT. Pero la respuesta a un tem dicotmico de un test de per-
obtener estas garantas de precisin en la medicin sonalidad. Por ejemplo, cuanto ms alto sea el nivel
de un constructo no es una tarea simple para el in- de Extraversin de un individuo, mayor probabilidad
vestigador. La fuerza de esta teora se sostiene en un tendr de dar una respuesta afirmativa al tem Soy
conjunto de supuestos exigentes a los que la mayora una persona conversadora. Esta descripcin racional
de los datos empricos difcilmente se acomodan, y de la respuesta a un tem ayuda a entender que la
que por ende, condicionan su aplicabilidad. Los si- curva de la CCI deber ser siempre creciente.
guientes apartados describen los conceptos tericos Dentro de la TRI existen distintas familias de mo-
elementales necesarios para comprender la TRI. delos matemticos probabilsticos que cumplen con
este requisito de monotona creciente, pero slo dos
Curva Caracterstica del tem y sus parmetros. fueron empleados con mayor frecuencia como base
En el marco de la TRI se postula la existencia de para la CCI: las funciones de distribucin de probabi-
una relacin directa entre el comportamiento de un lidad normal acumulada y la logstica. Ambas curvas
individuo frente a un tem y el rasgo que genera esta adoptan una forma de S suavizada con un punto
conducta. La formalizacin de esta relacin adopta de inflexin en el que tienen su mxima pendiente.
la forma de una funcin matemtica que vincula Presentan dos asntotas horizontales (superior a
la probabilidad de dar una determinada respuesta derecha e inferior a izquierda). La superior corta al
(opcin-clave o respuesta clave) a un tem con cada eje vertical en el valor de mxima probabilidad (i.e.
nivel del rasgo latente. En los tems de habilidades la igual a 1) mientras que la inferior lo corta en un valor
clave es la respuesta correcta y en los de personalidad comprendido entre 0 y 1 (ver Figura 1).
es aqulla opcin que indica la presencia de un nivel

Figura 1. Curva Caracterstica de un tem con parmetros a = 1, b = 0 y c =0

0.9

0.8

0.7

0.6
Probabilidad

0.5

0.4

0.3

0.2

0.1

0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel de Rasgo ( )
182 Horacio Flix Attorresi, Gabriela Susana Lozzia, Facundo Juan Pablo Abal, Mara Silvia Galibert y Mara Ester Aguerri

Adems del tipo de funcin adoptada (normal o las opciones del reactivo. Los tres parmetros de la
logstica), la CCI de cada tem queda determinada CCI mencionados arriba se corresponden con los
cuando se especifican los parmetros que describen definidos en la primera generacin de modelos de la
al reactivo. Estos parmetros se refieren a la localiza- TRI, los cuales son unidimensionales y suponen que
cin del tem en la escala del rasgo medido (b), a su la respuesta al tem slo admite dos opciones. Estos
potencia discriminatoria (a) y la probabilidad de dar modelos dicotmicos se utilizan tanto para tems que
la respuesta clave para un nivel muy bajo de rasgo evalan rendimiento o habilidad (correcto incorrec-
(c). Por lo tanto, cada tem tendr una CCI propia to) o rasgos de personalidad (Acuerdo Desacuerdo
segn los valores que adopten estas propiedades / Si No).
psicomtricas. De la combinacin del tipo de funcin matemtica
Supuestos. La aplicacin de los modelos se asien- adoptada para la CCI (logstica o normal) y el nmero
ta sobre conjunto de hiptesis que deben suponerse de parmetros considerados (uno, dos o tres) es
de partida. Asumir que la conducta de una persona posible definir seis modelos diferentes. Si un tem
ante un tem sigue un modelo probabilstico con una es modelizado con el Modelo de Rasch, la CCI slo
forma determinada (CCI) es en s mismo un supuesto se describe a partir del parmetro b y considera que
de la TRI. el parmetro a es constante y el c es nulo para todos
La cantidad de rasgos latentes que intervienen los tems. El Modelo de Dos Parmetros (ML2p) con-
al momento de contestar a un tem establece una templa, adems del b, el parmetro a, mientras que
importante distincin clasificatoria de los modelos. el c sigue considerndose nulo. Por ltimo, el Modelo
Si se supone que la respuesta al tem est en funcin de Tres Parmetros (ML3p) utiliza los parmetros b,
de un nico rasgo los modelos son denominados a e incorpora el parmetro c. A modo de ejemplo, a
unidimensionales. En la prctica es difcil que este continuacin se desarrollarn las particularidades del
supuesto de unidimensionalidad del rasgo latente se ML3p. Su formulacin es la siguiente:
satisfaga totalmente ya que mltiples factores pue- El smbolo corresponde al nivel del rasgo latente
den afectar a la respuesta a un tem. Por este motivo, que se desea medir con el tem i y Pi() es la probabi-
para los modelos unidimensionales slo se exige un lidad de dar la respuesta clave al tem i para un nivel
rasgo fundamental (factor dominante) que explique dado de . Para el lector acostumbrado a trabajar
las respuestas de los sujetos. As tambin, para situa- con la TCT es importante aclarar que no se debe
ciones en las que se contempla la incidencia de dos o confundir el nivel con el puntaje total (observado)
ms rasgos afectando en la respuesta al tem se han de una persona en un test. es el equivalente de la
generado modelos multidimensionales. No obstante, puntuacin verdadera de la TCT. Esto significa que la
estos desarrollos son relativamente incipientes y su puntuacin total de una persona en un test (puntaje
puesta en prctica est resultando verdaderamente bruto) es una estimacin de , de la misma manera
compleja para los investigadores. que lo es de la puntuacin verdadera en el marco de
Otro supuesto de los modelos de la TRI es la inde- la TCT. La escala adoptada para medir tiene un rango
pendencia local de los tems. Este requisito supone terico de - a + y su origen est determinado por
que conocido el nivel de un sujeto, las respuestas consenso segn la escala estandarizada, con media
a cualquier subconjunto de tems no agregan ningu- 0 y desvo tpico 1.
na informacin para el clculo de probabilidad de bi es el ndice de dificultad o parmetro de loca-
respuesta a un tem en particular. Es decir, que las lizacin del tem i. Coincide con el valor necesario
respuestas a distintos tems son estadsticamente para tener probabilidad 0,5 + ci / 2 de contestar la res-
independientes. La unidimensionalidad del rasgo puesta clave al tem i. Un tem tendr mayor b que otro
latente y la independencia local de los tems son las si se requiere de un mayor nivel de rasgo para tener
dos caras de un mismo requerimiento. Esto es, si se la misma probabilidad de seleccionar la opcin-clave.
confirma que dos tems no son independientes sig- Al igual que el parmetro , puede oscilar entre - y
nifica que otro factor ajeno al que se pretende medir + aunque, en la prctica, sus valores generalmente
incide en la estimacin del nivel del rasgo violando estn dentro del intervalo (-4, 4). En el contexto de
el supuesto de unidimensionalidad (Lord & Novick, la medicin de la personalidad se describe como el
1968). punto de transicin (en la escala del rasgo) entre la
Modelos.La respuesta de una persona a los tems probabilidad de tomar al enunciado del tem como no
obedece, por un lado, a la cantidad del rasgo que descriptivo del evaluado y la de considerarlo como
tiene dicha persona y, por otra parte, a las caracte- descriptivo (Richaud, 2005).
rsticas propias del tem que est contestando. Por ai es el ndice de discriminacin del tem i. Indica
ende, todos los modelos de la TRI vinculan el nivel del en qu medida el tem diferencia a los examinados
rasgo del evaluado con las propiedades psicomtricas con un nivel en el rasgo por encima o por debajo del
que describen al tem y la probabilidad de optar entre parmetro de localizacin. Se vincula con la pen-
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. 183

diente de la CCI, cuanto ms empinada sea la curva, observa que es necesario un nivel de Depresin ()
mayor ser el valor del parmetro a e indicar una ms bajo para responder afirmativamente al tem 146
mejor discriminacin del tem. El valor del parmetro que al tem 170 (b146 < b170), lo cual coincide con lo es-
a es siempre positivo. La capacidad discriminatoria perable clnicamente segn los indicadores. Respecto
se da para los valores de que estn en torno al pa- del ndice a, el tem 170 discrimina mejor que el tem
rmetro b; lo cual tendr importantes consecuencias 146. Esto puede observarse en que la pendiente del
en la construccin de tests, pues segn la zona de primero es ms empinada que la del segundo (a170
que sea de inters discriminar, se elegirn unos > a146). Esto significa que llorar con facilidad no es
tems u otros. tan buen indicador de Depresin como tener miedo
ci es el valor de la asntota a izquierda, es decir de enloquecer. Pero hay que recordar que la capa-
cuando tiende a -. En tems que miden habilidades cidad discriminatoria se da para los valores de que
refleja la probabilidad que tienen los individuos con estn en torno al parmetro b; por tanto la adecuada
muy bajo nivel de rasgo de responder correctamente. interpretacin sera que el tem 146 tiene su mayor
En tests de personalidad, algunos autores lo han poder discriminativo y este es de magnitud moderada
interpretado como un indicador de la incidencia de en torno a los niveles de Depresin intermedios (b146 =
la deseabilidad social (e.g. Rouse, Finger & Butcher, 0,19); mientras que el tem 170 tiene su mayor poder
1999) pero los resultados son bastante acotados discriminativo y este es de magnitud alta en torno a
como para generalizar dicha interpretacin. los valores de Depresin ms elevados (b170 = 2.2).
Cada tem aporta informacin en diferentes niveles
D es una constante de escalamiento. Cuando se
de la escala de Depresin.
adopta el valor 1.7 la funcin logstica tiene una buena
aproximacin a la normal acumulada. La limitacin que presentan los modelos de la pri-
mera generacin es la dificultad de dar un tratamiento
En la Figura 2 se observan las curvas caractersti-
satisfactorio a tems puntuados politmicamente. Al
cas de dos tems de la escala Depresin del MMPI-2
respecto, una nueva generacin de modelos de la
graficadas a partir de los resultados publicados por
TRI ha hecho importantes contribuciones (Ostini &
Childs, Dahlstrom, Kemp y Panter (2000). Estos au-
Nering, 2005). Los modelos politmicos de la TRI son
tores aplicaron el ML2p, que utiliza los parmetros b
tiles para el anlisis de tems con respuesta nominal
y a para describir la CCI y supone nulo el parmetro
(examen multiple choice) u ordinal (como las escalas
c. Los parmetros del tem 146 (Lloro con facilidad)
tipo Likert). Si bien el desarrollo de los modelos po-
estimados para las mujeres son: a146 = 0.66 y b146
litmicos excede los objetivos de esta introduccin
= 0.19; mientras que los parmetros del tem 170
es importante destacar que no implican un nivel de
(Tengo miedo de estar perdiendo la razn) son: a170
complejidad mucho mayor al de los modelos dicot-
= 1.21 y b170 = 2.2. En relacin con el parmetro b se

Figura 2. Comparacin de la Curvas Caractersticas de dos tems

0.9

0.8

0.7

0.6
Probabilidad

tem 146
0.5
tem 170
0.4

0.3

0.2

0.1

0
-5 -4 -3 -2 -1 0 1 2 3 4 5
184 Horacio Flix Attorresi, Gabriela Susana Lozzia, Facundo Juan Pablo Abal, Mara Silvia Galibert y Mara Ester Aguerri

micos. Los modelos politmicos no son ms que una FI, a mayor valor de la misma, menor valor del error
extensin de algunos modelos de la primera genera- que se comete. Si un reactivo no es preciso para medir
cin. Por ejemplo, el Modelo de Respuesta Graduada un nivel del rasgo es porque esa medida incluye un
de Samejima (1969) constituye una generalizacin del error demasiado elevado. La FI tiene una formulacin
ML2p a tems de respuesta politmica ordenada. La bastante compleja que difcilmente podra explicarse
clave de esta extensin reside en dividir conceptual- en pocas palabras. Por esto se ha preferido resaltar
mente la respuesta mltiple (nominal u ordenada) en su utilidad en el plano conceptual. Para un desarro-
una serie de variables dicotmicas. llo ms extenso pueden consultarse Muiz (1997) y
Estimacin y Ajuste del modelo. A partir de los Martnez-Arias (1995).
patrones de respuestas observados en la muestra, La FI constituye un valioso instrumento para el
en la TRI se estiman los parmetros de cada tem y anlisis de los tems ya que indica para qu valor
el valor del rasgo para cada sujeto. La estimacin de aporta ms informacin el reactivo y cul es la
puede efectuarse siguiendo diversas estrategias y magnitud de la informacin aportada para dicho valor
aplicando distintos mtodos. El mtodo de estima- de . Si el rasgo que se est midiendo es una habi-
cin ms frecuentemente utilizado es el de Mxima lidad, la FI de un tem difcil ser mayor para niveles
Verosimilitud que consiste en asignar a y a los de habilidad altos y menor para niveles bajos; o sea
parmetros el valor que hace mxima la probabilidad que tal tem ser ms til para medir a los individuos
de los datos observados. La nocin que subyace ms hbiles que para los menos hbiles. La FI es para
a este procedimiento es anloga a la de un clnico la TRI lo que el concepto de confiabilidad es para la
que, tras indagar los sntomas durante la anamnesis, TCT; slo que en la TRI un tem no ser ms o menos
propone el diagnstico que considera ms probable confiable en trminos absolutos sino para determi-
en funcin de la sintomatologa presente (Martnez- nados niveles de la escala.
Arias, 1995). Lo expresado en relacin a un tem tambin puede
Una vez realizada la estimacin se requiere de ser aplicado al test. La FI de un test se define como
una prueba de bondad de ajuste que permita evaluar la suma de las funciones de informacin de los tems
hasta qu punto el modelo alcanzado representa bien que lo componen. Por ejemplo, Childs et al. (2000)
a los datos observados. La evaluacin del ajuste se encontraron que los tems de la escala Depresin del
basa en anlisis de la discrepancia entre las CCIs te- MMPI-2 arrojaban mayor informacin en los niveles
ricas (dadas por el modelo) y las CCIs empricas. Estas relativamente altos de rasgo, este resultado es con-
ltimas se construyen distribuyendo a los individuos sistente con el propsito clnico que tiene el test.
en submuestras en funcin de su nivel de habilidad Puntuacin del individuo evaluado. El fin ltimo
estimado y calculando las frecuencias de acierto de la administracin de un test es asignar al evalua-
observadas en los distintos intervalos del rasgo. Si do una puntuacin que refleje el nivel de rasgo que
el modelo se ajusta a los datos empricos, se puede posee. En el marco de la TCT, el evaluador suma las
suponer que la curva caracterstica representa de respuestas codificadas numricamente ya sea con
forma apropiada la relacin entre el rasgo latente y una puntuacin dicotmica o politmica y luego
la probabilidad de dar una determinada respuesta al transforma el puntaje total (la puntuacin observada)
tem. En caso contrario, o el modelo no es el adecuado a una puntuacin tpica o percentilar. Desde la pers-
para relacionar el rasgo con la respuesta al tem (se pectiva de la TRI, la asignacin de una puntuacin a
podra probar qu ocurre con otro modelo de la TRI) una persona es un proceso mucho ms complejo y
o el tem no tiene un comportamiento que permita que requiere de un soporte informtico, ya que re-
predecir el rasgo (se debera eliminar el tem). sulta imposible realizar a mano los clculos. Esto es
El ajuste est vinculado con los objetivos de importante porque implica una modificacin de las
invarianza de las mediciones y de las poblaciones prcticas usuales de puntuacin de los tests.
(recurdese las limitaciones de la TCT). La invarianza Una posibilidad es que el evaluador haya rea-
consiste en que las CCI quedan determinadas por lizado una administracin masiva de un conjunto
sus propios parmetros independientemente de las de tems sobre los que desconoce sus parmetros
de los dems tems y de la distribucin del rasgo (como los exmenes para el ingreso a la Residencia
latente en la poblacin de individuos que sirvieron en Psicologa de nuestro pas). En ese caso, se debe
para estimarlas. hacer una estimacin tanto de los parmetros de cada
Funcin de Informacin. Adems de la CCI, cada tem como del valor del rasgo manifestado por los
tem aporta una Funcin de Informacin (FI) sobre el examinados. Otra posibilidad es que, por estudios
rasgo, la que indica para qu niveles del mismo el previos, ya se conozcan las propiedades de los tems
tem proporciona mediciones ms precisas. Como se y que slo se necesite la prueba para medir el nivel
podr intuir, esta informacin tambin est aludiendo de un rasgo determinado de un individuo. Este es el
al error cometido. Por la frmula con que se define la escenario tpico de un profesional que administra
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. 185

en su consultorio un test validado. En este caso, introducidos en un banco o en un test no funcionen


ingresando el patrn de respuesta a los tems del diferencialmente para distintos grupos de personas,
examinado el software estima solamente el valor . perjudicando a uno de los grupos cuando en realidad
El proceso de estimacin utilizado no es otro que el ambos tienen el mismo nivel de rasgo.
de mxima verosimilitud, explicado ms arriba. Camilli y Shepard (1994) distinguieron el concepto
La TRI tambin ha permitido disear ndices para de DIF del concepto de sesgo del tem. Mientras el
la deteccin de respuestas aberrantes o deshonestas. primero es puramente estadstico, el segundo con-
Dado un valor de de un individuo, existe un patrn sidera las causas de tal funcionamiento diferencial.
de respuestas esperable. El grado de discrepancia Se har referencia al sesgo de los tems slo cuando
entre el patrn observado y el esperado es un ndice se hayan dado explicaciones debidamente fundadas
para identificar respuestas inapropiadas (Zickar & para el funcionamiento diferencial. As, el anlisis del
Drasgow, 1996). Se evala el ajuste del sujeto al DIF puede ser til no slo para la creacin de instru-
modelo. Ahora bien, un patrn inusual no implica ne- mentos de medicin invariantes entre poblaciones
cesariamente una tendencia deliberada a manipular (por lo que es una herramienta utilizada habitual-
las respuestas sino que puede ser la consecuencia mente en la adaptacin de instrumentos de una
de una comprensin errnea de los tems, develar cultura a otra) sino tambin para detectar diferencias
diferencias culturales o simplemente mostrar de- entre grupos cuyas interpretaciones podran generar
seabilidad social (Li & Olejnik, 1997). hiptesis de inters psicolgico. Pero antes de dar
una interpretacin convendra estar seguros de que
no se est en presencia de un falso DIF. La vertiente
Segunda Parte. Principales aplicaciones de la TRI
metodolgica del estudio del DIF valora la eficacia
de los distintos mtodos en diferentes condiciones
Gracias a estos desarrollos de la TRI y a la gene-
generadas intencionalmente por medio de simulacin
racin del software necesario para poder aplicar sus
computacional.
modelos psicomtricos se han podido evaluar con
mayor profundidad las propiedades de numerosos Como ejemplo de una de sus aplicaciones prcti-
tests elaborados a partir de la TCT y construir nue- cas, el estudio del DIF es utilizado por las compaas
vos instrumentos. Asimismo, se renov el inters ms importantes dedicadas a la construccin de
en reas de la medicin psicolgica que se hallaban pruebas como el ltimo control de calidad al que son
estancadas como son el estudio del funcionamiento sometidos los tems. A fin de evitar pleitos legales,
diferencial de los tems y la construccin de Banco de consideran de particular inters la deteccin del DIF
tems y Tests Adaptativos Informatizados. para grupos raciales, tnicos y de gnero. Al margen
de los problemas ticos y legales, la presencia de
DIF es una amenaza de validez para los tems y el
Anlisis del Funcionamiento Diferencial de los
test por lo que su estudio puede ser til para la
tems (DIF)
comparacin de otros grupos que el investigador con-
sidere pertinentes. Por ejemplo, se podra estudiar
Si la probabilidad de seleccionar la opcin-clave a
si los indicadores de pruebas grficas como el Test
un tem para un nivel dado de rasgo depende de algu-
Guestltico Visomotor presentan un funcionamiento
na otra caracterstica que el rasgo en cuestin, dicha
diferencial segn la lateralidad del evaluado (ser
probabilidad podr variar entre las poblaciones que
diestro o zurdo).
difieran en tal caracterstica, con lo que el tem resul-
tara sesgado al tener un funcionamiento diferencial. En la misma lnea, otra de las aplicaciones ms
El funcionamiento diferencial se presenta cuando no frecuentes de las tcnicas de deteccin del DIF pre-
se satisface el supuesto de unidimensionalidad. As, tende evaluar si las diferencias encontradas entre
uno de los problemas centrales de la TRI es el estudio dos grupos se deben a diferencias genuinas en el
del Funcionamiento Diferencial del tem (Differential rasgo (esto es denominado impacto) o son generadas
Item functioning, DIF). Se considera que un tem pre- artificialmente por un instrumento que contiene tems
senta funcionamiento diferencial cuando sujetos de con funcionamiento diferencial. Abad, Colom, Rebollo
distintos grupos y de un mismo nivel de rasgo tienen y Escorial (2004) estudiaron el DIF segn el gnero
diferente probabilidad de dar la respuesta clave. Es en los tems de la Prueba de Matrices Progresivas
decir, cuando el tem presenta una CCI diferente para Avanzada de Raven. Los autores se preguntaban si la
cada uno de los grupos. Existen diferentes tipos de naturaleza viso-espacial de los tems no favoreca a
DIF (uniforme y no uniforme) y mltiples mtodos los varones, grupo que suele puntuar ms elevado en
para su deteccin basados tanto en la TCT (e.g. Man- tests espaciales. Sus resultados mostraron que varios
tel & Haenszel, 1959) como en la TRI (e.g. Camilli & tems de la prueba presentaban un DIF que perjudi-
Shepard, 1994, Hambleton & Swaminathan, 1985). La caba a las mujeres. Al descartar los reactivos con DIF
aplicacin de estos anlisis garantiza que los tems los varones continuaban teniendo un mejor desem-
186 Horacio Flix Attorresi, Gabriela Susana Lozzia, Facundo Juan Pablo Abal, Mara Silvia Galibert y Mara Ester Aguerri

peo, pero la diferencia con el puntaje promedio de medicin de una persona en funcin del nivel de rasgo
las mujeres haba disminuido. Este estudio permiti que va manifestando en cada respuesta; por lo que
eliminar las diferencias artificiales generadas por el resulta una medida ms eficiente (Olea & Ponsoda,
instrumento e identificar la verdadera magnitud del 2003). En el caso de test de habilidades, si el evaluado
impacto segn el gnero de los individuos. responde correctamente, el programa presentar un
tem ms difcil. Si la respuesta es incorrecta, presen-
tar un tem ms fcil. La administracin de los tems
Banco de tem y Tests Adaptativos Informatiza-
contina hasta que se alcanza un nmero de tems
dos (TAIs)
previamente especificado o un valor determinado de
precisin o error tpico. Como la dificultad de cada
Un banco de tems es un conjunto de reactivos
tem seleccionado se halla en torno a la del anterior,
que miden un mismo rasgo y cuyos parmetros estn
un individuo al que se le administra un TAI nunca
calibrados; esto es, estimados en una misma escala
tendr que responder tems demasiado difciles o
(Barbero, 1996). Los tems junto con sus caracters-
demasiado fciles para su nivel. Esto lo diferencia
ticas tanto de contenido como psicomtricas son
de un test convencional de longitud fija en que se
almacenados en una base de datos. De esta manera
presentan en la misma secuencia todos los tems
pueden formar parte de un sistema informatizado
que lo integran a todos los individuos. De esta forma
de evaluacin.
se evita la tendencia de las personas a contestar al
La invarianza de los parmetros de los tems res- azar y desmotivarse cuando los tems superan sus
pecto de las poblaciones y de las mediciones respecto conocimientos, as como, el aburrimiento si los tems
de los instrumentos cobra sentido cuando se dispone son muy fciles. En el caso de test de personalidad, se
de un banco. Como las puntuaciones obtenidas por presentarn tems que impliquen un mayor o menor
los individuos a partir de cualquier subconjunto de nivel de rasgo en funcin de que la persona seleccione
tems del Banco dan una medida del rasgo en la o no la opcin-clave. Aqu tambin se evita responder
misma escala, para comparar los resultados no es a tems irrelevantes para determinar el nivel de rasgo
necesario que todas las personas realicen el mismo del evaluado.
test, sino que se puede elegir el conjunto de tems
Un TAI aporta mayor precisin de la medida en
que sea ms adecuado a su nivel de habilidad o a los
todos los niveles del rasgo, a diferencia de un test
objetivos de la medicin, garantizando la validez de
convencional que posee su mxima precisin en los
los resultados obtenidos. De esta forma, se pueden
niveles medios del rasgo. Esto es posible porque
elegir distintos conjuntos de tems para construir
los tems que conforman el TAI sern aqullos que
Tests Paralelos tan tiles en el mbito educativo cuan-
maximicen la FI del test para el nivel de rasgo co-
do se requieren frecuentes evaluaciones o mltiples
rrespondiente al evaluado. A esto se suma un ahorro
formas de un test. Tambin permite confeccionar test
de tiempo debido a que para proporcionar la misma
con caractersticas psicomtricas prefijadas, como
informacin sobre el nivel de rasgo se requiere slo
por ejemplo, seleccionar los tems con cierto grado
entre un 10 y un 50% de los tems que se necesitaran
de discriminacin, o nivel de dificultad o con mayor
si se usara un test no adaptado.
funcin de informacin.
Otra ventaja que presenta est relacionada a la
Asimismo, los bancos de tems son muy utiliza-
seguridad de la prueba. Como los individuos reciben
dos en el desarrollo de Tests Referidos al Criterio.
distintos tems, no sabrn de antemano cules les
Su objetivo es determinar si los evaluados dominan
tocarn. Esto es un asunto de suma importancia
ciertos contenidos de conocimiento, para lo cual se
cuando es necesario aplicar los tests de forma con-
suele fijar un punto de corte que permita diferenciar
tinua a muestras numerosas de personas (Olea &
entre expertos y no expertos en la materia en cues-
Ponsoda, 2003).
tin. Por tanto se pueden elegir del banco los tems
que presenten una discriminacin mxima en el nivel Actualmente son muchos los test convencionales
del rasgo asociado al punto de corte (Martnez Arias, para los cuales existen versiones adaptativas, por
1995). En el rea de la salud el punto de corte puede ejemplo, el Graduate Record Exam (GRE), varios
estar referido por ejemplo, a la sintomatologa que tests de aptitudes intelectuales (como el Differential
presenta una persona o el nivel en que posee una Aptitude Test), y mltiples tests desarrollados tanto
determinada caracterstica de personalidad. en Estados Unidos como en Europa para seleccin
de personal (es el caso del CAT-ASVAB), admisin
Una de las aplicaciones de la TRI que ha tenido
a centros educativos (e.g. Law School Admission
mayor repercusin es la construccin y administra-
Test), evaluacin y certificacin educativa (e.g.
cin de Tests Adaptativos Informatizados (Wainer,
COMPASS placement tests). En el contexto de los
2000). Esta aplicacin tambin requiere de un Banco
tests de personalidad, Forbey y Ben-Porath (2007)
de tems, pero en este caso un software selecciona
disearon una versin adaptativa del MMPI-2. Estos
progresivamente los tems ms apropiados para la
Teora de Respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos psicolgicos. 187

autores confirmaron el ahorro de tems y de tiempo BIBLIOGRAFA


de administracin con respecto a la versin informa-
tizada pero convencional del MMPI-2, obteniendo
resultados comparables en trminos de puntuaciones Abad, F. J., Colom, R., Rebollo, I. Escorial, S. (2004). Sex
y validez. differential item functioning in the Ravens Advanced
Progressive Matrices: evidence for bias. Personality and
Individual Differences, 36, 14591470.
CONSIDERACIONES FINALES
Barbero, M. I. (1996). Banco de tems. En J. Muiz (Ed.).
Psicometra (pp. 139-170). Madrid: Universitas.
La Psicometra mundial se encuentra atravesando
un perodo de transicin. Mientras que la TRI se en- Birnbaum, A. (1968). Some latent trait models and their
cuentra en auge en Europa y EE.UU., Latinoamrica use in inferring an examinees ability. En F. Lord & M.
ha ignorado por mucho tiempo estos nuevos desa- Novick (Eds.). Statistical Theories of Mental Test Scores.
rrollos. En Argentina, el estudio y aplicacin de los Reading, MA: Addison Wesley.
modelos de la TRI ha comenzado a dar sus primeros
pasos despacio pero de forma auspiciosa. En 1998, Camilli, G. & Shepard, L. (1994). Methods for identifying
Cortada aplic un modelo logstico de la TRI para la biased test items. Thousand Oaks: Sage.
construccin del Test Verbal Buenos Aires. Asimismo,
recientemente la TRI ha sido utilizada para el anlisis Childs, R., Dahlstrom, W., Kemp, S. & Panter, A. (2000).
Item response theory in personality assessment: A
de los datos obtenidos en los estudios de evaluacin
demonstration using the MMPI-2 Depression Scale.
educativa en nuestro pas, tanto en el Operativo Assessment, 7, 37-54.
Nacional de Evaluacin (ONE) dependiente del Mi-
nisterio de Educacin, Ciencia y Tecnologa como Cortada, N. (1998). La Teora de Respuesta al tem y su
en el internacional PISA (Programme for Indicators aplicacin al Test Verbal Buenos Aires. Interdiscipli-
of Student Achievement) de la Organizacin para la naria, 15, 101-129.
Cooperacin y el Desarrollo Econmico (OCDE).
La facilidad conceptual de la TCT haca compatible Forbey, J. & Ben-Porath, Y. (2007). Computerized adaptive
personality testing: A review and illustration with the
su presentacin con la enseanza de sus aplicaciones
MMPI-2 Computerized Adaptive Version. Psychological
en las tcnicas psicomtricas. La formacin de los Assessment, 19, 14-24.
profesionales poda estar centrada en los criterios de
calidad que deban reunir los instrumentos para in- Hambleton, R. K. & Swaminathan, H. (1985). Item response
corporarlos en un proceso de Evaluacin Psicolgica theory: Principles and applications. Boston: Kluwer.
y en las garantas del proceso mismo. Sin embargo,
el crecimiento de la TRI sum un bagaje terico Li, M. F. & Olejnik, S. (1997). The power of Rasch person-fit
sofisticado sobre la fundamentacin de la medicin statistics in detecting unusual response patterns. Ap-
psicolgica que oblig a reorganizar los contenidos plied Psychological Measurement, 21, 215-231.
que se dictan en esta rea. Se debe vencer una gran
resistencia por parte de los alumnos de grado y de Lord, F. M. & Novick, M. R. (1968). Statistical theories of
mental tests scores. Reading, MA: Addison-Wesley.
posgrado, para quienes la teora de la medicin to-
dava parece resultar una temtica ajena a su propia Lord, F. M. (1980). Applications of item response theory to
disciplina. Una formacin al margen de la TRI pone a practical testing problems. Hillsdale, N. J.: Lawrence
los especialistas en Evaluacin Psicolgica argentinos Erlbaum.
en una situacin de clara desventaja. Quizs resulte
un momento favorable para acortar la brecha exis- Mantel, N. & Haenszel, W. (1959). Statistical aspects of the
tente entre la formacin de nuestros profesionales y analysis of data from retrospective studies of disease.
los de otros pases. Journal of the National Cancer Institute, 22, 719-748.

Martnez Arias, M. R. (1995). Psicometra: Teora de los Tests


Psicolgicos y Educativos. Madrid: Sntesis.

Muiz, J. (1997). Introduccin a la teora de respuesta a los


tems. Madrid: Ediciones Pirmide.

Novick, M. R. (1966). The axioms and principal results of


classical test theory. Journal of Mathematical Psycho-
logy, 3, 1-18.
188

Olea, J. & Ponsoda, V. (2003). Tests adaptativos informati-


zados. Madrid: UNED.

Ostini, R. & Nering, M. (2005). Polytomous item response


theory models. Newbury Park, CA: Sage.

Rasch, G. (1960). Probabilistic Models for Some Intelligence


and Attainment Tests. Copenhague: The Danish Insti-
tute for Educational Research.

Richaud, M. C. (2005). Desarrollos del anlisis factorial para


el estudio de tems dicotmicos y ordinales. Interdisci-
plinaria, 22, 237 251.

Rouse, S. V., Finger, M. S. & Butcher, J. N. (1999). Advances


in clinical personality measurement: An item response
theory analysis of the MMPI-2 PSY-5 scales. Journal of
Personality Assessment, 72, 282-307.

Samejima, F. (1969). Estimation of latent ability using a


response pattern of graded scores. Psychometrika
Monograph, 17.

Spearman, C. E. (1904). General Intelligence objetively


determined and meassured. American Journal of Psy-
chology, 15, 201 -293.

Thurstone, L. L. (1928). Attitudes can be measured? Ame-


rican Journal of Sociology, 33, 529-554.

Wainer, H. (2000). Computer Adaptive Tests: Whither and


whence. Psicologica, 21, 121-133.

Zickar, M. J. & Drasgow, F. (1996). Detecting Faking on a


Personality Instrument using appropriateness measure-
ment. Applied Psychological Measurement, 20, 71-87.

Abstract: This study sets out to introduce the reader to the


basic notions of the Item Response Theory (IRT). The First Part
outlines the limitations of the classical perspective and defines
IRT fundamental concepts: Item Characteristic Curve, Parameters,
Information Function, Estimation and Models Fit. The Second Part
examines the developments applied on the basis of the latest
advances in this theory. Topics such as the Differential Item functio-
ning as well as the construction of Item Banks and Computerized
Adaptive Tests are also enlarged upon. It has been concluded and
acknowledged that there is a need for a more solid background
in the IRT among the specialists in Psychological Assessment in
Argentina.

También podría gustarte