Está en la página 1de 7

Psicothema 2003. Vol. 15, n 1, pp.

94-100 ISSN 0214 - 9915 CODEN PSOTEG


www.psicothema.com Copyright 2003 Psicothema

Anlisis de un test mediante el modelo de Rasch

Gerardo Prieto y Ana R. Delgado


Universidad de Salamanca

La denominada Teora Clsica de los Tests ha sido el principal modelo psicomtrico empleado en la
construccin y anlisis de tests. Sin embargo, sus limitaciones han llevado a la propuesta de modelos
alternativos, de los cuales el ms parsimonioso es el modelo de Rasch, que permite dado un buen ajus-
te de los datos la medicin conjunta de personas e tems en una misma dimensin o constructo. sta
y otras ventajas del modelo se presentan siguiendo como ejemplo el anlisis del Test de Matemticas
(TM) construido por los autores. El anlisis del TM nos ha permitido ilustrar las ventajas del modelo
de Rasch tanto en la evaluacin colectiva como en el diagnstico individual, as como presentar las
principales tcnicas empleadas en el proceso.

Rasch-modelling a Test. Classical Test Theory (CTT) has been the main psychometrical model for
constructing and analysing tests. However CTT limitations have given place to alternative models,
such as the Rasch Model (RM), which allows given a good fit conjoint measurement of persons and
items on the same dimension, or construct. The various advantages of the RM are presented following
a detailed example the analysis of the Mathematics Test (MT) constructed by the authors. The MT is
used to illustrate the advantages of the RM both for collective assessment and for individual diagno-
sis; the main techniques used in the analysis are also introduced.

Desde comienzos del siglo XX, la construccin y el uso de tests y as debe representarla el modelo matemtico elegido. Rasch us
psicomtricos se ha basado principalmente en la Teora Clsica de la funcin logstica para modelar la relacin:
los Tests (TCT), un modelo simple, flexible y muy conocido (Gu-
lliksen, 1950), pero que no est exento de limitaciones (Embretson ln (Pis / 1 - Pis)= (s - i ) (1)
y Hershberger, 1999).
En 1960 el matemtico dans Georg Rasch propuso un modelo La ecuacin (1) indica que el cociente entre la probabilidad de
de medida que permite solventar muchas de las deficiencias de la una respuesta correcta y la probabilidad de una respuesta inco-
TCT y construir pruebas ms adecuadas y eficientes. El objetivo rrecta a un tem (Pis /1 - Pis), es una funcin de la diferencia en el
de este trabajo es exponer las caractersticas del modelo, sus ven- atributo entre el nivel de la persona (s) y el nivel del tem (i).
tajas y aplicaciones, mediante la construccin y anlisis de una As, cuando una persona responde a un tem equivalente a su um-
prueba de matemticas dirigida al segundo curso de la Educacin bral de competencia, tendr la misma probabilidad de una res-
Secundaria Obligatoria (ESO). puesta correcta y de una respuesta incorrecta (Pis /1 - Pis=
0,50/0,50). En este caso, el logaritmo natural de Pis /1 - Pis, refleja
El modelo de Rasch que la dificultad del tem es equivalente al nivel de competencia
de la persona (s - i= 0). Si la competencia del sujeto es mayor
El modelo propuesto por Rasch (1960) se fundamenta en los si- que la requerida por el tem (s - i >0), la probabilidad de una res-
guientes supuestos: puesta correcta ser mayor que la de una respuesta incorrecta. Por
el contrario, si la competencia del sujeto es menor que la requeri-
1. El atributo que se desea medir puede representarse en una da por el tem (s - i <0), la probabilidad de una respuesta co-
nica dimensin en la que se situaran conjuntamente las personas rrecta ser menor que la de una respuesta incorrecta,.
y los tems. Una formulacin ms conocida del modelo de Rasch, por su di-
2. El nivel de la persona en el atributo y la dificultad del tem fusin en los textos de Teora de Respuesta a los tems (TRI) (Em-
determinan la probabilidad de que la respuesta sea correcta. Si el bretson y Reise, 2000; Hambleton, Swaminathan y Rogers, 1991;
control de la situacin es adecuado, esta expectativa es razonable Muiz, 1997), se deriva de la prediccin de la probabilidad de res-
ponder correctamente al tem a partir de la diferencia en el atribu-
to entre el nivel de la persona (s) y el nivel del tem (i). En este
Fecha recepcin: 16-4-02 Fecha aceptacin: 31-7-02 caso,
Correspondencia: Gerardo Prieto Adnez
Facultad de Psicologa
Pis = e(s - i) / 1 + e(s - i) (2)
Universidad de Salamanca
37005 Salamanca (Spain)
E-mail: gprieto@usal.es Donde e es la base de los logaritmos naturales (2,7183).
ANLISIS DE UN TEST MEDIANTE EL MODELO DE RASCH 95

Los valores escalares de las personas y los tems pueden ex- TI() = I() (4)
presarse en distintas mtricas (Embretson y Reise, 2000). La ms
utilizada es la escala logit, que es el logaritmo natural de Pis /1 - Donde la funcin de informacin del tem es:
Pis, es decir, s - i . La localizacin del punto 0 de la escala es ar-
bitraria. En la tradicin de Rasch, se suele situar dicho punto en la I() = Pi () (1 - Pi ()) (5)
dificultad media de los tems. En este caso, es muy sencilla la in-
terpretacin de los parmetros de las personas (los valores de s De la ecuacin (5) se infiere que: (i) la informacin de un tem
mayores que 0 indican que las personas tienen una probabilidad vara a lo largo del continuo y (ii) el punto en el que un tem apor-
superior a 0,50 de xito en los tems de dificultad media). Aunque ta la mxima informacin es el que equivale a su parmetro de di-
la escala logit puede adoptar valores entre ms y menos infinito, la ficultad (s = i).
gran mayora de los casos se sita en el rango 5. Otros usuarios
del modelo prefieren, considerando los objetivos y la muestra uti- Ventajas del modelo de Rasch
lizada, situar el punto 0 en la habilidad media de las personas. Asi-
mismo, la familiaridad con la distribucin normal ha llevado a Las ventajas del modelo de Rasch respecto a la TCT y a otros
multiplicar por la constante 1,7 el exponente de la ecuacin (2) pa- modelos TRI han sido ampliamente difundidas (Andrich, 1988;
ra asimilar la escala logit a aqulla. En este caso, la media y la des- Bond y Fox, 2001; Embretson y Hershberger, 1999; Embretson y
viacin tpica de la escala son similares a las de las conocidas pun- McCollam, 2000; Embretson y Reise, 2000; Hambleton, Swami-
tuaciones tpicas z (0 y 1 respectivamente). Por tanto, la casi tota- nathan y Rogers, 1991; Wright y Stone, 1979). Destacaremos aqu
lidad de los casos se incluye en el rango 3. las caractersticas que, a nuestro juicio, son ms relevantes: medi-
cin conjunta, objetividad especfica, propiedades de intervalo y
Estimacin de los parmetros especificidad del error tpico de medida.
Medicin conjunta: Significa que los parmetros de las perso-
El objetivo inicial de la administracin de un test consiste en nas y de los tems se expresan en las mismas unidades y se locali-
estimar los parmetros de los sujetos (s ) y de los tems (i) en la zan en el mismo continuo. En primer lugar, esta propiedad confie-
variable de inters. En algunas ocasiones, se conoce previamente re al modelo de Rasch un carcter ms realista que el de la TCT,
uno de estos conjuntos de parmetros. Una situacin frecuente puesto que no es razonable mantener el supuesto de la invarianza
consiste en estimar los parmetros de las personas a partir de pa- de los tems: es obvio que no todos los tems miden la misma can-
rmetros de tems ya conocidos (obtenidos en anteriores aplica- tidad del constructo. En segundo lugar, esta caracterstica permite
ciones de la prueba). En este caso, el procedimiento a utilizar se- analizar las interacciones entre las personas y los tems. En conse-
ra la estimacin condicional. Cuando se desconocen los parme- cuencia, la interpretacin de las puntuaciones no se fundamenta
tros de tems y personas, el proceso es denominado estimacin necesariamente en normas de grupo, sino en la identificacin de
conjunta. Una descripcin detallada de los procedimientos de es- los tems que la persona tiene una alta o baja probabilidad de re-
timacin est fuera del alcance de este artculo. Los lectores inte- solver correctamente. Esta caracterstica dota al modelo de Rasch
resados pueden encontrarlas en Embretson y Reise (2000), Ham- de una gran riqueza diagnstica.
bleton, Swaminathan y Rogers (1991) y Muiz (1997), entre otros. Objetividad especfica: Una medida slo puede ser considera-
La lgica general del mtodo ms usual, denominado de mxima da vlida y generalizable si no depende de las condiciones espec-
verosimilitud, consiste en determinar los parmetros que hacen ficas con que ha sido obtenida. Es decir, la diferencia entre dos
ms probables las respuestas observadas. En el caso de la estima- personas en un atributo no debe depender de los tems especficos
cin condicional de los parmetros de las personas, el procedi- con los que sea estimada. Igualmente, la diferencia entre dos tems
miento es similar a un proceso de bsqueda: conocidos los par- no debe depender de las personas especficas que se utilicen para
metros de los tems, se calcula la probabilidad conjunta de las res- cuantificarla. Esta propiedad fue denominada objetividad especfi-
puestas observadas a los tems para cada puntuacin . Se asigna ca por Rasch (1977).
a cada persona, el valor ms probable para su patrn de respues- Supngase que dos personas de distinto nivel contestan al mis-
tas. Este valor es denominado estimador de mxima verosimilitud mo tem. De acuerdo con la ecuacin (1):
(). Los procedimientos de clculo son sumamente largos, por lo
que es imprescindible recurrir a programas de ordenador. Algunos ln (Pi1 / 1 - Pi1)= 1 - i , y ln (Pi2 / 1 - Pi2)= 2 - i .
de los ms utilizados son: Quest (Adams y Khoo, 1996), RASCAL
(Assessment Systems Corporation, 1995), RUMM (Sheridan, An- La diferencia entre ambas personas ser igual a:
drich y Luo, 1996) y WINSTEPS (Wright y Linacre, 1998).
Los estimadores de son asintticos e insesgados cuando los ln (Pi1 / 1 - Pi1 ) - ln (Pi2 / 1 - Pi2 )= (1 - i ) - (2 - i )= 1- 2.
tests son suficientemente largos. Su desviacin tpica, denomina-
da error tpico de medida, es igual a:
De forma similar, si la misma persona contesta a dos tems de
SE() = 1 / TI() (3) diferente dificultad:

El valor TI() se llama funcin de informacin del test. Puesto ln (P1s / 1 - P1s)= s - 1, y ln (P2s / 1 - P2s)= s - 2 .
que el error tpico de medida es una funcin inversa de la informa-
cin del test, este concepto tiene un significado similar al de fiabi- La diferencia en dificultad entre ambos tems ser igual a:
lidad en la TCT. La funcin de informacin del test es igual a la su-
ma de las funciones de informacin de los tems que lo integran: ln (P1s / 1 - P1s ) - ln (P2s / 1 - P2s )= (s - 1 ) - (s - 2 )= 1- 2.
96 GERARDO PRIETO Y ANA R. DELGADO

En consecuencia, si los datos se ajustan al modelo, las compa- que estn implementados en los programas de ordenador ms usa-
raciones entre personas son independientes de los tems adminis- dos. La frmula de un residuo es:
trados y las estimaciones de los parmetros de los tems no estarn
influenciadas por la distribucin de la muestra que se usa para la yis= (xis - Pis) (6)
calibracin. Ntese que en la TCT las puntuaciones de las perso-
nas dependen de los tems administrados y la dificultad de los Donde xis es la respuesta observada y Pis la probabilidad de una
tems puede variar entre grupos de personas. En la propiedad de respuesta correcta de la persona s al tem i.
objetividad especfica se fundamentan aplicaciones psicomtricas Se suelen estandarizar los residuos dividindolos por su des-
muy importantes como la equiparacin de puntuaciones obtenidas viacin tpica:
con distintos tests, la construccin de bancos de tems y los tests
adaptados al sujeto. zis= (xis - Pis) / (Pis (1 - Pis)) (7)
Propiedades de intervalo: Es importante notar que la interpre-
tacin de las diferencias en la escala es la misma a lo largo del atri- Para cuantificar el ajuste al modelo, se emplea preferentemen-
buto medido. Es decir, a diferencias iguales entre un sujeto y un te el estadstico Infit que es la media de los residuos cuadrticos
tem le corresponden probabilidades idnticas de una respuesta co- ponderados con su varianza (Wis ).
rrecta. Por ello, la escala logit tiene propiedades de intervalo. Por
el contrario, en la TCT las puntuaciones son casi siempre ordina- Infit= z2is Wis / Wis (8)
les. La mtrica intervalar tiene gran importancia, puesto que es una
condicin necesaria para usar con rigor los anlisis paramtricos Se puede calcular Infit para un tem o una persona prome-
ms frecuentemente empleados en las ciencias sociales (anlisis diando los valores correspondientes. El valor esperado de este
de varianza, regresin, etc) y, adems, garantiza la invarianza de estadstico es 1. Por convencin se considera que los valores su-
las puntuaciones diferenciales a lo largo del continuo (un requisi- periores a 1,3 indican desajuste en muestras con menos de 500
to imprescindible en el anlisis del cambio). casos, 1,2 en muestras de tamao medio (entre 500 y 1000 casos)
Especificidad del error tpico de medida: Como han subrayado y 1,1 en muestras con ms de 1000 casos (Smith, Schumaker y
Embretson y Reise (2000), la objetividad especfica no implica Bush, 1995). Los programas de ordenador aportan representa-
que la precisin de las estimaciones de los parmetros sea similar ciones grficas que facilitan la interpretacin de los estadsticos
en distintos conjuntos de tems y de personas. Si los tems son f- de ajuste.
ciles, se estimarn con ms precisin los parmetros de los sujetos A continuacin, se ilustra la aplicacin del modelo de Rasch
de bajo nivel. De forma similar, si los sujetos son de alto nivel, se con el anlisis de un test de matemticas cuyos contenidos corres-
estimarn con mayor precisin los parmetros de los tems difci- ponden al primer curso de la Enseanza Secundaria Obligatoria
les. En la TCT, se supone que los tests miden con la misma fiabi- (ESO).
lidad en todas las regiones de la variable. El modelo de Rasch no
asume este supuesto tan poco verosmil. Permite, por el contrario: Mtodo
(i) cuantificar la cantidad de informacin con la que se mide en ca-
da punto de la dimensin y (ii) seleccionar los tems que permiten Participantes
incrementar la informacin en regiones del atributo previamente
especificadas. Este ltimo aspecto es de sumo inters en los tests Se han analizado los datos de una muestra de 455 alumnos del
referidos al criterio, en los que interesa maximizar la fiabilidad en segundo curso de la ESO (241 varones y 214 mujeres) proceden-
torno a los puntos de corte. tes de 11 centros pblicos de la ciudad de Salamanca. Aunque la
muestra no es aleatoria, consideramos que, al tratarse de un curso
Ajuste de los datos al modelo de educacin obligatoria, se han obtenido sujetos a lo largo de to-
do el continuo de competencia. Se eliminaron los cuestionarios
Las ventajas del modelo de Rasch slo pueden ser obtenidas si que manifestaban una mala comprensin de las instrucciones o fal-
los datos empricos se ajustan al modelo. De acuerdo con la ecua- ta de cooperacin.
cin (2), la probabilidad de respuesta a un tem depende slo de
los niveles de la persona y el tem en el atributo medido. La pre- Instrumentos
sencia de respuestas aberrantes tales como que personas poco
competentes resuelvan correctamente tems difciles, indicaran El test de matemticas (TM) est compuesto por 30 tems de
que los parmetros de sujetos e tems son meros numerales caren- eleccin mltiple organizados en tres bloques de 10 preguntas ca-
tes de significado terico. La falta de ajuste podra deberse a di- da uno. Las preguntas se construyeron a partir de los contenidos
versos factores: multidimensionalidad o sesgo de los tems, falta de los libros de texto correspondientes al primer curso de la ESO
de precisin en el enunciado o en las opciones, respuestas al azar, (los estudiados por los participantes en el curso anterior). Los con-
falta de motivacin o cooperacin, errores al anotar la respuesta, tenidos de los dos primeros bloques son operaciones rutinarias de
copiado de la solucin correcta, etc (Karabatsos, 2000a). Los pro- aritmtica y geometra respectivamente; el ltimo est integrado
cedimientos de anlisis permiten detectar los tems y las personas por problemas (5 de aritmtica y 5 de geometra).
que no se ajustan al modelo. Se han propuesto diversos estadsti- Cada pregunta se compone de un enunciado y cuatro opciones
cos para evaluar el ajuste de los datos (Karabatsos, 2000a, 2000b; de las que una es correcta. Las opciones de respuesta fueron orde-
Masters y Wright , 1996; Meijer y Sijtsma, 2001; Smith, 2000). nadas cuando correspondan a cantidades. En el resto de los casos,
Aqu mencionaremos los estadsticos basados en residuos (dife- fueron aleatorizadas con la condicin de que el nmero fuera si-
rencias entre las respuestas observadas y las esperadas), debido a milar en cada una de las localizaciones.
ANLISIS DE UN TEST MEDIANTE EL MODELO DE RASCH 97

Procedimiento fue suficiente, puesto que el 96,26% de los participantes termin


la prueba.
La aplicacin del test tuvo lugar durante el mes de marzo de
2001 siguiendo las recomendaciones ticas usuales. El test fue ad- Resultados y discusin
ministrado en las clases habituales de cada grupo de alumnos du-
rante las primeras horas de la maana. En cada grupo se impartie- Las respuestas fueron codificadas dicotmicamente y los datos
ron detalladamente las instrucciones, seguidas por varios tems de analizados mediante el programa Quest (Adams y Khoo, 1996).
prctica. Se insisti especialmente en que los tems fueran resuel- En primer lugar, presentaremos los resultados del anlisis del ajus-
tos mentalmente, usndose el bolgrafo slo para marcar la res- te al modelo de los tems y de los participantes. Como ya se ha co-
puesta. Una vez impartidas las instrucciones y contestados los mentado, el ajuste es crucial; en su ausencia, los valores carecen
tems de prctica, se inform a los participantes de que disponan de significado terico y las ventajas del modelo de Rasch se des-
de 25 minutos para contestar a la prueba. El tiempo de aplicacin vanecen. Se han utilizado estadsticos de ajuste global y compro-

XXX

XXXX
3.0

XXXXXX

XXXXXXX

2.0 XXXXXXXXXXXXXXXXXX 30
18
XXXXXXXXXXXXXX 16

XXXXXXXXXXXXXXXXX 10 19
XXXXXXXXXXXXXXXX
9
XXXXXXXXXXXXXX
1.0 XXXXXXXXXXXXXXXXXXXXX
14 15
XXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXX 6 17 25 26

XXXXXXXXXXXXXXXXXXX 5 11 13
XXXXXXXXXXXXX 23
.0 XXXXXXXX 27
4
XXXXXXXXXXXXX
XXXXXXXX
XXXXXXXX 24
22
XX
XX 8
-1 . 0 20 28
2
1
7
29
21
12

-2 . 0

Figura 1. Escalamiento conjunto de tems y personas. Cada X representa a dos personas


98 GERARDO PRIETO Y ANA R. DELGADO

baciones de la invarianza de los parmetros. Como indicador del tras de similar tamao, se estimaron los parmetros de dificultad
ajuste global, se ha empleado el estadstico Infit (tems: media= de los tems en cada submuestra y se llev a cabo una regresin li-
1,00; desviacin tpica= 0,09. Personas: media= 0,99; desviacin neal simple entre los valores obtenidos. La correlacin entre am-
tpica= 0,18). Los datos manifiestan un buen ajuste al modelo: por bos conjuntos de parmetros, la ordenada en el origen y la pen-
un lado, las medias y las desviaciones tpicas de los valores de In- diente de la recta fueron respectivamente 0,973, - 0,001 y 0,985.
fit son las que cabe esperar cuando no hay divergencias sustancia- Los valores esperados en un ajuste perfecto seran 1, 0 y 1 respec-
les entre las predicciones del modelo y los datos emprico; por tivamente. En consecuencia, se puede concluir que se cumple la
otro, ninguno de los tems y slo un 6% de los alumnos presentan propiedad de invarianza de los parmetros de los tems.
un valor superior a 1,3 (mayor Infit= 1,56). La mayor ventaja del modelo de Rasch respecto de la TCT es
Como hemos expuesto anteriormente, la objetividad especfica la propiedad de medicin conjunta: los parmetros de tems y per-
es una de las propiedades ms importantes del modelo de Rasch. sonas estn en la misma escala. En la Figura 1, aparece una repre-
Uno de los principales procedimientos que se recomiendan para sentacin grfica del escalamiento conjunto. Puede observarse una
analizar el ajuste de los datos al modelo consiste en contrastar em- representacin de los objetos (personas e tems) en un rango de va-
pricamente esta propiedad (Hambleton, Swaminathan y Rogers, lores entre -3 y 4 logit. Las distribuciones de los parmetros de los
1991). Para analizar la invarianza de los parmetros de los tems, tems y de los alumnos son aproximadamente normales, pero no se
se dividi aleatoriamente la muestra de alumnos en dos submues- superponen.

Alumno: 259 : .37


Infit.: .59
tems Difciles Resueltos tems Difciles No Resueltos

30
18
16
19
10

14 15

26 6 17 25
5 XXX 12
11
27 23
4

24
22

28 8
20 2
1
7
29
21
12

tems Fciles Resueltos tems Fciles No Resueltos


Figura 2. Mapa de la ejecucin de un alumno
ANLISIS DE UN TEST MEDIANTE EL MODELO DE RASCH 99

El escalamiento conjunto permite obtener interpretaciones de Diagnstico individual. La representacin grfica conjunta se
sumo inters. Mencionaremos brevemente las ms importantes. puede llevar a cabo a nivel individual, de forma que se pueden
Nivel del grupo de alumnos en el atributo medido. En el caso identificar los tems que la persona tiene una alta o baja probabili-
de que los tems fuesen una muestra representativa de los indica- dad de resolver correctamente. Desde esta perspectiva, la interpre-
dores que permiten indagar acerca de la competencia bsica en la tacin de la puntuacin de un sujeto es ms rica que la simple cla-
comprensin de los conceptos matemticos y en la resolucin de sificacin mediante baremos o normas de grupo.
problemas, se podra afirmar que el rendimiento de la muestra es Por ejemplo, en la Figura 2 aparece un mapa de la ejecucin de
elevado, puesto que la mayor parte de los alumnos tienen puntua- un sujeto de nivel medio.
ciones superiores a 0 (la dificultad promedio de los tems). Este Este mapa representa conjuntamente el nivel del sujeto
dato significa que la mayora de la muestra tiene una alta probabi- (XXX) y el de los tems en el continuo. Las dos lneas de puntos
lidad de resolver correctamente un gran nmero de tems. Puesto representan un intervalo de SE(). Los tems que el alumno
que el TM se dise a partir de los objetivos del curso anterior, es- tiene una baja probabilidad de resolver correctamente son los si-
te dato coincide con lo esperado. tuados sobre la lnea de puntos en el lado derecho del mapa. Los
Adecuacin de la prueba al nivel de competencia. En el caso de tems que el alumno tiene una alta probabilidad de resolver co-
que el test no tuviese la finalidad de evaluar slo las habilidades rrectamente son los situados bajo la lnea de puntos en el lado iz-
bsicas, los datos indicaran que el test es demasiado fcil para la quierdo.
muestra analizada. Como ya hemos indicado, la utilidad de un test Los mapas son tambin muy tiles para interpretar los patrones
para evaluar a los alumnos de forma precisa se incrementa ajus- de respuestas aberrantes. Si el patrn de respuestas de la persona
tando la dificultad de los tems al nivel de competencia. Por tanto, se ajusta, se espera que la mayor parte de los tems situados bajo
se observa que faltan tems de alta dificultad (tems con > 2) que el nivel del sujeto se site en la parte inferior izquierda del grfi-
seran ms apropiados para evaluar adecuadamente a los sujetos co (bajo la lnea de puntos) y que la mayor parte de los tems si-
con alta competencia. Es decir, la representacin conjunta facilita tuados sobre el nivel del sujeto se site en la parte superior dere-
la identificacin de regiones del continuo que no han sido sufi- cha (sobre la lnea de puntos). En este caso, el ajuste al modelo se-
cientemente muestreadas. ra muy elevado. La presencia de tems en los cuadrantes superior
Definicin del constructo. En ocasiones, la finalidad prioritaria izquierdo e inferior derecho reflejan respuestas inesperadas.
del escalamiento no es escalar sujetos, sino indicadores de un Anteriormente hemos sealado que el supuesto de invarianza
constructo. El objetivo puede ser responder a preguntas tales co- del error tpico de medida asumido por la TCT es poco verosmil.
mo: los indicadores del constructo se pueden escalar en una sola Que se mida con menor precisin en los extremos del continuo es
dimensin?, cul es la diferencia en el continuo de competencia la situacin mas frecuente. El modelo de Rasch permite estimar
entre conjuntos de tems que comparten ciertas caractersticas (por especficamente la fiabilidad de cada medida, mediante el error t-
ejemplo, operaciones aritmticas y geomtricas bsicas: suma de pico de medida (frmula 3) o la funcin de informacin (frmula
nmeros enteros y clculos con rectas en el plano)?, cules son 4). En la Figura 3, se representan los errores tpicos de medida en
las caractersticas de las tareas representativas de la alta compe- los distintos niveles de la variable.
tencia? Con fines ilustrativos, contestaremos a estas preguntas con Puede observarse que el test mide con mayor precisin en el
los datos obtenidos con el TM. Por un lado, el ajuste de los datos rango central de la escala. Por ejemplo, los intervalos de estima-
apoya la unidimensionalidad del test. Por otro, los promedios de cin del valor paramtrico a un nivel de confianza del 95% difie-
los valores de los tems de sumas y clculos con rectas son -1,13 ren notablemente en el centro y en los extremos. Para = 4, el in-
y 1,25 respectivamente; en consecuencia, la resolucin de este ti- tervalo es de 2 logit, mientras que para = 0 es de 0,8 logit.
po de contenidos requiere muy distinto nivel de competencia. En caso de que se deseara incrementar la precisin en los niveles
La indagacin acerca de las caractersticas de los tems repre- altos de competencia, habra que incluir en el test tems de eleva-
sentativos de los distintos niveles de competencia resulta muy til da dificultad (obsrvese que en el TM no existen tems con >2).
para dotar de significacin al constructo medido. Por ejemplo, en As, las distribuciones de los valores de la funcin de informacin
el test TM los tems 30, 18 y 16 son los ms difciles (Vase la Fi-
gura 1). Estos tems corresponden a tareas geomtricas que re-
1,1
quieren la integracin de clculos y representaciones espaciales de
cierta complejidad. 1
La formulacin de modelos para explicar la dificultad de los
tems a partir de los procesos mentales y las estructuras de cono- ,9
Error tpico

cimiento requeridas por la tarea es una de las extensiones del mo-


,8
delo de Rasch ms prometedoras. Desde el enfoque representacio-
nal (Embretson, 1983), se ha propuesto que los procedimientos de ,7
validacin del constructo no deben fundamentarse slo en las co-
rrelaciones con criterios, sino en la explicacin de las variaciones ,6
intratarea: la dificultad del tem se considera como un indicador de
,5
la complejidad cognitiva requerida para resolverlo correctamente
(Prieto y Delgado, 1999, 2000). La complejidad cognitiva se ex- ,4
plica por los procesos, las estrategias y las estructuras de conoci- -5 -4 -3 -2 -1 0 1 2 3 4 5
miento subyacentes a la ejecucin del tem. Las extensiones del
Competencia
modelo de Rasch propuestas por Fischer (1973) y Embretson
(1997), entre otros, tienen esta finalidad. Figura 3. Errores tpicos de medida en los distintos niveles de competencia
100 GERARDO PRIETO Y ANA R. DELGADO

o del error tpico de medida resultan especialmente tiles para evaluacin colectiva como en el diagnstico individual, as como
identificar las regiones del continuo en las que se mide de forma presentar las principales tcnicas empleadas en el proceso.
poco precisa. Adems, suelen servir como criterio para construir
tests a partir de bancos de tems: puesto que la funcin de infor- Nota
macin del test es la suma de las funciones de informacin de los
tems, es posible seleccionar aqullos que permitan medir con ma- Esta investigacin ha sido financiada por la Direccin General
yor precisin en un rango determinado. de Investigacin del Ministerio de Ciencia y Tecnologa (Departa-
En conclusin, el anlisis del TM mediante el modelo de Rasch mento Tcnico de Promocin General del Conocimiento. N del
nos ha permitido ilustrar algunas de las ventajas de ste tanto en la Proyecto: PB98-0263).

Referencias

Adams, R.J. y Khoo, S. (1996). Quest: The interactive test analysis system. Masters, G.N. y Wright, B.D. (1996). The partial credit model. En W.J. van
Victoria: ACER. der Linden y R.K. Hambleton (Eds.). Handbook of modern item res-
Andrich, D. (1988). Rasch models for measurement. Newbury Park: Sage. ponse theory. New York: Springer.
Assessment Systems Corporation (1995). The Rasch model item calibra- Meijer, R.R. y Sijtsma, K. (2001). Methodology review: Evaluating person
tion program. Users manual for the MicroCAT testing system. St. Paul, fit. Applied Psychological Measurement, 25, 107-135.
Minnesota. Muiz, J. (1997). Introduccin a la teora de respuesta a los tems. Madrid:
Bond, T.G. y Fox, C.M. (2001). Applying the Rasch model: fundamental Pirmide.
measurement in the human sciences. Mahwah, NJ: LEA. Prieto, G. y Delgado, A.R. (1999). Medicin cognitiva de las aptitudes. En
Embretson, S.E. (1983). Construct validity: Construct representation ver- J. Olea, V. Ponsoda y G. Prieto (Eds.) Tests informatizados: Funda-
sus nomothetic span. Psychological Bulletin, 52, 179-197. mentos y aplicaciones. (207-226) Madrid: Pirmide.
Embretson, S. E. (1997). Multicomponent response models. En W.J. van Prieto, G. y Delgado, A.R. (2000) Utilidad y representacin en la psicometra
der Linden y R.K. Hambleton (Eds.), Handbook of modern item res- actual. Metodologa de las Ciencias del Comportamiento, 2(2), 111-127.
ponse theory. (pp. 305-321). New York: Springer. Rasch, G. (1960). Probabilistic models for some intelligence and attain-
Embretson, S.E. y Hershberger, S.L. (1999). The new rules of measu- ment tests. Copenhagen: Danish Institute for Educational Research.
rement. Mahwah, NJ: LEA. Rasch, G. (1977). On specific objectivity: An attempt at formalizing the re-
Embretson, S.E. y McCollam, K.M.S. (2000). Psychometric approaches to quest for generality and validity of scientific statements. En M. Gleg-
understanding and measuring intelligence. En R.J. Sternberg (De.). vad (De.). The Danish Yearbook of Philosophy (pp. 59-94). Copenha-
Handbook of intelligence (pp. 423-444). Cambridge,UK: Cambridge gen: Munksgarrd.
University Press. Sheridan, B., Andrich, D. y Luo, G. (1996). Welcome to RUMM: A win-
Embretson, S.E. y Reise, S.P. (2000) Item response theory for psycholo- dows-based item analysis program employing Rasch unidimensional
gists. Mahwah, NJ: LEA. measurement models. Users Guide.
Fischer, G. H. (1973). Linear logistic test model as an instrument in edu- Smith, R.M. (2000). Fit Analysis in latent trait measurement models. Jour-
cational research. Acta psicologica, 37, 359-374. nal of Applied Measurement, 1, 199-218.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley. Smith, R.M., Schumaker, R.E. y Bush, M.J. (1998). Using item mean
Hambleton, R. K., Swaminathan, H. y Rogers, H. J. (1991). Fundamentals squares to evaluate fit to the Rasch model. Journal of outcome measu-
of item response theory. Beverly Hills, CA: Sage. rement, 2, 66-78.
Karabatsos, G. (2000a). A critique of Rasch residual fit statistics. Journal Wright, B.D. y Linacre, J.M. (1998). WINSTEPS : A Rasch computer pro-
of Applied Measurement, 1, 152-176. gram. Chicago: MESA Press.
Karabatsos, G. (2000b). Using Rasch measures for Rasch model fit analy- Wright, B.D. y Stone, M.H. (1979). Best test design. Rasch measurement.
sis. Popular Measurement, 3, 70-71. Chicago: MESA Press.

También podría gustarte