Documentos de Académico
Documentos de Profesional
Documentos de Cultura
+
= =
1
) , 1 (
Esta relacin entre la habilidad de una persona y la dificultad de un tem se
presenta en el siguiente grfico:
En el grfico se ve que, al enfrentarse a este tem en particular, Juan, cuya
habilidad es de -0,90 tiene una probabilidad de 0,29 de acertar a este tem, es
decir, lo ms probable es que lo falle y obtenga 0 puntos. En cambio, Jorge, cuya
habilidad se ha estimado en 1,80, tiene una probabilidad de 0,89 de acertar a
este tem, por lo tanto es ms probable que lo acierte y reciba un punto.
Finalmente, Martn tiene una habilidad igual a la dificultad del tem; por eso se
afirma que tiene iguales posibilidades de acertar o de fallar el tem.
0,29
0,50
0,86
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Juan = -0,90 Martn = 0,00 Jorge = 1,80
P
r
o
b
a
b
i
l
i
d
a
d
d
e
r
e
s
p
o
n
d
e
r
c
o
r
r
e
c
t
a
m
e
n
t
e
a
l
t
e
m
Medida de habilidad de la persona / dificultad del tem
Curva
caracterstica del
tem (CCI)
16
Al comparar dos o ms curvas caractersticas de items, se puede decir que,
mientras ms a la derecha se encuentra una curva, ms difcil es el tem.
Adems, se expresa numricamente la dificultad de un tem, como aquel valor de
la habilidad que posee una probabilidad de 50% de acertar a dicho tem. En el
caso que se presenta a continuacin, el tem ms fcil tiene una dificultad de -
0,50, y el ms difcil de 0,80:
3.2.2 MODELO DE CRDITOS PARCIALES
Masters introduce en 1982 el Modelo de Crditos Parciales para trabajar con
tems politmicos de categoras ordenadas (Verhelst y Verstralen, 1997). El
modelo especifica que cada tem tiene su propia estructura de calificacin. Se
deriva de los tests de opcin mltiple en los que hay respuestas incorrectas, pero
que indican algn conocimiento, y se les da un crdito parcial (Wrigth, 1999).
Fox (1999) seala que el Modelo de Crditos Parciales es una generalizacin del
modelo Rasch que se puede aplicar a situaciones en las cuales los tems pueden
variar en el nmero de alternativas correctas y cantidad de opciones de
respuesta en un mismo test.
Al plantear este modelo se supone que en el proceso de resolucin de un tem,
una persona responde de manera secuencial a un conjunto de subproblemas en
el tem. Los crditos parciales dados equivalen al nmero de pasos que deben
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
-5 -4 -3 -2 -1 0 1 2 3 4 5
tem A: - 0,50
tem B: 0,80
P
r
o
b
a
b
i
l
i
d
a
d
d
e
r
e
s
p
o
n
d
e
r
c
o
r
r
e
c
t
a
m
e
n
t
e
a
l
t
e
m
Curva
caracterstica del
tem (CCI) ms
difcil
Curva
caracterstica del
tem (CCI) ms
fcil
Medida de habilidad de la persona / dificultad del tem
17
completarse antes de obtener la respuesta final al problema. Veamos como
ejemplo el siguiente tem de matemtica:
4
196
=?
PUNTAJE RECIBIDO
0 1 2
4
196
= ?
0 1
49 = ?
1 2
Si el estudiante no puede resolver ni siquiera la divisin, recibe cero puntos. Si
es capaz de resolver la divisin, recibe un punto. Si adems obtiene la raz
cuadrada, recibe dos puntos.
Se plantea que los puntajes o crditos superiores deben tener una mayor
probabilidad de ser alcanzados en tems con baja dificultad que en tems con alta
dificultad. Adems las personas evaluadas con mayores niveles del rasgo latente
tienen mayor probabilidad de recibir un crdito total que las personas con
menores niveles del rasgo. Ambas propiedades deben mantenerse para todas las
personas, todos los tems y todas las categoras de respuesta (Wright y Masters,
1982). Adems cuando estas propiedades se cumplen, los puntajes directos
obtenidos pueden ser transformados para lograr una escala de medicin de
intervalo.
Se quiere modelar diferentes niveles de conocimiento frente a un mismo tem. Es
decir, se modela la probabilidad de tener 1 en lugar de 0 puntos en el tem, y
luego la probabilidad de tener 2 en lugar de 1 punto en el tem. Con un tem de
dos pasos, se modelan dos curvas caractersticas del tem, una para cada paso:
Primer paso
Segundo paso
18
La curva a la izquierda se refiere a la probabilidad de recibir 1 punto en lugar de
0. La curva de la derecha, por su parte nos indica la probabilidad de recibir 2
puntos frente a 1 0 puntos. Es decir, una persona con una medida de rasgo
latente de -1,35 tiene una probabilidad igual al 50% de superar el primer paso,
mientras que una persona con una medida de 0,71 tiene una probabilidad del
50% de superar el segundo paso.
Otra manera de graficar el Modelo de Crditos Parciales es mediante las curvas
de categoras de respuesta. Estas nos muestran la relacin existente entre la
cantidad del rasgo latente evaluado y la probabilidad de obtener cada uno de los
puntajes Indican en que lugar del continuo de rasgo latente las respuestas a una
categora son ms probables que a otra categora, dando lugar a las curvas de
categoras de respuesta.
Embretson y Reise (2000) sealan que el trmino
ij
es considerado como la
dificultad del paso asociado con el puntaje de una categora j. Mientras ms alto
el valor de
ij
, ms difcil es ese paso en relacin a otros pasos dentro del tem.
Es decir, los trminos
ij
, representan la dificultad relativa de un paso:
19
Los parmetros
ij
se encuentran en la interseccin de las curvas de las
categoras de respuesta. Si una persona tiene medida del rasgo latente menor a
-0,71, lo ms probable es que haya recibido 0 puntos (crdito 0) en este tem. Si
su medida se encuentra entre -0,71 y 0,30, lo ms probable es que reciba 1
punto (crdito 1). Finalmente si su medida de habilidad es mayor que 0,30 lo
mas probable es que reciba 2 puntos (crdito 2).
En este modelo puede haber muy pocas o ninguna observacin en alguna de las
categoras de respuesta de algunos tems. Por lo tanto las estimaciones de la
dificultad de esos pasos no ser muy segura (Linacre, 2000). Al trabajar con
estos modelos es importante asegurar un buen nmero de respuestas dentro de
cada uno de los crditos probables.
3.2.3 AJUSTE AL MODELO Y CONFIABILIDAD
Ningn conjunto de datos se ajusta perfectamente a un modelo matemtico,
incluyendo a la curva normal. Ninguna variable se distribuye exactamente segn
esta distribucin. Lo importante es hasta que punto es significativo dicho
desajuste de los datos con respecto al modelo matemtico (Schutz, 1990).
Wrigth y Masters (1989) sealan que una ventaja importante de los modelos
Rasch es que proporcionan medidas de ajuste de los tems y las personas. Por
ejemplo, una persona con desajuste implicara un patrn inesperado de
respuesta, que puede tener diversas explicaciones (responde al azar, falla los
tems fciles, pero acierta los difciles, etc.). Si un tem muestra desajuste con el
20
modelo, podra explicarse por su falta de discriminacin, o porque este tem est
midiendo algo muy distinto al resto de tems, es decir, carece de
unidimensionalidad. Las dos medidas de ajuste empleadas en los modelos Rasch
son:
Outfit: Outlier sensitive mean square residual goodness of fit statistic. Es
una medida sensible al comportamiento inesperado alejado de la medida.
Infit: Information weighted mean square residual goodness of fit statistic.
Es una medida sensible al comportamiento inesperado cercano a la
medida.
Una ventaja del uso de estas medidas de ajuste es que no varan
significativamente en funcin al tamao del a muestra (Schutz, 1990). Tienen un
valor esperado de 1,00 y varan entre cero e infinito (Linacre y Wright, 1994).
Cualquier valor inferior a 1,00 implica que los datos no muestran mucha
aleatoriedad, mientras valores superiores indican que los datos presentan
demasiada aleatoriedad.
Hambleton, Swaminathan y Rogers (1991) sostienen que dos fuentes ms del
descontento con la Teora Clsica de los Test descansan en la definicin de la
confiabilidad y lo qu se puede pensar como su inverso conceptual: el error
estndar de la medida.
Dentro del modelo de la Teora Clsica de los Tests, Muiz (1996) seala que las
mediciones deben verse libres de errores de medicin. Si las evaluaciones
efectuadas con un instrumento son consistentes, si carecen de errores de
medida, se les considera confiables. As, el objetivo principal de la confiabilidad
es tratar de estimar el error existente en las medidas mediante un indicador
denominado coeficiente de confiabilidad (Muiz, 1996). En esta misma lnea,
podemos citar a Suen (1990): La confiabilidad es la fuerza de la relacin entre
el puntaje observado y el puntaje verdadero
7
. Esto puede ser expresado como la
correlacin obtenida mediante el coeficiente de Pearson entre el puntaje
observado y el puntaje verdadero; eso es
XV
. Esta correlacin es denominada
ndice de confiabilidad. (p. 28)
La confiabilidad, en este marco, se define tambin como la correlacin entre los
puntajes del test en formas paralelas de una prueba
8
. Dos pruebas sern
paralelas cuando miden el mismo rasgo latente, con la misma cantidad de tems,
7
El modelo de la Teora Clsica de los test establece que el puntaje observado (X) es
igual al puntaje verdadero (V) mas el error de medicin . En la prctica es imposible
conocer el puntaje verdadero de una persona, pues ninguna medida se encuentra libre
de error de medicin.
8
Al correlacionar dos pruebas paralelas, tericamente se debera obtener un coeficiente
igual a 1,00, pues al ser paralelas es como si correlacionramos una variable consigo
misma. Sin embargo, la presencia del error de medicin hace que las correlaciones con
formas paralelas sean diferentes a 1,00.
21
tienen la misma media aritmtica y la misma varianza. Si dos test miden los
mismo, cualquier diferencia de puntuaciones en ambos test, debe ser producto
del error de medicin. En la prctica, satisfacer los requerimientos de la
definicin de test paralelos es difcil, si no imposible. Por otro lado, la
confiabilidad es reportada como si fuese una caracterstica invariante, cuando no
lo es. Depende no slo del test, sino de la distribucin de habilidad de la muestra
estudiada y del nmero de tems utilizado para evaluarlos (Muiz, 1996).
Mientras ms confiable sea un test, menor ser el error estndar de medicin
que este posee. El problema con la medida del error de estndar, es que se
supone que todos los examinados son medidos con la misma precisin, en
independencia del nivel de rasgo latente que poseen (Hambleton, Swaminathan y
Rogers, 1991). Linacre y Wrigth (1989) sostienen que al ajustar los datos al
modelo Rasch para utilizarlos en el establecimiento de medidas, nuestro objetivo
es construir un sistema invariante de medidas de intervalo, estimar su precisin
(error estndar) y evaluar hasta que punto estas medidas y sus errores son
confirmadas por los datos (medidas de ajuste). Una ventaja de los modelos
Rasch, es que permiten calcular un error estndar para cada una de las medidas.
En general se estiman con mayor precisin las medidas cercanas al promedio,
mientras que las medidas de los extremos superior e inferior del rasgo latente
son estimadas con menor precisin.
En el marco de los modelos Rasch, se habla tambin del ndice de confiabilidad
de separacin de personas. Este sirve para indicarnos que tan bien sirven las
medidas de un test para diferenciar las cantidades de rasgo latente que poseen
los evaluados (Wrigth y Masters, 1982). Un ndice menor a ,50 indica que las
diferencias entre las medidas son producidas principalmente por el error de
medicin. (Fisher, 1992)
22
4. REFERENCIAS
AIKEN, L.
1996 Tests psicolgicos y evaluacin, 8 ed. Mxico: Prentice Hall.
ALDWIN, C.
1994 Stress, coping and development. An integrative perspective. Nueva
York: The Guilford Press
ANASTASI A. y S. URBINA
1998 Tests psicolgicos. Mxico. Prentice Hall.
CAPELLA J. y COLABORADORES
2003 Estilos de aprendizaje. Lima: Pontificia Universidad catlica del Per.
CARRASCO, J.
1985 La recuperacin educativa. Espaa: Anaya.
CERDA, H.
2003 La nueva evaluacin educativa. Bogot: Magisterio
COLOM R.
1998 Psicologa de las diferencias individuales. Madrid. Pirmide.
CORTADA, N.
1999 Teoras psicomtricas y construccin de tests. Buenos Aires: Lugar
Editorial
CUESTA M.
1996 Unidimensionalidad. En J. Muiz (ed.) Psicometra. Madrid: Pirmide,
pp.239 291
DAZ-BARRIGA F. y G. HERNNDEZ
2002 Estrategias docentes para un aprendizaje significativo. Una
interpretacin constructivista. 2.a ed. Mxico: McGraw-Hill.
EMBRETSON S. y P. REISE
2000 Item Response Theory for psychologists. New Jersey: Lawrence
Earlbaum Associates.
FISHER, W.
1992 Reliability statistics En J. Linacre (ed.) Rasch Measurement Transactions
Part 2, 1996. Chicago: MESA Press, p.238.
FOX, C.
1999 An introduction to the partial credit model for developing nursing
assessments. Journal of Nursing Education, vol.38, n8, pp. 340-346.
GARCA, L.
2002 Factores asociados al rendimiento acadmico en estudiantes de
psicologa de la UNMSM. Revista de Investigacin en Psicologa, vol.5
n.1.
23
GOOD T. y J. BROPHY
1997 Psicologa educativa contempornea. 5.a ed. Mxico: McGraw-Hill.
HAMBLETON R., H. SWAMINATHAN y J. ROGERS
1991 Fundamentals of Item Response Theory. California: SAGE
HATTIE J.
1985 Methodology review: Assessing unidimensionality of tests and items.
Applied Psychological Measurement, vol.9 n.2, pp.139-164.
HELMKE A. y M. VAN AKEN
1995 The causal ordering of academic achievement and self-concept of
ability during elementary school: A longitudinal study. Journal of
Educational Psychology, vol. 87, n.4, pp. 624-637.
INGEBO, G.
1989 Educational Research and Rasch Measurement. En J. Linacre (ed.)
Rasch Measurement Transactions Part 1, 1995. Chicago: MESA Press,
pp 43-46.
1997 Probability in the measure of achievement. Chicago: MESA
KOLEN, M. y BRENNAN, R.
2004 Test Equating, Scaling and Linking. Methods and Practices. 2a ed.
Nueva York: Springer
LINACRE J.
1994 DIMTEST diminuendo. Rasch Measurement Transactions, vol.8 n.3,
p.384. Consulta hecha en 27/01/2005.
<http://www.rasch.org/rmt/rmt83n.htm>.
2000 Comparing Partial Credit and Rating Scale Models. Rasch
Measurement Transactions, vol.14 n. 3, p.768. Consulta hecha en
03/07/2005. <http://www.rasch.org/rmt/rmt143k.htm>.
LINACRE, J. y WRIGHT, B.
1989 Length of a Logit. En J. Linacre (ed.) Rasch Measurement
Transactions Part 1, 1995. Chicago: MESA Press, pp.54-55
1994 Chi-Square Fit Statistics. En J. Linacre (ed.) Rasch Measurement
Transactions Part 2, 1996. Chicago: MESA Press, pp.360-361.
MARCHESI A. y E. MARTN
1999 Calidad de la enseanza en tiempos de cambio. Madrid: Alianza
Editorial
MUIZ, J.
1996 Teora Clsica de los Tests, 2.a ed. Madrid: Ediciones Pirmide
NUNNALLY J. y I. BERNSTEIN
1995 Teora Psicomtrica. 3.a ed. Mxico: McGraw - Hill.
PIZARRO R., L. CLARK y M. ALLEN
1987 El ambiente educativo del hogar. Dilogos Educacionales, n. 9-10,
pp. 66-83.
24
PRIETO G. y A. GARCIA
1996 Construccin de tems. En J. Muiz (ed.) Psicometra. Madrid:
Pirmide
RETEGUI N., M. ARAKAKI y C. FLORES
2001 El reto de la evaluacin. Lima: PLANCAD-GTZ-Ministerio de Educacin.
SCHULZ, E.
1990 Functional assessment of fit. En J. Linacre (ed.) Rasch Measurement
Transactions Part 1, 1995. Chicago: MESA Press, pp.82-84.
SHAW, F.
1991 Descriptive IRT vs. Prescriptive Rasch. En J. Linacre (ed.) Rasch
Measurement Transactions Part 1, 1995. Chicago: MESA Press, p.131.
SMITH R. y G. KRAMER
1989 Response Pattern Analysis with Supplemental Store Reports. En J.
Linacre (ed.) Rasch Measurement Transactions Part 1, 1995. Chicago:
MESA Press, pp.33-35.
STENNER , J.
1990 Objectivity: specific and general. En J. Linacre (ed.) Rasch
Measurement Transactions Part 1, 1995. Chicago: MESA Press, p.111.
SUEN, H.
1990 Principles of tests theories. Nueva Jersey: Lawrence Earlbaum
THORNDIKE, R.
1989 Psicometra aplicada. Mxico: Limusa
VLEZ E., E. SCHIEFENBEIN y J. VALENZUELA
1998 Factores que afectan el rendimiento acadmico en la educacin
primaria: Revisin de la literatura de Amrica Latina y el Caribe.
Organizacin de Estados Iberoamericanos para la Educacin, la Ciencia
y la Cultura (OEI). Consulta hecha en 21/02/2004.
<http://www.campus-oei.org/calidad/Velezd.pdf>.
VERHELST N. y H. VERSTRALEN
1997 Modeling Sums of Binary Responses by the Partial Credit Model.
CITO. Consulta hecha en 21/02/2004.
<http://download.citogroep.nl/pub/pok/reports/Report97-7.pdf>
WRIGHT, B.
1988 Useful Measurement trough One-Step Item Banking. En J. Linacre
(ed.) Rasch Measurement Transactions Part 1, 1995. Chicago: MESA
Press, p.24.
1999 Model selection: Rating Scale or Partial Credit?. Rasch Measurement
Transactions, vol.12, n. 3, p. 641-642. Consulta hecha en
03/07/2005. <http://www.rasch.org/rmt/rmt1231.htm>.
25
WRIGTH B. y J. LINACRE
1987 Rasch model derived from Objectivity. En J. Linacre (ed.) Rasch
Measurement Transactions Part 1, 1995. Chicago: MESA Press, pp.5-6
1989 The Differences between scores and measures. En J. Linacre (ed.)
Rasch Measurement Transactions Part 1, 1995. Chicago: MESA Press,
pp.63-65.
1998 MESA research memorandum 44. Archives of Physical Medicine and
Rehabilitation, vol.70 n.12, pp. 857-860.
WRIGTH B. y G. MASTERS
1982 Rating Scale Analysis. Chicago : MESA
WRIGHT B. y M. STONE
1998 Diseo de Mejores Pruebas. Mxico: CENEVAL