Está en la página 1de 25

Prof.

Ren Castro

Psicometra 1

UBA

Unidad III. TEORA DE LOS TEST.


Contenido: Orgenes y desarrollo de la Teora Clsica De Tests (TCT), Teora de la Respuesta al tem
(TRI/TRL). Modelos de la TRI/TRL. Curva caracterstica del tem (CCI).
Introduccin
Por qu y para qu tienen los psiclogos en su carrera la asignatura de Psicometra dedicada fundamentalmente a
exponer las teoras en las que se basan los test psicolgicos?. La razn es bien sencilla, los tests son instrumentos de
medida sofisticados mediante los cuales los psiclogos llevan a cabo inferencias y toman decisiones sobre aspectos
importantes de las personas. Por tanto hay que asegurarse de que esas inferencias son adecuadas y pertinentes, de lo
contrario se puede perjudicar notablemente a las personas que acuden a los psiclogos por la razn que sea. Las teoras
estadsticas de los tests van a permitir la estimacin de las propiedades psicomtricas de los tests para de ese modo
garantizar que las decisiones tomadas a partir de ellos son las adecuadas. Sin esas teoras no podramos estimar la
fiabilidad y la validez de los tests, lo cual es imprescindible para poder usar los tests de forma rigurosa y cientfica.
Hay dos grandes enfoques o teoras a la hora de construir y analizar los tests, son la Teora Clsica de los Tests (TCT)
y el enfoque de la Teora de Respuesta a los tems (TRI) o la Teora del rasgo Latente (TRL). No se trata aqu de llevar a
cabo exposiciones detalladas de estas teoras, sino de subrayar los aspectos claves, para que as los usuarios de los tests
tengan una idea ms cabal y comprendan en profundidad el alcance de las propiedades psicomtricas de los tests que estn
utilizando.
TEORA CLSICA DE TESTS (TCT)
El enfoque clsico (TCT) es el predominante en la construccin y anlisis de los tests, as, por ejemplo, los diez tests
ms utilizados por los psiclogos (16PF, WISC, WAIS, MMPI, Beck, STAI, Rorschach, Raven, Bender e ISRA) han sido
desarrollados bajo la ptica clsica. Slo este dato ya deja bien patente la necesidad de que los profesionales entiendan
perfectamente la lgica clsica, sus posibilidades y sus limitaciones.
El psiclogo, como cualquier otro profesional de otro campo, tiene que asegurarse de que el instrumento que utiliza
mide con precisin, con poco error.
Todos esos instrumentos han de estar homologados, estandarizado o tipificados, y requieren algn indicador del grado
de precisin con el que miden, mxime los tests, ya que apoyados en ellos se toman decisiones muy importantes para las
vidas de las personas. Cuando un psiclogo aplica un test a una persona, o a varias, lo que obtiene son las puntuaciones
empricas que esa persona o personas obtienen en el test, pero eso nada nos dice sobre el grado de precisin de esas
puntuaciones, no sabemos si esas puntuaciones empricas obtenidas se corresponden o no con las puntuaciones que
verdaderamente le corresponden a esa persona en la prueba. Bien podra ocurrir que las puntuaciones estuviesen, por
ejemplo, algo rebajadas debido a que ese da la persona no est en sus mejores condiciones, o porque las condiciones
fsicas en las que se desarroll la aplicacin de la prueba no eran las ms adecuadas, o porque las relaciones establecidas
entre los aplicadores de las pruebas y las personas evaluadas dejaron mucho que desear. Los psiclogos, estamos
obligados a garantizar que las puntuaciones de nuestros tests sean precisas, tengan poco error, el problema es que esto no
se sabe escrutando directamente las puntuaciones que obtienen las personas en los tests, esas puntuaciones vistas as de
frente no nos dicen nada acerca de su grado de precisin. Como no lo podemos hacer as de frente, es por lo que tenemos
que dar algunos rodeos, es decir, es por lo que tenemos que plantear algunos modelos que subyacen a las puntuaciones a
fin de ser capaces de estimar el grado de precisin de stas. El error est mezclado con la verdadera puntuacin, y para
separarlos necesitamos llevar a cabo algunos procesos y ah es donde entran las teoras o modelos estadsticos. Modelos
para esto ha habido muchos, pero uno de los que se ha mostrado ms eficaz y parsimonioso es el modelo lineal clsico
propuesto originalmente por Spearman. Se caracteriza porque su nfasis est orientado por la cantidad de respuestas
correctas. Es la principal informacin que se obtiene de la TCT.

Psicologa

Pgina 1

Prof. Ren Castro

Psicometra 1

UBA

Modelo Lineal Clsico


Spearman propone un modelo muy simple, de sentido comn, para las puntuaciones de las personas en los tests, y que
ha dado en llamarse modelo lineal clsico. Consiste en asumir que la puntuacin que una persona obtiene en un test, que
denominamos su puntuacin emprica, y que suele designarse con la letra X, est formada por dos componentes, por un
lado la puntuacin verdadera de esa persona en ese test (V), sea la que sea, y por otro un error (e), que puede ser debido a
muchas causas que se nos escapan y que no controlamos. Lo dicho puede expresarse formalmente as: X = V + e. Este
tipo de modelo define relaciones lineales entre las variables en estudio, hecho que lo diferencia respecto a la Teora de la
Respuesta al Item, que define una relacin curva entre las variables en estudio.
ORGENES Y DESARROLLO DE LA TEORA CLSICA DE TESTS (TCT)
Como consecuencia del auge, uso y aplicacin logrados u obtenidos por los tests psicolgicos, surge la necesidad de
desarrollar un marco terico que sirva de fundamento a las puntuaciones obtenidas por los sujetos cuando a estos se les
aplican estas pruebas, posibiliten la validacin de las interpretaciones e inferencias realizadas a partir de ella, y permita la
estimacin de los errores de medida inherentes a todo proceso de medicin a travs del desarrollo de una serie de
modelos.
As, se desarroll un marco terico general, la Teora de los Tests, que va a permitir establecer una relacin funcional
entre las variables observables a partir de las puntuaciones empricas obtenidas por los sujetos en los tests o en los tems
que los componen y las variables inobservables definidas como los constructos.
La Teora Clsica de los Test (TCT) se desarroll, fundamentalmente, a partir de las aportaciones de Francis Galton,
Pearson y Spearman que giran en torno a tres conceptos bsicos:

las puntuaciones/medidas empricas u observadas (X)

las puntuaciones/medidas verdaderas (V)

y las puntuaciones debidas al error (e)

El objetivo central era encontrar un modelo estadstico que fundamentase adecuadamente las puntuaciones de los tests
y permitiera la estimacin de los errores de medida asociados a todo proceso de medicin realizado en el campo
psicolgico o educativo para inferir (estimar) el nivel real de los sujetos en el rasgo que mide el test. Estos errores son
aleatorios y pueden venir de distintas fuentes. Mientras menor sea el error cometido, mayores sean las
puntuaciones/medidas verdaderas (V), mayor ser la confiabilidad del test empleado.
El modelo lineal de Spearman, es un modelo aditivo en el que la puntuacin observada (variable dependiente) de un
sujeto en un test (X) es el resultado de la suma de dos componentes: su puntuacin verdadera (variable independiente) en
el test (V) y el error (e) (variable interviniente, interfiriente o extraa).
X=V+e
Donde:
X= Puntuacin observada (variable dependiente) de un sujeto en un test
V= Puntuacin verdadera (variable independiente) de esa persona en el test
E=error que puede ser debido a muchas causas que se nos escapan y que no controlamos (variable interfiriente)
A partir de este modelo y unas asunciones mnimas, la TCT desarrollar todo un conjunto de deducciones encaminadas
a estimar la cuanta del error que afecta a las puntuaciones de los tests.
Supuestos:
1. El primer supuesto es definir la puntuacin (V) como la esperanza matemtica de la puntuacin emprica (X), que
formalmente se escribe as:
V = E(X)
Lo que esto significa conceptualmente es que se define la puntuacin verdadera (V) de una persona en un test como
aquella puntuacin que obtendra como media si se le aplicara infinitas veces el test. Se trata de una definicin terica,
Psicologa

Pgina 2

Prof. Ren Castro

Psicometra 1

UBA

nadie va a pasar infinitas veces un test a nadie, por razones obvias, pero parece plausible pensar que si esto se hiciese,
la puntuacin media que esa persona sacase en el test sera su verdadera puntuacin.
2. En el segundo supuesto, Spearman asume que la correlacin existente entre las puntuaciones verdaderas de "n" sujetos
en un test y los errores de medida es igual a cero, o lo que es igual, que no existe relacin entre la cuanta de las
puntuaciones verdaderas de las personas y el tamao de los errores que afectan a esas puntuaciones. En otras palabras,
que el valor de la puntuacin verdadera de una persona no tiene nada que ver con el error que afecta esa puntuacin, es
decir, puede haber puntuaciones verdaderas altas con errores bajos, o altos, no hay conexin entre el tamao de la
puntuacin verdadera y el tamao de los errores. De nuevo se trata de un supuesto en principio razonable, que
formalmente puede expresarse as:
r(v,e) = 0
3. El tercer supuesto establece que los errores de medida de las personas en un test no estn relacionados con los errores
de medida de las personas en otro test distinto. Dicho de otro modo, la correlacin entre los errores de medida (re1e2)
que afectan a las puntuaciones de los sujetos en dos test diferentes es igual a cero. Es decir, no hay ninguna razn para
pensar que los errores cometidos en una ocasin vayan a covariar sistemticamente con los cometidos en otra ocasin.
Formalmente se escribe as:
r(e1,e2) = 0 o tambin r(ej, ek) = 0.
Partiendo de esos tres supuestos del modelo, se establecen las siguientes deducciones:
a) El error de medida (e) es la diferencia entre la puntuacin emprica (X) y la verdadera (V).
e = X-V
b) La esperanza matemtica de los errores de medida es cero, luego son errores insesgados.
E(e) = 0
c) Las puntuaciones verdaderas no covaran con los errores.
Cov(V,e) = 0
d) La covarianza entre las puntuaciones empricas y las verdaderas es igual a la varianza de las verdaderas:
cov(X,V) = S2(V)
e) La covarianza entre las puntuaciones empricas de dos test es igual a la covarianza entre las verdaderas:
cov(Xj,Xk) = cov(Vj,Vk)
f) La varianza de las puntuaciones empricas es igual a la varianza de las verdaderas ms los errores:
S2(X) = S2(V) + S2(e)
g) La correlacin entre las puntuaciones empricas y los errores es igual al cociente entre la desviacin tpica de los
errores y la de las empricas.
rxe = Se/S
Estas asunciones parecen razonables y sensatas, pero no se pueden comprobar empricamente de forma directa, sern
las deducciones que luego se hagan a partir de ellas las que permitan confirmarlas o falsearlas. Tras cien aos de
formuladas y con muchos resultados empricos detrs, bien podemos decir hoy que las ideas de Spearman han sido de
gran utilidad para la psicologa.
Adems del modelo y de estos tres supuestos, se formula una definicin de lo que son Tests Paralelos, entendiendo por
ello aquellos tests que miden lo mismo exactamente pero con distintos tems. Las puntuaciones verdaderas de las personas
en los tests paralelos seran las mismas, y tambin seran iguales las varianzas de los errores de medida.

Psicologa

Pgina 3

Prof. Ren Castro

Psicometra 1

UBA

El modelo lineal, junto con los tres supuestos enunciados, y la definicin de tests paralelos propuesta, constituyen el
conjunto central de la Teora Clsica de los Tests.
Tradicionalmente, los mtodos basados en la llamada Teora Clsica de los Tests han sido utilizados para el anlisis de
calidad tcnica de instrumentos de medicin psicomtricos. Uno de los resultados ms importantes que se deriva a partir
de los postulados de la Teora Clsica es el conocido coeficiente de confiabilidad de Cronbach, medida que se usa para
juzgar la confiabilidad de un instrumento desde el punto de vista de su consistencia interna.
En algunos pases de Latinoamrica, la Teora Clsica de los Tests se ha aplicado rutinariamente para el anlisis y la
construccin del banco de tems de las pruebas de aptitud acadmica de las principales universidades estatales, como las
Universidades de Costa Rica y el Instituto Tecnolgico en Costa Rica. Ms recientemente, tambin se ha incorporado a
las pruebas sumativas que deben presentarse al termino de la educacin secundaria (llamadas pruebas de bachillerato).
Limitaciones del enfoque clsico.
Veamos la primera: dentro del marco clsico, las mediciones no resultan invariantes respecto al instrumento utilizado.
Esto significa que si un psiclogo evala la inteligencia de tres personas distintas con un test diferente para cada persona,
los resultados no son comparables, no podemos decir en sentido estricto qu persona es ms inteligente.
Esto es as porque los resultados de los tres tests no estn en la misma escala, cada test tiene la suya propia, por lo que
no es conveniente comparar la inteligencia de personas que han sido evaluadas con distintos tests de inteligencia. Para
hacerlo se transforman las puntuaciones directas de los tests en otras baremadas, por ejemplo en percentiles, con lo que se
considera que se pueden ya comparar, y de hecho as se hace. Este proceder clsico asume que los grupos normativos en
los que se elaboraron los baremos de los distintos tests son equiparables, lo cual es difcil de garantizar en la prctica.
No hay duda que lo ms deseable cientficamente sera que los resultados obtenidos al utilizar distintos instrumentos
estuviesen en la misma escala. Eso es precisamente lo que va a conseguir el enfoque de la TRI. Este nuevo enfoque de la
TRI va a suponer un gran avance para la medicin psicolgica, propiciando un gran desarrollo de nuevos conceptos y
herramientas psicomtricas.
La segunda gran cuestin no bien resuelta dentro del marco clsico era la ausencia de invarianza de las propiedades de
los tests respecto de las personas utilizadas para estimarlas. En otras palabras, propiedades psicomtricas importantes de
los tests, tales como la dificultad de los tems, o la fiabilidad del test, estaban en funcin del tipo de personas utilizadas
para calcularlas, lo cual resulta inadmisible desde el punto de vista de una medicin rigurosa. Por ejemplo, la dificultad de
los tems, o los coeficientes de fiabilidad dependen en gran medida del tipo de muestra utilizada para calcularlos. Este
problema tambin encontrar una solucin adecuada dentro del marco de la TRI.
Teora de la Respuesta al Item (TRI/TRL)
Dentro del campo de la Teora de los Tests Psicomtricos han aparecido distintas denominaciones que en la actualidad
toman el nombre de "Teora de la Respuesta al Item (TRI)" (Teora del Rasgo Latente (TRL) o Teora de Respuesta
al Reactivo (TRR)) cuyo principal autor fue Frederic M. Lord (12/1112 -05/02/2000), psicometrista del Servicio de
Pruebas Educacionales quin aport dos libros importantes: Statistical Theories of Mental Test Scores o Teoras
Estadsticas de las Puntuaciones Mentales (con Melvin R. Novick y dos captulos por Allen Birnbaum, 1968) y
Applications of Item Response Theory to Practical Testing Problem (1980) o Aplicaciones de la Teora de la Respuesta al
Item a los problemas prcticos de la prueba. Adems, G. Rasch aport el desarrollo del primer modelo logstico
probabilstico basado en el ndice de dificultad de la TRI/TRL. En este caso, puede observarse que tem, reactivo,
pregunta o afirmacin tienen significados similares.
Esta denominacin presenta unas diferencias respecto al modelo clsico:
1) la relacin entre el valor esperado de las puntuaciones del sujeto y el rasgo (caracterstica responsable de los
valores), no suele ser de tipo lineal, la TRI postula que esta relacin es de tipo probabilstica, no lineal (curva) y
abstracta.
Psicologa

Pgina 4

Prof. Ren Castro

Psicometra 1

UBA

2) pretende hacer predicciones individuales sin necesidad de hacer referencia a las caractersticas del grupo normativo.
Vemos, pues, que esta Teora de la Respuesta al Item proporciona la posibilidad de describir de forma separada tanto a
los items como a los individuos; adems considera que la respuesta que da el sujeto depende del nivel de habilidad que
tenga en el rango considerado.
El origen de estos modelos se deben a Lazarsfeld, 1950, el cual introdujo el trmino "rasgo latente. Desde aqu se
considera que cada individuo tiene un parmetro individual el cual es el responsable de las caractersticas del sujeto,
denominadas tambin "rasgo".
Este rasgo no es medible directamente, solo indirectamente, de ah que el parmetro individual reciba el nombre de
variable latente.
A la hora de aplicar los tests se pueden obtener dos cosas distintas, la puntuacin verdadera y la escala de aptitud; esto
se consigue si pasamos dos tests acerca de la misma aptitud a un mismo grupo.
En la Teora del Rasgo Latente o Teora de la Respuesta al Item, la puntuacin verdadera es aquel valor que se espera
de la puntuacin observada. Segn Lord, la puntuacin verdadera y la aptitud son la misma cosa pero expresadas en
diferentes escalas de medicin.
La Teora de la Respuesta al Item (TRI) o Teora del Rasgo Latente (TRL) asume que entre la respuesta que una
persona ofrece a una pregunta o prueba, y el rasgo o habilidad (puede entenderse tambin como la competencia, actitud,
actitud, etc.) de la persona, existe una relacin no lineal (curva), que se puede expresar en trminos probabilsticos.
El conjunto de clculos que se aplican para ello determina los distintos modelos y resultados de la TRI.
En cuanto al clculo estadstico, la TRI utiliza un modelo matemtico logstico para describir la relacin entre el nivel
de habilidad del examinado y la probabilidad que ste d una respuesta correcta a un tem del test. Algunas aplicaciones
de la TRI han consistido en la creacin de bancos de tems y los diseos de tests a la medida del sujeto o test adaptativos
computadorizados (TAC). Los test de medida consisten en la seleccin de informatizada de los tems que puedan medir
mejor la habilidad de un individuo. Otros conceptos fundamentales en la TRI son la Funcin de Informacin y el Error
Estndar de Medicin.
La Teora de la Respuesta al tem (TRI) tiene algunas ventajas sobre la TCT, ya que permite obtener ms informacin
sobre los tems de la prueba y sobre la variable psicolgica, el constructo o variable latente que interesa medir en los
examinados. Adems, con la TRI se pueden generar pruebas adaptadas al nivel de los individuos. Tambin se logran
indicadores de las propiedades psicomtricas del instrumento, y de los tems que lo componen, segn los diferentes
valores del constructo de inters. Permite establecer comparaciones entre escala de distintos test que evalan un mismo
constructo, mediante transformaciones lineales o escalares. Estas caractersticas de la TRI le dan ventajas esenciales en
relacin con la Teora Clsica.
Modelos de la TRI/TRL.
Los modelos de la TRI centran su inters en las preguntas.
En la TRI se suelen distinguir tres modelos distintos (teora triparamtrica) en funcin del nmero de parmetros que
estiman:
a) Modelo de un parmetro, tambin llamado modelo de Rash (1PL). Se estima la dificultad del item (b).
b) Modelo de dos parmetros (modelo de Lord y Novick) se estima la dificultad (b) y la discriminacin del item (a)
(2PL).
c) Modelo de tres parmetros, o modelo de Birnbaum (3PL). Este modelo se incluye en la TRI, aunque en esencia puede
considerarse como un enfoque alternativo de la TRI. El modelo de Birnbaum estima la dificultad (b), la discriminacin
(a) y el pseudoazar o adivinacin (c).
Parmetros del tem
Como se ha indicado, los parmetros son tres: dificultad (b), discriminacin (a) y pseudo-azar (c).
El ndice de dificultad se suele indicar con la letra b y se define como:
Psicologa

Pgina 5

Prof. Ren Castro

Psicometra 1

UBA

es la proporcin de sujetos examinados que responden correctamente a ese tem, sirve para identificar y establecer
cuantitativamente el nivel o grado de dificultad de un tem o pregunta.
el punto de la escala de habilidad donde la probabilidad de responder correctamente el tem es igual a 0,5. Es decir,
que coincide con el grado de habilidad donde la curva seala una proporcin de 50% o una probabilidad de 0,5.
Dicho de otra forma, con ese nivel de habilidad, la persona tienen una proporcin del 50% o una probabilidad del 0,50
de contestar correctamente al tem.
El ndice de discriminacin se suele indicar con la letra a y se define como:
Un tem tiene elevado poder discriminativo si contribuye a la distincin, separacin y diferenciacin, de los sujetos
que puntan alto en el test de los que puntan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que
exhiben el constructo o rasgo de aquellos que no lo exhiben.
hasta que punto la pregunta puede discriminar entre sujetos que tienen un nivel alto de habilidad de aquellos que
tienen un nivel bajo. El ndice de discriminacin se suele representar con la letra a. Esta propiedad se refleja en la
pendiente de la curva, as, una mayor pendiente de la curva CCI del tem indicar una mayor separacin o
discriminacin segn su habilidad y viceversa.
El coeficiente de azar, pseudoazar o adivinacin, se representa con la letra c y se define como:

la probabilidad de contestar correctamente un tem sin tener el nivel de habilidad exigido o la probabilidad que hay de
acertar el tem al azar. Este parmetro trata de representar el efecto del azar.
la probabilidad en los tems de opcin mltiple de que un sujeto de poca habilidad/aptitud conteste un tem
relativamente difcil de manera correcta, lo que hace suponer que lo hizo por azar, es decir adivinando. En este caso
el menor/inferior valor de la curva asinttica representa el mayor valor de probabilidad de responder correctamente en
la seccin negativa o baja de los datos normalizados o tipificados (de 0 a -4, -5, o valores inferiores) que representa
los sujetos de escasa habilidad en el constructo evaluado.

La TRI genera una serie de resultados de especial inters:


a. Parmetros especficos de los tems:
ndice de dificultad (b)

Probabilidad de acierto al azar (c)

ndice de discriminacin(a)

Error por descuido.

Tambin se estudia el Parmetro (tita), es la habilidad o nivel de habilidad del sujeto en el rasgo latente/variable
estudiada:
b. Curva caracterstica del tem (CCI): es un elemento fundamental de la TRI porque, por un lado, ofrece una
representacin grfica de las caractersticas del tem, y por otra muestra la relacin entre la habilidad y la respuesta
al tem, en trminos probabilsticos (ver ecuaciones sobre los 3 modelos en la pgina siguiente y las guas sobre
conceptos y problemas de CCI en pdf y Excel).
c. Puntuacin verdadera en el test: se identifica con la suma de las probabilidades estimadas con relacin al nivel de
habilidad para el total de tems del test.
d. Curva caracterstica del test: permite ver de manera grfica, la relacin entre la puntuacin verdadera y
habilidades. La Curva Caracterstica del Test (CCT) muestra la relacin existente entre la puntuacin total en un
test (no solamente en un tem como sucede con la CCI) y el nivel de habilidad de una persona.
Psicologa

Pgina 6

Prof. Ren Castro

Psicometra 1

UBA

e. Nivel de informacin: es un indicador de la precisin de la estimacin.


COMPARACIN DE LA TEORA CLSICA CON LA TRI
En la siguiente tabla, tomada de Muiz (1997a), se sintetizan las principales diferencias y similitudes entre el enfoque
clsico o Teora Clsica de los Test TCT) y la Teora de la Respuesta al tem (TRI).
Aspectos
Modelo
Asunciones
Invarianza de las mediciones
Invarianza de las propiedades del
test
Escala de las puntuaciones
nfasis
Relacin tem-Test
Descripcin de los tems
Errores de medida
Tamao Muestral

Teora Clsica (TCT)

Teora de Respuesta a los Items (TRI)

Lineal
Dbiles (fciles de cumplir por los
datos)
No
No

No lineal (curva)
Fuertes (difciles de cumplir por los
datos)
Si
Si

Entre 0 y la puntuacin mxima del


test
Test
Sin especificar
ndices de Dificultad y de
Discriminacin
Error tpico de medida comn para
toda la muestra
Puede funcionar bien con muestras
entre 200 y 500 sujetos
aproximadamente

Entre - y +
tem
Curva Caracterstica del tem
Parmetros a, b, c
Funcin de Informacin (vara segn
el nivel de aptitud)
Se recomiendan ms de 500 sujetos,
aunque depende del modelo

TEORA DE LA RESPUESTA AL TEM/REACTIVO (TRI/R).


La Teora de la Respuesta al Item (TRI) o Teora del Rasgo Latente (TRL) asume que entre la respuesta que
una persona ofrece a una pregunta o prueba, y el rasgo o habilidad (puede entenderse tambin como la
competencia, actitud, actitud, etc.) de la persona, existe una relacin no lineal (curva), que se puede expresar en
trminos probabilsticos, y que se representa mediante un diagrama de regresin tem test, el cual presenta, en
el eje x, la puntuacin o calificacin obtenida en el test y en el eje y, la proporcin de respuestas correctas
obtenidas por los sujetos/participantes/respondientes para cada tem/reactivo. Tanto la dificultad (b), la
capacidad discriminatoria (a) como el pseudoazar (c) se pueden representarse simultneamente, en forma
grfica, en este tipo de diagrama.
En un primer ejemplo tomaremos un test de inteligencia aplicado a muchas personas. La mayor puntuacin
fue 135 y la menor 60. El rendimiento de un tem concreto sera: 132 personas obtuvieron 60 en el test, de estas
solo 2 lo contestaron bien, se entonces calcula la proporcin 2/132, que es 0,02, hacemos lo mismo con los que
obtuvieron 75,85, 100, 115, 125 y 135. La siguiente tabla y grfica muestra la proporcin de acertar el tem
dentro de cada grupo de personas.
En la siguiente tabla se presentan:

Psicologa

las calificaciones posibles u obtenidas en el test (de 60 a 135, denominadas Xi)


su correspondiente puntuacin Z obtenida de la media ( = 99,28) y de la desviacin estndar ( =
25,41) de esas calificaciones mediante la frmula Z = (Xi
el nmero de sujetos que obtuvieron cada una de esas calificaciones
Pgina 7

Prof. Ren Castro

Psicometra 1

UBA

para cada calificacin, el nmero de sujetos que acertaron o respondieron correctamente el tem
la proporcin de sujetos/personas en cada nivel de puntuacin/calificacin/nota total del test que
contest correctamente al reactivo.

Tabla con datos de la regresin tem-test para el reactivo/tem 4.


Puntuacin Z

Calificacin en el
test

-1,55
-0,96
-0,56
0,03
0,62
1,01
1,41

60
75
85
100
115
125
135
99,2857
25,4149

Reactivo/tem 7
# sujetos con esa
calificacin
132
204
276
171
317
357
401

# sujetos que
acertaron el item
2
17
49
86
289
354
398

Proporcin de acertar
(P)
0,02
0,08
0,18
0,50
0,91
0,99
0,99

Regresin tem-test: proporcin de acertar el tem dentro de cada grupo de personas.


1,20

Proporcin de acertar (P)

1,00

0,99

0,99
0,91

0,80
P(O)
0,60
0,50
0,40
0,20

0,18
0,08

0,00
55

0,02
65

75

85

95

105

115

125

135

Calificacin (CI)

Grfica de la regresin tem-test para el reactivo/tem 4 con base a escala decimal (calificacin CI).
Podemos ver que a mayor CI de la persona, mayor es la probabilidad de acertar el tem. A un CI de 100 le
corresponde una probabilidad de acertar de 0,5, y a un CI de 120 le corresponde una probabilidad de 0,99.
El nivel de habilidad del sujeto () (en este caso, CI) puede definirse en cualquier escala, en la grfica
anterior se emple la escala del cociente intelectual, (CI) aunque en la prctica suele emplearse una escala
normalizada/tipificada, con media cero, varianza 1 y un rango de valores de 3 a -3 (ver tabla y grfica anexa).
Psicologa

Pgina 8

Prof. Ren Castro

Psicometra 1

UBA

(NHS)

Equiv. en CI (aprox.)

CI

-3

60

50-69

-2

75

70-79

-1
0
1
2
3

85
100
115
125
135

80-89
90-109
110-119
120-129
130 o ms

(NHS) como
puntos Z o
valores
tipificados (Z)

Clasificacin
deficiente mental
superficial
limtrofe (borderline o
fronterizo )
subnormal
normal
normal brillante
superior
muy superior

Proporcin de acertar el tem dentro de cada grupo de personas.


1,20
1,00

0,99

0,99

Proporcin de acertar (P)

0,91
0,80
P(O)
0,60
0,50
0,40
0,180,20
0,08
0,02

-4

-3

0,00
-2

-1

Calificacin normalizada o tipificada del CI

Grfica de la regresin tem-test para el reactivo/tem 4 con base en la escala Z (CI).


Como segundo ejemplo, consideremos un test o prueba hipottica de 12 tems/reactivos que requieren
respuestas cortas del tipo de respuesta abierta o libre, como las pruebas de vocabulario de las escalas de
inteligencia de aplicacin individual. En la siguiente tabla se presentan:

Psicologa

las calificaciones posibles en el test (de 12 a 1)


su correspondiente puntuacin Z obtenida de la media ( = 6,5) y de la desviacin estndar ( =
3,4520) de esas calificaciones mediante la frmula Z = (Xi
el nmero de sujetos que obtuvieron cada una de esas calificaciones
para cada calificacin, el nmero de sujetos que acertaron o respondieron correctamente los tems en
estudio (7 y 13).
la proporcin de sujetos/personas en cada nivel de puntuacin/calificacin/nota total del test que
contest correctamente a cada uno de los dos reactivos (7 y 13).
Pgina 9

Prof. Ren Castro

Psicometra 1

UBA

Tabla con datos de la regresin tem-test para los reactivos/tem 7 y 13.


Reactivo/tem 7
Puntuacin
Z

Calificacin
en el test

# sujetos
con esa
calificacin

1,59
1,30
1,01
0,72
0,43
0,14
-0,14
-0,43
-0,72
-1,01
-1,30
-1,59

12
11
10
9
8
7
6
5
4
3
2
1
6,5
3,45205

415
350
330
293
285
260
210
200
167
79
46
32

# sujetos
que
acertaron el
item
415
287
287
205
139
60
21
12
5
0
0
0

Reactivo/tem 13
Proporcin
de acertar
(P)

# sujetos
con esa
calificacin

1
0,82
0,87
0,7
0,49
0,23
0,1
0,06
0,03
0
0
0

415
350
330
293
285
260
210
200
167
79
46
32

# sujetos
que
acertaron el
item
394
217
287
205
139
60
0
0
5
0
0
0

Proporcin
de acertar
(P)
0,95
0,62
0,53
0,16
0,05
0
0
0
0
0
0
0

Regresin item-test: proporcin de acertar P() Reactivos 7 y 13


1,1
Reactivo 7
y = -0,0004x4 + 0,0091x3 - 0,0503x2 + 0,0957x - 0,0517
R = 0,9832

Proporcun de respuestas correctas

1
0,9
0,8
Reactivo 7

0,7
0,6

Reactivo 13

0,5
Polinmica (Reactivo 7)

0,4
0,3

Reactivo 13
y = -0,0002x4 + 0,0059x3 - 0,0534x2 + 0,1601x - 0,1282
R = 0,9797

Polinmica (Reactivo 13)

0,2
0,1
0
-0,1

10

12

14

Puntuacin total

Grfica de la regresin tem-test para los reactivos/tem 7 y 13 con base a escala decimal (nota total).
Esta grfica de la regresin tem-test tambin se puede representar empleando la escala de puntuaciones Z
para el eje X, como se presenta a continuacin:
Psicologa

Pgina 10

Prof. Ren Castro

Psicometra 1

UBA

Regresin tem-test: proporcin de acertar P() Reactivos 7 y 13


Proporcin de respuestas correctas P()

1,1
Reactivo 7 1
y = -0,0595x4 - 0,0722x3 + 0,2579x2
0,9+ 0,4817x + 0,2065
R = 0,9832
0,8
Reactivo 7
0,7
0,6

Reactivo 13

0,5
Polinmica (Reactivo 7)

0,4
0,3

Polinmica (Reactivo 13)

0,2
0,1

Reactivo 13
y = -0,0226x4 + 0,0714x3 + 0,2474x2 + 0,1223x - 0,0147
R = 0,9797

0
-2

-1,5

-1

-0,5

-0,1 0

0,5

1,5

Puntuacin total (escala Z)


Grfica de la regresin tem-test para los reactivos/tem 7 y 13 con base en la escala Z (nota total).
En estas grficas puede observarse que el grado de dificultad de cada reactivo puede definirse como su
umbral del 50% o proporcin de respuestas correctas 0,5. Esto se ha usado en las figuras anteriores al trazar
lneas perpendiculares desde los puntos en los que las curvas de ambos reactivos cruzan la lnea del 50% (o 0,5)
en el eje horizontal, sobre el que se localizan las puntuaciones totales correspondientes, ya sea en escala decimal
o escala Z. se demuestra as que las personas con una calificacin aproximada de 8 (en escala decimal, en escala
Z es aproximadamente 0,5) tienen una oportunidad de 50-50 (50% o 0,5) de aprobar el reactivo 7, al igual que
las personas con una calificacin aproximada de 10 (en escala decimal, en escala Z es aproximadamente 1,0) en
el caso del reactivo 13, esto implicara que el reactivo 7 es ms fcil de responder bien que el reactivo 13.
Pudiera decirse que al aumentar el nivel de dificultad de los items (lnea: azul ms fcil, lnea rojo, ms
difcil), disminuye la probabilidad del sujeto para responder correctamente y aumenta la probabilidad de
responder incorrectamente. Para decirlo de otra forma, al aumentar la dificultad del tem, el respondiente
necesita una mayor habilidad o destreza para poder responder correctamente el 50% de las veces que conteste el
tem. Puede observarse en la grfica que al aumentar la dificultad de los tems, las curvas tienden a desplazarse
hacia la derecha, mientras que al disminuir el nivel de dificultad de la pregunta, la curva tiende a moverse hacia
la izquierda de la grfica.
La pendiente de la curva indica la capacidad discriminativa de cada reactivo, entre mayor sea la pendiente o
grado de inclinacin positiva, alza o levantamiento de la curva, mayor ser la relacin entre la ejecucin o
desempeo correcto con la puntuacin total y mayor el ndice discriminativo. Tambin puede observarse que los
trazados de las pendientes centrales de las grficas son similares entre s, por lo que la capacidad discriminativa
es aproximadamente similar en las 2 grficas.

Psicologa

Pgina 11

Prof. Ren Castro

Psicometra 1

UBA

PROBABILIDAD DE ACERTAR AL TEM / REACTIVO O DAR UNA RESPUESTA


ACERTADA/CORRECTA SEGN MODELO LOGISTICO.
En la TRI, el clculo de la probabilidad de acertar al tem o dar una respuesta acertada/correcta se calcula
principalmente empleando funciones logsticas, o sea, aquellas funciones que generan curvas sigmoideas con
crecimiento entre dos asntotas horizontales (ver grfica anexa), segn la siguiente ecuacin general:

-z

En este tipo de funcin logstica, mientras Z toma valores hacia el ms infinito (+1, +2, +3, +4, +), e
genera valores hacia 0 y P(y) produce valores hacia 1 pero sin exceder este valor. En el caso contrario, mientras
-z
Z toma valores hacia el menos infinito (-1, -2, -3, -4, -), e genera valores hacia infinito y P(y) produce
valores hacia 0 pero sin exceder este valor, la cual genera grficas como la siguiente:

Curva del Modelo Logstico (asntotas y=0,1 y y=1)


1,20

P(y) Prob. Resp. Correcta.

Asntota y=1
1,00

0,80

0,60

0,40

0,20

Asntota y=0,1

0,00
-3

-2

-1

Valores tipificados (Z)

En este caso, las dos asntotas seran y = 1 y y = 0,1.


Psicologa

Pgina 12

Prof. Ren Castro

Psicometra 1

UBA

TEORA DE RESPUESTA AL TEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM


(P()) SEGN MODELO LOGISTICO (modelo de Rasch, 1960). 1er PARMETRO (b ndice de dificultad).
Ecuacin o frmula:

Ecuacin equivalente

Para este primer parmetro, se estudia el ndice de dificultad del tem.


El modelo logstico de un parmetro es ms conocido como modelo de Rasch (1963). Este es el modelo ms
simple de todos. La probabilidad de acertar un tem depende solamente del nivel de dificultad de dicho tem y
del nivel del sujeto en la variable medida (habilidad del sujeto en la caracterstica estudiada, como inteligencia,
capacidad motora, etc.). La distribucin logstica se define como una funcin tal que:

Su funcin logstica (figura anterior) es muy similar a la funcin de una curva sigmoide o curva normal
acumulada. La curva caracterstica del tem (CCI) para el modelo de Rasch est dada por la ecuacin siguiente:

en donde:

Pi()= es la probabilidad de que un examinado


elegido al azar con aptitud conteste
correctamente el tem i.
= nivel de habilidad del sujeto.

b = parmetro o ndice de la dificultad del tem i


D = constante de la ecuacin (D=1,7).
e = base de los logaritmos neperianos o naturales=
2,718

El nivel de habilidad del sujeto () puede definirse en cualquier escala, en este caso se ha utilizado una
escala tpica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La funcin forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4, -3, -2, 1, 0, 1, 2, 3, 4).
El parmetro b de dificultad es el punto en la escala de aptitud cuya probabilidad de respuesta correcta es
0,5 o dicho de otra forma, es aquel valor de para el cual P()=0,5. Dicho de otra manera, la dificultad del
reactivo define un punto en la escala de habilidad justo en que la probabilidad de xito P() es igual a la
probabilidad de fracaso 1 P(), esto es, un sujeto con un nivel de habilidad igual a la dificultad del reactivo i
(bi), tendr una probabilidad de 0.5 de contestar correctamente este reactivo y, por lo tanto, una probabilidad de
0.5 de responderlo de manera incorrecta.
El parmetro b de dificultad indica la posicin del tem en la escala de aptitud. Cuando ms grande es el
valor de b, mayor es la dificultad para responder correctamente el tem y tambin mayor la aptitud requerida
para que el examinado tenga una P() = 0,5 de resolver correctamente el tem.
Psicologa

Pgina 13

Prof. Ren Castro

Psicometra 1

UBA

Ntese que las curvas difieren slo en su localizacin a lo largo de la escala de habilidad y que la lnea de las
curvas nunca se cruza entre s. Por esto puede observarse en la grfica anterior que las curvas de los distintos
tems se corren o desplazan hacia la derecha a medida que incrementa el nivel o ndice de dificultad, y se
mueven hacia la izquierda a medida que disminuye este mismo ndice.
Como se mencion anteriormente, la habilidad o aptitud suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de -2 a + 2.
Los tem con b = -2 son muy fciles, los tem con b = +2 muy difciles. En la figura anterior se han
representado 4 CCI de 4 items diferentes, por lo que el grfico representa estos 4 tems, tales que para el tem 1,
b=1; para el item 2, b = 2; para el tem 3, b= -1 y para el item 4, b = 0.

Curva Caracterstica del Item (CCI), 1er parmetro b


1,00

P(O) Prob. Resp. Corrcta.

P(O) Prob.Resp.Corr. b=-1


(fcil)

0,9677

0,9939
0,9677

0,9989
0,9939
0,9677

0,8455

0,8455

0,8455

0,8455

0,5000

0,5000

0,5000

0,1545

0,1545

0,9998
0,9989
0,9939
0,9677

0,90
0,80

P(O) Prob. Resp. Corr. b=0


(medio)

0,70
0,60

P(O) Prob.Resp.Corr. b=1


(medio difcil)

0,50
0,5000

P(0)
Prob.Resp.Corr.b=2(difcil)

0,40
0,30
0,20

0,1545

0,1545

0,10
0,0323
0,0061
0,0011
0,0002

0,0061
0,0011
0,0002
0,0000

-5

-4

-3

0,0323
0,0061
0,0011

-2

0,0323
0,0061
0,00

-1

0,0323

Nivel Habilidad del sujeto ( NHS) tipificado (Z)


Algunas observaciones que pueden obtenerse de esta grfica son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el nivel de dificultad de los items (lnea: rojo, fcil/azul, medio/verde, medio difcil, morado,
difcil), disminuye la probabilidad del sujeto para responder correctamente y aumenta la probabilidad de
responder incorrectamente. Puede observarse en la grfica que al aumentar la dificultad de los tems, las curvas
tienden a desplazarse hacia la derecha, mientras que al disminuir el nivel de dificultad de la pregunta, la curva
tiende a moverse hacia la izquierda de la grfica. Tambin puede observarse que el trazado de las grficas es
igual entre s, la curva inicial, la pendiente central y la inclinacin final son iguales entre todas las 4 grficas.
3- Para sujetos muy inteligentes (o muy deficientes), no influye el nivel de dificultad de la pregunta, los
primeros (muy inteligentes) tienen una alta probabilidad de responder bien una pregunta fcil, media o difcil,
mientras que los muy deficientes tienen una baja probabilidad de responder correctamente una pregunta fcil,
media o difcil.
Psicologa

Pgina 14

Prof. Ren Castro

Psicometra 1

UBA

Para calcular P() se procede como a continuacin, para D = 1,7, = -4 y b= -1:

En este caso, como se dijo anteriormente, mientras toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -), el trmino e-D*(-b) genera valores altos (164,0219) o hacia ms infinito y P() produce valores bajos (en
este caso P()=0,0061) o hacia 0 pero sin exceder este valor.
Este bajo valor de la probabilidad de responder correctamente al tem por parte del sujeto es fcil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (=-4) se enfrenta a una pregunta
fcil (b=-1). Si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de escasos recursos
intelectuales, toda pregunta ser difcil y tiene una alta probabilidad de contestarla mal y una baja probabilidad
de contestarla correctamente (en este caso P()=0,0061).
El caso contrario tambin es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P()) un
tem/pregunta muy difcil (b=2) por parte de una persona nivel genio (=4), procedemos de la siguiente manera:
(para D = 1,7, = 4 y b= 2).

En este caso, como se dijo anteriormente, mientras toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +), el trmino e-D*(-b) genera valores bajos (0,0333) y P() produce valores altos (en este caso
P()=0,9677) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al tem (P()) por parte del
sujeto es fcil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (=+4) se
enfrenta a una pregunta muy difcil (b=+2) le resulta fcil responderla o superarla exitosamente. Como un
ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de muy altos recursos
intelectuales (tipo Einstein o Stephen Hawking), toda pregunta ser fcil y tiene una alta probabilidad de
contestarla bien (en este caso P()=0,9677) y una baja probabilidad de contestarla incorrectamente.
Para realizar estos clculos en su calculadora CASIO, puede introducir la siguiente frmula:
a) (1/(1+e^(-1.7*(-4-(-1))))) cuyo resultado ser 0,0061 y
b) (1/(1+e^(-1.7*(4-(2))))) cuyo resultado ser 0,9677.
En las calculadoras CASIO tipo ES puede introducir la frmula directamente y le dar el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fcil equivocarse introduciendo el orden de los
Psicologa

Pgina 15

Prof. Ren Castro

Psicometra 1

UBA

elementos de la ecuacin y por tanto obtener un valor incorrecto de probabilidad:


Ejemplo 1:

Ejemplo 2:

En el programa EXCEL, usted puede usar la siguiente ecuacin: =(1/(1+EXP((-1*F143)*(B143-D143))))


siendo F143 la constante D (D=1.7), B143 el factor y D143 el parmetro b.
Los datos con los cuales se realiz la curva anterior fueron los siguientes:

(NHS)
como
puntos Z o
valores
tipificados
(Z)

(NHS)
como
puntos Z o
valores
tipificados
(Z)

(NHS)
como
puntos Z o
valores
tipificados
(Z)

(NHS)
como
Psicologa

4
3
2
1
0
-1
-2
-3
-4
4
3
2
1
0
-1
-2
-3
-4
4
3
2
1
0
-1
-2
-3
-4
4
3

b=

b=

b=

b=

-1
-1
-1
-1
-1
-1
-1
-1
-1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
2
2

D(cte)=

D(cte)=

D(cte)=

D(cte)=

1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7
1,7

P()(4/-1/1,7)=
P()(3/-1/1,7)=
P()(2/-1/1,7)=
P()(1/-1/1,7)=
P()(0/-1/1,7)=
P()(-1/-1/1,7)=
P()(-2/-1/1,7)=
P()(-3/-1/1,7)=
P()(-4/-1/1,7)=
P()(4/0/1,7)=
P()(3/0/1,7)=
P()(2/0/1,7)=
P()(1/0/1,7)=
P()(0/0/1,7)=
P()(0/0/1,7)=
P()(-2/0/1,7)=
P()(-3/0/1,7)=
P()(-4/0/1,7)=
P()(4/1/1,7)=
P()(3/1/1,7)=
P()(2/1/1,7)=
P()(1/1/1,7)=
P()(0/1/1,7)=
P()(-1/1/1,7)=
P()(-2/1/1,7)=
P()(-3/1/1,7)=
P()(-4/1/1,7)=
P()(4/2/1,7)=
P()(3/2/1,7)=

0,9998
0,9989
0,9939
0,9677
0,8455
0,5000
0,1545
0,0323
0,0061
0,9989
0,9939
0,9677
0,8455
0,5000
0,1545
0,0323
0,0061
0,0011
0,9939
0,9677
0,8455
0,5000
0,1545
0,0323
0,0061
0,0011
0,0002
0,9677
0,8455
Pgina 16

Prof. Ren Castro


puntos Z o
valores
tipificados
(Z)

Psicometra 1
2
1
0
-1
-2
-3
-4

2
2
2
2
2
2
2

1,7
1,7
1,7
1,7
1,7
1,7
1,7

UBA

P()(2/2/1,7)=
P()(1/2/1,7)=
P()(0/2/1,7)=
P()(-1/2/1,7)=
P()(-2/2/1,7)=
P()(-3/2/1,7)=
P()(-4/2/1,7)=

0,5000
0,1545
0,0323
0,0061
0,0011
0,0002
0,0000

Para ver aplicaciones y problemas de este 1er modelo logstico, leer y consultar las guas en formato pdf y Excel
enviadas a su correo.

TEORA DE RESPUESTA AL TEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM


(P()) SEGN MODELO LOGISTICO (modelo de Lord). 2do PARMETRO (b ndice de dificultad y a ndice
de discriminacin).
Lord (1968,1980) fue el primero en elaborarlo, pero lo hizo basndose en una distribucin normal.
Actualmente este modelo es poco usado por su complicacin matemtica. En se sustituy el modelo de dos
parmetros de la ojiva normal por una funcin logstica que tiene la ventaja de ser ms conveniente para
manejar. El modelo de la ojiva normal supone integracin mientras que el modelo logstico no. Este modelo
modificado est dado por la siguiente ecuacin:
Ecuacin o frmula:

Ecuacin equivalente

Aqu b es, igualmente que en el modelo anterior, el parmetro de posicin o dificultad. El factor D = 1,7 es
un valor arbitrario introducido para que la funcin logstica sea ajustada a la ojiva normal con una exactitud de
0,01. Adems hay un segundo parmetro a que es el de discriminacin que es la pendiente de la CCI en el punto
b. Los tems con pendiente mayor son ms tiles para separar a los examinados en distintos niveles de aptitud,
que los tems de menor pendiente. El modelo de dos parmetros es pues, una generalizacin del modelo de un
parmetro.
En este segundo parmetro, se estudia el ndice de discriminacin del tem, el cual se suele indicar con la
letra a y se define como la capacidad de diferenciar, distinguir, separar y discriminar a los sujetos que puntan
alto en el test de los que puntan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que exhiben
el constructo o rasgo de aquellos que no lo exhiben, o si el tem discrimina aquellos sujetos que tienen un nivel
alto de habilidad de aquellos que tienen un nivel bajo. Esta propiedad se refleja en la pendiente de la curva, as,
una mayor pendiente de la curva CCI del tem para este segundo parmetro indicar una mayor separacin o
discriminacin segn su habilidad y viceversa.
El modelo logstico de dos parmetros es ms conocido como modelo de Lord. La probabilidad de acertar un
tem depende tanto del nivel de dificultad como del ndice de discriminacin de dicho tem y del nivel del sujeto
en la variable medida (habilidad del sujeto en la caracterstica estudiada, como inteligencia, capacidad motora,
etc.).
La curva caracterstica del tem (CCI) para el modelo de Lord est dada por la ecuacin siguiente:
Psicologa

Pgina 17

Prof. Ren Castro

Psicometra 1

UBA

en donde:

Pi()= es la probabilidad de que un examinado elegido


al azar con aptitud conteste correctamente el tem i.
= nivel de habilidad del sujeto.
a = ndice de discriminacin del tem i.

b = parmetro o ndice de la dificultad del tem i


D = constante de la ecuacin (D=1,7).
e = base de los logaritmos neperianos o naturales=
2,718

El nivel de habilidad del sujeto () puede definirse en cualquier escala, en este caso se ha utilizado una
escala tpica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La funcin forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4, -3, -2, 1, 0, 1, 2, 3, 4).

Curva Caracterstica del Item (CCI) 2do parmetro a


1,00

P(O) Prob. Resp. Corrcta.

P(O)1 a=1,5 Item 21 (menor


pendiente menos
discriminante)

0,80

0,7815

P(O)3 a=3,5 Item 43 (mayor


pendiente ms discriminante)

0,99986
0,60

P(O)2 a=2,5 Item 32 (pendiente


intermedia, media
discriminacin)

0,40

0,9514
0,2184

0,20

-2

0,0485

0,02135 0,00
1,330E-04

0,00170
3,466E-07

0,00013
9,033E-10
-3

1,000E+00
0,99830

9,999E-01
9,998E-01
9,986E-01
9,915E-01
0,97865
9,514E-01
9,153E-01

-1

Nivel Habilidad del sujeto (NHS) tipificado (Z)


A mayor grado de inclinacin o menor pendiente de la curva, el tem es menos discriminativo (curva azul) y
separa en menor grado a los sujetos que poseen la habilidad de los que no la tienen. A mayor pendiente o menor
grado de inclinacin de la curva, (curva roja) el tem es ms discriminativo y separa en mayor grado a los
sujetos que poseen la habilidad de los que no la tienen.
Psicologa

Pgina 18

Prof. Ren Castro

Psicometra 1

UBA

El parmetro a de discriminacin separa/desglosa/distingue/diferencia a los sujetos que tienen un nivel alto


de habilidad en el constructo o rasgo medido en el tem de aquellos que tienen un nivel bajo de habilidad en el
constructo evaluado y se refleja o representa en el grado o nivel de la pendiente de la curva, as, una mayor
pendiente de la curva CCI del tem indicar una mayor separacin o discriminacin segn su habilidad y
viceversa. Debido a esto puede observarse en la grfica anterior que las curvas de los distintos tems con
diferentes ndices de discriminacin presentan dismiles pendientes o inclinaciones en la seccin central de sus
curvas, hecho que se traduce en a) un mayor incremento y demanda de habilidades en el constructo evaluado
por parte del sujeto para responder correctamente al tem y por ende, b) una mayor separacin de las personas o
sujetos que son capaces de responder acertadamente por poseer el constructo evaluado de los que no lo poseen
ni manifiestan.
Es interesante el observar que todas las curvas convergen en un punto central que representa el valor b o
ndice de dificultad, (b = 0,5 en este caso). Esto confirma el hecho de que si el ndice b tuviese un valor de 1, la
ecuacin completa se transformara en la ecuacin del primer parmetro b, y, basados en esto, observar el efecto
que tiene sobre la pendiente de las distintas grficas los diferentes valores del segundo parmetro a.
Como se mencion anteriormente, la habilidad o aptitud suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de 1 a 4.
Los tem con a = 1,5 son poco discriminantes, los tem con a = 3,5 son muy discriminantes. En la figura
anterior se han representado 3 CCI de 3 tems diferentes, por lo que el grfico representa estos 3 tems, tales que
para el tem 21, a=1,5; para el tem 32, a = 2,5; para el tem 43, a= 3,5.
A fin de ejercitarnos en el clculo de la CCI empleando lo ecuacin equivalente, supongamos que tenemos
un tem (55) para el que hemos obtenido los parmetros a y b y queremos saber la probabilidad en distintos
puntos para trazar la curva CCI. El proceso en este caso sera el siguiente:
Item 55: D = 1,7; a = 1,8; b = 1 Cul es la probabilidad del tem en los valores de = -3, - 2, -1 0, 1, 2, 3,?
Aplicando nuestros valores a la ecuacin anterior, vale decir para = 3, tenemos:

Repetimos esta operacin para los distintos puntos de y podramos dibujar la curva caracterstica del tem
55 (CCI) con los valores correspondientes a P() +3 = 0,9978, P() + 2 = 0,9552, P() + 1 = 0,500, P() 0 =
0,04479, P() -1 = 0,002194, P() -2 = 1,031x10-4, P() -3 = 4,833x10-6.
Algunas observaciones que pueden obtenerse de la grfica anterior son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el nivel de discriminacin de los tems (lnea: azul, menos discriminante/rojo, ms
discriminante), disminuye la probabilidad de responder correctamente para los sujetos de baja habilidad pero
aumenta para los de alta habilidad o constructo a medir.
3- Para sujetos muy inteligentes (> de 2), o muy deficientes (< de -1,5), no influye el nivel de discriminacin
de la pregunta, los primeros (muy inteligentes) respondern bien una pregunta discriminante o n, mientras
que los muy deficientes respondern incorrectamente una pregunta discriminante o n.
4- Los sujetos de baja habilidad en el constructo medido (-1 a 0 NHS) tienen ms probabilidad de responder
correctamente una pregunta de baja discriminacin que una ms discriminante, mientras que los elevada
Psicologa

Pgina 19

Prof. Ren Castro

Psicometra 1

UBA

habilidad tienen ms probabilidad de responder correctamente una pregunta de alta discriminacin que una
de bajo poder discriminante (paradoja de Lord). Dicho de otra forma, un reactivo supuestamente
discriminante (lnea roja) es ms efectivo en dificultad para aquellas personas de habilidad alta y ms fcil
para personas de habilidad baja.
5- Al incrementar la pendiente de la lnea curva, incrementa el nivel discriminante del tem que representa.
6- El punto en el cual se encuentran las tres (3) curvas representa a (b=0,5) el nivel de dificultad de estas tres
grficas.
La paradoja de Lord puede observarse mejor si incrementamos ligeramente la separacin entre los distintos
valores de a, como se muestra en la siguiente grfica:

Curva Caracterstica del Item (CCI)


P(O) Prob. Resp. Correcta.

1,00
P(O)1 a=0,5 Item 21
(menor pendiente menos
discriminante)

0,80

P(O)3 a=4 Item 43 (mayor


pendiente ms
discriminante)

0,79576

0,99999996
0,98594
0,89331

0,78160

0,70057
0,66374
0,7815

0,60

0,99986
0,50000
P(O)2 a=1 Item 32
(pendiente intermedia,
media discriminacin)

0,41581
0,2184

0,40

0,29943
0,21840 0,20

0,10669
0,04857
0,00260
4,611E-11

-3

0,9999
0,99996283
0,9994
0,9957
0,9677
0,9382
0,92757
0,91529
0,86646

0,07243

0,01406
4,140E-08
-2

0,9514

0,0485

3,717E-050,00
-1

Nivel Habilidad del sujeto (NHS) tipificado (Z)

Para calcular P() se procede como a continuacin, para D = 1,7, = -4 (bajo nivel de habilidad), b= -1
(preguntas fciles), a = 1,5 (escasamente discriminante):

En este caso, como se dijo anteriormente, mientras toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -), el trmino e-D*a*(-b) genera valores altos (2100,6456) o hacia ms infinito y P() produce valores bajos
Psicologa

Pgina 20

Prof. Ren Castro

Psicometra 1

UBA

(en este caso P()=0,0004758) o hacia 0 pero sin exceder este valor.
Este bajo valor de la probabilidad de responder correctamente al tem por parte del sujeto es fcil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (=-4) se enfrenta a una pregunta
fcil (b=-1) y escasamente discriminante (a = 1,5). Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta ser difcil y tiene una alta probabilidad de
contestarla mal y una baja probabilidad de contestarla correctamente (en este caso P()=0,00047).
El caso contrario tambin es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P()) un
tem/pregunta muy difcil (b=2) y escasamente discriminante (a = 1,5) por parte de una persona nivel genio
(=4), procedemos de la siguiente manera: (para D = 1,7, = 4, b= 2 y a = 1,5).

En este caso, como se dijo anteriormente, mientras toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +), el trmino e-D*a*(-b) genera valores bajos (0,0061) y P() produce valores altos (en este caso
P()=0,9939) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al tem (P()) por parte del
sujeto es fcil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (=+4) se
enfrenta a una pregunta muy difcil (b=+2) y escasamente discriminante (a = 1,5) le resulta fcil responderla o
superarla exitosamente. Como un ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de
persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta ser fcil y tiene
una alta probabilidad de contestarla bien (en este caso P()=0,9939) y una baja probabilidad de contestarla
incorrectamente.
Para realizar estos clculos en su calculadora CASIO, puede introducir la siguiente frmula:
a) (1/(1+e^(-1.7*1.5*(-4-(-1))))) cuyo resultado ser 0,00047 y
b) (1/(1+e^(-1.7*1.5*(4-(2))))) cuyo resultado ser 0,9939.
En las calculadoras CASIO tipo ES puede introducir la frmula directamente y le dar el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fcil equivocarse introduciendo el orden de los
elementos de la ecuacin:
Ejemplo 1:

Ejemplo 2:

En el programa EXCEL, usted puede usar la siguiente ecuacin: =(1/(1+EXP((-1*$B$118*$B$116)*(B136$B$117)))) siendo $B$118 la constante D (D=1.7), $B$116 el parmetro a, B136 el factor y $B$117 el
Psicologa

Pgina 21

Prof. Ren Castro

Psicometra 1

UBA

parmetro b.
TEORA DE RESPUESTA AL TEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM
(P()) SEGN MODELO LOGISTICO (modelo de Birnbaum). 3er PARMETRO (c coeficiente de azar,
pseudoazar o adivinacin, b ndice de dificultad y a ndice de discriminacin).
Este modelo de tres parmetros es el ms general y el ms realista desde el punto de vista emprico de los
tres, en realidad los otros dos son casos particulares, as cuando el parmetro c (pseudoazar) es cero la ecuacin
de este modelo se transforma en el modelo de dos parmetros o de Lord, y cuando adems el parmetro a
(discriminacin) es igual para todos los tems (caso tpico, a=1), se convierte en el modelo de Rasch. Vase a
continuacin las frmulas equivalentes del modelo logstico de tres parmetros, donde P() es la probabilidad
de acertar el tem, es la puntuacin en la variable medida, a, b y c son los tres parmetros descritos, e es la
base de los logaritmos neperianos (2,72) y D es una constante que vale 1,7.
Ecuacin o frmula:

Ecuacin equivalente

Donde:
Pi()= es la probabilidad de que un examinado
elegido al azar con aptitud conteste
correctamente el tem i.
= nivel de habilidad del sujeto o valor del
constructo o variable latente que se desea estimar

en cada examinado.
a = ndice de discriminacin del tem i.
b = parmetro o ndice de la dificultad del tem i
c = coeficiente de azar, pseudoazar o adivinacin
D = constante de la ecuacin (D=1,7).

El nivel de habilidad del sujeto () puede definirse en cualquier escala, en este caso se ha utilizado una
escala tpica, con media 0, varianza 1 y un rango de valores de -4 a +4.
En este caso, la funcin forma una curva en forma de S inclinada y alargada (dependiendo del valor de
c) con valores de 0 a 1 en la ordenada (eje Y, expresa probabilidad) y valores correspondientes a la aptitud o
habilidad en la abscisa (eje X, expresa los niveles de habilidad del sujeto o respondiente, presentados en este
caso como valores Z tipificados como -4, -3, -2, -1, 0, 1, 2, 3, 4).
Ya que el coeficiente de azar, pseudoazar o adivinacin c representa la probabilidad de acertar un tem
cuando el examinado contesta al azar o dicho de otro modo, la probabilidad de contestar correctamente un tem
por azar sin tener el nivel de habilidad exigido, mientras mayor sea el nmero de veces que el sujeto usa el azar
para responder correctamente el tem estudiado, mayor ser el nivel o altura de la seccin inicial de la curva,
ya que los respondientes que carecen del constructo o rasgo requerido sern los que empleen esta estrategia a
fin de contesta correctamente el tem evaluado, mientras que los que posean la habilidad requerida no usarn
este mtodo aleatorio para responder adecuadamente el reactivo estudiado.
Es interesante el observar que mientras menor es el uso del azar por parte del sujeto, las curvas obtenidas se
parecen mucho a las representadas por el segundo parmetro a. Esto confirma el hecho de que si el ndice c
tuviese un valor de 0, la ecuacin completa se transformara en la ecuacin del primer parmetro b, y, basados
en esto, observar el efecto que tiene sobre la pendiente de las distintas grficas los diferentes valores del
segundo parmetro a y el parmetro b.

Psicologa

Pgina 22

Prof. Ren Castro

Psicometra 1

UBA

Curva Caracterstica del Item (3er parmetro c)


1,00

3, 0,9985

2, 0,9808

0,90
1, 0,8034

P(O) Prob. Resp. Corrcta.

0,80
0,70
0,60
0,50

P(0) a=1.5 b=0.5 c=0.1

0,40
0,30

P(0) a=1.5 b=0.5 c=0.25

0, 0,2966

P(0) a=1.5 b=0.5 c=0.4

0,20
-1, 0,1192
0,10

-2, 0,1015

-3, 0,1001

0,00
-3

-2

-1

Nivel Habilidad del sujeto (NHS) tipificado (Z)


Como se mencion anteriormente, la habilidad o aptitud suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de c suelen ir de 0 a 0,5.
Los tem con c = 0 representa a sujetos que emplean poco el azar para responder acertadamente, los tems
con b = 0,5 representan sujetos que emplean frecuentemente el azar para responder adecuadamente. En la figura
anterior se han representado 3 CCI de 3 tems diferentes, por lo que el grfico representa estos 3 tems, tales que
para el tem azul, c=0,1; para el tem rojo, c = 0,25; y para el tem verde, c= 0,4.
Algunas observaciones que pueden obtenerse de esta grfica son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el uso del azar para responde adecuadamente el tems (lnea: azul, menor uso azar/rojo, mediano
uso del azar/ lnea: verde, mayor uso azar), incrementa la probabilidad de responder correctamente para los
sujetos de baja habilidad y vara poco o nada la probabilidad de los que poseen una alta habilidad o
constructo a medir.
3- Para sujetos muy inteligentes (> de 2), prcticamente no influye o vara la probabilidad de responder
adecuadamente el tem, ya que los primeros (muy inteligentes) respondern bien una pregunta por sus
propias condiciones, en cambio, en los muy deficientes (< de -0,5), influye notablemente el nivel de
respuesta correcta de la pregunta.
Para calcular P() se procede como a continuacin, para D = 1,7, = -4 (bajo nivel de habilidad), b= -1
(preguntas fciles), a = 1,5 (escasamente discriminante) y c = 0,4 (elevado uso del azar):
Psicologa

Pgina 23

Prof. Ren Castro

Psicometra 1

UBA

En este caso, como se dijo anteriormente, mientras toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -), el trmino e-D*a*(-b) genera valores altos (2100,6456) o hacia ms infinito y P() produce valores
medianos (en este caso P()=0,40028) o cercanos a 0 pero sin exceder este valor.
Este mediano valor de la probabilidad de responder correctamente al tem por parte del sujeto es fcil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (=-4) se enfrenta a una pregunta
fcil (b=-1), escasamente discriminante (a = 1,5) y que emplea frecuentemente el azar tiene una mediana
probabilidad de responder correctamente el tem. Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta ser difcil y tiene una alta probabilidad de
contestarla mal, por lo que recurre al azar para incrementarla (en este caso P()=0,400285).
El caso contrario tambin es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P()) un
tem/pregunta muy difcil (b=2), escasamente discriminante (a = 1,5) por parte de una persona nivel genio (=4)
que casi no usa el azar (c=0), procedemos de la siguiente manera: (para D = 1,7, = 4, b= 2, a = 1,5 y c = 0).

En este caso, como se dijo anteriormente, mientras toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +), el trmino e-D*a*(-b) genera valores bajos (0,0061) y P() produce valores altos (en este caso
P()=0,9939) o hacia 1 pero sin exceder este valor.
Como ya dijimos, este alto valor de la probabilidad de responder correctamente al tem (P()) por parte del
sujeto es fcil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (=+4) se
enfrenta a una pregunta muy difcil (b=+2) y escasamente discriminante (a = 1,5) le resulta fcil responderla o
superarla exitosamente sin emplear el azar. Como un ejemplo, si la habilidad estudiada o medida es inteligencia,
para este tipo de persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta
Psicologa

Pgina 24

Prof. Ren Castro

Psicometra 1

UBA

ser fcil y tiene una alta probabilidad de contestarla bien sin necesidad de ponerse a adivinar nada (en este caso
P()=0,9939) y una muy baja probabilidad de contestarla incorrectamente.
Debe recalcarse la idea de que cuando se asume que el parmetro de azar, c, (modelo de 3 parmetros o de
Birnbaum) es igual a cero se obtiene el modelo de dos parmetros, (modelo de 2 parmetros o de Lord y
Novick)en el que las CCI difieren en trminos de su dificultad y de su discriminacin (parmetros b y a
respectivamente). Si adems de asumir c = 0 se supone tambin que el parmetro de discriminacin, a, es
constante para todos los tems, se obtiene el modelo de un parmetro o modelo de Rasch, en el que las CCI se
diferencian nicamente en trminos de sus niveles de dificultad (parmetro b).
Es importante en este punto tambin mencionar que en los modelos de dos y tres parmetros pueden existir
diferentes estimaciones de , el constructo, para individuos con la misma puntuacin emprica en la prueba. Por
ejemplo, dos personas pueden lograr el mismo nmero de respuestas correctas en la prueba, pero an as
obtener estimaciones muy diferentes para su nivel en el constructo , probado que hayan tenido un patrn
diferencial de respuesta, es decir, que no hayan respondido correctamente los mismos tems. Esto sucede as
porque el procedimiento para estimar en los modelos de dos y tres parmetros le da mayor ponderacin a
aquellos tems que tienen mayor discriminacin. Por tanto, dado el mismo nmero de respuestas correctas,
examinados que han respondido correctamente tems de mayor poder discriminatorio obtendrn estimaciones de
superiores a las estimaciones obtenidas para examinados que contestaron correctamente tems de menor
calidad tcnica. La Teora Clsica de los Tests no disfruta de esta propiedad y en ella no es posible diferenciar
las puntuaciones de individuos que hayan obtenido el mismo nmero de respuestas correctas en el instrumento.
Para realizar estos clculos en su calculadora CASIO, puede introducir la siguiente frmula:
a) 0,4+(1-0,4)*(1/(1+e^(-1.7*1.5*(-4-(-1))))) cuyo resultado ser 0,400285 y
b) 0+(1-0)*(1/(1+e^(-1.7*1.5*(4-(2))))) cuyo resultado ser 0,9939.
En el programa EXCEL, usted puede usar la siguiente ecuacin: =$B$120+(1-$B$120)*(1/(1+EXP((1*$B$118*$B$116)*(B136-$B$117)))) siendo =$B$120 el parmetro c, $B$118 la constante D (D=1.7),
$B$116 el parmetro a, B136 el factor y -$B$117 el parmetro b.
Para ver aplicaciones y problemas de estos 3 modelos logsticos, leer guas en formato pdf y Excel enviadas
a su correo.
Leer:
Eiliana Montero (2000). La teora de respuesta a los items: una moderna alternativa para el anlisis
psicomtrico de instrumentos de medicin. Revista de matemtica: teora y aplicaciones 2000 7(1-2): 217-228.
CIMPA-UCR-CCS.

Psicologa

Pgina 25

También podría gustarte