Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccin a la Psicometra
Teora Clsica de los Tests
y Teora de la Respuesta al tem
(Febrero 2004)
Francisco J. Abad
Carmen Garca
Beatriz Gil
Julio Olea
Vicente Ponsoda
Javier Revuelta
2
INDICE
INTRODUCCIN ........................................................................................................... 4
1. Introduccin .....7
2. Definicin del constructo ....7
3. Construccin provisional del cuestionario ....8
4. Cuantificacin de las respuestas ....12
5. Anlisis de tems ....13
6. Anlisis de las opciones incorrectas de respuesta ....18
7. Correccin de los efectos del azar ....18
Ejercicios ....21
1 Introduccin. 115
2 Curva caracterstica del tem. 116
3 Supuestos .... 121
4 Estimacin de parmetros .... 122
5 Funcin de informacin .... 126
6 Aplicaciones .... 129
7 Referencias (de este tema) .... 130
Ejercicios ....132
ANEXOS
Prctica 1:
Anlisis de tems de un test de rendimiento ptimo
Prctica 2:
Construccin de un test de rendimiento tpico: Anlisis de sus
propiedades psicomtricas
4
INTRODUCCIN
c) Teoras de los Tests. A principios del siglo XX, Spearman propone una formulacin
matemtica para estudiar las propiedades mtricas de las puntuaciones que se asignan
mediante tests, elaborados en ese tiempo (recurdese los tests de inteligencia de Binet), para
cuantificar el nivel de las personas en funciones psicolgicas superiores. La principal
preocupacin de Spearman es incorporar en la formulacin matemtica los errores de medida
que se cometen en la aplicacin de los tests psicolgicos. Este es el inicio de la Teora Clsica
de los Tests (TCT), que ser descrita en 1950 en el libro de Gulliksen "Theory of Mental
Tests". En la dcada de los 60 aparecen dos libros, uno de Rasch y otro de Lord y Novick,
donde se describen los primeros desarrollos de una nueva perspectiva en el estudio de las
propiedades psicomtricas de los tests, la Teora de la Respuesta al tem (TRI), que pretende
resolver algunos de los problemas que plantea la TCT.
En otras asignaturas del plan de estudios se tratan los temas de Teoras de la medicin
y Escalamiento. En las siguientes pginas proporcionamos una descripcin de la TCT, cuyos
desarrollos siguen emplendose (en nuestro pas casi de forma exclusiva) en la prctica para
analizar la bondad mtrica de los tests psicolgicos, y una introduccin a la TRI, que
pensamos se ir imponiendo progresivamente, tal como ocurre en otros sitios.
Parece razonable, por tanto, y as es nuestra opinin, que un psiclogo adquiera las
destrezas necesarias para valorar la informacin psicomtrica que incluyen los tests
comercializados y, adems, que conozca los mtodos y tcnicas fundamentales para disear
una prueba concreta con fines especficos. Trataremos de ayudarle a ello en las siguientes
pginas.
Las cuatro primeras fases se refieren a ciertas estrategias lgicas (algunas con cierto
fundamento estadstico) que nos conducen a seleccionar la forma y contenidos ms
apropiados del test. Las fases 5 y 6 resultan fundamentales, dado que se refieren a la
comprobacin emprica de las garantas psicomtricas que la prueba manifiesta como
instrumento de medicin. Bsicamente, estas garantas se refieren a su precisin (fiabilidad) y
a la comprobacin prctica del contenido autntico que estamos evaluando (validez). La
denominada Teora Clsica de los Tests, cuya descripcin es parte fundamental de estas
pginas, permite abordar estos problemas con cierto rigor. Una vez que disponemos de la
versin definitiva del test, aplicada a una muestra representativa de la poblacin de personas
a la que va dirigido, se procede a la fase de baremacin, que sirve para interpretar una
puntuacin concreta en relacin con las que obtiene la muestra seleccionada.
6
El ltimo de los temas de estos apuntes pretende iniciar al alumno en los fundamentos
de la Teora de la Respuesta al tem, y ser entonces cuando comentemos las diferencias
principales entre ambas aproximaciones.
Estos apuntes contienen una breve descripcin de los principales contenidos tericos
de la asignatura Introduccin a la Psicometra. Dentro de las actividades prcticas de la
asignatura, los estudiantes habrn de analizar un test de rendimiento ptimo y elaborar un test
de rendimiento tpico, para lo que habrn de seguir todos los pasos indicados aqu.
7
TEMA I: REDACCIN Y ANLISIS DE TEMS
1.- INTRODUCCIN
Mientras que la mayora de los atributos fsicos (altura, peso, etc. ...) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones
tericas que no son accesibles a la medicin directa y para los que no existen "metros" o
"balanzas" diseados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de
cohesin grupal, el grado de extroversin, el cociente intelectual, la postura hacia el consumo
de drogas, el grado de liderazgo,...., todos ellos son constructos que deben medirse mediante
instrumentos especficamente diseados: los tests, cuestionarios o inventarios. Nadie dudara
de que un metro bien diseado mide longitud y que lo hace de manera precisa, pero la bondad
y la precisin de un cuestionario no se puede presuponer; ms bien son una cuestin de grado
y siempre susceptibles de mejora.
En definitiva, un cuestionario est formado por una serie de elementos o tems (elementos,
reactivos, preguntas, cuestiones, situaciones anlogas,...) a los que cada individuo debe
responder. Despus de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuacin (a veces varias) a esa persona respecto al
constructo o atributo que se pretende medir con el cuestionario, una puntuacin que debera
indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.
Si, por ejemplo, pretendemos evaluar la tolerancia hacia los grupos marginales, un
tem podra ser el siguiente:
Parece razonable suponer que una persona tolerable estara de acuerdo con esta
afirmacin, mientras que otra intolerable estara en desacuerdo.
En relacin con la construccin de los tems existen dos temas importantes a tener en
cuenta: el formato de respuesta y las normas de redaccin de los tems.
"Enlace mediante una lnea el nombre del poltico con el partido poltico al que
pertenece"
"En realidad, los profesores en el colegio hacen poco ms que cuidar a nuestros
hijos cuando nosotros trabajamos"
Acuerdo ( ) Desacuerdo ( )
( ) Muy en Desacuerdo
( ) Bastante en Desacuerdo
( ) Neutral
( ) Bastante de Acuerdo
( ) Muy de Acuerdo
1 2 3 4 5 6 7
10
Por ejemplo:
Por ejemplo, para un tem con formato de respuesta de opcin binaria (acuerdo/desacuerdo)
puede cuantificarse el acuerdo como 1 y el desacuerdo como 2, o viceversa. Depende de que
el tem est planteado para medir de manera directa o inversa el constructo de inters. Estos
pueden ser 2 tems de un cuestionario de actitud ante al aborto voluntario:
1 2 3 4 5
5 4 3 2 1
En estos casos, la puntuacin directa de un sujeto en un test (o subtest) resulta de sumar las
cantidades asignadas por el constructor de la prueba a las diferentes respuestas que el sujeto
ha emitido; segn esto, convendra cuantificar las diversas alternativas con valores entre 1 y n
para evitar una puntuacin directa negativa.
Los tems o cuestiones se han formulado de manera lgica para que midan (y lo hagan bien)
el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado
en que cada tem es un "buen medidor" del rasgo de inters es algo que se puede comprobar
estadsticamente de manera sencilla si obtenemos tres indicadores para cada tem:
a) El ndice de dificultad.
b) El ndice de homogeneidad.
c) El ndice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de
la poblacin a la que va dirigida la prueba (se aconseja entre 5 y 10 veces ms sujetos que
tems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos
de sujetos x tems:
14
tems
1 2 3................... n X
Sujeto n 1
Sujeto n 2
Sujeto n 3
.
.
.
.
.
.
Sujeto n N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da el sujeto i
al tem j. Sumando por filas podemos obtener las puntuaciones directas (X) de los sujetos en
el total del test.
Veamos cmo se obtienen (y qu sentido tiene su obtencin) los tres ndices citados
anteriormente.
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestin,
por lo que slo tiene sentido su clculo para tems de tests de rendimiento ptimo.
Aj
Dj =
Nj
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una muestra de 10
personas a un test formado por 6 tems dicotmicos (1 indica acierto y 0 error):
15
tems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
Sujetos 5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
Aj 0 5 2 3 3 9
Nj 10 10 7 4 7 9
- El valor mnimo que puede asumir Dj es 0 (ningn sujeto acierta el tem) y el valor
mximo 1 (todos los sujetos que lo intentan lo aciertan).
Hj= rjx
Segn la disposicin de la matriz de datos, para obtener los Hj de los tems, debemos
calcular la correlacin entre las columnas j y la columna X de puntuaciones directas en la
prueba.
Ejemplo: Supongamos un test formado por 3 tems con formato de respuesta de categoras
ordenadas, que se valoran entre 0 y 5. Despus de aplicarse a un grupo de 5 sujetos se
obtienen los siguientes datos:
tems
1 2 3 X
1 2 3 5 10
2 3 1 0 4
Sujetos 3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
El ndice de homogeneidad de un tem nos va a informar del grado en que dicho tem est
midiendo lo mismo que la prueba globalmente; es decir, del grado en que contribuye a la
homogeneidad o consistencia interna del test. Los tems con bajos ndices de homogeneidad
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
evaluar un rasgo o constructo unitario, deberan eliminarse los que tienen un Hj prximo a
cero.
En ocasiones, un test est formado por diferentes subtests con contenidos distintos. En este
caso, los Hj deben obtenerse con relacin a las puntuaciones directas del subtest concreto.
Vj= rjy
El criterio de validacin "Y" es una medida diferente del test para reflejar el mismo
rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende, debera
correlacionar de forma elevada con el criterio. Por ejemplo, un criterio para validar un test de
inteligencia verbal puede ser otro test que incluye cuestiones verbales; los supervisores de
unos trabajadores podran valorar el grado de motivacin de cada uno y utilizar estas
valoraciones como el criterio de validacin de un test de motivacin laboral; el total de ventas
en pesetas que realizan los vendedores puede ser un buen criterio para validar un test de
aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que conocemos las
puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y: 5 3 6 0 6
Los elementos que tengan una correlacin con el criterio prxima a cero deberan
eliminarse de la prueba, en la medida que no contribuyen a evaluar el rasgo que se pretende
medir. Si lo que se pretende es seleccionar los tems que ms contribuyen a la validez del
cuestionario, de entre los tems de igual varianza, seran preferibles los que tienen alto Vj y
bajo Hj.
18
Muy en relacin con el anlisis de tems se encuentra el tema del estudio de los
patrones de respuesta que se han dado a las diferentes alternativas de cada tem. Para un tem
concreto de una prueba de rendimiento ptimo, lo ideal es que la alternativa seleccionada en
mayor medida sea la correcta; cada una de las alternativas incorrectas del tem debe tambin
ser seleccionada por un nmero de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas
incorrectas.
a b c d e
1 b 16 40 15 14 15
2 c 35 15 21 17 12
3 a 60 1 21 18 0
En los tests formados por tems de opcin mltiples de las que slo una es correcta,
podemos sobrestimar la puntuacin directa de una persona dado que alguno de sus aciertos ha
podido producirse por azar. El problema entonces consiste en establecer un procedimiento
para descontar del nmero total de aciertos (A) los que se han producido por azar (Aa).
Si asumimos que, cuando no se conoce la respuesta correcta a un tem, todas las alternativas
de respuesta son equiprobables, la probabilidad de acertar al azar ese tem se puede establecer
como:
P (Aa) = 1/n
El n total de errores se puede establecer como el producto del valor Ra por la probabilidad
de cometer un error:
n 1
E = Ra
n
n
Ra = E
n 1
1
Aa = Ra
n
n 1 1
Aa = E = E
n 1 n n
Esta va a ser la frmula para estimar Aa, a partir de los errores cometidos y del nmero de
alternativas que tienen los tems. Podemos observar que cada error se pondera por la
expresin 1/(n-1), lo que significa que por cada error hay que descontar el resultado de ese
cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en
tests de 3 alternativas, hay que descontar 0.5 por cada error; en tests de 4 alternativas, hay que
descontar 0.33 puntos por cada error; y as sucesivamente.
Xc = A - Aa
20
Ejemplo: Un test de conocimientos del idioma ingls est formado por 140 tems con 5
opciones de respuesta cada uno. A continuacin se detallan el n de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona A E 0
1 112 28 0
2 110 12 18
3 109 0 31
28
Xc1 = 112 = 105
4
12
Xc 2 = 110 = 107
4
0
Xc3 = 109 = 109
4
EJERCICIOS
1. A continuacin se expone una escala de actitud favorable ante las drogas. Cada
frase se responde con N (nunca), PV (pocas veces), AV (a veces), MV (muchas
veces) o S (siempre).
a) A menudo me influyen ms las opiniones de los dems que las mas propias . . . ______
b) Evito vivir situaciones lmites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
c) No me importara tomar estimulantes para disminuir la sensacin de fatiga
fsica o mental en el trabajo ........................................ ______
d) Me considero capaz de resolver un problema por mi mismo . . . . . . . . . . . . . . . . ______
e) Me gustara decir NO, pero no puedo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ______
sujeto 1 S PV MV N S
sujeto 2 PV MV AV MV AV
sujeto 3 N S N MV N
sujeto 4 MV N AV MV PV
a) El ndice de homogeneidad de un tem indica en que grado mide lo mismo que el test.
b) Un tem con un Hj bajo siempre debe ser descartado en un proceso de seleccin.
c) El ndice de homogeneidad permite ver en qu medida un tem permite predecir un
criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos rechazar
aquellos tems que correlacionen poco con la puntuacin total en el test.
e) Un tem homogneo, pero con un bajo ndice de validez, no indica necesariamente que
est mal construido, sino que puede deberse a que el criterio seleccionado sea poco
adecuado.
a) Complete la tabla.
b) Atendiendo al ndice de dificultad, cul es el peor tem?
c) Atendiendo al ndice de homogeneidad, cul es el peor tem?
d) Atendiendo exclusivamente al ndice de validez, cul es el peor tem?
23
a) El tem que menos contribuye a que el test de 4 tems mida un solo rasgo es el nmero
____ porque ______________________________________________.
b) El tem que menos contribuye a la validez del test de 4 tems es el nmero ____
porque _____________________________.
c) El tem que menos contribuye a la varianza del test de cuatro tems es el nmero _____
porque ____________________________________.
24
0.15 es _____________________________
0.24 es _____________________________
0.40 es _____________________________
0.53 es _____________________________
X Xc
sujeto 1 20 18
sujeto 2 15 5
sujeto 3 25 25
sujeto 4 17 12
sujeto 5 23 22
c) Sabiendo que en ninguno de los tems ha habido omisiones, Cunto vale la varianza
del tem de ms varianza de los tres?
d) A Laura le ha correspondido en el test una puntuacin sin corregir de 20 y una
puntuacin tras corregir los aciertos por azar de 16 Cuntos errores ha cometido?
13. Una muestra de 200 personas responde a un test de rendimiento ptimo de tres
alternativas. La siguiente tabla muestra las personas que eligieron cada alternativa en cada
tem, y cual es en cada uno la alternativa correcta.
a) Sabiendo que no hubo omisiones en ninguno de los tems, calcule la media del tem 1.
b) Cul es el tem ms difcil? Razone su respuesta.
c) A partir del estudio de las alternativas incorrectas algn tem debera ser modificado?
Razone su respuesta
14. Un test de 12 tems est formado por 2 escalas que miden constructos distintos. La
escala 1 est integrada por los primeros 4 tems y la escala 2 por los ltimos 8 tems. Las
siguientes dos tablas muestran los ndices de homogeneidad (H) y homogeneidad
corregidos (HC) de los tres primeros tems en relacin al test de 12 tems y en relacin a
la escala 1.
Diga razonadamente qu tabla contiene los H y HC de los tres tems en relacin al test
completo.
26
SOLUCIONES
1.
sujeto 2 2 2 3 2 3 12
sujeto 3 1 1 1 2 1 6
sujeto 4 4 5 3 2 2 16
2. a) Verdadero
b) Falso
c) Falso
d) Falso
6. a) El tem 1: D1 = 0,8
b) H2 = 0.305
c) La persona nmero 8: Xc = 2
d) V5 = 0.84
8. Por ser un tem dicotmico, D(1-D) = S2. Por lo tanto, el producto de uno de los
valores dados (ndice de dificultad) por uno menos ese valor ha de dar otro valor (la
varianza). De los valores dados, el nico valor que cumple lo anterior es 0.4, pues
(0.4)(1-0.4) = 0.24, que es otro valor dado. Por lo tanto, D= 0.4, y la varianza es 0.24.
Dado que el ndice de homogeneidad corregido suele ser menor que el ndice de
homogeneidad son corregir, 0.15 y 0.53 sern los ndices de homogeneidad corregidos
y sin corregir, respectivamente.
10. n=5
11.
Sujeto Preguntas sin contestar
1 3
2 0
3 0
4 3
5 1
12 a) El tem 1, pues tiene el menor (0.1) ndice de dificultad.
b) No. Pues el tem 2 ha sido acertado por el 60% de la muestra.
c) Var (item 1) = (0.1)(0.9) = 0.09
Var (item 2) = (0.6)(0.4) = 0.24
Var (item 3) = (1)(0) = 0
El tem de ms varianza es el tem 2 (0.24).
d) Xc = X E/2. 16 = 20 E/2. Luego, E = 8.