Está en la página 1de 7

Tema 4.

EVALUACIÓN DE LA CALIDAD MÉTRICA DE LOS


ELEMENTOS DEL TEST:
ANÁLISIS DE ÍTEMS

1. INTRODUCCIÓN
El análisis de los ítems tiene como objeto seleccionar aquellos que tengan mayor calidad
psicométrica con el fin de garantizar que el test definitivo sea, dentro de las posibilidades, el óptimo desde
el punto de vista de la fiabilidad y validez del mismo. Este análisis implica los siguientes elementos:

(1) La estimación de los parámetros de los ítems, que son: la dificultad, el poder discriminativo, la
fiabilidad (Índice de Discriminación Interna e Índice de Fiabilidad) y la validez (Índice de
Discriminación Externa e Índice de Validez) de cada ítem.

(2) El análisis de las alternativas incorrectas de respuesta, o distractores, cuando los ítems son de
respuesta múltiple.

(3) El análisis del posible funcionamiento diferencial de los ítems del test en distintos grupos de
sujetos.

2. PARÁMETROS DEL ÍTEM


Los tres parámetros fundamentales que intervienen en el análisis de la calidad métrica de un ítem
son el nivel de dificultad y el poder discriminativo (parámetros basados en la distribución singular del ítem);
la discriminación interna y externa de los ítems (parámetros basados en la relación del ítem con el resto de
los ítems o con otras variables); y la fiabilidad y la validez del ítem (combinación de los dos parámetros
anteriores). Este análisis implica el cálculo de estadísticos e índices dirigidos a reflejar estas propiedades
de los ítems. En este tema el análisis de los ítems se desarrolla exclusivamente desde la Teoría Clásica de
Tests (TCT).

2.1 Dificultad del ítem


La dificultad del ítem es una característica que se establece a priori desde consideraciones teóricas
en la fase de especificación del test y está en función del contenido y de la complejidad de las operaciones
demandadas al sujeto para responder correctamente al ítem. Esta dificultad teórica tiene que contrastarse
empíricamente a través del análisis cuantitativo del ítem.
Hablar de dificultad del item sólo tiene sentido cuando el test es de naturaleza cognitiva (ejecución
máxima), es decir, cuando se están midiendo rendimientos, conocimientos, habilidades, destrezas, etc. El
índice de dificultad más sencillo y de uso más frecuente consiste en obtener la proporción de sujetos que lo
aciertan:
A
ID = = pA
N
donde pA es el índice de dificultad del ítem, A es el número de sujetos que lo aciertan y N es el
tamaño muestral (nº de sujetos que contestan el ítem).
El rango de valores que puede tomar este índice es, pues, 0 ≤ pA ≤ 1, y cuanto mayor sea menor
será la dificultad del ítem (en este sentido debería hablarse de facilidad y no de dificultad). No interesan
ítems con un índice de dificultad muy alta ni muy baja, ya que éstos no discriminan entre los sujetos, sino
índices de dificultad media. Lo ideal es que el test esté integrado mayoritariamente (80% de los ítems) y de
forma equilibrada por ítems de los llamados de dificultad media (valores entre 0,25 y 0,75), reservándose el
20% restante para ítems de dificultades extremas (10% progresivamente menores de 0,25 y 10%
progresivamente mayores de 0,75) con el fin de poder establecer efectos de “suelo y techo”

2.2. Poder discriminativo del Item.

El poder discriminativo de un ítem es una propiedad psicométrica del mismo que refleja el grado en
que el ítem es capaz de diferenciar los diferentes grados o niveles en que los sujetos poseen la característica
que dicho ítem pretende medir.

Si, como se ha visto en el punto anterior, el índice de dificultad sólo tiene sentido aplicarlo en pruebas
cognitivas, el poder discriminativo de un ítem es aplicable tanto a pruebas cognitivas (por ejemplo, grado de
razonamiento abstracto) como no cognitivas (por ejemplo, actitud hacia los estudios).
En el caso de las pruebas cognitivas, los ítems con índices de dificultad muy altos (valores p próximos
a 0) o muy bajos (valores p próximos a 1) tienen bajo poder discriminativo, mientras que los ítems con
índices de dificultad intermedia (valores p próximos a 0’50) son los que mayor poder discriminativo ofrecen.
Un indicador estadístico adecuado para evaluar el poder discriminativo de un ítem es su desviación
típica (Si). Este índice sólo es objetivamente interpretable para ítems con valores de respuesta dicotómica
(distribuciones binomiales) ya que conocemos el rango en el que opera esa Si (puede tomar valores entre
0 y 0,50). En otro tipo de formatos, dependiendo de los valores de las respuestas de los sujetos, no podemos
conocer el tope del valor Si con lo que, al utilizarlo se requiere una interpretación más cualitativa y, por lo
tanto, mucho menos objetiva.
Recordad que en ítems dicotómicos (distribuciones binomiales) los estadísticos más representativos
(Media y desviación típica) se pueden calcular de forma mucho más simple ya que la Media del ítem sería
= p y el valor de la desviación Típica (Si) corresponde a la siguiente ecuación:
Si = pq
Donde p es la proporción de unos y q la proporción de ceros (su complementario)
En estos casos, un valor adecuado de Si se establece a partir de valores de 0,40 (que son los que
corresponden a unos valores de p ó q en torno a 0,80 ó 0,20.

Se puede aplicar tanto a tests cognitivos como no cognitivos

2.3. Discriminación interna (u homogeneidad) y externa del ítem

Estas propiedades se establecen comparando los resultados de un ítem con un criterio de interés.
Dependiendo de la naturaleza de ese criterio distinguimos entre Discriminación Interna (u homogeneidad
del ítem) y Discriminación Externa (asociada al concepto de validez del ítem)

Discriminación Interna u homogeneidad : El criterio es el propio test al que pertenece el item (se
relaciona cada ítem con la puntuación total del test en su conjunto, X)
Lo que trata de verificar este indicador es hasta qué punto el ítem “funciona bien” en consonancia con
el resto de los ítems. En otras palabras, hasta qué punto un ítem contribuye de forma efectiva al poder
discriminativo del test, es decir, a su medida total.

Discriminación Externa: El criterio es una medida ajena al propio test pero que se supone relacionada
con él (otras medidas de otros tests convergentes o un criterio externo de validación) (Y)
Lo que se trata de verificar con este indicador es hasta qué punto el ítem contribuye a medir el
constructo que se trata de medir. Para ello se disponen de medidas externas (por ejemplo de otros tests o
de otros métodos de medición) que se sabe que miden ese constructo y analizamos hasta qué punto cada
ítem del test se relaciona con esos criterios externos.

Mientras que la Discriminación Interna se puede establecer para todos los ítems de cualquier test, la
Discriminación Externa sólo se puede comprobar en aquellos casos en los que dispongamos de esas
medidas de Criterios externos (que no siempre es posible)

- Tipos de índices:

a) Correlacionales: Los indicadores estadísticos son coeficientes de correlación. (Discriminación


Interna: rix; Discriminación Externa: riy). Dependiendo del tipo de datos que analicemos se emplea
cualquier coeficiente de correlación, aunque los más usados son la correlación producto-
momento de Pearson (r), la correlación biserial (rb) o la correlación biserial-puntual (rbp).

Interpretación: (para tratar estas cuestiones vamos a referirnos siempre al índice de homogeneidad
(rix) que es el más universal, pero teniendo presente que para el índice de discriminación externa (riy) la
interpretación sería idéntica).

Lógicamente cuanto mayores sean los índices de discriminación, tanto interna como externa, mejor.
En cualquier caso, para que un item sea aceptable deberá tener un índice como mínimo significativo desde
el punto de vista estadístico.
Ese valor mínimo depende del tamaño de muestra y del nivel de significación “alfa” (α) con el que
queramos trabajar (recordemos que en Ciencias Humanas en general y en Psicología en particular ese nivel
de significación suele ser α 0,05 ó 0,01):

Para la correlación de Pearson:

1
rix min = z α
1− N −1
2

Donde rixmin es el valor de correlación mínimo significativo (por debajo del cual se entiende que la
correlación entre las variables es nula)
Z es el valor de la puntuación típica que corresponde a los diferentes niveles de significación; es un
valor constante que corresponde a Z = 1,96 para α 0,05 o a Z = 2,58 para α 0,01.
N es el tamaño de la muestra con la que se realizan los análisis

Un aspecto importante en este índice (que afecta solo a la Discriminación Interna u


Homogeneidad) es el hecho de que en su cálculo se produce un error de sesgo o espurio de
sobrevaloración ya que estamos correlacionando una variable (la puntuación en un ítem) que también
tiene presencia en la otra variable (la puntuación total del test en la que ese ítem también tiene
presencia)
Cuando el nº de ítems del test es muy grande (convencionalmente más de 20) ese error apenas
tiene incidencia por lo que generalmente no se calcula esta corrección en esos casos. Pero cuando el
test o subtest está formado por pocos ítems, el error puede ser significativo.
La mayoría de los programas informáticos que ofrecen este tipo de índices ya corrigen por sistema
este error ofreciendo la correlación del ítem con el test, eliminando del mismo el ítem que se está
correlacionando.
En cualquier caso, ofrecemos aquí la ecuación que permite corregir este error para aplicarla
manualmente cuando se considere necesario:

rix S X − S i
ri (x −i ) =
S i2 + S 2x − 2 rix S i S x

b) Experimentales: Las pruebas estadísticas son contrastes de diferencias.


Este tipo de indicadores se utilizan mucho menos que los correlacionales (suelen ser un
complemento a los anteriores pero apenas se usan por lo que aquí simplemente los voy a
mencionar sin meternos en mayores disquisiciones ni profundidades. El objetivo es que sepáis
que existen)

- Contrastes de diferencias de medias entre grupos extremos (prueba t de contraste)

- Diferencias de proporciones entre grupos extremos (D). Sólo aplicable a items dicotómicos,
(binomiales)

Pasos:
Se categorizan por separado el Test X y el Criterio y agrupando a los sujetos en dos grupos
extremos (Grupo superior, por encima del Centil 75, y Grupo inferior, por debajo del Centil 25).
Los sujetos centrales quedan eliminados.
Cc ⋅ N
− f ai
X Cc − ó − YCc = l ri + i 100
fp

Se lleva a cabo un contraste “t” de diferencia de medias entre la media del ítem del grupo
superior y la media del ítem del grupo inferior. Si el ítem es discriminativo, esas medias deben
ser significativamente diferentes.

En el caso de ítems dicotómicos (distribuciones binomiales) se calcula Dix y Diy (en ambos casos
es D = ps- pi) Donde “ps” es la proporción de unos en el item de los sujetos que forman el grupo
superior (en el test si estamos calculando la discriminación interna, o en el criterio si estamos
calculando la discriminación externa), y “pi” es la proporción de unos en el item de los sujetos
que forman el grupo inferior (en el test si estamos calculando la discriminación interna, o en el
criterio si estamos calculando la discriminación externa).
Interpretación:

D ≥ 0,40 Funcionamiento muy satisfactorio


0,30 ≤ D < 0,40 Funcionamiento Bueno
0,20 ≤ D < 0,30 El item necesita revisión
D < 0,20 El item es eliminable

2.4 Índice de fiabilidad e índice de validez del ítem


Del mismo modo que se puede obtener un índice de la fiabilidad y validez global del test, así también
puede obtenerse un índice de fiabilidad y de validez de un ítem determinado, IFi e IVi, con objeto de poder
seleccionar los ítems más precisos para medir la característica de interés. Estos índices están en función
del poder discriminativo del ítem y de la discriminación tanto interna como externa del item:

IFi =σ i ρix (En notación estadística: IFi = Si rix)


IVi =σ i ρiy (En notación estadística: IFi = Si riy)

siendo σi la desviación típica del ítem i, ρix la correlación entre las puntuaciones en el ítem i y en el
test y ρiy la correlación entre las puntuaciones en el ítem y un criterio externo de validación.

Una propiedad del Indice de Fiabilidad (IFi) es que su suma coincide con la Desviación Típica del test total (Sx)
con lo que es fácil deducir que los ítems que mejor contribuyen a la capacidad de medida de un test son aquellos
que tienen mayor IF y, si os fijáis el IF está en función tanto del poder discriminativo de un ítem como de su
discriminación interna. El IF es la combinación de ambos indicadores con lo que se deduce que tan bueno puede
ser un ítem con Poder Discriminativo Alto y relativamente Baja Discriminación Interna como al revés.

3. ANÁLISIS DE LOS DISTRACTORES


Cuando los ítems de un test son de elección múltiple, el estudio de las alternativas de respuesta
incorrectas, o distractores, contribuye a mejorar la calidad métrica del ítem y, por extensión, del test.
El objetivo de un distractor es atraer la atención de los sujetos que desconocen la respuesta correcta
del ítem y evitar así que puedan acertarlo por puro azar. Un distractor es eficaz si cumple con las siguientes
condiciones:

(1) Es elegido por un número suficiente de sujetos.


(2) Es igualmente atrayente que los demás distractores del ítem.
(3) La puntuación media en el test obtenida por los sujetos que han elegido ese distractor es
inferior a la media en el test de los sujetos que han acertado el ítem.
(4) Presenta un índice de discriminación interna ligeramente inferior, y de signo negativo, al de
los sujetos que han acertado el ítem (correlación entre el distractor y la puntuación total: significativa y de
signo negativo).

4. ANÁLISIS DEL FUNCIONAMIENTO DIFERENCIAL DEL ÍTEM


Un último aspecto de la calidad métrica de los ítems que es preciso evaluar tiene que ver con la
posible existencia de sesgos en las respuestas a los ítems de un test por parte de grupos de sujetos
sociodemográficamente diferentes, tales como sujetos de diferente sexo, etnia, clase social, edad, región,
religión, cultura, etc.

4.1 Impacto y funcionamiento diferencial del ítem


No hay que confundir los conceptos impacto y funcionamiento diferencial del ítem: Un ítem presenta
impacto cuando, aplicado a grupos con características sociodemográficas diferentes y con niveles
diferentes en la característica objeto de estudio, la puntuación media alcanzada en el ítem por los grupos
es diferente.
Por el contrario, un ítem presenta funcionamiento diferencial cuando, aplicado a grupos con
características sociodemográficas diferentes y con un mismo nivel en la característica objeto de estudio, la
puntuación media alcanzada en los grupos es diferente.
Cuando un ítem presenta un funcionamiento diferencial para distintos grupos de sujetos, decimos que
el ítem está sesgado a favor o en contra de un determinado grupo. Dicho sesgo está provocado por fuentes
sistemáticas de variación ajenas al constructo o característica que mide el test. El sesgo hay que entenderlo
consiguientemente en términos de la validez de constructo, mientras que el funcionamiento diferencial es
un indicador estadístico que permite comprobar si un ítem funciona de forma similar en grupos de sujetos
diferentes.

4.2 El procedimiento de Mantel-Haenszel

Este procedimiento permite obtener un índice estadístico que nos permite valorar la posible existencia
de funcionamiento diferencial en un ítem. Los pasos a seguir son:
1º Seleccionar la variable externa de agrupamiento que se sospecha puede estar generando un
funcionamiento diferencial en los ítems del test. De los dos grupos formados, suele denominarse Grupo de
Referencia a aquél que es beneficiado por el funcionamiento diferencial (por regla general, es el grupo
socialmente mayoritario), mientras que se reserva el término Grupo Focal para referirse al grupo que se
sospecha es perjudicado por dicho funcionamiento diferencial (grupo socialmente minoritario).
2º Subdividir a los sujetos de ambos grupos en función de la puntuación obtenida en el test (nivel de
habilidad). Se suelen establecer tres subdivisiones (Nivel bajo, Medio y Alto)
3º Calcular el número de respuestas correctas e incorrectas por cada grupo y en cada nivel de
habilidad (subdivisión):

Grupo Correctas Incorrectas Totales


Referencia A B A+B
Focal C D C+D
Totales A+C B+D N

4º Estimar la cantidad de funcionamiento diferencial mediante el cálculo del estadístico:


AD
α MH = N
BC
N

5º Interpretar el resultado: Valores de αMH superiores a 1 indican la existencia de un funcionamiento


diferencial del ítem, mientras que valores próximos a 1 ó inferiores indican ausencia de funcionamiento
diferencial.
PSICOMETRÍA: PRÁCTICA 2

Análisis de ítems (TEMA 4)

El test “A” pretende medir Aptitudes Mentales Primarias (Razonamiento Abstracto) y está
compuesto por 20 items dicotómicos cuyas propiedades psicométricas se recogen en las
siguientes tablas:

Estadísticos del TEST “A”


Media Varianza Desviación típica N de elementos
10,69 36,606 6,050 20

Estadísticos de resumen de los elementos (Test A)

Media Varianza N de elementos


Medias de los elementos ,534 ,067 20
Varianzas de los elementos ,186 ,003 20
Correlaciones inter-elementos ,451 ,046 20

Estadísticos de los elementos (Test A)

Desviación Correlaciones de los items con el Test


Media típica N Total
item1 ,72 ,450 140 ,774
item2 ,50 ,500 140 ,870
item3 ,76 ,430 140 ,758
item4 ,71 ,453 140 ,573
item5 ,21 ,412 140 ,596
item6 ,82 ,384 140 ,365
item7 ,36 ,483 140 ,763
item8 ,07 ,258 140 ,406
item9 ,14 ,351 140 ,533
item10 ,21 ,412 140 ,668
item11 ,29 ,453 140 ,736
item12 ,36 ,481 140 ,803
item13 ,43 ,497 140 ,847
item14 ,59 ,493 140 ,731
item15 ,57 ,497 140 ,877
item16 ,64 ,481 140 ,846
item17 ,71 ,453 140 ,796
item18 ,79 ,412 140 ,732
item19 ,86 ,351 140 ,642
item20 ,93 ,258 140 ,492
a) ¿Qué dificultad media tiene el test “A”?. ¿Le parece un test equilibrado a este respecto?. Señale
cuál es el item más fácil y el más difícil del test. ¿Cuántos sujetos han acertado cada uno de esos
items? (APARTADOS TEÓRICOS 2.1 Y 2.2)

b) ¿Qué item revela una mejor discriminación interna? ¿Cuál sería su índice de discriminación si
eliminamos el efecto de la sobrevaloración que implica su presencia en la puntuación total del test?
(APARTADO TEÓRICO 2.3)

c) Compruebe que, efectivamente, la Desviación Típica del Test “A” es igual a la suma de los Índices
de Fiabilidad de sus items. (APARTADO TEÓRICO 2.4)

d) Sabiendo que el test está formado por ítems con 5 opciones de respuesta (a, b, c, d y e) de la que
sólo una es correcta, ante los datos que se recogen en la siguiente tabla ¿cuál de esos ítems presenta
un funcionamiento de los distractores más adecuado? (correlación mínima significativa = 0.15)
(APARTADO TEÓRICO 3)

ITEMS OPCIÓN a OPCIÓN b OPCIÓN c OPCIÓN d OPCIÓN e


(opción
correcta)
Item 5 (b) rax = - 0.06 rbx = 0.59 rcx = - 0.24 rdx = - 0.20 rex = - 0.02
% elecciones 17% 21% 32% 20% 10%
Item 14 (e) rax = - 0.33 rbx = - 0.17 rcx = - 0.21 rdx = - 0.16 rex = 0.49
% elecciones 13% 11% 10% 7% 59%
Item 17 (a) rax = 0.61 rbx = 0.70 rcx = - 0.30 rdx = - 0.25 rex = - 0.18
% elecciones 71% 7% 5% 8% 9%

e) Teniendo en cuenta que al analizar el ítem 5 hemos constatado que hay 50 varones frente a 30
mujeres que aciertan ese ítem, queremos averiguar presenta un DIF significativo en función del género
en el sentido de que perjudica a las mujeres. Para ello, categorizamos los resultados del test en tres
grupos: Bajo: Por debajo del Centil 33; Medio: Entre el centil 33 y 66; Alto: Por encima del centil 66; y
llevamos a cabo un recuento de las frecuencias de ambos grupos de sujetos en cada uno de esos
niveles de habilidad. ¿Qué podemos concluir al respecto? (APARTADO TEÓRICO 4.2)
Nivel Bajo
Grupo Correctas Incorrectas Totales
Referencia Varones 10 20
Focal Mujeres 06 09
Totales 45

Nivel Medio
Grupo Correctas Incorrectas Totales
Referencia Varones 17 13
Focal Mujeres 12 08
Totales 50

Nivel Alto
Grupo Correctas Incorrectas Totales
Referencia Varones 23 07
Focal Mujeres 12 03
Totales 45

También podría gustarte