Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Guía Metodológica
Confiabilidad y Análisis de ítemsi
Mag. Silvana Romero Saletti
ANÁLISIS DE ÍTEMES
TIPO DE PRUEBA
INDICADOR
Ejecución Típica Ejecución Máxima
Capacidad para captar las diferencias Varianza de los puntajes de cada ítem
Distribución de alternativas de respuesta/Calidad de
Proporción de las opciones/distractores
los distractores
Proporción de personas que acertaron en la
No aplica Dificultad del ítem
respuesta al ítem
En relación a los ítems, el primer paso es construir una base de datos en la que cada
ítem sea una variable independiente. Es importante que el nombre asignado a cada
ítem contenga una pista sobre el área a la que pertenece de modo que al realizar los
cálculos sea más fácil identificarlos.
Los datos de cada sujeto deben ser ingresados dependiendo del formato de respuesta
del instrumento. Por ejemplo:
1
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
variables, en la columna de valores, se debe ingresar los valores que toma cada
opción de respuesta.
2
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
La discriminación del ítem corresponde a la capacidad que tiene el ítem para distinguir
entre grupos de personas que presentan altos niveles del atributo y quienes tienen bajos
niveles del mismo. En este caso un criterio que nos puede permitir valorar este índice de
discriminación es la correlación ítem-test corregida calculada a partir de la correlación
de Pearson.
Este índice calcula la correlación que existe entre un ítem y el puntaje total de la prueba
quitando la puntuación del ítem en análisis. El tipo de correlación que se utiliza depende
de las características de las variables a correlacionar que en este caso son el ítem
analizado y el puntaje total del test (Pearson, Spearman, biserial puntual o Phi).
Ojo: es importante evaluar las correlaciones negativas porque estas pueden deberse a
que en nuestra base de datos no hemos invertido los puntajes para los ítems inversos.
Finalmente, si un ítem tiene una correlación ítem-test corregida nula, o pequeña, quiere
decir que este no discrimina, es decir es contestado de la misma manera por personas
que obtienen puntajes altos y bajos en la prueba total.
Tanto las correlaciones negativas, como las pequeñas y nulas nos indican que los ítems
no aportan a la confiablidad de la prueba y deben ser eliminados.
Dado que la confiabilidad está influida por la discriminación del ítem, el valor del Alfa
se puede elevar eliminando los ítemes cuya correlación ítem- test corregida sea menor a
0.3 la aceptable. Esta eliminación debe hacerse ítem a ítem, es decir:
- Se ejecuta el análisis
- Se identifica el ítem con la menor correlación ítem test
3
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
Se procede siguiendo estos pasos pues cada eliminación modifica las correlaciones ítem
test de los demás ítems. Se eliminan en el orden siguiente:
Asimismo, cada eliminación produce una variación en el Alfa de Cronbach que se calcula
a la par que las correlaciones ítem test.
Para realizar el análisis con el SPSS, abrimos la base de datos y ejecutamos la siguiente
secuencia
4
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
Si hacemos click en el comando que dice Estadísticos, se abre una nueva ventana con
múltiples opciones. Nosotros debemos marcar la opción Escala si se elimina el
elemento.
Una vez realizado esto, presionamos Continuar y luego Aceptar. Aparecerá una nueva
ventana con los resultados de nuestro análisis.
Si observamos el output, veremos que aparecen tres tablas. La primera tabla Resumen
del procesamiento de los casos corresponde al número de casos con los que contamos
para realizar el análisis. Recordemos que, para fines del curso, requerimos contar con un
5
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
mínimo de 50 casos válidos. Con casos válidos, nos referimos a casos en el que el
porcentaje de datos perdidos sea mínimo.
La segunda tabla Estadísticos de fiabilidad nos ofrece dos datos importantes. El Alfa de
Cronbach y el número de ítems sobre el cual fue calculado. En el caso de nuestra sub-
escala de Sexismo hostil, encontramos un Alfa de Cronbach de 0.87, lo cual es excelente
y este ha sido calculado sobre 23 ítems. Sin embargo, no podemos dejar de observar la
capacidad de discriminación de los ítems.
6
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
Como podemos observar, el ítem 42 tiene una correlación ítem-test corregida de -.281.
Como vemos, se trata de una correlación negativa. Asimismo, si elimináramos el ítem, el
Alfa de Cronbach subiría a 0.88. Por estas razones, procedemos a eliminar el ítem.
Aparece la ventana con los ítems que hemos seleccionado para el análisis. Ubicamos el
ítem 42 y lo hacemos regresar a la ventana de la izquierda, de modo que ya no se
incluya en el análisis. Presionamos Aceptar.
7
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
Encontramos que en el Output del SPSS vuelven a aparecer las tablas con los nuevos
resultados. Como podemos observar, el Alfa de Cronbach es de 0.88 y se ha calculado
sobre un total de 22 ítems. Si observamos las correlaciones ítem-test corregidas, vemos
que han cambiado, no son las mismas que en el análisis anterior. Asimismo vemos que
todas son mayores a 0.3, y por tanto, aquí termina el análisis. De haber habido otros
ítems con dificultades, se continúa repitiendo los análisis hasta lograr correlaciones ítem-
test satisfactorias.
Al reportar estos análisis en los informes es importante explicitar cuántos ítems fueron
eliminados y cuáles fueron las razones para hacerlo. Asimismo, es importante hipotetizar
cuáles fueron las posibles causas de la falta de discriminación del ítem. En el manual de
la prueba, se reporta cuáles son los ítems que componen cada área, el Alfa encontrado
para cada una de ellas y el rango en que varían las correlaciones ítem-test corregidas.
Para calcular este tipo de confiabilidad, primero se debe obtener los puntajes de las
dos mitades de la prueba. Para ello un procedimiento es que los ítems impares funcionen
como la prueba A y los pares como la prueba B.
8
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
9
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
El paso siguiente es obtener la correlación entre ambas variables. Para ello se ejecutan
los comandos
Introducimos como variables los puntajes de las dos mitades de la prueba y presionamos
Aceptar. En el ouput aparece la correlación. Observamos que la correlación entre las
dos mitades es de 0.585=0.59. Esa correlación va a ser el insumo que luego
reemplazaremos en la fórmula de Spearman-Brown.
Pxx* = ____2Pab____
1 + (2-1)Pab
Pxx* = ____2(0.59)___
1 + (2-1)0.59
10
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
La capacidad de un ítem para captar las diferencias entre los individuos se puede
observar a partir de su dispersión. Mientras mayor dispersión tenga el ítem, mejor. Este
análisis se realiza calculando la varianza de cada ítem y comparándola con la varianza
promedio de todos los ítems de la prueba. Si la varianza de un ítem es mayor a la
varianza promedio podemos decir que su capacidad para captar las diferencias es
mayor.
Al igual que con los constructos psicológicos, esperamos que, en cada ítem, la distribución
de los puntajes en las diferentes opciones de respuesta siga una curva normal. Es decir,
que la mayoría de los valores se congreguen en los puntos intermedios y se tenga pocos
casos en los extremos.
Esto se puede analizar pidiendo al SPSS que nos arroje las distribuciones de frecuencia
para las opciones de respuesta de cada ítem.
11
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
Una vez solicitado el análisis, encontraremos un cuadro de estadísticos que nos muestra
la varianza de cada ítem y varias tablas que nos muestran la frecuencia de cada
opción de respuestas. Con estos datos podemos en Excel calcular la varianza promedio
de todos los ítems y hacer las interpretaciones correspondientes.
En este tipo de pruebas, los análisis que permiten establecer cuáles son los ítems que
más contribuyen a la confiabilidad de la prueba son la capacidad para captar
diferencias, que vimos en el apartado anterior, y la dificultad del ítem. Adicionalmente,
12
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología
para las pruebas politómicas se analiza la calidad de los distractores. Veamos estos
dos últimos.
Este indicador está dado por la proporción de personas que respondieron al ítem
correctamente. El grado óptimo de dificultad depende del número de opciones de
respuesta que tiene el ítem y el objetivo de la prueba. Para poder obtener este
indicador, se debe trabajar con una base de datos que recoja la información en valores
0 (incorrecto) y 1 (correcto) y luego, se solicitan estadísticos descriptivos,
particularmente, la media.
Para las pruebas de ejecución máxima que emplean ítemes politómicos, se debe
evaluar también si las opciones de respuesta conocidas como distractores cumplen con su
objetivo. Para este análisis, se obtienen y se comparan las proporciones de personas
que han marcado cada uno de los distractores. Un distractor adecuado es aquel que
tiene una mínima proporción de respuestas en comparación con la respuesta correcta y
además cuya proporción es similar a la de los demás distractores. Para identificar esto,
pedimos al SPSS las frecuencias de las opciones de respuesta de cada ítem. Como
podemos observar, a diferencia de las pruebas de ejecución típica, no se busca una
distribución normal de las respuestas, sino una concentración en la respuesta correcta y
pocos datos en los distractores.
Referencias consultadas
i Para la elaboración de esta Guía se tomó como base la Guía metodológica “Análisis de ítemes/Análisis de
confiabilidad” elaborada por Nóblega, Peña & Salas.
13