Está en la página 1de 13

Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas

Facultad de Letras y Ciencias Humanas 2012- II


Especialidad de Psicología

Guía Metodológica
Confiabilidad y Análisis de ítemsi
Mag. Silvana Romero Saletti

El material que se presenta a continuación se ha elaborado para el curso de


Construcción de Pruebas y constituye una guía para la elaboración de los análisis de
confiabilidad del instrumento construido y el análisis en profundidad de los ítems que
pertenecen al mismo.

En relación a la confiabilidad, se ejemplificará el procedimiento utilizando el SPSS para


realizar análisis de consistencia interna por el método Alfa de Crombach

En relación al análisis de ítems: el cuadro siguiente muestra los indicadores a tomar en


cuenta.

ANÁLISIS DE ÍTEMES
TIPO DE PRUEBA
INDICADOR
Ejecución Típica Ejecución Máxima

Discriminación Correlación ítem – test corregida

Capacidad para captar las diferencias Varianza de los puntajes de cada ítem
Distribución de alternativas de respuesta/Calidad de
Proporción de las opciones/distractores
los distractores
Proporción de personas que acertaron en la
No aplica Dificultad del ítem
respuesta al ítem

Paso 1. Elaboración de la base de datos


Lógicamente, las primeras variables en nuestra base de datos son las variables
sociodemográficas que caracterizarán a nuestra muestra de participantes. No se
ahondará en detalles, pero se asume que es necesario realizar los análisis descriptivos
de la muestra para reportarlos en el manual de la prueba.

En relación a los ítems, el primer paso es construir una base de datos en la que cada
ítem sea una variable independiente. Es importante que el nombre asignado a cada
ítem contenga una pista sobre el área a la que pertenece de modo que al realizar los
cálculos sea más fácil identificarlos.

Los datos de cada sujeto deben ser ingresados dependiendo del formato de respuesta
del instrumento. Por ejemplo:

- Respuestas dicotómicas: se colocan datos con 0 y 1. En el variable view, en la


columna valores, se debe ingresar los valores que toma cada respuesta. P.e.
0=No, 1=Si; 0=Falso, 1=Verdadero.

- Respuestas politómicas: se ingresan las respuestas codificadas con números (1,


2, 3, 4, 5) en una gradiente que va en aumento dependiendo del número de
alternativas de respuesta que se tengan. Del mismo modo en la vista de

1
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

variables, en la columna de valores, se debe ingresar los valores que toma cada
opción de respuesta.

La base de datos que vamos a usar a continuación corresponde a una escala de


Sexismo Ambivalente que cuenta con dos dimensiones: Sexismo Hostil y Sexismo
Benevolente. Como vemos a continuación, se ha identificado los ítems que pertenecen a
la primera dimensión con una H y, los que pertenecen a la segunda, con una B. Asimismo
vemos que nuestra escala tiene 6 opciones de respuesta diferentes, que van de
Totalmente en desacuerdo (1) a Totalmente de acuerdo (2) y que cada una de ellas ha
sido codificada.

Paso 2. Cálculo de la confiabilidad del instrumento


Índices correlacionales

Tanto para el análisis de discriminación de los ítemes como para el de confiabilidad se


utilizan índices correlacionales. Para el análisis de discriminación del ítem se utilizará la
correlación ítem-test corregida y para el análisis de confiabilidad se utilizará el Alfa
de Cronbach o el coeficiente de Spearman-Brown.

Es importante acotar que si el instrumento tiene diferentes áreas (multidimensional), el


análisis de confiabilidad se debe realizar estos análisis para cada área por separado y
luego para la prueba total en caso que se haya planteado que la prueba arroje un
puntaje total.

2.1 Discriminación de los ítems

2
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

La discriminación del ítem corresponde a la capacidad que tiene el ítem para distinguir
entre grupos de personas que presentan altos niveles del atributo y quienes tienen bajos
niveles del mismo. En este caso un criterio que nos puede permitir valorar este índice de
discriminación es la correlación ítem-test corregida calculada a partir de la correlación
de Pearson.

Este índice calcula la correlación que existe entre un ítem y el puntaje total de la prueba
quitando la puntuación del ítem en análisis. El tipo de correlación que se utiliza depende
de las características de las variables a correlacionar que en este caso son el ítem
analizado y el puntaje total del test (Pearson, Spearman, biserial puntual o Phi).

Respecto a la interpretación de esta correlación, existe consenso en que cuando esta


correlación es positiva y mayor o igual a 0.3 podemos decir que el ítem presenta una
buena capacidad discriminativa. Es decir, que mientras mayor puntaje obtenga una
persona en el ítem, mayor será el puntaje obtenido en la prueba total. En caso de que
la correlación sea negativa, quiere decir que los sujetos que tienen elevados puntajes en
el ítem, tienen bajos puntajes en la prueba total.

Ojo: es importante evaluar las correlaciones negativas porque estas pueden deberse a
que en nuestra base de datos no hemos invertido los puntajes para los ítems inversos.

Finalmente, si un ítem tiene una correlación ítem-test corregida nula, o pequeña, quiere
decir que este no discrimina, es decir es contestado de la misma manera por personas
que obtienen puntajes altos y bajos en la prueba total.

Tanto las correlaciones negativas, como las pequeñas y nulas nos indican que los ítems
no aportan a la confiablidad de la prueba y deben ser eliminados.

2.2 Confiabilidad de la prueba

Recordemos que la confiabilidad medida a través del método de consistencia interna se


refiere a la proporción de varianza que puede ser explicada por la variación conjunta
de todos los ítems. Al analizar la confiablidad de una prueba siempre se debe
considerar la correlación que tienen los ítems con la prueba, por ello el análisis de
discriminación de los ítems es un paso importante en el cálculo de la confiabilidad.

El análisis de consistencia interna se puede obtener a partir del análisis de covariación


de los ítemes o el análisis de confiabilidad por mitades.

2.2.1 Análisis de covariación de los ítemes

El indicador que se utiliza para este tipo de confiabilidad es el Alfa de Cronbach (o el


Kuder Richardson cuando se trata de pruebas dicotómicas). Recordemos que si el Alfa
de Cronbach es igual o mayor a 0.7, se puede decir que el instrumento presenta un nivel
adecuado de confiabilidad por consistencia interna.

Dado que la confiabilidad está influida por la discriminación del ítem, el valor del Alfa
se puede elevar eliminando los ítemes cuya correlación ítem- test corregida sea menor a
0.3 la aceptable. Esta eliminación debe hacerse ítem a ítem, es decir:

- Se ejecuta el análisis
- Se identifica el ítem con la menor correlación ítem test

3
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

- Se elimina dicho ítem


- Se ejecuta el análisis nuevamente, etc.

Se procede siguiendo estos pasos pues cada eliminación modifica las correlaciones ítem
test de los demás ítems. Se eliminan en el orden siguiente:

- Primero los ítems con correlaciones inversas,


- Luego los que tienen correlaciones nulas
- Finalmente los que tienen correlaciones positivas bajas.

Asimismo, cada eliminación produce una variación en el Alfa de Cronbach que se calcula
a la par que las correlaciones ítem test.

Para realizar el análisis con el SPSS, abrimos la base de datos y ejecutamos la siguiente
secuencia

 Analizar > Escala > Análisis de confiabilidad

Aparecerá una ventana, como veremos en la próxima imagen, donde tenemos a la


mano izquierda todos los ítems. Lo que se debe hacer es trasladar todos los ítems que
componen mi prueba o, en caso sea dimensional, todos los ítems que componen un área
de mi prueba.

Asimismo en la parte inferior, tenemos que asegurarnos de que el modelo que va a


ejecutar el SPSS es el Modelo Alfa.

Continuando con el ejemplo de nuestra escala de Sexismo ambivalente, vamos a


analizar primero la confiabilidad de la sub-escala de Sexismo Hostil. Por ello
trasladamos los ítems que pertenecen a dicha escala a la ventana de la derecha.

4
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

Si hacemos click en el comando que dice Estadísticos, se abre una nueva ventana con
múltiples opciones. Nosotros debemos marcar la opción Escala si se elimina el
elemento.

Una vez realizado esto, presionamos Continuar y luego Aceptar. Aparecerá una nueva
ventana con los resultados de nuestro análisis.

Si observamos el output, veremos que aparecen tres tablas. La primera tabla Resumen
del procesamiento de los casos corresponde al número de casos con los que contamos
para realizar el análisis. Recordemos que, para fines del curso, requerimos contar con un

5
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

mínimo de 50 casos válidos. Con casos válidos, nos referimos a casos en el que el
porcentaje de datos perdidos sea mínimo.

La segunda tabla Estadísticos de fiabilidad nos ofrece dos datos importantes. El Alfa de
Cronbach y el número de ítems sobre el cual fue calculado. En el caso de nuestra sub-
escala de Sexismo hostil, encontramos un Alfa de Cronbach de 0.87, lo cual es excelente
y este ha sido calculado sobre 23 ítems. Sin embargo, no podemos dejar de observar la
capacidad de discriminación de los ítems.

La tercera tabla, Estadísticos total-elemento nos muestra varios estadísticos importantes.


Los más importantes son las correlaciones ítem-test corregida y el Alfa si se elimina el
elemento.

6
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

Como podemos observar, el ítem 42 tiene una correlación ítem-test corregida de -.281.
Como vemos, se trata de una correlación negativa. Asimismo, si elimináramos el ítem, el
Alfa de Cronbach subiría a 0.88. Por estas razones, procedemos a eliminar el ítem.

Para lograr esto, volvemos a ejecutar el comando


 Analizar > Escala > Análisis de confiabilidad

Aparece la ventana con los ítems que hemos seleccionado para el análisis. Ubicamos el
ítem 42 y lo hacemos regresar a la ventana de la izquierda, de modo que ya no se
incluya en el análisis. Presionamos Aceptar.

7
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

Encontramos que en el Output del SPSS vuelven a aparecer las tablas con los nuevos
resultados. Como podemos observar, el Alfa de Cronbach es de 0.88 y se ha calculado
sobre un total de 22 ítems. Si observamos las correlaciones ítem-test corregidas, vemos
que han cambiado, no son las mismas que en el análisis anterior. Asimismo vemos que
todas son mayores a 0.3, y por tanto, aquí termina el análisis. De haber habido otros
ítems con dificultades, se continúa repitiendo los análisis hasta lograr correlaciones ítem-
test satisfactorias.

Al reportar estos análisis en los informes es importante explicitar cuántos ítems fueron
eliminados y cuáles fueron las razones para hacerlo. Asimismo, es importante hipotetizar
cuáles fueron las posibles causas de la falta de discriminación del ítem. En el manual de
la prueba, se reporta cuáles son los ítems que componen cada área, el Alfa encontrado
para cada una de ellas y el rango en que varían las correlaciones ítem-test corregidas.

2.2.2 Análisis de confiabilidad por mitades

Otra forma de estimar la confiabilidad es el análisis de confiabilidad por mitades. Se


divide la prueba en dos mitades y se correlacionan, de modo que una prueba funciona
como si fuera paralela de la otra. En primer lugar se obtiene la correlación de las dos
mitades usando la correlación de Pearson y luego se corrige el resultado con la fórmula
de Spearman-Brown.

Para calcular este tipo de confiabilidad, primero se debe obtener los puntajes de las
dos mitades de la prueba. Para ello un procedimiento es que los ítems impares funcionen
como la prueba A y los pares como la prueba B.

En nuestro ejemplo, para la escala de Sexismo Benevolente, calcularemos los puntajes


de sus dos mitades. Para ello vamos a:

 Transformar > Calcular variable

8
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

En la ventana que se abre, colocamos como nombre de Variable PuntajaTotalA y


sumamos los ítems correspondientes a esta primera mitad de la prueba.

Empleamos la misma secuencia para crear la variable PuntajeTotalB. Una vez


computadas ambas variables, si vamos al Data View, veremos que se han creado los
puntajes totales de las dos mitades de la sub-escala de Sexismo benevolente.

9
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

El paso siguiente es obtener la correlación entre ambas variables. Para ello se ejecutan
los comandos

 Analizar > Correlaciones > Bivariadas

Introducimos como variables los puntajes de las dos mitades de la prueba y presionamos
Aceptar. En el ouput aparece la correlación. Observamos que la correlación entre las
dos mitades es de 0.585=0.59. Esa correlación va a ser el insumo que luego
reemplazaremos en la fórmula de Spearman-Brown.

Para obtener la confiabilidad de la prueba completa necesitamos usar la corrección de


Spearman Brown:

Pxx* = ____2Pab____
1 + (2-1)Pab

Pxx* = ____2(0.59)___
1 + (2-1)0.59

Finalmente, remplazando el valor de Pab con el valor de la correlación obtenida por el


SPSS, obtenemos un coeficiente de confiabilidad por mitades de 0.74.

Paso 3. Análisis de ítems de acuerdo al tipo de prueba.

3.1 Pruebas de ejecución típica

Además de la capacidad de discriminación de los ítems, es importante realizar otros


análisis para poder dar cuenta de cuanto aportan a la confiabilidad del instrumento.

10
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

Es importante analizar la capacidad para captar las diferencias y la distribución de


las opciones de respuesta.

3.1.1 Capacidad para captar las diferencias

La capacidad de un ítem para captar las diferencias entre los individuos se puede
observar a partir de su dispersión. Mientras mayor dispersión tenga el ítem, mejor. Este
análisis se realiza calculando la varianza de cada ítem y comparándola con la varianza
promedio de todos los ítems de la prueba. Si la varianza de un ítem es mayor a la
varianza promedio podemos decir que su capacidad para captar las diferencias es
mayor.

3.1.2. Distribución de las opciones de respuestas

Al igual que con los constructos psicológicos, esperamos que, en cada ítem, la distribución
de los puntajes en las diferentes opciones de respuesta siga una curva normal. Es decir,
que la mayoría de los valores se congreguen en los puntos intermedios y se tenga pocos
casos en los extremos.

Esto se puede analizar pidiendo al SPSS que nos arroje las distribuciones de frecuencia
para las opciones de respuesta de cada ítem.

Para realizar ambos análisis ejecutamos en el SPSS los siguientes comandos:

 Analizar > Estadísticos descriptivos > Frecuencias

Trasladamos los ítems a la ventana que dice Variables

Luego seleccionamos el botón Estadísticos. En la sección bajo el encabezado


Dispersión, seleccionamos la opción Varianza.

11
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

Una vez solicitado el análisis, encontraremos un cuadro de estadísticos que nos muestra
la varianza de cada ítem y varias tablas que nos muestran la frecuencia de cada
opción de respuestas. Con estos datos podemos en Excel calcular la varianza promedio
de todos los ítems y hacer las interpretaciones correspondientes.

3.2. Pruebas de ejecución máxima

En este tipo de pruebas, los análisis que permiten establecer cuáles son los ítems que
más contribuyen a la confiabilidad de la prueba son la capacidad para captar
diferencias, que vimos en el apartado anterior, y la dificultad del ítem. Adicionalmente,
12
Pontificia Universidad Católica del Perú Curso: Construcción de Pruebas
Facultad de Letras y Ciencias Humanas 2012- II
Especialidad de Psicología

para las pruebas politómicas se analiza la calidad de los distractores. Veamos estos
dos últimos.

3.2.1 Dificultad del ítem

Este indicador está dado por la proporción de personas que respondieron al ítem
correctamente. El grado óptimo de dificultad depende del número de opciones de
respuesta que tiene el ítem y el objetivo de la prueba. Para poder obtener este
indicador, se debe trabajar con una base de datos que recoja la información en valores
0 (incorrecto) y 1 (correcto) y luego, se solicitan estadísticos descriptivos,
particularmente, la media.

3.2.2 Calidad de los distractores

Para las pruebas de ejecución máxima que emplean ítemes politómicos, se debe
evaluar también si las opciones de respuesta conocidas como distractores cumplen con su
objetivo. Para este análisis, se obtienen y se comparan las proporciones de personas
que han marcado cada uno de los distractores. Un distractor adecuado es aquel que
tiene una mínima proporción de respuestas en comparación con la respuesta correcta y
además cuya proporción es similar a la de los demás distractores. Para identificar esto,
pedimos al SPSS las frecuencias de las opciones de respuesta de cada ítem. Como
podemos observar, a diferencia de las pruebas de ejecución típica, no se busca una
distribución normal de las respuestas, sino una concentración en la respuesta correcta y
pocos datos en los distractores.

Referencias consultadas

Barbero, I., Vila, E. & Suárez, J. (2003). Psicometría. Madrid: Uned.


Cohen, R. y Swerdlik, M. (2006). Pruebas y evaluación psicológicas: Introducción a las
pruebas y a la medición. México: McGraw-Hill.
Martínez-Arias, R., Hernández, J. & Hernández, M. (2008). Psicometría. Madrid: Alianza
Editorial.

i Para la elaboración de esta Guía se tomó como base la Guía metodológica “Análisis de ítemes/Análisis de
confiabilidad” elaborada por Nóblega, Peña & Salas.

13

También podría gustarte