Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Confiabilidad Del Instrumento de Investigacion Con Tes y Retest PDF
Confiabilidad Del Instrumento de Investigacion Con Tes y Retest PDF
INTRODUCCIÓN
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo de
manera consistente.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cuál se
define la fiabilidad como la correlación entre las puntuaciones empíricas en dos formas
paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando en realidad es
uno aplicado dos veces.
43
1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de las dos
últimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los niveles de rasgo
(hábitos de estudio) de las personas no han variado a lo largo de los dos meses transcurridos
entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto a
la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos
interpretar que el 87 % de la varianza empírica se debe a la variabilidad de las personas a nivel
de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo
estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que, de lo
contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medición. Es aconsejable dejar periodos largos entre la evaluación test y la retest
cuando los ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos
podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente por
efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se
incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones,
mayor es la posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto en el decremento de la
correlación entre las puntuaciones del test y del retest.
44
Lo más usual es obtener la consistencia entre dos mitades del test (método de dos mitades) o
entre tantas partes como elementos tenga la prueba (consistencia interna).
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo
estadísticamente), la correlación entre ambas sería una medida de la fiabilidad de cada una de
ellas. Ahora bien, cuando hemos deducido la fórmula general de Spearman-Brown hemos visto
que los tests más largos (con más items) suelen ser más fiables, por lo que rPI estará
subestimando el coeficiente de fiabilidad del test total en la medida que P e I son variables
extraídas de la mitad de ítems que tiene el test. Para superar este problema, y así obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown,
considerando ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test
completo tiene el doble de items que cualquiera de sus mitades:
2rPI
rxx =
1 + rPI
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido como
la expresión de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre
ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10
personas que responden a un cuestionario de 6 ítems valorados de forma dicotómica:
45
Ítems
Sujeto 1 2 3 4 5 6 P I Total
1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 3 1 4
9 0 1 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0
2(0.34)
rxx = = 0.51
1 + 0.34
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos mitades del test
no son muy consistentes entre sí. Unicamente un 51 % de la varianza de las puntuaciones
empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos afirmar con
suficiente certeza que ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de
rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a
responder los ítems más fáciles hasta llegar a los situados al final del test, que son los más
difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la
primera mitad formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.
46
En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente
de fiabilidad del test podría obtenerse aplicando la fórmula general de Spearman-Brown:
kρ jl
ρ xx =
1 + (k − 1) ρ jl
siendo k el nº de ítems del test y ρjl la correlación de Pearson entre cualquier par de ítems.
kr jl
rxx =
1 + (k − 1)r jl
k ∑ S j
2
α= 1−
k − 1 S x2
donde k es el nº de ítems
∑S 2
j es la suma de las varianzas de los ítems y Sx2 es la varianza del test
Dado que las puntuaciones en el test son la suma de las puntuaciones en los ítems, la varianza
del test puede expresarse como:
k
S x2 = ∑ S 2j + 2∑ cov( j , l )
j =1 j <l
2∑ cov( j , l )
k j <l
α=
k −1 S x2
47
Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son paralelos. En
la práctica, es muy difícil que esto se produzca pero, sin embargo, tiene sentido su aplicación
para establecer el grado en que los diferentes ítems están midiendo una única dimensión o rasgo.
Podemos observar en la última expresión que α depende del grado de covariación de los ítems:
tendrá un valor alto (cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si covarían de forma
escasa). Matemáticamente, α puede asumir valores negativos.
Ejemplo:
Sujetos Ítems X
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
k ∑ S j
2
4 0.14 + 0.25 + 0.14 + 0.25
α= 1− = 1 − = 0.55
k −1
S x 4 −1
2
1.33
En este caso, el coeficiente α obtenido representa un valor medio, que nos indica que no existe
un elevado grado de covariación entre los ítems. No podemos afirmar con rotundidad que este
test mide un rasgo unitario.
El coeficiente α puede obtenerse también entre diferentes grupos de ítems (subtests). En ese
caso, k será el número de subtests y ΣS2j la suma de las varianzas de los subtests. Un
coeficiente α bajo indicará que los diferentes subtests miden rasgos o constructos diferentes.
48
A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda
versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que el test
original pero con diferentes ítems. Como ya hemos explicado, dos versiones o formas se
consideran paralelas si, aplicadas a una misma muestra de personas, obtienen medias y varianzas
probabilísticamente similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en dos
formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e indicará el
grado en que pueden considerarse equivalentes.
Ejemplo:
1 1 4
2 14 12
3 11 13
4 11 9
5 10 12
Medias 9.4 10
Varianzas 19.44 10.8
Varianzas (ins.) 24.3 13.5
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabilidad.
Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determinados
trabajos que requieren 2 aplicaciones sucesivas de un test que se puede recordar con facilidad.
4.1.- CONCEPTO
X=V+E
A la desviación típica de los errores de medida (Se) se denomina error típico de medida. En
cierta manera, el Se representa también una medida de precisión: cuanto más cercano a cero sea
el error típico de medida de un test, eso significará que dicho test proporciona a cada persona
una puntuación X cercana a su nivel de rasgo V.
σ v2
ρ xx =
σ x2
S v2 S e2
rxx = 2 = 1 − 2
Sx Sx
De donde se deduce que el error típico de medida puede obtenerse a partir de la expresión:
S e = S x 1 − rxx
Para realizar el contraste, para las puntuaciones de dos personas (designadas con los subíndices
i y j) planteamos las siguientes hipótesis:
H0: Vi = Vj
H1: Vi ≠ Vj
Xi − X j
Z=
Se 2
126 − 120
Z= = 0.88
16 1 − 0.91 2
Con probabilidad 0.95, la zona de aceptación queda establecida entre los límites Z = -1.96 y
Z = 1.96, con lo cual, admitimos con dicha probabilidad que los niveles de rasgo de ambas
personas no difieren.
Respecto a la consistencia interna (coeficiente α), basta inspeccionar las dos expresiones
formales que hemos proporcionado para comprobar que los elementos que covarían de manera
elevada y positiva con los restantes son los que más contribuyen a que α sea elevado. Se puede
comprobar, además, que S2x = (Σ Hj Sj)2, con lo que, si sustituimos la expresión en la fórmula de
α, comprobamos también que (entre los elementos de igual variabilidad) los de mayor Hj son los
que más contribuyen a incrementar α. Si en la fase de análisis de items tenemos como objetivo
elaborar un test con elevada consistencia interna, tenemos que quedarnos con los ítems que
manifiestan un mayor índice de homogeneidad.
51
Además, debe tenerse en cuenta que el coeficiente alfa aumenta cuando incrementamos la
longitud del test y que resultaría fácil obtener valores elevados cuando se incluyen ítems
redundantes, lo que, evidentemente, no resulta deseable.
Debemos conocer que un mismo test tiene diferentes rxx en diferentes grupos normativos
(muestras de personas donde se obtiene el coeficiente). Más concretamente, un mismo test suele
obtener un rxx mayor en un grupo heterogéneo que en otro menos heterogéneo (de menor
varianza). Por ejemplo, resulta normal que un test de Inteligencia obtenga un rxx mayor en una
muestra de la población general que una muestra de universitarios o en otra de personas con
deficiencias cognitivas (estas últimas más homogéneas). La razón es simple: el coeficiente de
fiabilidad, obtenido por el método que sea, se fundamenta estadísticamente en una correlación
de Pearson que, como es sabido, se incrementa a medida que lo hacen las varianzas de las
variables que se correlacionan.
Por otra parte, si los ítems están bien formulados y resultan discriminativos, un test
incrementará su rxx a medida que incrementa su longitud (número de ítems), aunque no lo hace
de manera lineal. La siguiente gráfica muestra el coeficiente de fiabilidad de un test alargado N
veces (N: 1, 2, 3, .. 50), cuando el coeficiente de fiabilidad del test de partida es 0.1, 0.4 y 0.7:
1,0
,8
Fiabilidad del test alargado N veces
,6
,4
0.7
,2
0.4
0,0 0.1
1 7 13 19 25 31 37 43 49
4 10 16 22 28 34 40 46
N
52
Queremos indicar con la gráfica anterior que el incremento es más significativo cuando el test
inicial tiene un número pequeño de ítems y bajo coeficiente de fiabilidad, que cuando el test de
partida tiene ya un coeficiente de fiabilidad considerable.
La fórmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra
concreta, permite estimar cuál será el coeficiente de fiabilidad (Rxx) de un test que se forma con
“n” versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad rxx:
nrxx
R xx =
1 + (n − 1)rxx
Las n-1 formas añadidas deben ser formas paralelas equivalentes al test inicial; de lo contrario,
la fórmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atención de 25 ítems obtiene en un grupo
normativo un rxx= 0,6. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test
alargado tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:
nrxx (4)0.6
R xx = = = 0.86
1 + (n − 1)rxx 1 + (3)0.6
Imagínese ahora que el test de atención de 25 ítems tiene un rxx = 0,92. Si se añaden 75 ítems
más paralelos, el test alargado tendría de coeficiente de fiabilidad:
nrxx (4)0.92
R xx = = = 0.98
1 + (n − 1)rxx 1 + (3)0.92
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test
de atención es de 0.26, mientras que en el segundo caso, el incremento es únicamente de 0.06.
Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que
en el primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la
fórmula se convierte en la que hemos aplicado para estimar el coeficiente de fiabilidad por el
método de las dos mitades. Efectivamente, ahora podemos entender mejor que rPI sería el
coeficiente de fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero)
y que el resultado de esa correlación hay que corregirlo, haciendo n = 2 en la fórmula de
Spearman-Brown, para obtener el coeficiente de fiabilidad del test completo.
53
Rxx (1 − rxx )
n=
rxx (1 − R xx )
0.86(1 − 0.60)
n= =4
0.60(1 − 0.86)
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de
100 ítems, conseguiremos la precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial
habría que añadir 75 ítems paralelos (3 formas) para conseguir la fiabilidad de 0.86.
EJERCICIOS
1. Señale el objetivo que se pretende conseguir con cada una de las siguientes
actuaciones en la construcción de un cuestionario.
Sujetos
nº 1 nº 2 nº 3 nº 4 nº 5 nº 6 nº 7 nº 8
Ítem nº 1 2 2 2 2 2 2 1 0
Ítem nº 2 2 2 2 2 1 1 0 0
Ítem nº 3 2 1 2 0 0 1 0 0
Ítem nº 4 1 1 0 1 0 0 0 0
Obtenga el coeficiente de fiabilidad de test por el método de dos mitades. Aplique para ello
la fórmula de Spearman-Brown .
Sujetos 1 2 3 4 5 6 7 8 9 10
Forma A 6 3 5 4 4 6 5 5 6 3
Forma B 6 3 4 4 5 6 3 5 6 5
Sujeto: 1 2 3 4
───────────────
Xi : 14 6 16 4
Ítems
Conductor 1 2 3 4 5 6
1 0 1 1 1 1 1
2 1 1 1 1 0 1
3 0 1 0 1 0 0
4 0 1 1 0 0 0
10. Un test de habilidad verbal de 30 ítems tiene, según el procedimiento de las dos
mitades, un coeficiente de fiabilidad de 0.8 y una varianza de 20 puntos.
11. Sean dos tests de tres ítems. La matriz de correlaciones entre los tres ítems en cada
test ha sido:
a) ¿En cual de los tests cabe esperar que sea mayor el coeficiente alfa? Razone su respuesta.
b) ¿En cual de los tests cabe esperar que sea mayor el índice de homogeneidad del ítem 1?
Razone su respuesta.
12. Un test está formado por 4 ítems dicotómicos que tienen igual media (0.6). La
correlación entre cualesquiera dos de ellos es 1/6. Obtenga el coeficiente alfa del test de 4
ítems.
otros 20 al test B; y el D, de añadir otros 20 al C, ¿cabe esperar que rbb – raa = rcc – rbb = rdd –
rcc?
14. Un cuestionario para evaluar el rendimiento en Aritmética está formado por 4 ítems,
que se valoran de forma dicotómica (1 el acierto y 0 el fallo). Se aplicó a una muestra de 100
niños. A continuación se detalla alguna información estadística de la mitad par (P), impar (I)
y del total del test (X). También aparecen las frecuencias de aciertos (F) de cada uno de los 4
ítems, no habiendo omisiones en ninguno.
Correlaciones :
P I X Ítem 1 2 3 4
P 1
F 50 70 60 80
I 0,.45 1
X 0,79 0,74 1
Medias 1,50 1,10 2,60
Sj 0,67 0,83 1,14
15. Un test A tiene 100 ítems y un coeficiente de fiabilidad de 0.5. Un test B tiene el
mismo coeficiente de fiabilidad, pero tiene 10 ítems. ¿Significa esto que si a ambos tests
añadimos 50 ítems paralelos, los dos tests alargados tendrían la misma fiabilidad?
SI( ) NO( ) Depende ( ). Razone su respuesta.
a) ¿Cuántos ítems se han de añadir al test para que su fiabilidad sea 0.95? Realice el cálculo
necesario.
b) ¿Puede el valor “n” de la fórmula anterior ser negativo?
SI ( ) NO ( ) DEPENDE ( ). Razone su respuesta.
17. Antonio, Bernardo y Carlos hacen el mismo test y sus puntuaciones son 25, 21 y 28
puntos, respectivamente. Realizado el contraste de igualdad de puntaciones verdaderas entre
Antonio y Bernardo, con un nivel de confianza de 0.95, no podemos mantener la hipótesis
nula de igualdad de puntuaciones verdaderas.
58
a) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para
comparar las puntuaciones verdaderas de Carlos y Bernardo ¿llegaríamos a la misma decisión
que antes sobre sus puntuaciones verdaderas?
b) Realizamos el correspondiente contraste, con el mismo nivel de confianza, para comparar
las puntuaciones verdaderas de Carlos y Antonio ¿Mantendríamos la hipótesis nula de
igualdad de puntuaciones verdaderas?
59
SOLUCIONES
5. rxx = 0,66
6. rxx = 0,83
7. rxx = 0, 587
8. a) Sv2 = 20,8
b) Se = 2,28
9. a) rxx = 0,778
b) 2.58 será la diferencia mínima que debe producirse entre dos puntuaciones en el
test para considerar, con probabilidad 0,99, que las correspondientes puntuaciones
verdaderas son diferentes.
10. a) rP I = 0,67
b) Si2 = 6
c) SP I = 4
d) S2n e = 10
11. a) El test A. Cuando las correlaciones entre los ítems son más altas, lo serán las
covarianzas, y por tanto el coeficiente alfa.
b) El test A. Cuando las correlaciones entre los ítems son altas, también lo serán las
correlaciones de cada ítem con el test total (índice de homogeneidad).
4 0.86
b) S12 = 0.25; S22 = 0.21; S32 = 0.24; S42 = 0.16. α = 1 − = 0.45.
3 1.142
15. NO. En el primer caso, el test inicial se habrá alargado 1.5 veces para llegar a los 150
ítems del test final. En el segundo, el test inicial ha de alargarse 6 veces, para llegar a
los 60 ítems. Partiendo del mismo coeficiente de fiabilidad, normalmente se llega a
coeficientes distintos cuando el test se alarga 1.5 y 6 veces.