Está en la página 1de 13

Dossier UB. Psicometría. Esquemas. Fiabilidad S.

Herrando

Fiabilidad
Conceptos básicos
• Precisión y exactitud – fiabilidad y validez

Aunque los términos precisión y exactitud son en muchos contextos lingüísticos considerados como
sinónimos, cuando hablamos de teoría de la medición, adquieren matices bien diferenciados, que
conviene tener bien presentes:

Se llama exactitud a la mayor proximidad entre los valores


que arroja el aparato de medida y la medida real de aquello
que pretendemos medir.
En cambio por precisión entendemos la mayor proximidad
entre los diferentes valores que obtenemos al intentar medir
un mismo objeto varias veces.

Aunque en un contexto algo diferente, la diana de la figura 1


ilustra la diferencia entre ambos conceptos: el autor de los
disparos verdes, diremos que ha resultado ser más exacto que
el de los rojos. En cambio es el de los rojos quien ha sido más
preciso pero menos exacto que el primero.
Figura 1
Traslademos el ejemplo al campo de la medición: Una balanza que acaba de ser
construida con pretensiones de gran precisión y para valores entre cero y 10 Kgs., es probada pesando
en ella 5 veces una réplica “exacta” (¡?) del kilogramo patrón de la oficina de pesos y medidas de
París, que pesa “exactamente” un millón de miligramos. Los resultados se comparan con la vieja
balanza a la que debería sustituir, obteniendo los siguientes resultados:

Intento Balanza nueva Balanza antigua Una atenta observación de esta tabla y, si es
1 1000,656 grs. 1001,22 grs. preciso, la ayuda de algunos cálculos
estadísticos sencillos, permitirá afirmar que la
2 1000,485 grs. 998,88 grs. balanza nueva es considerablemente más
3 1000,788 grs. 999,76 grs. precisa que la antigua, pero la antigua, con su
imprecisión, es, sin embargo más exacta.
4 1001,002 grs. 1001,2 grs. Tanto el ejemplo de la diana como el de las
5 1000,803 grs. 998,97 grs. balanzas permiten inferir que la falta de
exactitud implica un error “sistemático”. Es
decir, un error provocado por alguna causa desconocida en principio, pero posiblemente identificable
y que una vez identificada, podría tal vez corregirse. Así, el lanzador de los dardos rojos tiene una
tendencia a desviarse en una determinada dirección. Si consigue corregir ese “vicio”, será mejor
lanzador que el de los verdes. En cuanto a la balanza nueva, se ve que tiende a sobrevalorar el peso.
Bastaría restarle unos 700 miligramos para conseguir medidas bastante mejores que con la antigua.
En cambio la imprecisión es aleatoria y no se ve otra forma de reducirla, que “afinar” el aparato de
medida.

Si intentamos adaptar los ejemplos anteriores a la psicología, topamos con insuperables


dificultades. Pues ¿Cómo encontrar la verdadera y exacta medida de la inteligencia de una sola
persona para aplicarle varias veces un test y realizar comprobaciones como la tabla anterior de las
balanzas? Y es que al tratar de mediciones psicológicas, aunque también tratamos de valorar su
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

precisión y exactitud, la peculiaridad de los problemas con que topamos ha hecho que esos conceptos,
aunque en esencia los mismos, sean denominados con diferente terminología: fiabilidad y validez y su
obtención es algo más complicada que la de los ejemplos anteriores.
**********************************

• Errores de medida

En el caso de las balanzas, se ve cómo al tomar una medida se comete un error: es el error de medida.
Aunque no tan evidente, supondremos que eso ocurre siempre que se toma una medida psicológica.

• Distribución de una variable y distribución del error

Se sabe que variables como la estatura, peso... se distribuyen en la naturaleza siguiendo la ley normal,
que refleja cómo aumenta o disminuye la probabilidad de encontrar un individuo con una medida
determinada, según esa medida se
acerque o se aleje del valor medio que es
a su vez el más probable. La velocidad
con que se produce ese aumento o
disminución lo determina un segundo
parámetro: la desviación típica. La curva
grande de la figura 2 representa esa
distribución normal, con media x y
desviación típica s. Ahora bien: cada uno
de los valores ahí representados ha sido
obtenido mediante una operación de
medición, y por tanto, está sujeto a una
imprecisión, de modo que cada medida
contendrá el valor verdadero más un
Figura 2 valor (deseablemente pequeño) de error
de medida. Y ese error de medida
también se distribuye normalmente: si realizamos cientos de mediciones de un mismo objeto, es
evidente que sus diferencias sólo pueden deberse al error de medida. Las curvas pequeñas de la figura
2 representan esta distribución: todas la medidas empíricas que se obtengan de un mismo objeto i se
distribuirán en torno a su valor verdadero vi y tendrán una media vi y una desviación típica se, también
llamada error típico de medida. Este planteamiento, en psicología, ha dado lugar a la

Teoría de la puntuación verdadera


Juna sencilla ecuación que refleja lo que ocurre en los ejemplos anteriores, y parece plausible que
ocurra en las mediciones psicológicas, es:

x=v+e
Puntuación Puntuación error
empírica verdadera
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Una conocida ley que en estadística relaciona la varianza de variables obtenidas sumando otras, dice:

La varianza de una variable suma es igual a la suma de las varianzas de las


variables sumandos más el doble de sus covarianzas.
Otras variables suma de interés aquí, son:
x = mitad1 + mitad2
x = item1+item2+item3+item4+...
es decir:

Sx2 = sv2 + se2 + 2 cov (e,v)


Pero teniendo en cuenta las propiedades que definen la puntuación verdadera y el error:

Propiedades de v Propiedades de e

Media (v) = media (x) Media (e) = 0


vi = v’i covar (e, e’) = 0
sv2 = sv’2 = covar (v, v’) covar (e, *) = 0
r vv’ = 1 r ee’ = 0

El último sumando de la ecuación se anula, dado que el error, por definición, no correlaciona con
nada, y por tanto queda simplemente

Sx2 = sv2 + se2


De esta sencilla ecuación es fácil deducir una forma de obtener un indicador de fiabilidad,
considerando la varianza del test como un todo formado por dos partes, una de las cuales se desea que
sea lo más pequeña posible, de modo que si s2e tiende a cero, entonces la varianza del test sería igual a
la varianza verdadera (fiabilidad perfecta). Ello nos conduce al coeficiente de fiabilidad, definido
como la proporción de varianza verdadera:
𝑠𝑣2
𝑠𝑥2

Otra posible manera de operativizar la fiabilidad, parte de considerarla como la “coincidencia entre
valores verdaderos y empíricos”, y por tanto, una correlación entre x y v, o sea, rxv. Pues bien: de la
fórmula de la correlación y las propiedades de x y v, es fácil derivar que:

𝑠𝑣
𝑟𝑥𝑣 =
𝑠𝑥
Expresión ésta conocida como índice de fiabilidad, que por sí misma sólo tendría un valor meramente
teórico, si no fuera porque, con los mismos supuestos, la correlación entre medidas empíricas
repetidas es:
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

𝑠𝑣2
𝑟𝑥𝑥 ′ = 2
𝑠𝑥

lo que hace que todo lo que parecía meramente teórico e inalcanzable (varianza verdadera, correlación
entre valores empíricos y verdaderos...), pase a ser calculable. Así, el índice de fiabilidad se obtiene
simplemente como la raíz cuadrada del coeficiente:

𝑠𝑣 𝑠𝑣2
𝑟𝑥𝑣 = = = 𝑟𝑥𝑥 ′
𝑠𝑥 𝑠𝑥2

Ideas para un indicador de fiabilidad


1. Coincidencia de x con v rxv índice de fiabilidad

2. Proporción de varianza verdadera:


sv2 sx2
se2
sv2 se2
O 1-
sx2 sx2

Ampliando la consideración como medidas repetidas a las medidas obtenidas por tests
equivalentes o formas paralelas y la consideración de formas paralelas a diferentes
partes de un test y los propios ítems y teniendo en cuenta la relación matemática entre
fiabilidad del test y su longitud, estaremos en disposición de alcanzar los
procedimientos más conocidos para obtener la fiabilidad del test:
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Ideas para un indicador de fiabilidad


Coincidencia de x con x’, x’’… : rxx
coeficiente de fiabilidad
3. Entre test y re-test: r12
4. Entre formas paralelas rAB

5. Entre partes de un test:


• Dos mitades: r2m
• Alfa

Basándose en la ecuación “x=v+e”, las propiedades de v y e y


la ley de varianzas de suma…, puede demostrarse que :

sv2 sv
rxx = 2 y rxv=
svv
x sx
coeficiente”22 índice
2
2
Y por tanto, de sx2 = sv2 + se2

Se obtiene el error tipo o


“error estandar de medida” (SEM)
SEM = se = s x 1 - r xx
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Fiabilidad y longitud 1
x=v+e
Basándose en esta ecuación, las propiedades de v y e y la ley de
varianzas de suma…, puede demostrarse que :

nr xx Donde
R xx = •rxx Fiabilidad del test de referencia.
1+ (n - 1) r xx •Rxx fiabilidad del test, una vez aumentada
Ecuación “profecía” n veces su longitud.
de Spearman-Brown
Así, si un test tiene una fiabilidad de 0,72 y se triplica el número de ítems,
siendo los ítems añadidos equivalentes a los que ya tenía, la nueva
fiabilidad del test “triplicado”, será:
3 x 0,72/(1+2 x 0,72) = 0,885

Fiabilidad y longitud 2
Obsérvese que n en la ecuación de Spearman-Brown no es el
número de ítems, sino el número de veces que la longitud del
test final contiene a la del test de referencia.
Podría pues, ser un valor fraccionario, incluso inferior a uno
(caso de reducción o simplificación de tests). Referido al
número de ítems, será:

Donde
NI '
n NI es el número de ítems del test de referencia y
NI NI’ el número de ítems del test modificado
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Fiabilidad y longitud 3
Sparman-Brown
1,1
1
0,9
0,8
0,7
Fiabilidad

0,6
0,5
0,4
0,3
0,2
0,1
0
1 6 11 16 21 26
Longitud

Coeficiente alfa
x=v+e
Basándose en esta ecuación, las propiedades de v y e y la ley de
varianzas de suma…, puede demostrarse que :
Donde
n   s j 
2
•  coeficiente alfa de fiabilidad o
= 1-  consistencia interna
n - 1  s 2x 

• sj 2suma de varianzas de los ítems
• sx2 varianza del test
• n el número de ítems

n
n  si2 - s 2x
A partir de alfa puede obtenerse i=1
directamente el error tipo según la fórmula: SEM =
n-1
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Fiabilidad y longitud 4
Longitud necesaria para una fiabilidad dada
La ecuación de Spearman-Brown puede ser útil para averiguar
cuántos ítems se necesitaría añadir a un test de fiabilidad
conocida, para conseguir la fiabilidad deseada. Así,
despejando n de dicha ecuación se obtiene:
R(1 - r) Así, si el test anterior (rxx = 0,72) tenía 9
n= ítems, ¿Cuántos deberían añadirse similares a
r(1 - R) esos 9, para conseguir una fiabilidad de 0.92 ?
Aplicando la fórmula, obtenemos: n = 0,92x(1-0,72)/(0,72x(1-0,92))
= 4,47222, y puesto que el tamaño de referencia es de 9 ítems, el
número definitivo será: 9x4,47222 = 40,25, así que deberán
añadirse 32 ítems (nótese que, al no existir fracciones de ítem, la
consecución del objetivo obliga a redondear al entero superior)

Fiabilidad de dos mitades 1


Recordemos que rAB es la fiabilidad de las formas paralelas A y
B. Podemos considerar que con los ítems que ya tiene el test,
podríamos configurar dos test equivalentes (con la mitad de los
ítems cada uno, sean m y m’), y por tanto, rmm’ será la fiabilidad
de medio test. Sólo nos queda ahora tener en cuenta a Spearman-
Brown para obtener la fiabilidad del test total, que tiene por
estructura, el doble de longitud. Así, pues,
2 r mm Aplicación
r 2m =
1+ r mm
Siendo r2m la fiabilidad obtenida por este método
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Fiabilidad de dos mitades 2


Otra forma de obtener la fiabilidad de dos mitades es considerar
cada mitad como un elemento del test, y aplicar la fórmula alfa.
De este modo:
Sp2 y Si2 son respectivamente las
 s 2p + si2 
r 2 m = 2 1 - 2
 varianzas del test “par” y el
“impar”.
 s x 
Este suele conocerse como el método
de Roulon-Guttman

La siguiente es otra fórmula Aplicación


matemáticamente equivalente, de
expresión más simple aunque no 2
s p -i
siempre más cómo da de utilizar,
pues obliga a obtener previamente
r  ( p i ) = 1 - 2
la variable “diferencias” sx
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Aplicaciones 1
Intervalo de confianza de "v“ =zse
(normalmente α=0.05 y (dos colas) z0.025= 1.96)

Así, si una puntuación empírica dada es de 12, siendo la


media 10 y la s = 2.5 y la fiabilidad de 0.9, el intervalo de
confianza de la puntuación verdadera, con riesgo alfa
0.05, es:

12 1,96x2,5xRaiz(1-0,9) = 12 1,55 = 10,45 ÷ 13,55

Aplicaciones 2
Diferencias entre puntuaciones
Diferencia máxima atribuible al error (con riesgo α)
(normalmente α=0.05 y (una cola) z0.05= 1.65)
Dα =zsd
Entre rasgos (intra-individual) s d  = s x 2 - r xx - r xx
Ejemplo: John puntúa 4 en un test de habilidad numérica y 6 en uno
de fluidez verbal, puntuaciones dadas en “escala de 11 clases” así
que su sx es 2,5. Puede “considerarse” esa diferencia atribuible al
error si el test de HN tiene una fiablidad de 0.8 y el de FV 0.7?

Dα = 1,65x2,5xRaiz(2-0,8-0,7) = 2,92
Puesto que 2,92 > 6-4, la diferencia observada,
es atribuible al error
Compruébese lo mismo si la fiabilidad de los dos tests utilizados
fuera de 0.9
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Aplicaciones 3
Diferencias entre puntuaciones
Diferencia máxima atribuible al error (con riesgo α)

Entre personas (mismo rasgo) s d = se 2

Ejemplo: John puntúa 3 y Alí 5 en un test de razonamiento,


puntuaciones expresadas en decatipos y por tanto su sx es 2.
Puede “considerarse” esa diferecia atribuible al error si el test
empleado tiene una fiablidad de 0.89?

Dα = 1,65x2xRaiz(1-0,89)xRaiz(2) = 1,55
Puesto que 1,55 < 5-3, la diferencia observada,
No es atribuible al error
Compruébese lo mismo con otros valores

Aplicaciones 4
Fiabilidad necesaria para algunas decisiones

Desarrollando la expresión 2
D
Dα=zsd y despejando de ella la r xx ( D ) = 1 - 2 2
fiabilidad, puede obtenerse: 2 z s x
r xx( D ) Representa la fiabilidad requerida para que
la diferencia máxima atribuible al error con
riesgo , sea D
Así, en el problema anterior, puede interesar saber qué fiabilidad debería
tener como mínimo un test para poder decidir ante diferencias de dos puntos
con un  de 0.05 en una escala de sten (s=2). Apliquemos la fórmula:

1-22/(2x1,652x22) = 0.816345271  0.82


Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Aplicaciones 5
Longitud necesaria para cierta fiabilidad:

Siguiendo con el caso anterior, supongamos que nuestro test tiene 16


ítems y una fiabilidad de 0.75. Podríamos ahora desear aumentar la
longitud de nuestro test para conseguir dicha utilidad, o sea, elevar la
fiabilidad a 0.82.
R(1 - r)
Despejando la n de la ecuación de n=
Spearman-Brown, obtenemos r(1 - R)
que nos permite resolver el problema:

n = 0.82x(1-0.75)/(0.75x(1-0.82) = 1,518518
Y para saber la cantidad concreta de ítems
1,518518 x 16 = 24.296296 25
Bastará, pues, añadir 9 ítems más equivalentes a los que el test tenía

Fiabilidad y homogeneidad de la muestra de sujetos


empleada 1
Supuestos:
• La varianza de error la produce el aparato de medida.
Siempre la misma, allí donde se utilice
• La varianza verdadera se atribuye a las diferencias entre
individuos 60

Fiabilidad y homogeneidad de la muestra


Así, pues, 50

Véase cómo variará el 40


Varianza Varianza 40
verdadera de error
coeficiente de fiabilidad 30

que obtendremos al 20
20

aplicar un mismo test,


con sus deficiencias 10
10
psicométricas, a 8 8 8
0

muestras de diferente 0,56 0,71 0,83


homogeneidad Coeficiente de fiabilidad
Dossier UB. Psicometría. Esquemas. Fiabilidad S. Herrando

Fiabilidad y homogeneidad de la muestra de sujetos


empleada 2
Lo anterior permite estimar la
fiabilidad que se hubiera obtenido si
la muestra fuera de una 2
heterogeneidad diferente s x (1 - r xx )
uur = 1 - 2
su
•sx2 es la varianza del test en la muestra utilizada
•rxx la fiabilidad obtenida
•su2 es la varianza del test en una muestra alternativa
•ruu la fiabilidad estimada si se utilizara la muestra
alternativa

Fiabilidad y homogeneidad de la muestra de sujetos


empleada 3
Problema
La fiabilidad de un test obtenida al aplicarlo a compañeros de curso,
fue de 0.82. y la varianza 12. ¿Qué fiabilidad podemos esperar si se
aplica a una muestra más heterogénea, suponiendo una varianza en
la segunda, de 18 ?

ruu = 1-12x(1-0.82)/18 = 0.88

Reflexiones:
•¿Qué fiabilidad obtendríamos al aplicar el test a una muestra de
sujetos clónicos?
•Según todo esto, ¿Cómo debe ser seleccionada la muestra con
la que se ha de obtener la fiabilidad del test?

También podría gustarte