Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ud2 Prop Psicometricas Instrum
Ud2 Prop Psicometricas Instrum
Resumen ...................................................................................................................... 30
2
UD 2. Fiabilidad
El problema del error de medida en psicología es abordado por la teoría clásica de los test desde
el modelo lineal de Spearman, cuyos supuestos han tenido un gran impacto en el desarrollo
de la psicometría. Su principal implicación es el análisis de la precisión de la medida de los test
y su relación con los errores aleatorios. Esta unidad presenta tanto el modelo lineal y sus
supuestos básicos como los desarrollos lógicos posteriores basados en él que atañen a la
fiabilidad de los test (métodos de cálculo y factores que influyen).
3
2.1. Conceptos y postulados básicos
¿Quién dijo…?
Cuando medimos algo, bien sea en el campo de la física, de la biología o de las ciencias
sociales, esa medición contiene cierta cantidad de error aleatorio. La cantidad de error puede
ser grande o pequeña, pero está siempre presente en cierto grado.
Thorndike, 1951
Como comentamos en la unidad anterior, el asunto de la medida es una cuestión que atañe a
cualquier ciencia empírica, pero que en psicología tiene una serie de peculiaridades que justifican
un acercamiento específico. La existencia de error en la medición de lo psicológico es una de
las primeras cuestiones a las que la psicometría tuvo que dar respuesta, y eso implicó el
estudio de la fiabilidad (Abad et al., 2011).
En la vida cotidiana, si medimos la altura de una estantería varias veces con una cinta métrica,
obtendremos prácticamente la misma medición debido a que tanto la cinta métrica como la
estantería permanecen invariables. Solo cuando se necesita especificar con unidades de medida
muy pequeñas o intentamos estimar distancias elevadas, puede que las medidas físicas presenten
mayor variabilidad. Ahora bien, cuando empleamos un test para medir una característica
psicológica de una persona en varias ocasiones, es habitual que las puntuaciones sean
parecidas, pero no iguales, sin que implique necesariamente un cambio real en la
característica (García-Cueto et al., 1993).
4
Cuando aplicamos un test psicológico, se obtiene una puntuación directa y concreta de ese
momento. Esta puntuación empírica es la medida del sujeto que observamos directamente y
tiene computado tanto el nivel real de esa característica (puntuación verdadera) como cierto
grado de error. Esta circunstancia nos plantea la siguiente cuestión: ¿cómo poder saber cuál es
el valor real de la persona en el atributo medido? Para responder a esta pregunta será necesario
realizar algún tipo de técnica indirecta con el fin de separar el grado de error del nivel real de lo
que pretendemos medir. La primera respuesta que se dio a este problema fue el modelo lineal
propuesto por Spearman a principios del siglo XX (Barbero et al., 2015) y el consecuente
desarrollo de la denominada teoría clásica de los test (TCT). Sobre esta estimación de errores
de medida, la teoría de respuesta al ítem (TRI) discrepa de la TCT y realiza sus propias
propuestas; sin embargo, en la actual unidad didáctica nos centraremos en el primer
paradigma de la TCT sobre la fiabilidad de la medida, dejando para la Unidad didáctica 6 el
acercamiento de la TRI.
La puntuación empírica directa de una persona en un test (X) está compuesta de dos
componentes hipotéticos: puntuación verdadera de la persona (V) y un error de medida (E)
que se comete al medir el rasgo o característica con el test.
𝑿= 𝑽+𝑬
V: puntuación verdadera del sujeto; nivel real del sujeto en el área que mide el test o
puntuación libre de error; por tanto, no aleatoria y constante.
5
Supuesto 2. Puntuación verdadera
𝑽 = 𝜺(𝑿)
Una esperanza matemática es una media (el valor más esperado en una distribución normal).
Es decir, la puntuación verdadera sería la media de la distribución que se formaría si se pudiera
aplicar infinitas veces el mismo test al mismo sujeto. Si esto fuese posible, se formaría una
distribución normal con todas las puntuaciones empíricas del sujeto en la que la puntuación
más repetida sería la media. Al ser la más frecuente, es lógico deducir que coincidiría con el
verdadero nivel del sujeto en el test: puntuación libre de error o verdadera.
𝑽 = 𝝁𝒙
𝒓𝑽𝑬 = 𝟎
Los errores de medida que se cometen con un test al aplicarlo a una muestra de sujetos son
independientes de los que se cometen en otro test administrado a los mismos sujetos: su
correlación es nula (en caso contrario, se trataría de un error sistemático no aleatorio).
𝒓𝑬𝟏𝑬𝟐 = 𝟎
Los errores se denominan aleatorios, por lo que no pueden correlacionar entre sí. Implica que
no existe ninguna razón para suponer que los errores de medida cometidos en un test vayan a
influir de alguna forma en el otro test, siempre que su aplicación sea la correcta y estandarizada.
Si 𝑿 = 𝑽 + 𝑬, entonces 𝑬 = 𝑿 – 𝑽
6
• Por lo tanto, la media de las puntuaciones empíricas será igual a la media de las
puntuaciones verdaderas.
̅=𝑽
𝑿 ̅
𝑺𝟐𝑽 : representa las diferencias debidas a los diferentes niveles reales de los sujetos en el
área medida.
La varianza es un estadístico descriptivo que indica cómo de distintas son las puntuaciones de un
grupo de sujetos. La psicometría trata de encontrar diferencias entre personas en actitudes y
aptitudes psicológicas. Por lo tanto, al aplicar un test, se intentará encontrar una alta varianza
empírica, pero acompañada, a ser posible, de una alta varianza verdadera y de una baja
varianza de error (Muñiz, 1992).
Si consideramos que, al ser la mayor, la varianza empírica o total representa la variabilidad total,
podemos representar las tres varianzas gráficamente como podemos observar en la figura 4.
Figura 4. Composición teórica de la varianza empírica en la TCT. Si, por ejemplo, en un test concreto el 70 %
correspondiera a la parte verdadera del test, el resto (100 % – 70 % = 30 %) correspondería a los errores que comete.
Cuanto más se parezcan las varianzas empírica y verdadera, más fiable o preciso será el test, ya
que menos error cometerá (véase ejemplo 1). Un poco más delante, en esta unidad, se
presentarán algunas deducciones más del modelo en relación con estas varianzas.
7
Ejemplo 1. Supuestos básicos del modelo lineal de Spearman
La puntuación final de aplicar un test a una persona resulta en una puntuación total de 35
puntos después de la aplicación (puntuación empírica), pero, por otros medios, tenemos la
constancia de que su nivel real en el atributo medido (puntuación verdadera) es 30. ¿Qué
error se ha cometido al medir a esta persona según el modelo lineal?
Nota
8
Test paralelos
Dos test que miden lo mismo (mismo atributo psicológico) y se aplican a una misma muestra de
sujetos se pueden considerar paralelos si cumplen las dos condiciones siguientes:
𝑉1 = 𝑉2
𝑺𝟐𝒆𝟏 = 𝑺𝟐𝒆𝟐
Siguiendo los supuestos del modelo general de Spearman, si se cumplen las dos condiciones de
test paralelos, ambos contarán con la misma media y varianza de las puntuaciones
empíricas, y, como consecuencia, compartirán el mismo coeficiente de fiabilidad, lo cual
tiene implicaciones para la formulación de cálculo de la fiabilidad de los test. Y, además, dados
dos o más test paralelos, las relaciones entre cada dos de ellos serán iguales.
𝑹𝑿𝑿´
Según los supuestos de TCT, esto equivale a elevar al cuadrado la correlación entre las
puntuaciones verdaderas y las empíricas. Esta misma correlación sin elevar al cuadrado es
denominada índice de fiabilidad.
𝑹𝑿𝑿´ = 𝑹𝟐𝑿𝑽
9
Como ya se explicó en la Unidad didáctica 1, al elevar al cuadrado una correlación, se obtiene el
coeficiente de determinación que expresa la proporción de varianza compartida, lo que atañe a
otra de sus formas de expresión matemáticas: el cociente entre la varianza de las
puntuaciones y la varianza de las puntuaciones empíricas.
𝑺𝟐𝑽
𝑹𝑿𝑿´ =
𝑺𝟐𝑿
Lo anterior hace que el coeficiente de fiabilidad también se pueda expresar como la proporción
de la varianza empírica del test que se puede atribuir a la varianza verdadera o, lo que
es lo mismo, la proporción de varianza verdadera que hay en la varianza empírica. Su valor se
encontrará siempre en el rango de 0 a 1. Si Rxx = 1, la varianza empírica y la verdadera
coincidirán y la varianza de error será nula; así que cuanto más se acerque a 1, más fiable será
la medida, y cuanto más se acerque a Rxx = 0, más proporción de error contendrá la varianza
empírica y menos fiabilidad tendrá la medida. Derivado de la anterior definición, el coeficiente
de fiabilidad también se puede expresar como 1 menos el cociente entre la varianza de error
y la varianza empírica o, dicho de otra forma, 1 menos la proporción de la varianza empírica
que se puede atribuir a la varianza de errores.
𝑺𝟐𝑬
𝑹𝑿𝑿´ = 𝟏 –
𝑺𝟐𝑿
𝑹𝑿𝑿´ = 𝟎, 𝟖𝟑
Sistemáticos
Sesgos que afectan de forma constante a todas las puntuaciones del test (se producen de
igual modo en todas las medidas); pueden deberse a factores extrínsecos (condiciones de
aplicación y corrección) o intrínsecos (según las características del propio test).
10
Aleatorios
Son en los segundos sobre los que incide el análisis de la fiabilidad, mientras que los
sistemáticos tienen que ver con la validez de la inferencia.
Estos errores aleatorios pueden establecerse y calcularse en la TCT por los supuestos del
modelo lineal general anteriormente expuestos.
Aunque se pueden computar diferentes tipos de errores aleatorios de este paradigma (de
estimación, de sustitución, de predicción…), en la presente asignatura nos centraremos en las
siguientes acepciones:
• El error de medida (E), que, como ya se ha establecido en los supuestos del modelo
lineal, es la diferencia entre la puntuación empírica y la puntuación verdadera. Este error
tiene un significado individual, ya que se trata de la diferencia de puntuaciones de cada
sujeto por separado. Puede resultar en valores tanto negativos como positivos.
𝑬 = 𝑿–𝑽
• El error típico (o estándar) de medida (Se), que se define como la desviación típica (o
estándar) de los errores de medida. Es un indicador de la precisión absoluta del test.
Aumenta a medida que disminuye la fiabilidad del test y aumenta a medida que aumenta
la desviación típica del test. Por definición, tiene un significado grupal y su valor
numérico solo puede ser positivo (como cualquier desviación estándar).
𝑺𝑬 = 𝑺𝑿 √𝟏 – 𝑹𝑿𝑿´
𝑺𝑿 = Desviación típica
Dado que el error típico de la medida indica la cantidad de error que cometemos al realizar un
pronóstico de los valores verdaderos del atributo mediante la aplicación de un test, su uso más
evidente es para la estimación de puntuaciones verdaderas. Para controlar su incidencia en
el cálculo de puntuaciones, se recurre a la estimación mediante intervalos de confianza
(Barbero et al., 2015).
Figura 6. Estimación de puntuaciones verdaderas (que son potencialmente diferentes a las observadas).
11
2.1.6. Estimación de puntuaciones verdaderas con el error típico
Viaja
𝑿 ± 𝒁𝒏𝒄 · 𝑺𝑬
𝑺𝑬 = 𝑺𝑿 √𝟏 – 𝑹𝑿𝑿´ = 𝟗, 𝟐√𝟏 – 𝟎, 𝟔𝟒 = 𝟓, 𝟓𝟐
𝟕𝟎, 𝟖𝟐
𝑿 ± 𝒁𝒏𝒄 · 𝑺𝑬 𝟔𝟎 ± 𝟏, 𝟗𝟔 · 𝟓, 𝟓𝟐
𝟒𝟗, 𝟏𝟖
La puntuación verdadera del sujeto en el test oscilará entre 49,18 y 70,82, con una
probabilidad del 95 %.
12
2.2. Métodos empíricos para el cálculo del coeficiente de fiabilidad
La fiabilidad de un test es un concepto teórico que pone en relación las puntuaciones que obtienen
los sujetos en este (puntuaciones empíricas o X) con las verdaderas puntuaciones de los
sujetos (V). Como estas últimas son inobservables, es necesario recurrir a otros métodos
para su cálculo.
Esta forma de determinar la fiabilidad implica comprobar la relación entre dos medidas
equivalentes de la misma característica cuando no haya nada que justifique un cambio: test-
retest y formas paralelas (Abad et al., 2006).
El método test-retest
Consiste en aplicar un test a las mismas personas en dos ocasiones (X1 y X2). La correlación
entre los dos grupos de puntuaciones obtenidos (se recomienda revisar el concepto de
correlación) proporcionará una estimación del coeficiente de fiabilidad del test en cualquiera de
sus dos aplicaciones. Puede aplicarse con intervalo de tiempo (dejar pasar un tiempo concreto)
o sin intervalo de tiempo (aplicaciones consecutivas con poco tiempo de separación entre una
aplicación y otra). Usualmente, el intervalo de aplicación del test oscila entre dos semanas y dos
meses.
• Si el espacio temporal entre las dos aplicaciones es reducido, los sujetos pueden obtener
puntuaciones más altas en la segunda aplicación por efecto del aprendizaje o la
memoria, ya que la tarea que se ha de realizar es la misma.
• Si el espacio de tiempo entre ambas aplicaciones aumenta, pueden aparecer dos efectos:
o Mortalidad experimental (sujetos que acudieron a la primera sesión no lo hacen
a la segunda).
13
o Inestabilidad del rasgo (por cambios en el desarrollo o maduración de los sujetos
evaluados).
También llamados de formas equivalentes, tratan de paliar los inconvenientes del método
anterior; entre otros, el aprendizaje y la memoria.
Implica de nuevo correlacionar dos puntuaciones, pero en dos test distintos en forma de
presentación que miden la misma característica o atributo (definido de la misma manera)
aplicados en los mismos sujetos y condiciones.
Es decir, lo único que debe variar en este caso es la tarea (los ítems de cada test) propuesta a
los sujetos. Necesitamos dos momentos de aplicación (uno para cada test), que pueden darse
con o sin intervalo de tiempo.
Es necesario que ambos test cumplan las condiciones de ser test paralelos (véase apartado
1.1.2). Este coeficiente de confiabilidad es llamado comúnmente coeficiente de equivalencia.
La limitación de este método es la dificultad de encontrar y/o construir dos test que sean
verdaderamente paralelos. Por otro lado, no se puede controlar el efecto que la aplicación del
primer test tiene sobre el segundo y/o los efectos del paso del tiempo si el intervalo de tiempo
en la aplicación es amplio.
Se basan en el cálculo del coeficiente de fiabilidad de un test mediante una sola aplicación de
este a partir del análisis de las características de sus ítems, por tanto hace referencia a la fiabilidad
únicamente en sentido diacrónico. Existen dos procedimientos principales de consistencia
interna: el método de las dos mitades o test subdividido y el método de la estadística de ítems
(covarianza entre ítems).
14
Método de las dos mitades o test subdividido
El test se administra completo y solo es necesario hacerlo en una ocasión. Posteriormente,
se separan las puntuaciones del test en dos mitades. Las puntuaciones obtenidas por los sujetos
en el test se dividen en dos conjuntos correspondientes a una y otra mitad con el objetivo de
conseguir dos formas paralelas (es decir, como si fuesen diferentes test, versiones equivalentes
con formas alternativas). Para que el proceso sea válido, las dos mitades obtenidas han de
constituir dos formas realmente equivalentes del test.
Para dividir el test en dos mitades se suele utilizar alguno de los siguientes procedimientos:
1. Emparejar ítems según sus características comunes y asignar cada uno de ellos a cada
mitad.
2. Asignación aleatoria.
3. Dividir entre ítems pares e impares.
Viaja
El problema que se plantea en esta vía es la dificultad de conseguir esa equivalencia verdadera
entre las dos mitades del test. También se tiene que tener en cuenta que este tipo de métodos
no son adecuados para el cálculo de fiabilidad en pruebas de velocidad porque tienden a
sobreestimar el coeficiente.
15
Métodos basados en el análisis de la relación entre ítems
En estos métodos se asume que todas las preguntas de un test (ítems) evalúan el mismo rasgo
y, por ello, se considera cada ítem como un subtest dentro del conjunto de ítems (test). Se
pretende analizar los datos de cada uno de los ítems del test respecto al total de este, lo cual nos
permite conocer su consistencia interna. Mediante este método, podemos observar hasta qué
punto contribuye cada ítem a medir el rasgo que cuantifica el test en su conjunto.
En este sentido, la ecuación del coeficiente alfa de Cronbach 𝜶 tiene en cuenta la longitud
del test (número de ítems), la varianza de cada ítem y su relación con la varianza total del test
para el cálculo de la fiabilidad.
𝒏𝒊 ∑ 𝑺𝟐𝒏𝒊
𝜶= [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿
2
∑ 𝑆𝑛𝑖 = Suma de varianzas de cada ítem; 𝑆𝑥2 = Varianza de puntuaciones totales del test
Cuanto mayor es la covariación (homogeneidad) entre los ítems, mayor será la consistencia
interna. Sin embargo, no ha de interpretarse como un indicador de unidimensionalidad, ya que
se pueden obtener valores altos con test que miden varias dimensiones muy correlacionadas. Y
también cuanto mayor sea el número de ítems, más elevado resultará el coeficiente alfa.
Kuder y Richardson (1937) proponen dos variaciones del coeficiente alfa de Cronbach
cuando los elementos que componen el test son ítems de respuesta dicotómica (solo dos
opciones de respuesta). Estos métodos implican que una de las respuestas del ítem sea un
acierto (rendimiento) o una respuesta favorable hacia la dimensión evaluada (actitud; se
codifica como 1) y la otra sea un error o una respuesta que no puntúa en la dimensión
evaluada (se codifica como 0). La primera ecuación que proponen, KR20, relaciona la proporción
de aciertos (1) y la proporción de errores (0) en las respuestas al ítem (varianza del ítem) con la
varianza total del test y su longitud:
𝒏𝒊 ∑ 𝒑𝒉 𝒒𝒉
𝑲𝑹𝟐𝟎 = [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿
En las situaciones en las que los ítems dicotómicos presenten la misma dificultad para responder
la respuesta correcta, se aplicará otra ecuación derivada, KR21. Si se aplica esta ecuación a un
conjunto de ítems cuya dificultad no es la misma, el resultado será una estimación menor de
consistencia interna que con KR20.
𝑋 ̅2
𝒏𝒊 𝑋̅𝑥 – 𝑥
𝑛𝑖
𝑲𝑹𝟐𝟏 = [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿
16
𝑋̅𝑥 = Media de puntuaciones empíricas(total); 𝑆𝑋2 = Varianza de puntuaciones empíricas (total)
Calcula el valor del coeficiente de fiabilidad según el método KR20 sabiendo que la varianza
de las puntuaciones totales es 3,5.
𝟑 𝟐 𝟑 𝟐
Í𝑡𝑒𝑚 1 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟔 · 𝟎, 𝟒 = 𝟎, 𝟐𝟒 Í𝑡𝑒𝑚 2 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟔 · 𝟎, 𝟒 = 𝟎, 𝟐𝟒
𝟓 𝟓 𝟓 𝟓
𝟒 𝟏 𝟐 𝟑
Í𝑡𝑒𝑚 3 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟖 · 𝟎, 𝟐 = 𝟎, 𝟏𝟔 Í𝑡𝑒𝑚 4 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟒 · 𝟎, 𝟔 = 𝟎, 𝟐𝟒
𝟓 𝟓 𝟓 𝟓
𝟒 𝟎, 𝟐𝟒 + 𝟎, 𝟐𝟒 + 𝟎, 𝟏𝟔 + 𝟎, 𝟐𝟒
𝑲𝑹𝟐𝟎 = [𝟏 – ] ; 𝑲𝑹𝟐𝟎 = 𝟎, 𝟗𝟗
𝟒 –𝟏 𝟑, 𝟓
En la situación en la que se pueda contar con dos formas realmente paralelas del test o que la
repetición de la medida no influya en la ejecución del sujeto, se puede estimar el nivel de acuerdo
entre ambas aplicaciones. El índice estadístico más utilizado para estudiar el nivel de acuerdo de
clasificación en dos o más categorías entre varias observaciones (también entre varios jueces) es
el coeficiente kappa de Cohen (véase ejemplo 5).
17
Este coeficiente compara las clasificaciones consistentes entre ambas medidas con la
concordancia que se podría esperar por azar. Aunque matemáticamente puede oscilar entre –
1 y +1 (siendo el rango negativo un desacuerdo consistente), cuando se usa como índice de
fiabilidad, solo tiene sentido su rango de 0 a 1 (siendo 0 que la totalidad de las coincidencias de
clasificación entre ambas medidas se puede deber al azar). La fórmula de cálculo del coeficiente
se puede expresar en términos de relación entre frecuencias absolutas.
𝒇𝒙 – 𝒇𝒂
𝑲=
𝒏 – 𝒇𝒂
Dominio 8 2 10
No dominio 7 13 20
Totales 15 15 N = 30
𝟏𝟓 · 𝟏𝟎 𝟏𝟓 · 𝟐𝟎
𝒇𝑎 = + = 𝟏𝟓 ; 𝒇𝒙 = 𝟖 + 𝟏𝟑 = 𝟐𝟏
𝟑𝟎 𝟑𝟎
𝟐𝟏 – 𝟏𝟓
K= ; 𝑲 = 𝟎, 𝟒
𝟑𝟎 – 𝟏𝟓
18
Figura 11. Estimación de concordancia con una sola aplicación.
La fiabilidad de un test no es una característica estática, sino que depende tanto de las
características del propio test como de las del grupo de personas a las que se aplica o los métodos
que se utilizan para estimarla. Por ello, hablamos de la relatividad de la fiabilidad del test y
de que no existe un único coeficiente de fiabilidad para cada test (Muñiz, 1992) . Así, podemos
decir que la fiabilidad de un test se verá afectada por factores como el método de estimación, las
condiciones de aplicación, la homogeneidad de características y el tamaño de la muestra, la
longitud del test, el tiempo límite de respuesta…
En definitiva, en palabras de Crocker y Algina (1986), no se puede afirmar que un test sea fiable
o no, sino que la fiabilidad es una propiedad de las puntuaciones obtenidas en el test a
partir de una muestra concreta de sujetos. A continuación, se desarrollan de forma específica
tres de las condiciones que, según la TCT, tienen un efecto directo sobre el coeficiente de
fiabilidad.
Un aspecto del test que afecta tanto a la varianza de las puntuaciones observadas como a la
varianza de las puntuaciones verdaderas, y, por tanto, al coeficiente de fiabilidad, es la longitud
del test.
19
La lógica de que la fiabilidad se relacione con el número de ítems que tenga un test es que cuantos
más ítems se apliquen para medir un constructo, mejor podrá ser valorado y más pequeño
será el error de medida que se cometa al valorar la puntuación verdadera de un sujeto. Por lo
tanto, si ampliamos el número de ítems de un test, siempre que estos sean representativos del
constructo, la fiabilidad será mayor.
Es relevante comprender que nv no es el número de ítems del test original ni del test final,
sino el número de veces que es necesario multiplicar la longitud original para obtener la longitud
actual. Por ejemplo, como ya se vio en el método de cálculo de fiabilidad de las dos mitades,
nv es igual a 2; es decir, el test completo es el doble que las dos formas paralelas
correlacionadas.
Por otro lado, nv no tiene por qué ser entero ni mayor que 1. En efecto, podríamos estar
interesados en conocer cuál sería el valor del estimador para un test con un tercio de ítems de
nuestro test original. En ese caso, nv = 1/3; es decir, nv = 0,33. En resumen, cuando la longitud
del test para el cual queremos aplicar la fórmula crece con respecto al número de ítems del test
original, nv será mayor que 1. Si el test actual posee menos ítems que el test original, nv
será menor que 1. Su cálculo se puede expresar con la siguiente fórmula:
𝑳𝑴
𝒏𝒗 =
𝑳𝑶
𝑳𝑴 = Longitud o n. º de ítems del test modificado
Según aumenta el número de ítems, lo hará el estimador del coeficiente de fiabilidad. Sin
embargo, este crecimiento no se corresponde con un incremento lineal. Esto supone que
los incrementos en el estimador del coeficiente de fiabilidad serán cada vez menores según
va aumentando nv. Por tanto, llegados a cierto punto, los débiles incrementos en el estimador
no justifican el esfuerzo de construir más ítems para añadir al test. En ciertos estudios interesa
conocer cuántos ítems debería tener un test para alcanzar una determinada fiabilidad.
En estos casos, se calcula la longitud del nuevo test a partir de la fórmula general de Spearman-
Brown, despejando el valor de nv:
𝑹𝑿𝑿´ (𝟏 – 𝒓𝑿𝑿´ )
𝒏𝒗 =
𝒓𝑿𝑿´ (𝟏 – 𝑹𝑿𝑿´ )
𝑳𝑴 = 𝑳𝑶 · 𝒏𝒗
20
Estimación de fiabilidad por cambio en la longitud del test
También es necesario recordar que la fórmula de Spearman-Brown es un reflejo de la fiabilidad
solo cuando los ítems que se añaden (o eliminan) son paralelos en contenido y dificultad
respecto a los ítems originales del test (véase ejemplo 6). Si se añaden ítems que no sean
paralelos, el incremento en la fiabilidad no será real.
Un test con 35 ítems presenta un coeficiente de fiabilidad de 0,58. ¿Cuál será su nuevo
coeficiente de fiabilidad si se le añaden 20 ítems?
𝑳𝑴 𝟑𝟓 + 𝟐𝟎 𝟓𝟓
𝒏𝒗 = = = = 𝟏, 𝟓𝟕 𝐯𝐞𝐜𝐞𝐬
𝑳𝑶 𝟑𝟓 𝟑𝟓
𝒏𝒗 · 𝒓𝑿𝑿´ 𝟏, 𝟓𝟕 · 𝟎, 𝟓𝟖
𝑹𝑿𝑿´ = = = 𝟎, 𝟔𝟖
𝟏 + (𝒏𝒗 – 𝟏)𝒓𝑿𝑿´ 𝟏 + (𝟏, 𝟓𝟕 – 𝟏)𝟎, 𝟓𝟖
Al aplicar un test con 15 ítems, encontramos un coeficiente de fiabilidad de 0,61. Como para
nuestro estudio deseamos que el test alcance un coeficiente de fiabilidad de 0,80, ¿cuántos
ítems deberíamos añadir al test para conseguirlo?
𝑹𝑿𝑿´ (𝟏 – 𝒓𝑿𝑿´ ) 𝟎, 𝟖𝟎(𝟏 – 𝟎, 𝟔𝟏)
𝒏𝒗 = = = 𝟐, 𝟓𝟔 𝐯𝐞𝐜𝐞𝐬
𝒓𝑿𝑿´ (𝟏 – 𝑹𝑿𝑿´ ) 𝟎, 𝟔𝟏(𝟏 – 𝟎, 𝟖𝟎)
𝑳𝑴 = 𝟐, 𝟓𝟔 · 𝟏𝟓 = 𝟑𝟖, 𝟒 ≈ 𝟑𝟗 í𝐭𝐞𝐦𝐬
(Siempre se redondea hacia arriba para que el test alcance la fiabilidad deseada).
Como el test original contaba con 15 ítems y el nuevo test necesita 39 ítems, hemos de
añadirle (39 – 15) 24 ítems.
La fiabilidad es una cantidad teórica que no puede conocerse directamente, sino que es
necesario estimarla a través de las respuestas de una determinada muestra de sujetos. Por
ello, debemos tener en cuenta que, si queremos utilizar la información proporcionada por la
estimación del coeficiente de fiabilidad, esta será útil en la medida en que se aplique a otra
muestra que tenga semejante homogeneidad a aquella donde fue calculado.
El coeficiente de fiabilidad es una correlación y, como tal, se ve afectado por la variabilidad de las
puntuaciones que se han de correlacionar.
21
La regla es simple: siempre que aumente la variabilidad de la muestra en la que se calcule
el coeficiente de fiabilidad se incrementará su valor. De otra manera, puede afirmarse que la
fiabilidad de un test será mayor cuanta mayor variabilidad exista en la muestra de sujetos
seleccionada (Barbero et al., 2015).
Cuando el test tiene tiempo limitado para que un sujeto lo realice (test de velocidad), interesa
conocer cuántos ítems ha sido capaz de responder correctamente. En cambio, en los test de
potencia, el sujeto dispone de un tiempo más que suficiente para completar los ítems cuya
respuesta conoce. Por ello, en los test de velocidad, el grado de rapidez que un sujeto es capaz
de desarrollar entra a formar parte de la varianza de las puntuaciones verdaderas. Este grado
influirá en todas las repetidas administraciones del test.
22
Sin embargo, cuando el usuario del test está interesado en conocer la consistencia interna del
test, esta se verá inflada artificialmente en los test de velocidad. Este efecto es especialmente
importante cuando se utiliza el procedimiento de dos mitades a través de la numeración de los
ítems y la asignación de pares-impares a las dos mitades. Una vez que se ha acabado el tiempo
de realización del examen, todos los ítems no contestados, pares e impares, estarán
perfectamente correlacionados (sus puntuaciones serán cero), independientemente de si los
ítems son homogéneos en contenido o no. Lo mismo puede aplicarse a cualquiera de los
procedimientos de consistencia interna.
Por ello, se aconseja utilizar el procedimiento de test-retest o formas paralelas para estimar
la fiabilidad de los test de velocidad.
El coeficiente de fiabilidad es un indicador de la precisión relativa del test. Está influido por
la cuantía de los errores de medida que se cometen al recoger los datos en la aplicación de un
instrumento de medida (test). Este error debe ser lo más bajo posible para que la medida sea
confiable. El coeficiente de confiabilidad nunca puede ser negativo, su valor oscila entre 0 (toda
la varianza es de error) y 1 (la varianza de error es 0).
Crocker y Algina (1986) sintetizan las tres consideraciones que se deben tener en cuenta para
interpretar el coeficiente de fiabilidad:
Por otro lado, DeVellis (2012) propone una escala de valoración para analizar el coeficiente de
fiabilidad de forma general que se concreta en los intervalos presentados en la tabla 1, que nos
puede servir de referencia para interpretar el resultado de los diferentes métodos de estimación
de la fiabilidad que se han presentado en esta UD 2 (a excepción del coeficiente kappa).
23
INTERPRETACIÓN COEFICIENTE FIABILIDAD
Tabla 2. Umbrales propuestos para la interpretación del coeficiente de fiabilidad. Valores propuestos por DeVellis.
Fuente: DeVellis, 2012 (adaptación).
En relación con la fiabilidad en los test referidos a criterios en vez de a normas, es relevante
considerar el grado de concordancia entre clasificaciones de las dos formas paralelas del test.
Como hemos señalado anteriormente, el índice más habitual para este propósito es el coeficiente
kappa de Cohen. A la hora de valorar su magnitud, no es adecuado utilizar los umbrales
anteriormente expuestos para los coeficientes de fiabilidad, ya que se trata de una medida
general de consistencia entre observaciones.
Existe consenso respecto a la escala para su interpretación que se recoge en la tabla 2 (Altman,
1991):
Tabla 3. Umbrales para la interpretación del coeficiente kappa. Valores propuestos por Altman. Fuente: Altman, 1991
(adaptación).
24
2.5. Cálculo de fiabilidad con software estadístico
Las instrucciones y los ejemplos que se van a poner para el uso de software estadístico en
psicometría en la presente unidad didáctica y en posteriores de esta misma asignatura son
válidos para los programas IBM SPSS Statistics (Statistical Package for the Social Sciences) y
GNU PSPP. El SPSS es el software estadístico más extendido y utilizado por universidades y
empresas internacionalmente por lo accesible e intuitivo de su interfaz en comparación con otros
paquetes estadísticos; sin embargo, tiene una entidad comercial y es necesario pagar su licencia
para un uso legal.
Viaja
El GNU PSPP, por otro lado, es una alternativa de software libre generada a partir de la
información estadística de la propia GNU; a todos los efectos, se presenta como una alternativa
libre y gratuita para el SPSS, con gran compatibilidad con este (en sintaxis y bases de datos) y
una interfaz muy similar que facilita el acercamiento de nuevos usuarios. Dada la similitud de
ambos entornos, es fácilmente extrapolable lo que se señale en uno respecto al otro. Las
indicaciones que se hagan en esta asignatura en su mayoría se presentarán en GNU PSPP. El
apartado de «Recursos complementarios» de la Unidad didáctica 2 contiene un manual
del programa estadístico PSPP.
25
Figura 17. «Vista de variables en PSPP». PSPP GNU/Linux versión 1.4.1.
En ambas vistas aparece el menú superior de acciones del programa. En el comando «Analizar»
es donde se encuentran todas las operaciones estadísticas disponibles para los datos introducidos.
En la ruta «Analizar» – «Fiabilidad» se presentan los dos tipos de métodos para calcular la
consistencia interna con una sola aplicación: dos mitades («Modelo» / «División») y alfa de
Cronbach («Modelo» / «Alpha»); esta última es la opción dispuesta por defecto (véase figura 19).
26
Figura 19. «Cálculo de fiabilidad en PSPP». PSPP GNU/Linux versión 1.4.1.
Es necesario seleccionar los ítems que queremos que el programa considere parte del test (o la
dimensión si el test presenta diferentes factores). Al elegir uno u otro método y darle a «OK»,
se generará una ventana con los resultados, «Visor de resultados», donde se irán reflejando
posteriores operaciones (véase figura 20). El modelo división requiere que se explicite el número
de elementos de cada mitad (variables en la primera segmentación).
Figura 20. «Visor de resultados en PSPP»: alfa de Cronbach. PSPP GNU/Linux versión 1.4.1.
27
2.5.2. Cálculo de fiabilidad: coeficiente Spearman-Brown y coeficiente kappa
En los resultados del método de división, la correlación entre formas es la correlación entre las
dos mitades del test (fiabilidad solo de la mitad) y el coeficiente Spearman-Brown es el
coeficiente de fiabilidad del test completo. Aquí deberemos elegir uno u otro en función de si el
test tiene un número de ítems par (ancho igual) o un número de ítems impar (ancho
desigual). Como la longitud de nuestro test es par, seleccionamos «ancho igual» (véase
figura 21).
Figura 21. «Visor de resultados en PSPP»: métodos dos mitades. PSPP GNU/Linux versión 1.4.1.
Para el cálculo de otras formas de computar la fiabilidad sería necesario añadir elementos
adicionales a la base de datos, como pueden ser el total de puntuación del test en cada sujeto,
el total en una forma paralela del test para los métodos que implican varias aplicaciones o
una variable de cada forma del test de solo dos valores que clasifique al sujeto según haya
superado el punto de corte o no en referencia a un criterio de los métodos para test basados
en criterios (véase figura 22).
Figura 22. «Vista de datos en PSPP»: concordancia de clasificación de sujetos según punto de corte. PSPP GNU/Linux
versión 1.4.1.
28
• Para correlacionar formas paralelas, tendríamos que elegir
«Analizar» – «Correlaciones bivariadas», seleccionar ambos totales y darle a «OK».
• Para obtener el coeficiente kappa, tendríamos que elegir «Analizar» – «Estadística
descriptiva» – «Tablas cruzadas», poner en filas la clasificación de una de las formas
y en columnas la clasificación de la otra, y, en el botón «Estadísticos», elegir «Kappa».
29
Resumen
El estudio de la fiabilidad y su relación con el error de medida son el eje de la teoría clásica
de los test y sus desarrollos por el modelo lineal de Spearman y sus supuestos. Según la
propuesta de Spearman, cualquier puntuación observada de un sujeto en un test tiene dos
componentes: la puntuación verdadera, o nivel real en el rasgo medido por el test, y la
puntuación de error (o falta de precisión del test).
El coeficiente de fiabilidad indicará la proporción de la varianza empírica del test que se puede
explicar por la varianza verdadera; es decir, la parte de las diferencias entre las puntuaciones de
los sujetos que se debe a su distinto nivel real en el área medida por el test. El valor del coeficiente
de fiabilidad se ve influido por factores como la longitud del test, la variabilidad de las
puntuaciones de la muestra de sujetos y el tiempo límite de aplicación.
El concepto de error típico de medida se define como la desviación típica de los errores de
medida, es un indicador de la precisión absoluta del test con un sentido grupal. Permite estimar
la puntuación verdadera de las personas mediante intervalos de confianza.
Para el cálculo empírico del coeficiente de fiabilidad hemos de recurrir al concepto de test
paralelos, que son formas equivalentes de un mismo test compuestas por diferentes ítems. Al
no poder constatar directamente qué parte de la varianza se explica por la varianza verdadera,
es necesario inferir la fiabilidad a partir de una serie de procedimientos empíricos:
30
Mapa de contenidos
31
Recursos bibliográficos
Bibliografía básica
Abad, F. J., Olea, J., Ponsoda, V. y García, C. (2011). Medición en ciencias sociales y de la
salud. Síntesis.
Abad, F., Garrido, J., Olea, J. y Ponsoda, V. (2006). Introducción a la psicometría. Teoría clásica
de los tests y teoría de respuesta al ítem. Ediciones UAM, Universidad Autónoma de Madrid.
Bibliografía complementaria
Altman, D. G. (1991). Practical Statistics for Medical Research. Chapman and Hall.
Crocker, L. y Algina, J. (1986). Introduction to Classical and Modern Test Theory. Harcourt.
Muñiz, J. (2010). Las teorías de los test: teoría clásica y teoría de respuesta a los ítems. Papeles
del Psicólogo, 31, 57-66. http://www.papelesdelpsicologo.es/pdf/1796.pdf
Otros recursos
Prieto, G. y Delgado, A. R. (2010). Fiabilidad y validez. Papeles del Psicólogo, 31(1), 67-74.
https://www.papelesdelpsicologo.es/pdf/1797.pdf
32