Está en la página 1de 32

Grado en Psicología

Propiedades Psicométricas de Instrumentos de Evaluación

Unidad didáctica 2. Fiabilidad


UD 2. Fiabilidad .............................................................................................................. 3

2.1. Conceptos y postulados básicos ............................................................................... 4

2.1.1. Modelo lineal de Spearman y sus supuestos ......................................................... 5

2.1.2. Deducciones del modelo lineal de Spearman ........................................................ 6

2.1.3. Fiabilidad y condiciones de paralelismo ................................................................ 8

2.1.4. Coeficiente de fiabilidad ..................................................................................... 9

2.1.5. Error de medida .............................................................................................. 10

2.1.6. Estimación de puntuaciones verdaderas con el error típico ................................... 12

2.2. Métodos empíricos para el cálculo del coeficiente de fiabilidad ................................... 13

2.2.1. Métodos basados en la estabilidad .................................................................... 13

2.2.2. Métodos basados en la consistencia interna ........................................................ 14

Método de las dos mitades o test subdividido ............................................................ 15

Métodos basados en el análisis de la relación entre ítems ........................................... 16

2.2.3. Métodos de cálculo de fiabilidad en test referidos a criterios ................................. 17

2.3. Factores que influyen en la fiabilidad de un test ....................................................... 19

2.3.1. La longitud del test ......................................................................................... 19

Estimación de fiabilidad por cambio en la longitud del test .......................................... 21

2.3.2. La variabilidad de la muestra ............................................................................ 21

2.3.3. El límite de tiempo .......................................................................................... 22

2.4. Interpretación de estadísticas de fiabilidad .............................................................. 23

2.4.1. Interpretación general de magnitud de coeficiente de fiabilidad ............................ 23

2.4.2. Interpretación particular de magnitud de coeficiente de concordancia kappa .......... 24

2.5. Cálculo de fiabilidad con software estadístico ........................................................... 25

2.5.1. Cálculo de fiabilidad: alfa de Cronbach .............................................................. 26

2.5.2. Cálculo de fiabilidad: coeficiente Spearman-Brown y coeficiente kappa .................. 28

Resumen ...................................................................................................................... 30

Mapa de contenidos ....................................................................................................... 31

Recursos bibliográficos ................................................................................................... 32

2
UD 2. Fiabilidad

El problema del error de medida en psicología es abordado por la teoría clásica de los test desde
el modelo lineal de Spearman, cuyos supuestos han tenido un gran impacto en el desarrollo
de la psicometría. Su principal implicación es el análisis de la precisión de la medida de los test
y su relación con los errores aleatorios. Esta unidad presenta tanto el modelo lineal y sus
supuestos básicos como los desarrollos lógicos posteriores basados en él que atañen a la
fiabilidad de los test (métodos de cálculo y factores que influyen).

Figura 1. Precisión y error de medida.

3
2.1. Conceptos y postulados básicos

¿Quién dijo…?

Cuando medimos algo, bien sea en el campo de la física, de la biología o de las ciencias
sociales, esa medición contiene cierta cantidad de error aleatorio. La cantidad de error puede
ser grande o pequeña, pero está siempre presente en cierto grado.

Thorndike, 1951

Como comentamos en la unidad anterior, el asunto de la medida es una cuestión que atañe a
cualquier ciencia empírica, pero que en psicología tiene una serie de peculiaridades que justifican
un acercamiento específico. La existencia de error en la medición de lo psicológico es una de
las primeras cuestiones a las que la psicometría tuvo que dar respuesta, y eso implicó el
estudio de la fiabilidad (Abad et al., 2011).

En la vida cotidiana, si medimos la altura de una estantería varias veces con una cinta métrica,
obtendremos prácticamente la misma medición debido a que tanto la cinta métrica como la
estantería permanecen invariables. Solo cuando se necesita especificar con unidades de medida
muy pequeñas o intentamos estimar distancias elevadas, puede que las medidas físicas presenten
mayor variabilidad. Ahora bien, cuando empleamos un test para medir una característica
psicológica de una persona en varias ocasiones, es habitual que las puntuaciones sean
parecidas, pero no iguales, sin que implique necesariamente un cambio real en la
característica (García-Cueto et al., 1993).

Por ello, la psicometría se encarga de establecer en cada caso el grado de estabilidad de la


medida del instrumento y, además, de señalar la necesidad de preocuparse de la adecuación del
test para el sujeto examinado y el fin que se proponga (aunque esto último hace referencia a la
validez, que veremos en la siguiente unidad didáctica).

Figura 2. Determinar la consistencia de la medición.

4
Cuando aplicamos un test psicológico, se obtiene una puntuación directa y concreta de ese
momento. Esta puntuación empírica es la medida del sujeto que observamos directamente y
tiene computado tanto el nivel real de esa característica (puntuación verdadera) como cierto
grado de error. Esta circunstancia nos plantea la siguiente cuestión: ¿cómo poder saber cuál es
el valor real de la persona en el atributo medido? Para responder a esta pregunta será necesario
realizar algún tipo de técnica indirecta con el fin de separar el grado de error del nivel real de lo
que pretendemos medir. La primera respuesta que se dio a este problema fue el modelo lineal
propuesto por Spearman a principios del siglo XX (Barbero et al., 2015) y el consecuente
desarrollo de la denominada teoría clásica de los test (TCT). Sobre esta estimación de errores
de medida, la teoría de respuesta al ítem (TRI) discrepa de la TCT y realiza sus propias
propuestas; sin embargo, en la actual unidad didáctica nos centraremos en el primer
paradigma de la TCT sobre la fiabilidad de la medida, dejando para la Unidad didáctica 6 el
acercamiento de la TRI.

Figura 3. Muchos test actuales se mantienen en el paradigma de la TCT.

2.1.1. Modelo lineal de Spearman y sus supuestos

El modelo formal propuesto por Spearman se fundamenta en una serie de supuestos no


comprobables empíricamente. Se trata de axiomas asumidos, ya que su incumplimiento
invalidaría la teoría (Abad et al., 2006), de los que, además, se derivan una serie de deducciones
concretas con implicaciones directas sobre las formulaciones matemáticas para el cálculo de sus
elementos.

Supuesto 1. Modelo lineal

La puntuación empírica directa de una persona en un test (X) está compuesta de dos
componentes hipotéticos: puntuación verdadera de la persona (V) y un error de medida (E)
que se comete al medir el rasgo o característica con el test.

𝑿= 𝑽+𝑬

X: puntuación empírica u observada en el test. Único valor observable directamente.

V: puntuación verdadera del sujeto; nivel real del sujeto en el área que mide el test o
puntuación libre de error; por tanto, no aleatoria y constante.

E: error aleatorio (asistemático) de medida; falta de precisión del test representada


por la inestabilidad de las medidas.

5
Supuesto 2. Puntuación verdadera

La puntuación verdadera de una persona en un test es igual a la esperanza matemática de sus


puntuaciones empíricas.

𝑽 = 𝜺(𝑿)

Una esperanza matemática es una media (el valor más esperado en una distribución normal).
Es decir, la puntuación verdadera sería la media de la distribución que se formaría si se pudiera
aplicar infinitas veces el mismo test al mismo sujeto. Si esto fuese posible, se formaría una
distribución normal con todas las puntuaciones empíricas del sujeto en la que la puntuación
más repetida sería la media. Al ser la más frecuente, es lógico deducir que coincidiría con el
verdadero nivel del sujeto en el test: puntuación libre de error o verdadera.

𝑽 = 𝝁𝒙

Supuesto 3. Relación entre puntuaciones verdaderas y de error

En la población, las puntuaciones verdaderas y los errores de medida son independientes: la


correlación entre las puntuaciones verdaderas y los errores de medida de un test es nula.

𝒓𝑽𝑬 = 𝟎

El tamaño y el signo de los errores no van sistemáticamente asociados a la cuantía de las


puntuaciones verdaderas.

Supuesto 4. Relación entre errores

Los errores de medida que se cometen con un test al aplicarlo a una muestra de sujetos son
independientes de los que se cometen en otro test administrado a los mismos sujetos: su
correlación es nula (en caso contrario, se trataría de un error sistemático no aleatorio).

𝒓𝑬𝟏𝑬𝟐 = 𝟎

Los errores se denominan aleatorios, por lo que no pueden correlacionar entre sí. Implica que
no existe ninguna razón para suponer que los errores de medida cometidos en un test vayan a
influir de alguna forma en el otro test, siempre que su aplicación sea la correcta y estandarizada.

2.1.2. Deducciones del modelo lineal de Spearman

Deducciones básicas del modelo:

• El error de medida es la diferencia entre la puntuación empírica y la puntuación verdadera.

Si 𝑿 = 𝑽 + 𝑬, entonces 𝑬 = 𝑿 – 𝑽

• La esperanza matemática de los errores de medida es igual a 0.

Si 𝑽 = 𝜺(𝑿), entonces 𝜺(𝑬) = 𝟎

6
• Por lo tanto, la media de las puntuaciones empíricas será igual a la media de las
puntuaciones verdaderas.
̅=𝑽
𝑿 ̅

• La varianza de las puntuaciones empíricas u observadas es igual a la varianza de las


puntuaciones verdaderas más la varianza de los errores.

𝑺𝟐𝑿 = 𝑺𝟐𝑽 + 𝑺𝟐𝑬

𝑺𝟐𝑽 : representa las diferencias debidas a los diferentes niveles reales de los sujetos en el
área medida.

𝑺𝟐𝑬 : representa las diferencias debidas a errores cometidos por el test.

La varianza es un estadístico descriptivo que indica cómo de distintas son las puntuaciones de un
grupo de sujetos. La psicometría trata de encontrar diferencias entre personas en actitudes y
aptitudes psicológicas. Por lo tanto, al aplicar un test, se intentará encontrar una alta varianza
empírica, pero acompañada, a ser posible, de una alta varianza verdadera y de una baja
varianza de error (Muñiz, 1992).

Si consideramos que, al ser la mayor, la varianza empírica o total representa la variabilidad total,
podemos representar las tres varianzas gráficamente como podemos observar en la figura 4.

Figura 4. Composición teórica de la varianza empírica en la TCT. Si, por ejemplo, en un test concreto el 70 %
correspondiera a la parte verdadera del test, el resto (100 % – 70 % = 30 %) correspondería a los errores que comete.

Cuanto más se parezcan las varianzas empírica y verdadera, más fiable o preciso será el test, ya
que menos error cometerá (véase ejemplo 1). Un poco más delante, en esta unidad, se
presentarán algunas deducciones más del modelo en relación con estas varianzas.

7
Ejemplo 1. Supuestos básicos del modelo lineal de Spearman

La puntuación final de aplicar un test a una persona resulta en una puntuación total de 35
puntos después de la aplicación (puntuación empírica), pero, por otros medios, tenemos la
constancia de que su nivel real en el atributo medido (puntuación verdadera) es 30. ¿Qué
error se ha cometido al medir a esta persona según el modelo lineal?

Si 𝟑𝟓 = 𝟑𝟎 + 𝑬, entonces 𝑬 = 𝟑𝟓 – 𝟑𝟎; 𝑬𝒓𝒓𝒐𝒓 = 𝟓

2.1.3. Fiabilidad y condiciones de paralelismo

Nota

La fiabilidad diacrónica se comprobará con métodos basados en la estabilidad de la


medida en el tiempo (como test-retest), mientras que la fiabilidad sincrónica se estudiará
mediante técnicas basadas en la consistencia interna de los elementos de un mismo test
en una sola pasación (como coeficiente alfa de Cronbach).

La fiabilidad hace referencia al grado de estabilidad, precisión o consistencia que


manifiesta el uso de un instrumento de medición, en nuestro caso, un test, para obtener medidas
significativas. Podemos decir que un test es fiable si, aplicado varias veces a una misma muestra
o a un mismo sujeto, en una misma situación, los resultados son prácticamente los mismos. La
fiabilidad es cuestión del grado en el que reducimos el error, ya que no hay test que no lo
cometa en mayor o menor cuantía. La fiabilidad debe ser analizada empíricamente para cada
instrumento y cada situación de aplicación, y así podemos afirmar que la fiabilidad es relativa al
grupo sobre el que se calcula. Para la teoría clásica de los test existen dos connotaciones de
fiabilidad que justifican los diferentes métodos por los que se calcula (García-Cueto, 1993):

• Fiabilidad diacrónica: implica la estabilidad de la medida con el paso del tiempo;


obviamente, solo se considerará cuando el atributo real medido vaya a mostrarse sin
cambios en ese intervalo (que no haya nada real que justifique un cambio en el atributo).
• Fiabilidad sincrónica: hace referencia a la estabilidad de la medida en un mismo periodo
de tiempo (o incluso simultáneo), siendo las diferencias entre las medidas atribuibles al
error de la medida y no a cambios en el atributo.

Matemáticamente, la concreción de la fiabilidad implicará la covarianza de las medidas de los


test consigo mismas.

8
Test paralelos

Un concepto destacable para el análisis de la fiabilidad, según la TCT, es la definición y las


implicaciones de los test paralelos o formas paralelas del test (véase figura 5).

Dos test que miden lo mismo (mismo atributo psicológico) y se aplican a una misma muestra de
sujetos se pueden considerar paralelos si cumplen las dos condiciones siguientes:

• Las puntuaciones verdaderas de los sujetos son iguales en ambos test:

𝑉1 = 𝑉2

• La varianza de los errores es también la misma:

𝑺𝟐𝒆𝟏 = 𝑺𝟐𝒆𝟐

Siguiendo los supuestos del modelo general de Spearman, si se cumplen las dos condiciones de
test paralelos, ambos contarán con la misma media y varianza de las puntuaciones
empíricas, y, como consecuencia, compartirán el mismo coeficiente de fiabilidad, lo cual
tiene implicaciones para la formulación de cálculo de la fiabilidad de los test. Y, además, dados
dos o más test paralelos, las relaciones entre cada dos de ellos serán iguales.

Figura 5. Formas paralelas diferentes pero equivalentes.

2.1.4. Coeficiente de fiabilidad

Como venimos afirmando, la fiabilidad se refiere a la exactitud con la que un instrumento de


medida (test) mide lo que pretende medir; es decir, que si a un mismo grupo le aplicamos un
mismo test en varias ocasiones (o en formas paralelas del test), nos dé resultados muy
semejantes si no han cambiado las circunstancias. El grado de consistencia entre estas
medidas hechas se puede computar estadísticamente mediante los métodos de correlación.
El índice estadístico que estima el grado de fiabilidad se denomina coeficiente de fiabilidad
(Barbero et al., 2015).

𝑹𝑿𝑿´

Según los supuestos de TCT, esto equivale a elevar al cuadrado la correlación entre las
puntuaciones verdaderas y las empíricas. Esta misma correlación sin elevar al cuadrado es
denominada índice de fiabilidad.

𝑹𝑿𝑿´ = 𝑹𝟐𝑿𝑽

9
Como ya se explicó en la Unidad didáctica 1, al elevar al cuadrado una correlación, se obtiene el
coeficiente de determinación que expresa la proporción de varianza compartida, lo que atañe a
otra de sus formas de expresión matemáticas: el cociente entre la varianza de las
puntuaciones y la varianza de las puntuaciones empíricas.

𝑺𝟐𝑽
𝑹𝑿𝑿´ =
𝑺𝟐𝑿

Lo anterior hace que el coeficiente de fiabilidad también se pueda expresar como la proporción
de la varianza empírica del test que se puede atribuir a la varianza verdadera o, lo que
es lo mismo, la proporción de varianza verdadera que hay en la varianza empírica. Su valor se
encontrará siempre en el rango de 0 a 1. Si Rxx = 1, la varianza empírica y la verdadera
coincidirán y la varianza de error será nula; así que cuanto más se acerque a 1, más fiable será
la medida, y cuanto más se acerque a Rxx = 0, más proporción de error contendrá la varianza
empírica y menos fiabilidad tendrá la medida. Derivado de la anterior definición, el coeficiente
de fiabilidad también se puede expresar como 1 menos el cociente entre la varianza de error
y la varianza empírica o, dicho de otra forma, 1 menos la proporción de la varianza empírica
que se puede atribuir a la varianza de errores.

𝑺𝟐𝑬
𝑹𝑿𝑿´ = 𝟏 –
𝑺𝟐𝑿

Ejemplo 2. Definición de coeficiente de fiabilidad

Si respecto a un test psicométrico, después de su aplicación a un grupo normativo,


pudiésemos conocer la varianza verdadera de su puntuación y también su varianza de error,
¿cuál sería su coeficiente de fiabilidad si la primera fuese 20 y la segunda 4?

𝑺𝟐𝑿 = 𝟐𝟎𝒗 + 𝟒𝒆 ; 𝑺𝟐𝑿 = 𝟐𝟒


𝟐𝟎𝒗 𝟒𝒆
𝑹𝑿𝑿´ = 𝐨 𝑹𝑿𝑿´ = 𝟏 –
𝟐𝟒𝑿 𝟐𝟒𝑿

𝑹𝑿𝑿´ = 𝟎, 𝟖𝟑

2.1.5. Error de medida

Como hemos resaltado anteriormente, cuando se obtiene la puntuación de una persona en un


test, siempre se cometerá algún error. Existen diversas fuentes de error que pueden generar esta
distorsión, pero se pueden catalogar fundamentalmente en dos tipos de errores (Abad et al.,
2006):

Sistemáticos

Sesgos que afectan de forma constante a todas las puntuaciones del test (se producen de
igual modo en todas las medidas); pueden deberse a factores extrínsecos (condiciones de
aplicación y corrección) o intrínsecos (según las características del propio test).

10
Aleatorios

Implican una variabilidad impredecible en la medida debido a condiciones cambiantes


(motivación, fatiga, condiciones ambientales específicas, subjetividad, etc.) que afectan a todo
instrumento de medida y pueden alejar la puntuación observada de la verdadera.

Son en los segundos sobre los que incide el análisis de la fiabilidad, mientras que los
sistemáticos tienen que ver con la validez de la inferencia.

Estos errores aleatorios pueden establecerse y calcularse en la TCT por los supuestos del
modelo lineal general anteriormente expuestos.

Aunque se pueden computar diferentes tipos de errores aleatorios de este paradigma (de
estimación, de sustitución, de predicción…), en la presente asignatura nos centraremos en las
siguientes acepciones:

• El error de medida (E), que, como ya se ha establecido en los supuestos del modelo
lineal, es la diferencia entre la puntuación empírica y la puntuación verdadera. Este error
tiene un significado individual, ya que se trata de la diferencia de puntuaciones de cada
sujeto por separado. Puede resultar en valores tanto negativos como positivos.

𝑬 = 𝑿–𝑽

• El error típico (o estándar) de medida (Se), que se define como la desviación típica (o
estándar) de los errores de medida. Es un indicador de la precisión absoluta del test.
Aumenta a medida que disminuye la fiabilidad del test y aumenta a medida que aumenta
la desviación típica del test. Por definición, tiene un significado grupal y su valor
numérico solo puede ser positivo (como cualquier desviación estándar).

𝑺𝑬 = 𝑺𝑿 √𝟏 – 𝑹𝑿𝑿´

𝑺𝑿 = Desviación típica

𝑹𝑿𝑿´ = Coeficiente de fiabilidad del test

Dado que el error típico de la medida indica la cantidad de error que cometemos al realizar un
pronóstico de los valores verdaderos del atributo mediante la aplicación de un test, su uso más
evidente es para la estimación de puntuaciones verdaderas. Para controlar su incidencia en
el cálculo de puntuaciones, se recurre a la estimación mediante intervalos de confianza
(Barbero et al., 2015).

Figura 6. Estimación de puntuaciones verdaderas (que son potencialmente diferentes a las observadas).

11
2.1.6. Estimación de puntuaciones verdaderas con el error típico

Viaja

Tablas de la distribución normal.

«Fiabilidad y validez» (Prieto y Delgado, 2010).

El método de estimación basado en la distribución normal de errores supone la distribución


normal de los errores y de las puntuaciones empíricas y permite establecer intervalos de confianza
alrededor de la puntuación observada de cualquier sujeto (véase ejemplo 3). Para ello, se
seguirán los siguientes pasos:

1. Se elige el nivel de confianza para el intervalo y se busca en las tablas de distribución


normal su puntuación Z correspondiente (Znc). Normalmente, se aplica un nivel del
95 % a los pronósticos, por lo que su Z es 1,96.
2. Se calcula el error típico de la medida con la desviación típica del grupo de referencia y
el coeficiente de fiabilidad calculado en ese mismo grupo.
3. Se calcula el error de medida máximo que se va a admitir, que viene determinado por
el producto del error típico de la medida y el valor Z del nivel de confianza.
4. 𝒁𝒏𝒄 · 𝑺𝑬
5. Se genera el intervalo de confianza donde se estimará que se encontrará la puntuación
verdadera alrededor de la puntuación empírica.

𝑿 ± 𝒁𝒏𝒄 · 𝑺𝑬

Ejemplo 3. Estimación de la puntuación verdadera basada en la distribución normal


de errores

Un sujeto ha obtenido en un test de productividad laboral, cuya media es 53 y su desviación


típica 9,2, una puntuación de 60. El coeficiente de fiabilidad del test es 0,64. ¿Qué puntuación
verdadera se le estimará con una probabilidad de acierto del 95 % si supone la normalidad
de las distribuciones?

X = 60; Znc (95 %) = ±1,96

𝑺𝑬 = 𝑺𝑿 √𝟏 – 𝑹𝑿𝑿´ = 𝟗, 𝟐√𝟏 – 𝟎, 𝟔𝟒 = 𝟓, 𝟓𝟐

𝟕𝟎, 𝟖𝟐
𝑿 ± 𝒁𝒏𝒄 · 𝑺𝑬 𝟔𝟎 ± 𝟏, 𝟗𝟔 · 𝟓, 𝟓𝟐
𝟒𝟗, 𝟏𝟖

La puntuación verdadera del sujeto en el test oscilará entre 49,18 y 70,82, con una
probabilidad del 95 %.

12
2.2. Métodos empíricos para el cálculo del coeficiente de fiabilidad
La fiabilidad de un test es un concepto teórico que pone en relación las puntuaciones que obtienen
los sujetos en este (puntuaciones empíricas o X) con las verdaderas puntuaciones de los
sujetos (V). Como estas últimas son inobservables, es necesario recurrir a otros métodos
para su cálculo.

Se trata de procedimientos empíricos que relacionan puntuaciones empíricas obtenidas en el


mismo test en diferentes ocasiones, puntuaciones empíricas que proceden de test o formas del
test equivalentes (paralelos) o puntuaciones pertenecientes a distintas partes del test.

Figura 7. Diferentes métodos de cálculo de la fiabilidad de los instrumentos.

2.2.1. Métodos basados en la estabilidad

Esta forma de determinar la fiabilidad implica comprobar la relación entre dos medidas
equivalentes de la misma característica cuando no haya nada que justifique un cambio: test-
retest y formas paralelas (Abad et al., 2006).

El método test-retest

Consiste en aplicar un test a las mismas personas en dos ocasiones (X1 y X2). La correlación
entre los dos grupos de puntuaciones obtenidos (se recomienda revisar el concepto de
correlación) proporcionará una estimación del coeficiente de fiabilidad del test en cualquiera de
sus dos aplicaciones. Puede aplicarse con intervalo de tiempo (dejar pasar un tiempo concreto)
o sin intervalo de tiempo (aplicaciones consecutivas con poco tiempo de separación entre una
aplicación y otra). Usualmente, el intervalo de aplicación del test oscila entre dos semanas y dos
meses.

La correlación test-retest se denomina coeficiente de estabilidad temporal.

Este procedimiento presenta una serie de limitaciones:

• Si el espacio temporal entre las dos aplicaciones es reducido, los sujetos pueden obtener
puntuaciones más altas en la segunda aplicación por efecto del aprendizaje o la
memoria, ya que la tarea que se ha de realizar es la misma.
• Si el espacio de tiempo entre ambas aplicaciones aumenta, pueden aparecer dos efectos:
o Mortalidad experimental (sujetos que acudieron a la primera sesión no lo hacen
a la segunda).

13
o Inestabilidad del rasgo (por cambios en el desarrollo o maduración de los sujetos
evaluados).

Test paralelos (equivalencia)

También llamados de formas equivalentes, tratan de paliar los inconvenientes del método
anterior; entre otros, el aprendizaje y la memoria.

Implica de nuevo correlacionar dos puntuaciones, pero en dos test distintos en forma de
presentación que miden la misma característica o atributo (definido de la misma manera)
aplicados en los mismos sujetos y condiciones.

Es decir, lo único que debe variar en este caso es la tarea (los ítems de cada test) propuesta a
los sujetos. Necesitamos dos momentos de aplicación (uno para cada test), que pueden darse
con o sin intervalo de tiempo.

Es necesario que ambos test cumplan las condiciones de ser test paralelos (véase apartado
1.1.2). Este coeficiente de confiabilidad es llamado comúnmente coeficiente de equivalencia.
La limitación de este método es la dificultad de encontrar y/o construir dos test que sean
verdaderamente paralelos. Por otro lado, no se puede controlar el efecto que la aplicación del
primer test tiene sobre el segundo y/o los efectos del paso del tiempo si el intervalo de tiempo
en la aplicación es amplio.

Figura 8. Es difícil construir test verdaderamente paralelos.

2.2.2. Métodos basados en la consistencia interna

Se basan en el cálculo del coeficiente de fiabilidad de un test mediante una sola aplicación de
este a partir del análisis de las características de sus ítems, por tanto hace referencia a la fiabilidad
únicamente en sentido diacrónico. Existen dos procedimientos principales de consistencia
interna: el método de las dos mitades o test subdividido y el método de la estadística de ítems
(covarianza entre ítems).

Figura 9. Fiabilidad como consistencia interna.

14
Método de las dos mitades o test subdividido
El test se administra completo y solo es necesario hacerlo en una ocasión. Posteriormente,
se separan las puntuaciones del test en dos mitades. Las puntuaciones obtenidas por los sujetos
en el test se dividen en dos conjuntos correspondientes a una y otra mitad con el objetivo de
conseguir dos formas paralelas (es decir, como si fuesen diferentes test, versiones equivalentes
con formas alternativas). Para que el proceso sea válido, las dos mitades obtenidas han de
constituir dos formas realmente equivalentes del test.

Después de esto, se calculará el coeficiente de fiabilidad a partir de la varianza o la


correlación de ambos test, según el método utilizado.

Para dividir el test en dos mitades se suele utilizar alguno de los siguientes procedimientos:

1. Emparejar ítems según sus características comunes y asignar cada uno de ellos a cada
mitad.
2. Asignación aleatoria.
3. Dividir entre ítems pares e impares.

Viaja

«Análisis de la fiabilidad del LEAD» (Baquero y Sánchez, 2000).

El método más conocido desde esta perspectiva es el propuesto en la ecuación de Spearman-


Brown, que implica correlacionar primero las puntuaciones de las dos mitades, para,
posteriormente, aplicar una corrección a esa correlación y así obtener el coeficiente de
fiabilidad del test completo. En la correlación entre las dos mitades solo se considera la
fiabilidad de cada una de esas dos mitades y, por lo que veremos más adelante en este mismo
apartado, según la TCT, a más longitud del test, mayor fiabilidad.
𝟐𝑹𝑿𝑷𝑿𝑰
𝑹𝑿𝑿 =
𝟏 + 𝑹𝑿𝑷𝑿𝑰

𝑹𝑿𝑿 = 𝐂𝐨𝐞𝐟𝐢𝐜𝐢𝐞𝐧𝐭𝐞 𝐝𝐞 𝐟𝐢𝐚𝐛𝐢𝐥𝐢𝐝𝐚𝐝 𝐝𝐞𝐥 𝐭𝐞𝐬𝐭 𝐜𝐨𝐦𝐩𝐥𝐞𝐭𝐨

𝑹𝑿𝑷𝑿𝑰 = 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒇𝒊𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆 𝒄𝒂𝒅𝒂 𝒎𝒊𝒕𝒂𝒅 (𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝒆𝒏𝒕𝒓𝒆 𝒅𝒐𝒔 𝒎𝒊𝒕𝒂𝒅𝒆𝒔)

El problema que se plantea en esta vía es la dificultad de conseguir esa equivalencia verdadera
entre las dos mitades del test. También se tiene que tener en cuenta que este tipo de métodos
no son adecuados para el cálculo de fiabilidad en pruebas de velocidad porque tienden a
sobreestimar el coeficiente.

15
Métodos basados en el análisis de la relación entre ítems
En estos métodos se asume que todas las preguntas de un test (ítems) evalúan el mismo rasgo
y, por ello, se considera cada ítem como un subtest dentro del conjunto de ítems (test). Se
pretende analizar los datos de cada uno de los ítems del test respecto al total de este, lo cual nos
permite conocer su consistencia interna. Mediante este método, podemos observar hasta qué
punto contribuye cada ítem a medir el rasgo que cuantifica el test en su conjunto.

En este sentido, la ecuación del coeficiente alfa de Cronbach 𝜶 tiene en cuenta la longitud
del test (número de ítems), la varianza de cada ítem y su relación con la varianza total del test
para el cálculo de la fiabilidad.

𝒏𝒊 ∑ 𝑺𝟐𝒏𝒊
𝜶= [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿

𝑛𝑖 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 í𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙

2
∑ 𝑆𝑛𝑖 = Suma de varianzas de cada ítem; 𝑆𝑥2 = Varianza de puntuaciones totales del test

Cuanto mayor es la covariación (homogeneidad) entre los ítems, mayor será la consistencia
interna. Sin embargo, no ha de interpretarse como un indicador de unidimensionalidad, ya que
se pueden obtener valores altos con test que miden varias dimensiones muy correlacionadas. Y
también cuanto mayor sea el número de ítems, más elevado resultará el coeficiente alfa.

Kuder y Richardson (1937) proponen dos variaciones del coeficiente alfa de Cronbach
cuando los elementos que componen el test son ítems de respuesta dicotómica (solo dos
opciones de respuesta). Estos métodos implican que una de las respuestas del ítem sea un
acierto (rendimiento) o una respuesta favorable hacia la dimensión evaluada (actitud; se
codifica como 1) y la otra sea un error o una respuesta que no puntúa en la dimensión
evaluada (se codifica como 0). La primera ecuación que proponen, KR20, relaciona la proporción
de aciertos (1) y la proporción de errores (0) en las respuestas al ítem (varianza del ítem) con la
varianza total del test y su longitud:

𝒏𝒊 ∑ 𝒑𝒉 𝒒𝒉
𝑲𝑹𝟐𝟎 = [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿

𝑛𝑖 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 í𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙


𝑓 aciertos 𝑓 no aciertos
𝑝𝑖 = Proporción de aciertos = ; 𝑞 𝑖 = Proporción de errores =
𝑛 respuestas 𝑛 respuestas

𝑆𝑋2 = Varianza de puntuaciones totales del test

En las situaciones en las que los ítems dicotómicos presenten la misma dificultad para responder
la respuesta correcta, se aplicará otra ecuación derivada, KR21. Si se aplica esta ecuación a un
conjunto de ítems cuya dificultad no es la misma, el resultado será una estimación menor de
consistencia interna que con KR20.
𝑋 ̅2
𝒏𝒊 𝑋̅𝑥 – 𝑥
𝑛𝑖
𝑲𝑹𝟐𝟏 = [𝟏 – ]
𝒏𝒊 – 𝟏 𝑺𝟐𝑿

𝑛𝑖 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 í𝑡𝑒𝑚𝑠 𝑡𝑜𝑡𝑎𝑙

16
𝑋̅𝑥 = Media de puntuaciones empíricas(total); 𝑆𝑋2 = Varianza de puntuaciones empíricas (total)

Ejemplo 4. Cálculo de consistencia interna de test con respuestas dicotómicas

En la aplicación a cinco sujetos de un test de rendimiento sobre razonamiento matemático


con cuatro ítems de respuesta dicotómica, nos encontramos con los siguientes resultados:

Ítem 1 = 3 sujetos aciertan; ítem 2 = 3 aciertos; ítem 3 = 4 aciertos; ítem 4 = 2 aciertos.

Calcula el valor del coeficiente de fiabilidad según el método KR20 sabiendo que la varianza
de las puntuaciones totales es 3,5.
𝟑 𝟐 𝟑 𝟐
Í𝑡𝑒𝑚 1 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟔 · 𝟎, 𝟒 = 𝟎, 𝟐𝟒 Í𝑡𝑒𝑚 2 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟔 · 𝟎, 𝟒 = 𝟎, 𝟐𝟒
𝟓 𝟓 𝟓 𝟓

𝟒 𝟏 𝟐 𝟑
Í𝑡𝑒𝑚 3 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟖 · 𝟎, 𝟐 = 𝟎, 𝟏𝟔 Í𝑡𝑒𝑚 4 = 𝒑𝟏 𝒒𝟏 = · = 𝟎, 𝟒 · 𝟎, 𝟔 = 𝟎, 𝟐𝟒
𝟓 𝟓 𝟓 𝟓

𝟒 𝟎, 𝟐𝟒 + 𝟎, 𝟐𝟒 + 𝟎, 𝟏𝟔 + 𝟎, 𝟐𝟒
𝑲𝑹𝟐𝟎 = [𝟏 – ] ; 𝑲𝑹𝟐𝟎 = 𝟎, 𝟗𝟗
𝟒 –𝟏 𝟑, 𝟓

2.2.3. Métodos de cálculo de fiabilidad en test referidos a criterios

A la hora de desarrollar un instrumento y dar interpretación a sus puntuaciones, nos encontramos


con dos orientaciones básicas: referidas a normas y referidas a criterios. En la segunda forma, el
enfoque más habitual es el establecimiento de un estándar en forma de punto de corte que
clasifica al individuo en dominio o no dominio de la dimensión evaluada. La consistencia
del test para clasificar a los sujetos dentro de una categoría u otra se puede calcular mediante
índices de concordancia, que son, al mismo tiempo, indicadores de la fiabilidad del test.

Figura 10. Fiabilidad en test que clasifican a los sujetos.

En la situación en la que se pueda contar con dos formas realmente paralelas del test o que la
repetición de la medida no influya en la ejecución del sujeto, se puede estimar el nivel de acuerdo
entre ambas aplicaciones. El índice estadístico más utilizado para estudiar el nivel de acuerdo de
clasificación en dos o más categorías entre varias observaciones (también entre varios jueces) es
el coeficiente kappa de Cohen (véase ejemplo 5).

17
Este coeficiente compara las clasificaciones consistentes entre ambas medidas con la
concordancia que se podría esperar por azar. Aunque matemáticamente puede oscilar entre –
1 y +1 (siendo el rango negativo un desacuerdo consistente), cuando se usa como índice de
fiabilidad, solo tiene sentido su rango de 0 a 1 (siendo 0 que la totalidad de las coincidencias de
clasificación entre ambas medidas se puede deber al azar). La fórmula de cálculo del coeficiente
se puede expresar en términos de relación entre frecuencias absolutas.
𝒇𝒙 – 𝒇𝒂
𝑲=
𝒏 – 𝒇𝒂

𝑓𝒙 = Frecuencia absoluta de clasificaciones coincidentes

𝑓𝒂 = Frecuencia absoluta de clasificaciones coincidentes esperables por azar

𝑛 = Número de sujetos evaluados

Para calcular las frecuencias de coincidencia de clasificación, se computa a partir de las


frecuencias marginales de la tabla de contingencia que cruce ambas clasificaciones.
𝐓𝐨𝐭𝐚𝐥 𝐜𝐨𝐥𝐮𝐦𝐧𝐚 𝟏 · 𝐓𝐨𝐭𝐚𝐥 𝐟𝐢𝐥𝐚 𝟏 𝐓𝐨𝐭𝐚𝐥 𝐜𝐨𝐥𝐮𝐦𝐧𝐚 𝟐 · 𝐓𝐨𝐭𝐚𝐥 𝐟𝐢𝐥𝐚 𝟐
𝒇𝒂 = +
𝒏 𝒏

Ejemplo 5. Cálculo de concordancia entre formas paralelas. Test de coeficiente


kappa

Para estimar la fiabilidad de un test de rendimiento referido a criterios, se generan dos


formas paralelas de la misma prueba con reactivos equivalentes. Según superan o no el
punto de corte, se clasifican los treinta sujetos en los que se aplica en el grupo de dominio
o no dominio respecto a ambas formas. Se calcula el grado de acuerdo y consistencia de la
clasificación entre ambas formas con el coeficiente kappa atendiendo a los datos de la tabla
1 de contingencia.

Forma paralela o aplicación 2

Forma paralela Dominio No dominio Totales


o aplicación 1

Dominio 8 2 10

No dominio 7 13 20

Totales 15 15 N = 30

Tabla 1. Frecuencias de cruzadas de clasificación de análisis de concordancia de clasificación.

𝟏𝟓 · 𝟏𝟎 𝟏𝟓 · 𝟐𝟎
𝒇𝑎 = + = 𝟏𝟓 ; 𝒇𝒙 = 𝟖 + 𝟏𝟑 = 𝟐𝟏
𝟑𝟎 𝟑𝟎
𝟐𝟏 – 𝟏𝟓
K= ; 𝑲 = 𝟎, 𝟒
𝟑𝟎 – 𝟏𝟓

18
Figura 11. Estimación de concordancia con una sola aplicación.

2.3. Factores que influyen en la fiabilidad de un test

La fiabilidad de un test no es una característica estática, sino que depende tanto de las
características del propio test como de las del grupo de personas a las que se aplica o los métodos
que se utilizan para estimarla. Por ello, hablamos de la relatividad de la fiabilidad del test y
de que no existe un único coeficiente de fiabilidad para cada test (Muñiz, 1992) . Así, podemos
decir que la fiabilidad de un test se verá afectada por factores como el método de estimación, las
condiciones de aplicación, la homogeneidad de características y el tamaño de la muestra, la
longitud del test, el tiempo límite de respuesta…

En definitiva, en palabras de Crocker y Algina (1986), no se puede afirmar que un test sea fiable
o no, sino que la fiabilidad es una propiedad de las puntuaciones obtenidas en el test a
partir de una muestra concreta de sujetos. A continuación, se desarrollan de forma específica
tres de las condiciones que, según la TCT, tienen un efecto directo sobre el coeficiente de
fiabilidad.

Figura 12. Relatividad muestral de la fiabilidad en la TCT.

2.3.1. La longitud del test

Un aspecto del test que afecta tanto a la varianza de las puntuaciones observadas como a la
varianza de las puntuaciones verdaderas, y, por tanto, al coeficiente de fiabilidad, es la longitud
del test.

Al aumentar la longitud de un test, se incrementa su precisión porque aumenta la varianza


verdadera a un ritmo más alto que la varianza error. Esto supone que la precisión del test aumenta
porque disminuye la proporción de varianza que se debe al error. Y la inversa, acortar el
test reduce la precisión de la medida y por tanto su fiabilidad (Abad et al., 2006).

19
La lógica de que la fiabilidad se relacione con el número de ítems que tenga un test es que cuantos
más ítems se apliquen para medir un constructo, mejor podrá ser valorado y más pequeño
será el error de medida que se cometa al valorar la puntuación verdadera de un sujeto. Por lo
tanto, si ampliamos el número de ítems de un test, siempre que estos sean representativos del
constructo, la fiabilidad será mayor.

La ecuación de Spearman-Brown proporciona un método para evaluar la relación entre la


fiabilidad y el aumento o la reducción de la longitud del test.
𝒏𝒗 · 𝒓𝑿𝑿´
𝑹𝑿𝑿´ =
𝟏 + (𝒏𝒗 – 𝟏)𝒓𝑿𝑿´

𝑹𝑿𝑿 ´ = Coeficiente de fiabilidad del test modificado

𝑟𝑋𝑋` = 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑓𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑜𝑟𝑖𝑔𝑖𝑛𝑎𝑙

𝑛𝑣 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑎𝑢𝑚𝑒𝑛𝑡𝑎 𝑙𝑎 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡

Es relevante comprender que nv no es el número de ítems del test original ni del test final,
sino el número de veces que es necesario multiplicar la longitud original para obtener la longitud
actual. Por ejemplo, como ya se vio en el método de cálculo de fiabilidad de las dos mitades,
nv es igual a 2; es decir, el test completo es el doble que las dos formas paralelas
correlacionadas.

Por otro lado, nv no tiene por qué ser entero ni mayor que 1. En efecto, podríamos estar
interesados en conocer cuál sería el valor del estimador para un test con un tercio de ítems de
nuestro test original. En ese caso, nv = 1/3; es decir, nv = 0,33. En resumen, cuando la longitud
del test para el cual queremos aplicar la fórmula crece con respecto al número de ítems del test
original, nv será mayor que 1. Si el test actual posee menos ítems que el test original, nv
será menor que 1. Su cálculo se puede expresar con la siguiente fórmula:
𝑳𝑴
𝒏𝒗 =
𝑳𝑶
𝑳𝑴 = Longitud o n. º de ítems del test modificado

𝑳𝑶 = Longitud o n. º de ítems del test original

Según aumenta el número de ítems, lo hará el estimador del coeficiente de fiabilidad. Sin
embargo, este crecimiento no se corresponde con un incremento lineal. Esto supone que
los incrementos en el estimador del coeficiente de fiabilidad serán cada vez menores según
va aumentando nv. Por tanto, llegados a cierto punto, los débiles incrementos en el estimador
no justifican el esfuerzo de construir más ítems para añadir al test. En ciertos estudios interesa
conocer cuántos ítems debería tener un test para alcanzar una determinada fiabilidad.
En estos casos, se calcula la longitud del nuevo test a partir de la fórmula general de Spearman-
Brown, despejando el valor de nv:
𝑹𝑿𝑿´ (𝟏 – 𝒓𝑿𝑿´ )
𝒏𝒗 =
𝒓𝑿𝑿´ (𝟏 – 𝑹𝑿𝑿´ )

𝑳𝑴 = 𝑳𝑶 · 𝒏𝒗

20
Estimación de fiabilidad por cambio en la longitud del test
También es necesario recordar que la fórmula de Spearman-Brown es un reflejo de la fiabilidad
solo cuando los ítems que se añaden (o eliminan) son paralelos en contenido y dificultad
respecto a los ítems originales del test (véase ejemplo 6). Si se añaden ítems que no sean
paralelos, el incremento en la fiabilidad no será real.

Ejemplo 6. Cambio de fiabilidad por cambio en la longitud del test

Un test con 35 ítems presenta un coeficiente de fiabilidad de 0,58. ¿Cuál será su nuevo
coeficiente de fiabilidad si se le añaden 20 ítems?
𝑳𝑴 𝟑𝟓 + 𝟐𝟎 𝟓𝟓
𝒏𝒗 = = = = 𝟏, 𝟓𝟕 𝐯𝐞𝐜𝐞𝐬
𝑳𝑶 𝟑𝟓 𝟑𝟓
𝒏𝒗 · 𝒓𝑿𝑿´ 𝟏, 𝟓𝟕 · 𝟎, 𝟓𝟖
𝑹𝑿𝑿´ = = = 𝟎, 𝟔𝟖
𝟏 + (𝒏𝒗 – 𝟏)𝒓𝑿𝑿´ 𝟏 + (𝟏, 𝟓𝟕 – 𝟏)𝟎, 𝟓𝟖

El nuevo coeficiente de fiabilidad del test será 0,68.

Ejemplo 7. Estimación de la longitud del test para una fiabilidad determinada

Al aplicar un test con 15 ítems, encontramos un coeficiente de fiabilidad de 0,61. Como para
nuestro estudio deseamos que el test alcance un coeficiente de fiabilidad de 0,80, ¿cuántos
ítems deberíamos añadir al test para conseguirlo?
𝑹𝑿𝑿´ (𝟏 – 𝒓𝑿𝑿´ ) 𝟎, 𝟖𝟎(𝟏 – 𝟎, 𝟔𝟏)
𝒏𝒗 = = = 𝟐, 𝟓𝟔 𝐯𝐞𝐜𝐞𝐬
𝒓𝑿𝑿´ (𝟏 – 𝑹𝑿𝑿´ ) 𝟎, 𝟔𝟏(𝟏 – 𝟎, 𝟖𝟎)

𝑳𝑴 = 𝟐, 𝟓𝟔 · 𝟏𝟓 = 𝟑𝟖, 𝟒 ≈ 𝟑𝟗 í𝐭𝐞𝐦𝐬

(Siempre se redondea hacia arriba para que el test alcance la fiabilidad deseada).

Como el test original contaba con 15 ítems y el nuevo test necesita 39 ítems, hemos de
añadirle (39 – 15) 24 ítems.

2.3.2. La variabilidad de la muestra

La fiabilidad es una cantidad teórica que no puede conocerse directamente, sino que es
necesario estimarla a través de las respuestas de una determinada muestra de sujetos. Por
ello, debemos tener en cuenta que, si queremos utilizar la información proporcionada por la
estimación del coeficiente de fiabilidad, esta será útil en la medida en que se aplique a otra
muestra que tenga semejante homogeneidad a aquella donde fue calculado.

El coeficiente de fiabilidad es una correlación y, como tal, se ve afectado por la variabilidad de las
puntuaciones que se han de correlacionar.

21
La regla es simple: siempre que aumente la variabilidad de la muestra en la que se calcule
el coeficiente de fiabilidad se incrementará su valor. De otra manera, puede afirmarse que la
fiabilidad de un test será mayor cuanta mayor variabilidad exista en la muestra de sujetos
seleccionada (Barbero et al., 2015).

Figura 13. Variabilidad y fiabilidad.

La estimación del coeficiente de fiabilidad de un test puede variar perceptiblemente de una


muestra a otra. En concreto, la fiabilidad del test disminuirá si el test se aplica a una
muestra más homogénea, ya que ser más homogénea implica menor variabilidad entre los
sujetos, es decir, menores diferencias entre ellos. Siempre que elijamos una muestra donde se
espera una reducción en la varianza de las puntuaciones observadas, será necesario modificar la
estimación del coeficiente de fiabilidad para adaptarlo a esta nueva situación.

2.3.3. El límite de tiempo

Cuando el test tiene tiempo limitado para que un sujeto lo realice (test de velocidad), interesa
conocer cuántos ítems ha sido capaz de responder correctamente. En cambio, en los test de
potencia, el sujeto dispone de un tiempo más que suficiente para completar los ítems cuya
respuesta conoce. Por ello, en los test de velocidad, el grado de rapidez que un sujeto es capaz
de desarrollar entra a formar parte de la varianza de las puntuaciones verdaderas. Este grado
influirá en todas las repetidas administraciones del test.

Cuando se calcula el coeficiente con procedimientos de dos administraciones, no tiene importancia


a la hora de comparar ambas ejecuciones del sujeto, ya que el factor tiempo influye en ambas
administraciones.

Figura 14. Tiempo límite y consistencia interna.

22
Sin embargo, cuando el usuario del test está interesado en conocer la consistencia interna del
test, esta se verá inflada artificialmente en los test de velocidad. Este efecto es especialmente
importante cuando se utiliza el procedimiento de dos mitades a través de la numeración de los
ítems y la asignación de pares-impares a las dos mitades. Una vez que se ha acabado el tiempo
de realización del examen, todos los ítems no contestados, pares e impares, estarán
perfectamente correlacionados (sus puntuaciones serán cero), independientemente de si los
ítems son homogéneos en contenido o no. Lo mismo puede aplicarse a cualquiera de los
procedimientos de consistencia interna.

Por ello, se aconseja utilizar el procedimiento de test-retest o formas paralelas para estimar
la fiabilidad de los test de velocidad.

2.4. Interpretación de estadísticas de fiabilidad

El coeficiente de fiabilidad es un indicador de la precisión relativa del test. Está influido por
la cuantía de los errores de medida que se cometen al recoger los datos en la aplicación de un
instrumento de medida (test). Este error debe ser lo más bajo posible para que la medida sea
confiable. El coeficiente de confiabilidad nunca puede ser negativo, su valor oscila entre 0 (toda
la varianza es de error) y 1 (la varianza de error es 0).

Crocker y Algina (1986) sintetizan las tres consideraciones que se deben tener en cuenta para
interpretar el coeficiente de fiabilidad:

1. PX1 X2. Representa la proporción de la varianza de las puntuaciones observadas que se


puede atribuir a la varianza de las puntuaciones verdaderas. De esta manera, el coeficiente
valdrá 1 si toda la varianza de las puntuaciones observadas se debe a la varianza de las
puntuaciones verdaderas; es decir, no hay errores de medida.
2. (PX1 X2)2. Al elevar al cuadrado el coeficiente de fiabilidad, su resultado indica la proporción
de la varianza de las puntuaciones observadas en el primer test paralelo, que se puede
predecir a partir de la varianza de las puntuaciones observadas en el segundo test paralelo.
3. PXV. Es la correlación entre las puntuaciones verdaderas y las puntuaciones observadas.

2.4.1. Interpretación general de magnitud de coeficiente de fiabilidad

Cuando obtenemos un coeficiente de fiabilidad de un test, la pregunta que nos hacemos es la


siguiente: ¿cómo de elevado debe ser dicho coeficiente para que nos permita confiar en los
resultados que el test nos aporta? Para Hogan (2004), depende del uso que se vaya a hacer de
los datos. Así, la confiabilidad en el rango de 0,70-0,80 sería suficiente si nuestro propósito es la
investigación, pero si el test se utiliza para tomar decisiones que afecten al futuro de una persona,
debe ser superior a 0,90-0,95.

Por otro lado, DeVellis (2012) propone una escala de valoración para analizar el coeficiente de
fiabilidad de forma general que se concreta en los intervalos presentados en la tabla 1, que nos
puede servir de referencia para interpretar el resultado de los diferentes métodos de estimación
de la fiabilidad que se han presentado en esta UD 2 (a excepción del coeficiente kappa).

23
INTERPRETACIÓN COEFICIENTE FIABILIDAD

Por debajo De Entre Entre De A partir


de 0,60 0,60-0,65 0,65-0,70 0,70-0,80 0,80-0,90 de 0,90

Inaceptable Indeseable Mínimamente Respetable Buena Muy buena


aceptable

Tabla 2. Umbrales propuestos para la interpretación del coeficiente de fiabilidad. Valores propuestos por DeVellis.
Fuente: DeVellis, 2012 (adaptación).

En el desarrollo de la instrumentación psicométrica, uno de los objetivos debe ser que la


confiabilidad obtenida en el uso de nuevos test sea superior a la alcanzada por otros
instrumentos ya existentes para medir la misma variable (Thorndike y Hagen, 1982).

Figura 15. Grado de aceptabilidad del coeficiente de fiabilidad.

2.4.2. Interpretación particular de magnitud de coeficiente de concordancia


kappa

En relación con la fiabilidad en los test referidos a criterios en vez de a normas, es relevante
considerar el grado de concordancia entre clasificaciones de las dos formas paralelas del test.
Como hemos señalado anteriormente, el índice más habitual para este propósito es el coeficiente
kappa de Cohen. A la hora de valorar su magnitud, no es adecuado utilizar los umbrales
anteriormente expuestos para los coeficientes de fiabilidad, ya que se trata de una medida
general de consistencia entre observaciones.

Existe consenso respecto a la escala para su interpretación que se recoge en la tabla 2 (Altman,
1991):

INTERPRETACIÓN DEL COEFICIENTE KAPPA

Por debajo De Entre Entre De


de 0,20 0,21-0,40 0,41-0,60 0,61-0,80 0,81-1

Consistencia Consistencia Consistencia Buena Muy buena


pobre baja moderada consistencia consistencia

Tabla 3. Umbrales para la interpretación del coeficiente kappa. Valores propuestos por Altman. Fuente: Altman, 1991
(adaptación).

24
2.5. Cálculo de fiabilidad con software estadístico

Las instrucciones y los ejemplos que se van a poner para el uso de software estadístico en
psicometría en la presente unidad didáctica y en posteriores de esta misma asignatura son
válidos para los programas IBM SPSS Statistics (Statistical Package for the Social Sciences) y
GNU PSPP. El SPSS es el software estadístico más extendido y utilizado por universidades y
empresas internacionalmente por lo accesible e intuitivo de su interfaz en comparación con otros
paquetes estadísticos; sin embargo, tiene una entidad comercial y es necesario pagar su licencia
para un uso legal.

Viaja

Puedes descargar la versión adecuada a tu sistema operativo de PSPP.

El GNU PSPP, por otro lado, es una alternativa de software libre generada a partir de la
información estadística de la propia GNU; a todos los efectos, se presenta como una alternativa
libre y gratuita para el SPSS, con gran compatibilidad con este (en sintaxis y bases de datos) y
una interfaz muy similar que facilita el acercamiento de nuevos usuarios. Dada la similitud de
ambos entornos, es fácilmente extrapolable lo que se señale en uno respecto al otro. Las
indicaciones que se hagan en esta asignatura en su mayoría se presentarán en GNU PSPP. El
apartado de «Recursos complementarios» de la Unidad didáctica 2 contiene un manual
del programa estadístico PSPP.

Figura 16. Logo del PSPP. Fuente: Wikimedia Commons.

Respecto al cálculo de la fiabilidad, el paso inicial es la generación de una base de datos


con las respuestas. Tanto en SPSS como en PSPP se muestran dos tipos de vistas diferentes
(como dos hojas de Excel dentro de un mismo documento). Una de ellas es la base de datos en
sí misma, «Vista de datos»; se dispone de forma que las filas son sujetos cuyos valores se
introducen en cada columna, que son las variables de la base de datos (en este caso, lo que
responden a cada ítem). La otra vista es la «Vista de variables» (véase figura 17), donde de
forma previa a introducir ningún dato nombraremos las variables (ítem1, ítem2…) que van a
aparecer como encabezados de las columnas de la «Vista de datos» (véase figura 18). Una vez
nombradas las variables, se podrá introducir el número de respuesta de cada sujeto en cada ítem.

25
Figura 17. «Vista de variables en PSPP». PSPP GNU/Linux versión 1.4.1.

Figura 18. «Vista de datos en PSPP». PSPP GNU/Linux versión 1.4.1.

2.5.1. Cálculo de fiabilidad: alfa de Cronbach

En ambas vistas aparece el menú superior de acciones del programa. En el comando «Analizar»
es donde se encuentran todas las operaciones estadísticas disponibles para los datos introducidos.
En la ruta «Analizar» – «Fiabilidad» se presentan los dos tipos de métodos para calcular la
consistencia interna con una sola aplicación: dos mitades («Modelo» / «División») y alfa de
Cronbach («Modelo» / «Alpha»); esta última es la opción dispuesta por defecto (véase figura 19).

26
Figura 19. «Cálculo de fiabilidad en PSPP». PSPP GNU/Linux versión 1.4.1.

Es necesario seleccionar los ítems que queremos que el programa considere parte del test (o la
dimensión si el test presenta diferentes factores). Al elegir uno u otro método y darle a «OK»,
se generará una ventana con los resultados, «Visor de resultados», donde se irán reflejando
posteriores operaciones (véase figura 20). El modelo división requiere que se explicite el número
de elementos de cada mitad (variables en la primera segmentación).

Figura 20. «Visor de resultados en PSPP»: alfa de Cronbach. PSPP GNU/Linux versión 1.4.1.

27
2.5.2. Cálculo de fiabilidad: coeficiente Spearman-Brown y coeficiente kappa

En los resultados del método de división, la correlación entre formas es la correlación entre las
dos mitades del test (fiabilidad solo de la mitad) y el coeficiente Spearman-Brown es el
coeficiente de fiabilidad del test completo. Aquí deberemos elegir uno u otro en función de si el
test tiene un número de ítems par (ancho igual) o un número de ítems impar (ancho
desigual). Como la longitud de nuestro test es par, seleccionamos «ancho igual» (véase
figura 21).

Figura 21. «Visor de resultados en PSPP»: métodos dos mitades. PSPP GNU/Linux versión 1.4.1.

Para el cálculo de otras formas de computar la fiabilidad sería necesario añadir elementos
adicionales a la base de datos, como pueden ser el total de puntuación del test en cada sujeto,
el total en una forma paralela del test para los métodos que implican varias aplicaciones o
una variable de cada forma del test de solo dos valores que clasifique al sujeto según haya
superado el punto de corte o no en referencia a un criterio de los métodos para test basados
en criterios (véase figura 22).

Figura 22. «Vista de datos en PSPP»: concordancia de clasificación de sujetos según punto de corte. PSPP GNU/Linux
versión 1.4.1.

28
• Para correlacionar formas paralelas, tendríamos que elegir
«Analizar» – «Correlaciones bivariadas», seleccionar ambos totales y darle a «OK».
• Para obtener el coeficiente kappa, tendríamos que elegir «Analizar» – «Estadística
descriptiva» – «Tablas cruzadas», poner en filas la clasificación de una de las formas
y en columnas la clasificación de la otra, y, en el botón «Estadísticos», elegir «Kappa».

29
Resumen

El estudio de la fiabilidad y su relación con el error de medida son el eje de la teoría clásica
de los test y sus desarrollos por el modelo lineal de Spearman y sus supuestos. Según la
propuesta de Spearman, cualquier puntuación observada de un sujeto en un test tiene dos
componentes: la puntuación verdadera, o nivel real en el rasgo medido por el test, y la
puntuación de error (o falta de precisión del test).

El coeficiente de fiabilidad indicará la proporción de la varianza empírica del test que se puede
explicar por la varianza verdadera; es decir, la parte de las diferencias entre las puntuaciones de
los sujetos que se debe a su distinto nivel real en el área medida por el test. El valor del coeficiente
de fiabilidad se ve influido por factores como la longitud del test, la variabilidad de las
puntuaciones de la muestra de sujetos y el tiempo límite de aplicación.

El concepto de error típico de medida se define como la desviación típica de los errores de
medida, es un indicador de la precisión absoluta del test con un sentido grupal. Permite estimar
la puntuación verdadera de las personas mediante intervalos de confianza.

Para el cálculo empírico del coeficiente de fiabilidad hemos de recurrir al concepto de test
paralelos, que son formas equivalentes de un mismo test compuestas por diferentes ítems. Al
no poder constatar directamente qué parte de la varianza se explica por la varianza verdadera,
es necesario inferir la fiabilidad a partir de una serie de procedimientos empíricos:

• Métodos basados en la estabilidad de la medida (test-retest o formas paralelas).


• Métodos basados en la consistencia interna en una sola aplicación (de dos mitades o los
de relación entre los ítems).
• Métodos de concordancia de clasificación en test referidos a criterios (de dos formas
paralelas o de estimación desde una sola aplicación).

El coeficiente de fiabilidad y otros indicadores psicométricos se pueden calcular fácilmente con


software estadísticos como el SPSS o el PSPP, cuya interfaz es accesible y muy similar en ambos
programas.

30
Mapa de contenidos

31
Recursos bibliográficos

Bibliografía básica

Abad, F. J., Olea, J., Ponsoda, V. y García, C. (2011). Medición en ciencias sociales y de la
salud. Síntesis.

Abad, F., Garrido, J., Olea, J. y Ponsoda, V. (2006). Introducción a la psicometría. Teoría clásica
de los tests y teoría de respuesta al ítem. Ediciones UAM, Universidad Autónoma de Madrid.

Barbero, M. I., Vila, E. y Holgado, F. P. (2015). Psicometría. Sanz y Torres.

García-Cueto, E. (1993). Introducción a la psicometría. Siglo XXI.

Muñiz, J. (1992). Teoría clásica de los test. Pirámide.

Bibliografía complementaria

Altman, D. G. (1991). Practical Statistics for Medical Research. Chapman and Hall.

Crocker, L. y Algina, J. (1986). Introduction to Classical and Modern Test Theory. Harcourt.

DeVellis, R. (2012). Scale Development. Theory and Applications. SAGE Publishing.

Hogan, T. P. (2004). Pruebas psicológicas. El Manual Moderno.

Kuder, G. F. y Richardson, M. W. (1937). The theory of the estimation of test reliability.


Psychometrika, 2, 151-160. https://link.springer.com/article/10.1007/BF02288391

Magnusson, D. (1982). Teoría de los test. Trillas.

Muñiz, J. (2010). Las teorías de los test: teoría clásica y teoría de respuesta a los ítems. Papeles
del Psicólogo, 31, 57-66. http://www.papelesdelpsicologo.es/pdf/1796.pdf

Thorndike, R. L. (1951). Reliability. En E. F. Lindquist (ed.), Educational Measurement (pp. 560-


620). American Council on Education.

Thorndike, R. L. y Hagen, E. (1982). Test y técnicas de medición en psicología y educación.


Trillas.

Otros recursos

Baquero, C. y Sánchez, E. (2000). Análisis de la fiabilidad del LEAD (descripción de la


efectividad y adaptabilidad del líder). Anales de Psicología, 16(2), 167-175.
https://revistas.um.es/analesps/article/view/29331

GNU Operating System. (s. f.). GNU PSPP. https://www.gnu.org/software/pspp/

Prieto, G. y Delgado, A. R. (2010). Fiabilidad y validez. Papeles del Psicólogo, 31(1), 67-74.
https://www.papelesdelpsicologo.es/pdf/1797.pdf

32

También podría gustarte