Está en la página 1de 18

CONFIABILIDAD

En la conversación cotidiana, confiabilidad es sinónimo de


seguridad o consistencia, como "el amigo confiable que siempre
esta cuando lo necesitas". En el lenguaje de la psicometría,
confiabilidad se refiere, en un sentido amplio, al atributo de
consistencia en la medición. Y mientras en la conversación
cotidiana confiabilidad siempre denota algo que es valorado en
forma positiva, confiabilidad en el sentido psicométrico tan sólo
denota algo que es consistente, no necesariamente
consistentemente bueno o malo, sino tan sólo consistente.

Es importante saber qué tan confiables son las pruebas así como
otros procedimientos de medición. Pero la confiabilidad rara vez es
una cuestión de todo o nada; hay diferentes tipos y grados de
confiabilidad. Un coeficiente de confiabilidad es un índice de
confianza. Expresando de manera más técnica, es una proporción
que indica la razón entre la varianza de la puntuación verdadera
en una prueba y la varianza total. Establece la porción de puntaje
verdadero que en el puntaje observado.
El concepto de confiabilidad
Se supone que una puntuación en una prueba de capacidad refleja
tanto la puntuación verdadera de quien responde la prueba en la
capacidad que se está midiendo como también el error. En su
sentido más amplio, “error" se refiere al componente de la
puntuación observada en la prueba que no tiene que ver con la
capacidad de quien responde la prueba. Si usamos “y” para
representar una puntuación observada, “T” para representar una
puntuación verdadera y “e” para representar el error, entonces el
hecho de que una puntuación observada sea igual a la puntuación
verdadera más el error puede expresarse como sigue:

y = T+e donde T , e son variables independientes

Una estadística útil para describir fuentes de variabilidad en las


puntuaciones de una prueba es la varianza y. Esta estadística es
útil debido a que puede descomponerse en sus componentes. La
varianza de las diferencias verdaderas es varianza verdadera y la
varianza de fuentes aleatorias irrelevantes es varianza de error.
Si y representa la varianza total, T representa la varianza
verdadera y e representa la varianza de error, entonces la
relación de las varianzas puede expresarse como:
yTe

T / y
El término confiabilidad se refiere a la proporción de la varianza
verdadera contenida en la varianza observada, es decir, T / y.
Entre mayor es el cuociente entre ambas varianzas, la prueba es
más confiable. Debido a que se supone que las diferencias
verdaderas son estables, se presume que producen puntuaciones
consistentes en aplicaciones repetidas de la misma prueba al igual
qué en formas equivalentes de las pruebas. Debido a que la
varianza de error puede incrementar o disminuir una puntuación de
prueba en cantidades variables, se vería afectada la consistencia
de la puntuación, y por tanto la confiabilidad.

Fuentes de varianza de error

Las fuentes de varianza de error incluyen la construcción,


administración, calificación e interpretación de la prueba.

Construcción de pruebas Una fuente de varianza de error


durante la construcción de pruebas es el muestreo de ítems o
muestreo de contenido.
Considérense dos o más pruebas diseñadas para medir una
capacidad, atributo de personalidad o cuerpo de conocimiento
específicos. Es seguro que se encuentren diferencias en la forma
en que están redactados los ítems y diferencias en el contenido
exacto del que se ha sacado la muestra. Es probable que antes de
rendir una prueba de logro académico, algún estudiante haya
pensando "Espero que no hagan esta o aquella pregunta". Con
suerte, sólo las preguntas que deseamos que nos hagan
aparecerán en el examen. En tales situaciones, algunos de
quienes responden la prueba logran puntuaciones superiores en la
prueba de las que habrían obtenido en otra prueba, que
pretendiera medir lo mismo, tan sólo debido al contenido
específico incluido en la muestra de la primera prueba y la forma
en que se redactaron los ítems.

El grado en que la puntuación de quien responde la prueba es


afectada sólo por el contenido presentado en la prueba al igual
que por la forma en que se hizo el muestreo del contenido (es
decir, la forma en que se construyó el reactivo) constituye una
fuente de varianza del error.

Desde la perspectiva de un autor de pruebas, un desafío en la


elaboración de una prueba es maximizar la proporción de la
varianza verdadera que hay en la varianza observada y minimizar
la proporción de la varianza total que es varianza del error.

Administración de pruebas. Las fuentes de varianza de error que


ocurren durante la aplicación de la prueba pueden influir en la
atención o motivación de quien responde la prueba; por tanto, sus
reacciones ante estas influencias son la fuente de una clase de
varianza del error. Ejemplos de influencias adversas que operan
durante la aplicación de una prueba incluyen factores relacionados
con el ambiente de la prueba: la temperatura del salón, el nivel de
iluminación y la cantidad de ventilación y ruido.

Otras fuentes potenciales de varianza de error durante la


aplicación de la prueba incluyen variables de quien responde la
prueba como el grado de incomodidad física, la cantidad de
descanso que tuvo la noche anterior, el grado de ansiedad por la
prueba, la extensión de problemas emocionales apremiantes o el
efecto de fármacos.

Una persona que responde una prueba puede, por cualquier


razón, cometer un error al contestar una respuesta. Por ejemplo, el
examinando puede rellenar un círculo "B" cuando quería rellenar el
círculo "D".
Un examinando podría leer equivocadamente las instrucciones
sobre el formato de respuesta. Una pregunta omitida por descuido
en una larga lista de preguntas de opción múltiple del tipo para
rellenar círculos podría dar como resultado que las respuestas
subsecuentes en la prueba estén fuera de secuencia; por ejemplo,
quien responde la prueba podría responder el octavo reactivo pero
rellenar el círculo del séptimo, esto debido a que el sexto reactivo
fue omitido de manera inadvertida. Las experiencias de
aprendizaje formales, las experiencias casuales de la vida, terapia,
enfermedades y otros acontecimientos parecidos que pueden
haber ocurrido en el periodo entre aplicaciones de formas
paralelas de una prueba también serán fuentes de varianza de
error relacionadas con el examinado.

Las variables relacionadas con el examinador que son fuentes


potenciales de varianza de error incluyen la presencia o ausencia
de un examinador, su apariencia física y comportamiento del
examinador y el profesionalismo con que tome la situación de
prueba.

Algunos examinadores en algunas situaciones de prueba pueden


apartarse a sabiendas o sin querer del procedimiento prescrito
para una prueba particular. En un examen oral, algunos
examinadores podrían proporcionar sin querer claves planteando
preguntas que enfatizan diversas palabras, o transmitir información
de manera inadvertida sobre la corrección de una respuesta por
medio de asentimientos de cabeza, movimientos oculares u otros
gestos no verbales

Calificación e interpretación de pruebas El advenimiento de la


calificación computarizada y una creciente dependencia de ítems
objetivos calificables por computadora casi han eliminado la
varianza de error causada por diferencias de los evaluadores en
muchas pruebas. Sin embargo, no todas las pruebas pueden
calificarse con círculos rellenados con lápices “del número 2”. Las
pruebas de inteligencia administradas en forma individual, algunas
pruebas de personalidad, pruebas de creatividad, diversas
medidas conductuales y otras innumerables pruebas todavía
requieren calificarse en forma manual por personal capacitado.

Si la subjetividad está implicada en la calificación, el calificador (o


evaluador) puede ser una fuente de varianza de error. En efecto, a
pesar del establecimiento muy riguroso de criterios de calificación
en muchas de las pruebas, el examinador y los calificadores en
ocasiones se enfrentaran con situaciones donde la respuesta de
un examinando cae en un área difusa.
Los problemas sobre el acuerdo en la calificación pueden
abordarse por medio de una capacitación rigurosa diseñada para
hacer que la consistencia, o confiabilidad, de varios calificadores
sea lo más perfecta posible.

Consistencia interna

Una medida de consistencia describe estimaciones de


confiabilidad basada en la correlación promedio entre ítems
dentro de una prueba.

Un índice de consistencia entre ítems es útil, a su vez, para


evaluar la homogeneidad de la prueba. Se dice que las pruebas
son "homogéneas" si contienen ítems que miden una sola
capacidad. Como un adjetivo usado para describir ítems de
prueba, homogeneidad (derivada de las palabras griegas homos,
que significa "misma", y genous, que significa "clase") es el grado
en que una prueba mide un solo factor; o sea, el grado en que los
ítems en una escala son unifactoriales.

La homogeneidad de la prueba es deseable debido a que permite


una interpretación relativamente sencilla de la puntuación de la
prueba. Es probable que aquellos que obtienen la misma
puntuación en una prueba homogénea tengan capacidades
parecidas en el área examinada.

Además de algunas de las influencias aleatorias que pueden


afectar a las medidas de confiabilidad, la varianza de error en una
medida de consistencia entre ítems proviene de dos fuentes:

1) el muestreo de ítems y
2) la heterogeneidad del área de contenido.

Entre más heterogénea sea el área de contenido de la que se


extrae la muestra de ítems, será menor la consistencia entre
ítems.

Un procedimiento de estimación de la confiabilidad de una prueba

formulada en términos de la correlación entre ítems, pude

expresarse como (Sperman-Brown):


k. rij
rkk
1 (k 1 ) . rij

Se observa que la confiabilidad no solo depende del grado de


relación que existe entre los puntajes estimados por el instrumento
y los verdaderos puntajes, también depende del número de ítems
que componen la prueba.

Es posible determinar el número de ítems necesarios en una


prueba para lograr una confiabilidad deseada. Esta relación queda
expresada como:

 . 1  0
k
 0. ( 1  )

donde  0
representa la confiabilidad de una prueba de “m” ítems,

 la confiabilidad deseada y k el número de veces que la prueba


de “m” ítems tendría que ser alargada para alcanzar la
confiabilidad deseada.

Medidas de confiabilidad entre evaluadores


En situaciones en las que estamos siendo evaluados, por lo
general nos gustaría creer que sin importar quién esté haciendo la
evaluación, seríamos evaluados en la misma forma.

Por desgracia, en algunos tipos de pruebas bajo algunas


condiciones, la puntuación puede ser más una función del
evaluador que de alguna otra cosa. Esto se demostró cuando
unos investigadores presentaron una composición de inglés de un
alumno a una convención de maestros, y fue calificada por
voluntarios, con calificaciones que variaron desde un mínimo de 50
hasta un máximo de 98 (Starch y Elliott, 1912)

Quizá la forma más simple de determinar el grado de consistencia


que existe entre evaluadores en la calificación de una prueba es
calcular un coeficiente de correlación, un coeficiente de
confiabilidad entre evaluadores.

Suponiendo, por ejemplo, que se aplicó una prueba de 30 ítems a


un sujeto y fue calificada por dos evaluadores A y B, la
confiabilidad se puede calcular usando la siguiente formula (Por
mitad de Speraman-Brown):
2. rAB
rkk
1 rAB

Si se encontrara que el coeficiente de confiabilidad es, digamos,


0.90, esto significaría que el 90% de la varianza en las
puntuaciones asignadas por los evaluadores se deriva del rasgo
medido, mientras que el 10% podría atribuirse a factores distintos
del rasgo medido, es decir, producidos por fuentes de error. En
tales casos, se correlacionarían las puntuaciones obtenidas por los
dos evaluadores, usando la r de Pearson o la rho de Spearman,
dependiendo de la escala de medición de la puntuación de la
prueba.

La estadística kappa. La estadística kappa fue diseñada en un


principio para ser usada en el caso en el que los evaluadores
hacen estimaciones usando escalas nominales de medición
(Cohen, 1960). La estadística kappa fue modificada después por
Fliess (1971) para ser usada con múltiples evaluadores. Por lo
general se ha recibido bastante bien la estadística kappa como
una medida de confiabilidad entre evaluadores (Hartmann, 1977).

OTRAS FORMULAS PARA LA ESTIMACIÓN DE LA


CONFIABILIDAD
1. Spearman-Brown

k. rij
rkk
1 (k 1 ) . rij

2. Alpha de Cronbach

2
Si
k . 1 i
rkk
k 1 Sy
2

3. Guttman

2 2
Spares Simpares
rkk 2. 1
2
Sy

La naturaleza de la prueba

Relacionadas en forma muy estrecha con consideraciones


relativas al propósito y uso de un coeficiente de confiabilidad están
las consideraciones relacionadas con la naturaleza de la prueba
en sí. Aquí se incluyen consideraciones como:
1) Si los ítems de prueba son de naturaleza homogénea o
heterogénea,

2) Si se supone que la característica, capacidad o rasgo que se


está midiendo es dinámico o estático,
3) Si el rango de puntuaciones de la prueba está restringido o no,

4) Si la prueba es de velocidad.

El estudio de decisión está diseñado para indicar al administrador


de la prueba cómo deberían emplearse las puntuaciones de
prueba y qué tan fiables son esas puntuaciones como base para
las decisiones, dependiendo del contexto de su uso. ¿Por qué es
tan importante esto?

Cronbach (1970) lo explicó:

La decisión de que un estudiante ha completado un


curso o que un paciente está listo para la terminación
de la terapia no debe ser influida en forma seria por
errores aleatorios, variaciones temporales en el
desempeño o la elección de preguntas del examinador.
Una decisión errónea puede ser irreversible y puede
dañar a la persona o a la comunidad...
La investigación, también, requiere una medición fiable.
Es probable que la varianza de error grande enmascare
un resultado importante desde el punto de vista
científico. Tomar una medida de mejor calidad
incrementa la sensibilidad de un experimento en la
misma forma en que lo hace el incremento en el
número de sujetos.

Confiabilidad y puntuaciones individuales

El coeficiente de confiabilidad ayuda al elaborador de la prueba a


construir un instrumento de medición adecuado y al administrador
a seleccionar una prueba adecuada. Sin embargo, la utilidad del
coeficiente de confiabilidad no termina con la construcción y
selección de la prueba. El administrador de la prueba tiene otra
estadística descriptiva relevante para la interpretación de la
prueba, dispone de una formula que estima el error estándar de
medición, ésta útil para describir la cantidad de error que hay en
una prueba o escala de medición.
El error estándar de medición

De acuerdo con el modelo de de la teoría clásica no hay forma de


conocer la puntuación verdadera, el puntaje observado de una
prueba es sólo una estimación. Sin embargo, si se conoce (o
puede calcularse) la desviación estándar para la distribución de
puntuaciones de prueba (2y) y si se conoce (o puede calcularse)
una estimación de la confiabilidad de la prueba, puede
determinarse una estimación del error estándar de una puntuación
particular (es decir, el error estándar de medición) con la siguiente
fórmula:

e y. 1 rkk

donde  e es igual al error estándar de medición,  y es igual a la


desviación estándar de las puntuaciones de prueba por el grupo
de personas que la respondieron y rkk es igual al coeficiente de
confiabilidad de la prueba. El error estándar de medición nos
permite estimar el rango en que es probable que se encuentre la
puntuación verdadera, con un nivel de confianza específico.
Si, por ejemplo, una prueba de ortografía tiene un coeficiente de
confiabilidad de 0.84 y una desviación estándar de 10, entonces:

e 10. 1 0.84 = 4

Para usar el error estándar de medición que estime el rango de la


puntuación verdadera, hacemos una suposición: si el individuo
fuera a presentar una gran cantidad de pruebas equivalentes, las
puntuaciones en esas pruebas tenderían a estar distribuidas de
manera normal con la puntuación verdadera del individuo igual a la
media.

La mejor estimación disponible respecto a la puntuación verdadera


del individuo en la prueba es la puntuación de prueba ya obtenida.
Por lo tanto, si un estudiante logró una puntuación de 50 en una
prueba de ortografía, y si la prueba tenía un error estándar de
medición de 4, entonces usando 50 como el punto estimado, se
puede determinar un intervalo confidencial que el verdadero
puntaje del siguiente modo:

Li x z. e

Ls x z. e
Es decir

Li = 50 – 1.96*4 ≈ 42

Ls = 50 + 1.96*4 ≈ 58

Existe un 95% de seguridad de que la puntuación verdadera esté


contenido entre 42 y 58

También podría gustarte