Está en la página 1de 9

Confiabilidad de los instrumentos de evaluación en educación

Dr. Santiago Salas

La evaluación en educación se hace mediante algún instrumento de evaluación,


comúnmente conocido como prueba, la aplicación de un instrumento de
evaluación tiene como objetivo “medir” el grado del logro de objetivos para cada
alumno en específico.

Medir es la acción de comparar una unidad de medida (un metro) con un objeto
(una mesa), en la acción de medir se cometen errores de medición.

El error de medición se define como la diferencia entre el resultado de la medición


y el valor verdadero. Los errores se pueden estimar, prever, disminuir mediante
calibraciones.

La confiabilidad de un instrumento de evaluación educativa es la relación entre el


valor verdadero de lo que se quiere medir y su error, estadísticamente se trata de
estimar o calcular un índice de correlación o asociación.

La confiabilidad no es una propiedad del instrumento de evaluación en sí misma,


más bien es una relación entre el instrumento y los sustentantes, la confiabilidad
de un mismo instrumento varía según los sustentantes (a quienes se les aplica el
instrumento), en un examen “abierto”, el instrumento mediante calibraciones
aumenta su confiabilidad. En general se dice que a mayor variabilidad menor
confiabilidad.

La Teoría Clásica de los Test

Para Charles Spearman (Teoría clásica de los test) la puntuación que obtiene una
persona en un examen se compone de la puntuación verdadera (V) y del error de
medida asociado al instrumento (E).

La confiabilidad es la relación entre las varianzas de las puntuaciones verdaderas


y las obtenidas con el instrumento de evaluación.

v

x

Donde:

 Es la confiabilidad.

 v Es la varianza de las puntuaciones verdaderas.


 x Es la varianza de las puntuaciones obtenidas mediante

El instrumento de evaluación.

Podemos deducir que

e
  1
x

Donde:

e Es la varianza del error

En virtud de que no es posible conocer la puntuación verdadera y por tanto el


error, existen técnicas para estimarlo.

El coeficiente de confiabilidad (  ) es la correlación entre las puntuaciones


obtenidas por las personas en dos exámenes paralelos, si esto fuera posible.

Existen varios coeficientes de correlación:

 El coeficiente de correlación de Spearman, ρ (ro) es una medida de la


asociación o interdependencia entre dos variables aleatorias continuas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo
orden. El estadístico ρ viene dado por la expresión:

6D 2
  1
N ( N 2  1)

Donde:

D es la diferencia entre los correspondientes estadísticos de orden

de x - y.

N es el número de parejas de datos.

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente


aproximación a la distribución t de Student:

t
(1   2 )(n  2)

La interpretación de coeficiente de Spearman es igual que la del coeficiente de


correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas
o positivas respectivamente, cero significa no correlación, pero no independencia.

 Correlación de Pearson

El coeficiente de Pearson es la correlación entre dos variables:

 xy
 x, y , 
 x y

Donde:

 x, y ,
es el coeficiente de Pearson

 xy
es la covarianza entre x, y

 x y
es el producto de las desviaciones estándar x por y

Podemos deducir que

E ( X   x )(Y   y )
 x, y, 
 x y

Otra forma de calcular el coeficiente es:

_ _
x y  nx y
rxy  i i
nsx s y

O bien:

nxi yi  xi yi


rxy 
nxi2   xi  nyi2   yi 
2 2
El valor del índice de correlación varía en el intervalo [-1,1]:

 Si r=1, existe una correlación positiva perfecta. El índice indica una


dependencia total entre las dos variables denominada relación directa:
cuando una de ellas aumenta, la otra también lo hace en proporción
constante;
 Si 0 < r < 1, existe una correlación positiva;
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que
las variables son independientes: pueden existir todavía relaciones no
lineales entre las dos variables;
 Si -1 < r < 0, existe una correlación negativa; y
 Si r=-1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando
una de ellas aumenta, la otra disminuye en proporción constante.

Formas paralelas

Para aplicar éste método se requiere que se utilicen dos pruebas o instrumentos
de evaluación paralelos, esto es, que midan lo mismo de forma diferente. Después
se comparan las puntuaciones, calculando el coeficiente de correlación de
Pearson. Esta correlación será, la confiabilidad del instrumento. Si la correlación
es alta, se considera que hay una buena confiabilidad.

La dificultad de este procedimiento radica en conseguir que dos instrumentos de


evaluación sean realmente "paralelos", dada la dificultad que supone realizar dos
pruebas que midan exactamente lo mismo, pero con diferentes reactivos.

Test-retest

El método Test-retest consiste en aplicar el mismo instrumento de evaluación dos


veces a las mismas personas. El coeficiente de confiabilidad la correlación de
Pearson entre los puntajes. Se puede considerar como un caso específico de
formas paralelas, dado que evidentemente un test es paralelo a sí mismo. Al
resultado obtenido se le puede denominar coeficiente de estabilidad, al servir de
indicador de hasta qué punto son estables las mediciones realizadas durante la
primera aplicación del test.

Dos mitades

Una vez obtenidas las puntuaciones resultado de la aplicación del instrumento de


evaluación, el instrumento de evaluación se divide en dos mitades, se procede a
calcular la correlación entre las dos mitades como si se tratara de dos
instrumentos diferentes. El resultado obtenido será un indicador de la consistencia
interna del test. La principal dificultad de este sistema es asegurarse de que
ambas mitades sean efectivamente paralelas. Un sistema habitual es dividir el
instrumento de evaluación entre los reactivos pares y los impares; no es
recomendable dividirlo sin más por la mitad, dado que muchos instrumentos
muestran un incremento gradual de la dificultad de sus reactivos.

Otros métodos basados en la consistencia interna

El Alfa de Cronbach es un coeficiente que sirve para medir la confiabilidad, la


denominación Alfa se debe a por Cronbach quien la utilizó por primera vez en
1951, aunque sus orígenes se encuentran en los trabajos de Hoyt (1941) y de
Guttman (1945).

El alfa de Cronbach permite cuantificar el nivel de confiabilidad de una escala de


medida para la magnitud inobservable construida a partir de las n variables
observadas.

Puede calcularse de dos formas: a partir de las varianzas (alpha de Cronbach) o


de las correlaciones de los reactivos (Alpha de Cronbach estandarizado). Hay que
advertir que ambas fórmulas son versiones de la misma y que pueden deducirse la
una de la otra. El alpha de Cronbach y el alpha de Cronbach estandarizados,
coinciden cuando se estandarizan las variables originales (reactivos).

A partir de las varianzas, el alfa de Cronbach se calcula así:

 k   i 1si 
k 2
  1  2 
 k  1  st 

Donde

 es la varianza del reactivo i. (Pi)(1-Pi),


 es la varianza total y
 es el número de reactivos.

A partir de las correlaciones entre los ítems

A partir de las correlaciones entre los ítems, el alfa de Cronbach estandarizado se


calcula así:

kp
 est 
1  p(k  1)

Donde
 es el número de reactivos
 es el promedio de las correlaciones lineales entre cada uno de los
reactivos, se tendrán 2/k(k-1) pares de correlaciones.

Cuanto más se aproxime a su valor máximo, 1, mayor es la fiabilidad de la escala.


Además, en determinados contextos y por tácito convenio, se considera que
valores del alfa superiores a 0.7 o 0.8 (dependiendo de la fuente) son suficientes
para garantizar la fiabilidad de la escala..

Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a


casos particulares de alfa. KR20 se aplica en el caso en que los reactivos del
instrumento de evaluación sean dicotómicos, y KR21, en el caso de que además de
ser dicotómicos, tengan la misma dificultad.

La fórmula 20 (KR-20) de Kuder-Richardson calcula una medida de confiabilidad


de la consistencia interna para las medidas con opciones dicótomas (acierto -
error), publicada por primera vez en 1937. Es análoga al α de Cronbach, con la
diferencia de que la de Cronbach se utiliza para medidas (continuas) no-
dicótomas. Un alto coeficiente KR-20 (e.90) indica una prueba homogénea.

n st2  pq
rtt 
n  1 sd2

Donde:

n es el número de reactivos
s son las varianzas
p es la probabilidad de ocurrencia (éxito)

Método de Rulon (1939) y Guttman (1945): Una estimación de la confiabilidad de


un instrumento de evaluación consiste en fragmentar el instrumento (podría ser en
mitades que no suponen varianzas iguales), la confiabilidad descansa en el
cálculo de la varianza de error:

sd2
rtt  1  2
st

Donde:

rtt es el coeficiente de confiabilidad del instrumento de evaluación


sd2 es la varianza de una parte del instrumento

st2 es la varianza de la otra parte del instrumento

Para fines de facilitar los cálculos podría utilizarse la siguiente fórmula:

rtt  2 1  ( sa2  sb2 ) / st2 

En donde los subíndices a y b son las partes en que se divide el instrumento de


evaluación

T es el instrumento completo

S2 representan las varianzas

Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la


consistencia interna, equivalente a la de Rulon.

La confiabilidad puede calcularse con medidas de correlación y pruebas de


significación, el caso de estadística no paramétrica tenemos las siguientes
medidas:

METODOS NO PARAMÉTRICOS

Coeficiente de contingencia C:

Este coeficiente es una medida del grado de asociación, particularmente útil


cuando tenemos solamente información clasificatoria (escala nominal) acerca de
uno o varios de los atributos, se usa cuando la información disponible consiste en
una serie no ordenada de frecuencias.

Para su cálculo se utilizan las siguientes fórmulas:

2
C
N  2

Donde: 
2

r k (oi , j  ei , j )2
2   
i 1 j 1 ei , j

Donde:
o son los valores observados

e son los valores esperados.

Coeficiente de correlación de rango de Spearman: 

Conocido como coeficiente  (Rho), es ampliamente conocido, es una medida de


asociación que requiere que ambas variables sean al menos medidas en escala
ordinal, de acuerdo con Kendall, el coeficiente puede calcularse con la siguiente
fórmula:

xy
r
x 2y 2

Coeficiente de correlación de rango de Kendall:  (Tau)

Es una medida de asociación semejante a rs para una serie de datos en los que
las variables se mide en forma ordinal, una ventaja de  sobre rs es que la
primera puede generalizarse a un coeficiente de correlación parcial, puede
calcularse mediante:

S

1 N ( N  1)
2

 xy. z
Coeficiente de correlación parcial de rango de Kandall:

Este coeficiente permite eliminar la asociación no determinística mediante una


tercera variable, se puede calcular mediante la fórmula:

AD  BC
 xy. z 
( A  B)(C  D)( A  C )( B  D)

Coeficiente de concordancia de Kendall: W

Este coeficiente relaciona varias (no dos) ordenaciones de personas


(sustentantes), se calcula con la siguiente fórmula:

kW  1
rSav 
k 1

OTROS COEFICIENTES DE CONFIBILIDAD


Coeficiente beta (β): Propuesto por Raju (1977) para calcular la confiabilidad de
una evaluación compuesta por la aplicación de diversos instrumentos. En los
casos en los que se desea calcular la confiabilidad de una evaluación, se trata a
los distintos instrumentos como si fueran los reactivos de un único instrumento y
se calcula el coeficiente alfa global. El coeficiente beta permite sortear esta
infraestimación.

Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los


reactivos, son indicadores de la consistencia interna similares al coeficiente alfa. El
coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coeficiente
omega fue desarrollado por Heise y Bohrnstedt (1970).2

También podría gustarte