Está en la página 1de 4

2 UNIDAD: CONFIABILIDAD

Concepto: Es la consistencia de las calificaciones obtenas por la misma persona


cuando se le aplica el mismo test o una forma equivalente o travs del estudio de la
estructura interna de la prueba.
Utilidad: Nos permite determinar cunto de la variabilidad de las puntuaciones es
debido al error de medicin y cuanto a las verdaderas diferencia.
Formula general de la confiabilidad: x=t+e
Leyenda:
X: Calificaciones obtenidas en la prueba.
T: Calificacin real (la calificacin que obtendra la persona si el test efectuara
mediciones sin error).
E: Error de medicin (es cualquier variable que produzca inconsistencia en las
mediciones).
Error -> una variable introduce error si: 1) Produce faltas en la consistencia de las
calificaciones de una situacin a otra (afecta a la confiabilidad). 2) la variable no tiene
que ver con la finalidad de la medicin (afecta la validez).
Causas de los errores
1. Errores dentro de la prueba:
-Lmites de tiempo restrictivos que fomentan el apresuramiento de la lectura y las
respuestas.
- Reactivos difciles que hacen al sujeto adivinar y generar respuestas al azar.
- Ambigedad en la redaccin de un reactivo o de las instrucciones.
- La longitud de la prueba (generalmente mientras ms larga es la prueba es ms
confiable).
- Muestreo de reactivos (esto aplica a prueba y equivalentes en donde se estudia
reactivo por reactivo).
2. Errores dentro de la aplicacin de la prueba:
- Interrupciones inesperadas.
- Errores en el marcaje de la hoja de respuesta.
- Errores en el registro de tiempo.
- Falta de comprensin de los instrumentos.
- Condiciones en el lugar de aplicacin.
- Mala impresin de la prueba.
3. Errores del sujeto evaluado:
- Motivacin para hacer la prueba lo mejor o lo peor posible.
- Aprendizajes y experiencias previas con las pruebas.
- Variables fisiolgicas.
4. Errores en la clasificacin e interpretacin de la prueba:
- Errores en el marcaje del protocolo y el manejo del manual de correccin.
- Cuando la calificacin o interpretacin depende del criterio, pericia y opinin del
evaluador, entonces, existe mayor probabilidad de error.
- Relacin evaluador-evaluado.
Tipos de confiabilidad
1.- Estabilidad o test retest
2.- Equivalencias o formas paralelas
3.- Estabilidad y equivalencia
4.- Particin por mitades

Varianza de error
Tiempo
Contenido
Tiempo y Contenido
Contenido

4.- Medidas de consistencia interna


6.- Interobservaciones

Homogeneidad de contenido
Inferencias entre observadores

1. Estabilidad o test retest: es un procedimiento que implica una prueba aplicada


en dos ocasiones a un solo grupo de sujetos, con un tiempo mnimo de un mes y un
mximo de 6 meses entre aplicaciones para posteriormente obtener un coeficiente de
correlacin entre el par de calificaciones obtenidas para cada sujeto.
Utilidad: Se utiliza cuando se desea tener alguna evidencia de la estabilidad de las
calificaciones en el tiempo, sobre todo cuando la prueba sea usada para tomar
decisiones a largo plazo.
Paradigma: A1< (tiempo: 1-6 meses) >A2
Ventajas:
- Su sencillez a nivel material (requiere una sola prueba).
- Nos indica hasta qu punto los instrumentos de una prueba, puede generalizar en
distintos ocasiones.
Desventajas:
- Fluctuaciones al azar de una puntuacin a otra.
- Distintas fuentes de varianza de error (memoria y practica; tensin emocional, fatiga,
enfermedad, motivacin y condiciones del lugar de aplicacin.
Requisitos para su uso:
- Dependiendo del caso, el rasgo a medir debe ser estable en el tiempo.
- Lo medido no debe ser susceptible a ser susceptible a ser afectado por la memoria y
la prctica.
- Evitar el aprendizaje diferencia entre las aplicaciones.
2. Equivalencia o formas paralelas: el evaluador debe generar tantos tems como
sea posible para construir 2 pruebas equivalentes. Ambas pruebas se administran al
mismo grupo de sujeto en la misma sesin o con un mximo de 2 semanas entre
aplicaciones. Para el par de calificaciones obtenidas para cada sujeto se obtiene el
coeficiente de correlacin.
Utilidad: Nos indica hasta qu punto las pruebas son semejantes o equivalentes en su
contenido. Paradigma: A1 (o-2 semanas) B1
Ventajas:
- A pesar que disminuye el impacto de la memoria se mantiene el afecto de la practica.
- Necesita menos tiempo para obtener una estimacin de la confiabilidad (max 2
semanas).
Desventajas: La principal fuente de varianza de error se encuentra en la equivalencia
de las pruebas.
Requisitos para su uso:
- El rasgo o constructo a medir debe permitir la realizacin de pruebas equivalentes.
Una prueba equivalente es aquella que posee igual presentacin, formato,
instrucciones, nivel de dificultad, lmites de tiempo y contenido.
- El rasgo a medir debe ser estable en tiempo y contenido.

3. Estabilidad y equivalencia: Este mtodo influye la creacin de dos pruebas


equivalentes en contenido, presentacin, tiempo, etc. Ambas pruebas son
administradas al mismo tiempo entre aplicaciones de 1 a 6 meses para luego obtener
un coeficiente de correlacin.
Utilidad: Nos permite determinar cuan estable en el tiempo son las calificaciones y
cuan equivalente son las pruebas en su contenido. Paradigma: A1 (1-6 meses) B1
Ventajas: Debido a que combina los mtodos anteriores podemos esperar coeficiente
de correlacin ms _______ pero sin embargo, prueba ms _________ psicomtricamente.
Desventajas: Influye las fuentes de error de los mtodos antes sealados y el tiempo
de reaplicacin depende del rasgo a medir.
4.- Particin por mitades: Se elabora una sola prueba y se aplica en una sola
ocasin, y en base a las respuestas de los evaluados, se obtienen 2 puntuaciones para
cada uno a travs de la particin de la prueba en 2 mitades equivalentes.
Utilidad: Proporciona una evidencia de la equivalencia o adecuacin de la muestra de
reactivos. Paradigma: A1
Ventajas:
- La separacin de los reactivos puede realizarse mediante la separacin de los tems
pares e impares; esto es til cuando los tems estn dispuestos en orden de dificultad.
Cuando no es as, debe cuidarse que quede igual nmero de tems en cada dimensin
en cada mitad.
- Se requiere una prueba y una sola aplicacin (es ms econmica) en funcin a los
costos y el tiempo.
Desventajas:
- Esta tcnica no puede estudiar la evaluacin en el tiempo de un rasgo.
- Esta tcnica es ms sensible a la longitud de la prueba (se recomiendo utilizar en
pruebas que tenga a 30 o ms tems).
Requisitos para su uso: Como la confiablidad de la prueba depende de su longitud,
la confiabilidad calculada ser ms baja que la esperada para la prueba total; por ello,
el coeficiente de correlacin se corrige con la formula de Spearman-Grown: rxx: 2 *
r/1+e
5.- Medidas de consistencia Interna: es un mtodo que trata de determinar la
precisin de un test o de un subconjunto de tems, para medir un rasgo o constructo
terico homogneo.
Utilidad: nos indica el grado en que estn relacionados recprocamente todos los
reactivos de la prueba, se recomienda para las pruebas que miden en solo factor dado
que el ndice obtenido refleja la homogeneidad de la prueba. Paradigma: A1
Ventajas: Solo es necesaria una aplicacin de la prueba en una sola ocasin a un solo
grupo de sujeto.
Desventajas: Esta tcnica no puede estudiar la evolucin en el tiempo de un rasgo.
Requisitos para su uso: Solo debe utilizarse en pruebas que miden un solo factor,
dado que el ndice obtenido refleja la homogeneidad de la prueba para medir
consistencia interna.
Las tcnicas ms populares son (no se usa coeficiente de correlacin):

1.- Alfa de Cronbach: Se utiliza para escalas, es decir, para pruebas en donde la
respuesta del sujeto debe ubicarse en un punto de un continuo; se utiliza para
establecer el grado en que los diferentes tems estn midiendo una nica dimensin o
rasgo. Si el resultado arroja un valor alto (cercano a 1) entonces los tems estn
fuertemente relacionados entre s; pero si asume valores cercanos a 0, entonces los
tems son independientes.
2.- Kuder Richardson: Se utiliza para pruebas cuyos tems son dicotmicos.
3.- Anlisis Factorial: Es una tcnica estadstica que nos permite determinar el
numero mnimo de factores que se necesitan para explicar las intercorrelaciones entre
un grupo de variable; si un solo factor es suficiente para explicar la variacin de la
ejecucin de todos los reactivos entonces la prueba ser homognea y si se requiere
ms de un factor entonces la prueba ser heterognea.
6.- Interobservadores: En este caso dos evaluadores aplican, pautean y corrigen una
misma prueba de manera independiente a un mismo grupo de sujetos. Una vez
realizada la evaluacin se obtiene ndice de acuerdo entre los evaluadores.