Está en la página 1de 6

TEÓRICO 7.

CONFIABILIDAD

- Para entender el concepto de confiabilidad, hay que hablar del “error de medición”; en la medición
nos encontramos con tres tipos de errores:
o Error de medición
(aleatorios)
 Es la contracara de la confiabilidad.
 Son aquellos sin posibilidad de ser controlados, y su causa es al azar. Y no se da
siempre en el mismo sentido: a veces se da de modo que favorece el rendimiento del
sujeto en el test y otras veces lo perjudica (en diferentes sesiones o en la misma). No es
algo negativo, sino que la medición no puede darse sin este error.

OM
 Tiene tres orígenes posibles:
 El examinado: puede estar cansado o no, interesado o no en la tarea de
evaluación; puede haber un rapport mejor o peor con el examinador; puede estar
ansioso, motivado, etc. Esto hace que su rendimiento varíe minuto a minuto, y
que varíe entre una sesión/entrevista de aplicación y la siguiente.
 Examinador: no es lo mismo un examinador que tomó un test mil veces que uno

.C
que lo hace por primera vez; uno que sea más contenedor que otro más
distante. Un examinador podría verse afectado por crisis personales, estar de
muy buen humor, estar enfermo, etc. Así, introduce el error perjudicando o
DD
mejorando el rendimiento del sujeto.
 Ambiente: no es lo mismo trabajar en un ambiente con buena luz, en silencio,
etc., que en un ambiente donde la luz se nos corta, hay mucho ruido de afuera, y
todo tipo de distracciones.
 Estas tres fuentes producen el error de medición, el cual se da en toda medición.
 Afecta la confiabilidad: cuanto mayor error de medición tengo, ese test va a tener
LA

menos confiabilidad. Cuanto menor sea este error, podemos tener más confianza en el
resultado que ese test de.

o Error sistemático de construcción


(propiamente dicho)
FI

 Afecta a todos los sujetos.


 El error está en el test en sí.
 Afecta las respuestas; cuando se le pregunta mal en un test, el examinado responde
cualquier cosa porque no entiende lo que le están preguntando. Ej: si tengo que


responder por V o F a la afirmación “soy tranquilo y colaborador” el examinador no va a


saber que poner porque puede ser colaborador pero no una persona tranquila.
 Ese es un error que se va a acumular, no va a ser azaroso y va a afectar la validez
porque si pregunto mal y me responden cualquier cosa, dejo de estar seguro de qué
estoy midiendo.
 Su detección es fácil porque son los propios examinados los que se quejan sobre estas
cuestiones. La solución es detectar esas quejas y mejorar los ítems.

o Error sistemático para un subgrupo poblacional


(sesgo)
 Afecta solo a un subgrupo de la población. Ocurre cuando se utilizan materiales que
no están hechos para todos. Ej: doy un test de memoria cuyas palabras para recordar
y repetir es sobre actividades deportivas. Tendrán mejor rendimiento los que estén más

Este archivo fue descargado de https://filadd.com


familiarizados e interesados en los deportes. Esto no significa que los otros tienen mala
memoria, sino que va a ser subevaluado por razones ajenas a la variable “memoria”.
 O porque está culturalmente determinado (lenguaje verbal e icónico que se utiliza). Los
que no se familiaricen con el lenguaje de ese test se verán afectados.
 Se producen resultados erróneos por razones ajenas a la variable.
 Afecta la validez porque al contestar la persona cualquier cosa (por no saber bien de
qué le están hablando), la pregunta sobre “qué estamos midiendo” no puede ser
respondida porque no estamos seguros de eso.

- CONFIABILIDAD:

OM
o Es la confianza que podemos tener en los resultados que nos da un test; la confianza que nos
ofrece una medición. Esperamos que sea: inalterable, consistente, coherente, estable en el
tiempo.
o Cuanto menor error de medición hay, mayor confiabilidad del test hay.

o Aspectos de la confiabilidad:
 Estabilidad temporal (r):

.C
 Test-retest:
o Administrarle el test a una muestra de sujetos y volver a
administrarlo luego de un intervalo (no hay número fijo de tiempo).
DD
o Debe ser breve pero no tanto (para que el sujeto no pueda recordar las
respuestas); ni tan largo como para que el niño madure y sus respuestas
cambien y, por tanto, no se pueda medir la estabilidad temporal de las
puntuaciones, sino que se mediría la evolución del niño.
o La estabilidad temporal o consistencia entre el test y retest, se expresa
mediante el coeficiente de correlación de pearson (r):
LA

 Esta expresa el grado de correspondencia entre 2 conjuntos de


datos, midiéndose una misma variable, indicando la consistencia
de los datos.
 r=1  correlación perfecta [no hubo errores que modificaron los
FI

resultados].
 r=0  correlación nula [presencia de errores].
 r=0,50  correlación media.
 Puede asumir un signo positivo o negativo dependiendo de si es
directa (+) o inversa (-). En el caso de la confiabilidad debería


ser siempre directa; entonces, cuanto más cerca de 1 está,


mayor estabilidad temporal indica ese procedimiento de test-
retest.
o Pero no siempre se puede establecer la estabilidad temporal, y no
siempre se puede hacer un test-retest porque los sujetos pueden
recordar las respuestas, o porque lo que se preguntó puede estar sujeto
al aprendizaje, o porque no se puede testear a los sujetos dos veces.

Este archivo fue descargado de https://filadd.com


 Consistencia:
 La coherencia entre las puntuaciones que arrojan los distintos grupos de ítems
dentro de una escala o de una subescala.
 Tienen que ser consistentes al interior, es decir, dentro de una misma
dimensión debe dar mediciones coherentes entre sí.

 Homogeneidad:
 Debe haber homogeneidad de los ítems y por tanto, en las mediciones que
se generan a partir del contenido de esos ítems.
 Se miden mediante el cálculo de correlaciones múltiples (NO es análisis
factorial) entre todos los ítems y todas las respuestas de todos los sujetos que

OM
formaron esa muestra a la que se examinó.
 Se calcula mediante el coeficiente alfa de Cronbach, el coeficiente alfa ordinal;
se puede hacer por división por mitades tratando una mitad del test como si
fuera el test y la otra mitad como si fuera el retest. Y se pueden usar otros
índices como el Kuder-Richardson (KR), la fórmula Guttman, Spearman-Brown,
los alfas por mitades.

.C
 Todos estos índices se interpretan de la misma manera, deben ser todos
positivos y lo más cercanos a 1 posible. Un coeficiente de confiabilidad en
términos de estabilidad temporal, de consistencia y de homogeneidad se
considera:
DD
o A partir de 0,70: aceptable.
o A partir de 0,80: muy bueno.
o A partir de 0,90: excelente.

 Consistencia entre evaluadores (r):


LA

 Dos evaluadores independientes deben llegar a las mismas conclusiones.


 Se hace solo cuando la puntuación de un test está más sujeta a la opinión (ej:
Bender o DFH). Cuando eso sucede, se hace un procedimiento de consistencia
entre evaluadores, que independientemente analizan y puntúan los mismos
protocolos. Si la grilla de puntuaciones es clara y está bien hecha, ambos
FI

evaluadores deberían obtener una correlación positiva sobre el mismo lote de


protocolos y lo más cercana a 1 posible.
 Las instrucciones deben ser tan claras que debe quedar muy poco sujeto a
la subjetividad de cada evaluador.


 Es un procedimiento hecho para mejorar las claves de puntuación; no se hace


cuando las claves de puntuación son claras, ej: cuando contamos el número de
V y F.

Este archivo fue descargado de https://filadd.com


o Métodos para determinar la confiabilidad:

 Una sola aplicación: reunimos una muestra de sujetos y podemos tomar en 1 sola

OM
sesión cierta cantidad de protocolos. Los procedimientos que podemos usar son:
 CONSISTENCIA INTERNA:
o Calculamos, por ej: el alfa de Cronbach y ya está (dividimos a la misma
muestra en dos así una actúa como test y otra como retest). No los
vemos más a los sujetos.
o Evaluamos la consistencia y la homogeneidad.

.C
 DIVISION POR MITADES:
o Tomamos el test a la muestra de sujetos, pero una vez que los sujetos se
DD
van, los dividimos en dos mitades cuando ingresamos los datos en la
base de datos (no lo dividimos al administrarlo, sino luego).
o Estas dos mitades tienen que ser homogéneas, apareadas en contenido
y dificultad.
o Así, se establece la correlación entre la primera mitad y la segunda.
o Si la correlación es alta y positiva (cerca de 1), estamos ante una buena
LA

confiabilidad.
o Evaluamos la consistencia interna del instrumento y homogeneidad.
o Se aplica la fórmula Spearman-Brown para estimar la confiabilidad del
instrumento.
FI

 FORMAS PARALELAS SIN INTERVALO:


o Es anticuado porque es más fácil trabajar con procedimientos de
consistencia interna y de división por mitades.
o Implica crear dos versiones del test que sean gemelas pero no tanto.


Pero elaborar esto es difícil, con mucho costo y tiempo.


o Se evalúa la influencia de errores aleatorios.
o Los dos test se miden uno atrás del otro, y se establece la correlación
entre ellos. De esta manera, se estaría evaluando la consistencia entre
esas dos formas paralelas (entre la forma 1 y la forma 2).

 FORMULAS KUDER-RICHARDSON:
o Evalúa la homogeneidad del test.
o Calcula la correlación entre los ítems de una escala.
o El coeficiente KR-20 (es más anticuado) se usa cuando se desea
determinar la consistencia entre ítems dicotómicos y no ordinales.

Este archivo fue descargado de https://filadd.com


 COEFICIENTE ALFA DE CRONBACH:
o Es más aceptado.
o Puede usarse en ítems no dicotómicos como el Likert (nivel ordinal).
o Busca obtener una estimación de la confiabilidad de la consistencia
interna.

 ENTRE EVALUADORES:
o Una técnica psicométrica confiable debe arrojar los mismos resultados
independientemente de quien lleve a cabo la evaluación.
o Se utiliza cuando la grilla de puntuación está sujeta más a la opinión o
elementos subjetivos que puede aportar el evaluador.

OM
o Se utiliza este procedimiento para mejorar esa grilla de evaluación hasta
que se llega a un acuerdo tan alto que casi no hay variación (coeficientes
de confiabilidad de 0,90 a 0,99, es decir, excelentes).
o Si medimos la consistencia entre evaluadores, acá ya estamos viendo la
homogeneidad de los criterios de evaluación, y por ende, la claridad y
precisión que tienen las claves de puntuación.

.C
Dos aplicaciones:
DD
 TEST-RETEST:
o A la misma muestra de sujetos se le administró el test, y luego de cierto
intervalo le volvemos a administrar el mismo test a esa misma muestra y
correlacionamos los resultados.
o Si la correlación es alta y positiva, quiere decir que hay una buena
LA

confiabilidad en términos de estabilidad temporal.

 FORMAS PARALELAS CON INTERVALO:


o Tomamos en dos aplicaciones dos tests equivalentes pero no es son los
mismos: la forma A en una primera aplicación, un intervalo de tiempo, y
FI

la forma B en otra aplicación.


En este caso estamos investigando:
 la consistencia de las respuestas frente a diferentes muestras de
ítems (pero equivalentes).
 la estabilidad temporal.


- Etapas de construcción de un test:


o Diseño:
 Definición de la finalidad del test (a quienes está destinado, qué queremos evaluar y
con qué modelo teórico).
 Análisis del rasgo o atributo:
 Análisis racional: revisión en profundidad de toda la bibliografía producida y las
investigaciones realizadas. En base a eso se elige el modelo teórico que mayor
confirmación empírica tiene de sus hipótesis teóricas, y se diseña a partir del
mismo.

Este archivo fue descargado de https://filadd.com


 Análisis empírico: consultamos el campo, donde el fenómeno se desarrolla.

 Aspectos formales (¿será verbal? ¿computadorizado? ¿individual?, etc.).

o Construcción:
 Preparación de ítems:
 Redacción numerosa de ítems.
 Juicio experto: es el estudio de validez de contenido en donde 5 expertos
reciben el contenido de esos ítems junto con las definiciones teóricas de cada
una de las dimensiones que constituyen ese constructo según el modelo teórico.
Independientemente, opinan sobre la bondad o la inconveniencia de la

OM
formulación de esos ítems, y sobre cuáles hay que eliminar y cuáles no.
 Estudio piloto: se hace con una pequeña muestra de sujetos y a partir de sus
críticas se establecen adecuaciones lingüísticas de las consignas e ítems
(estudio de validez aparente).

 Estandarización:
 Administración de tipificación: una muestra muy grande de sujetos en donde

.C
estos deben ser homogéneos en cuanto a características socio-demográficas, a
los cuales se va a destinar el test. Esta administración nos dará datos que nos
permitirán hacer distintos análisis:
DD
o Análisis de ítems: analizar su capacidad discriminativa; ver si esos
ítems son capaces de diferenciar entre sutilezas y peculiaridades del
rasgo o atributo tienen de los distintos sujetos. Elimina los ítems que
ofrecen baja capacidad de discriminación.
o Validez y confiabilidad.
LA

o Normas y manuales: se confeccionan las normas estadísticas o


baremos para esa población específica que tiene una durabilidad en el
tiempo limitada (debe renovarse en el tiempo). Y se redactan los
manuales que enseñan a los profesionales a administrar y puntuar el
test.
FI

- Adaptación de un test:
Cuando hay que hacer esto, se deben determinar tres tipos de equivalencias:
o Conceptuales: que el concepto o constructo teórico que se quiere medir, tenga una definición


equivalente en la cultura donde se elaboró el test y en la cultura de destino.


o Lingüísticas: que los términos, íconos, videos e imágenes utilizados tengan una adecuación
lingüística para la cultura de destino, y un significado equivalente respecto de la cultura original
donde el test fue evaluado.
o Métricas: son todos los estudios de diseño y construcción que explicamos más arriba (estos
deben ser replicados en la población de destino). Las que fueron hechas en el exterior no
sirven, por eso tiene que volverse a hacer en la cultura destino.

Este archivo fue descargado de https://filadd.com

También podría gustarte