Confiabilidad y Validez de Los Tests

CONFIABILIDAD Y VALIDEZ DE
LOS TESTS
• La confiabilidad y la validez son dos propiedades que
deben cumplir los tests para que puedan ser utilizados
por la comunidad científica y puedan ser publicados.
• Los instrumentos de evaluación son sometidos a
diferentes pruebas o procedimientos antes de su
publicación para garantizar su calidad.
• Cuando se importan tests de otros países deben ser
sometidos en su adaptación a nuevas pruebas de
confiablilidad y validez en el nuevo país o ciudad. Se
pueden replicar estudios con la nueva población.
Confiabilidad
• Definición:
• 1) Es la confianza que puede tenerse en una
medición.
• 2) Es la consistencias de los puntajes
obtenidos por las mismas personas cuando
son evaluadas con una misma técnica o test
en situaciones diferentes, o con técnicas
equivalentes.
• Todos los tipos o procedimientos de confiabilidad se
refieren al grado de consistencia o concordancia
entre 2 puntajes obtenidos en forma independiente.
• Tal concordancia se puede expresar
estadísticamente mediante el coeficiente de
correlación o r de Pearson. (Es el grado de
asociación entre 2 variables). Este coeficiente que
se emplea en la práctica psicométrica tiene en
general un valor superior a 0 e inferior a 1 .
• Una correlación 0 indica ausencia de correlación.
Una correlación 1 es perfecta.
• Por el error de medición al haber siempre algunas
variaciones de los puntajes, por encima de r:0.75,
ya el test podría ser publicable. Cuanto más cerca
de 1 la correlación mayor confiablidad.
• Entonces, para determinar la confiabilidad de una
técnica psicométrica se calculan correlaciones.
Procedimientos:
• Todos ellos se deben administrar a una muestra

poblacional de sujetos.
• Test retest o repetición de la técnica: Consiste en la
repetición de la administración de la misma técnica
a una misma muestra de sujetos pasado cierto
tiempo en una segunda oportunidad. Se
correlacionan con r de Pearson los puntajes
obtenidos en la 1era. Y 2da. administración. Si el
coeficiente de correlación da por encima de r:0,75 el
test es confiable.
• En gral. Se sugiere que el intervalo entre la
repetición de las pruebas no exceda los 6
meses. En niños pequeños el tiempo debe ser
más corto por los cambios evolutivos y de
desarrollo (1 mes x ej,).
• Formas paralelas o equivalentes:
• Se preparan dos formas de la técnica de
evaluación, y se las administra a la misma muestra
de sujetos. Se calcula la correlación o r de Pearson
entre los puntajes obtenidos por las mismas
personas al responder a las dos formas. Cuanto
más cercano a 1 este coeficiente más confiable.
• La administración de las 2 formas puede ser sin
intervalo de tiempo o con intervalo de tiempo.
• Aquí es necesario analizar el tema llamado
“muestreo de los elementos” o “muestreo de
contenido”. Las 2 formas deben ser
equivalentes incluyendo los mismos tipos de
items y con un mismo grado de dificultad.
• División por mitades:
• El investigador administra en forma completa la
técnica a estudiar a una muestra de sujetos. O sea
que solo se requiere una sesión.
• A continuación y a solas el investigador divide la
técnica en 2 mitades homogéneas y comparables y
correlaciona los puntajes obtenidos mediante r de
Pearson o coef. de correlación. Cuanto más cerca de
1 el coeficiente, es más confiable la técnica.
• Acá el problema está en cómo dividir la técnica, las
2 mitades deben ser comparables y equivalentes.
A veces se dividen los items pares de los impares,
pero deben tener el mismo grado de dificultad.
Cada mitad debe representar a la técnica en su
totalidad, en todos sus aspectos significativos.
• A veces este procedimiento no se puede aplicar, x
cuando los items evalúan velocidad y precisión o a
veces atención y concentración.
• El coeficiente de correlación o r de pearson
que utilizamos en estos procedimientos lo
denominamos también coeficiente de
confiablidad.
• O sea que si este coeficiente da por encima de
0,75 el test es publicable.
• Confiiabilidad del puntuador o evaluador:
• El papel que juega el profesional que está
administrando y corrigiendo la prueba es una
importante fuente de error.
• Una forma de controlar el efecto en los
puntajes de la persona que evalúa la técnica
consiste en solicitar que una misma prueba
pueda ser evaluada por lo menos por 2
profesionales independientes.
• Errores de Medición.
• En Confiabilidad los errores de medición se
llaman asistemáticos o casuales. (Por ej por la
fatiga, no comprender la consigna, etc,).
• Luego veremos que en relación a la Validez
que luego expondremos, los errores de
medición se llaman sistemáticos o constantes
• Ejemplos de posibles errores de medición
asistemáticos o casuales en confiabilidad:
• 1)Características grales. De la persona evaluada
(capacidad lectora, capacidad para comprender
consignas, actitudes hacia la situación de
evaluación)
• 2)Características temporales de la persona
evaluada (fatiga, motivación, rapport, miedo,
desconfianza)
• 3)Características circunstanciales del
evaluador (inseguridad, cansancio, falta de
práctica, poco conocimiento sobre la técnica)
• 4)Características propias de la técnica que se
administra (mal impresa, mal redactada).
• Hay otros estudios de Confiabilidad, más
modernos y complejos por ej.
• *Fórmulas Kuder-Richardson: utilizado solo
cuando la forma de respuesta es de items
dicotómicos, por ej. Si-no / Verdadero- Falso.
• Se estudia la homogeneidad del test y el grado
de correlación de todos los items. (coef. KR)
• *Coeficiente Alfa de Cronbach: Cuando los
reactivos o items no son dicotómicos en sus
respuestas. (Son estudios más modernos).
• Es la estimación de la consistencia interna. Es
la medición de todas las correlaciones de
División por mitades que serán corregidas por
la fórmula de Spearman-Brown (Por ej. en
Escalas Likert)
VALIDEZ
• Otros procedimientos para poner a prueba una
técnica son los porcedimientos de Validez.
• Definicion: Según Anastasi, se refiere a qué mide y
cómo lo mide. O sea que la ténica mide realmente la
variable o constructo teórico que dice medir (Por ej. si
es un Test de Inteligencia en su diseño no puede
evaluar solo la memoria).
• La validez es la cualidad que más afecta el valor de una
técnica. Decimos que tiene alta validez si brinda la
información que el usuario necesita.
• Hay varios procedimientos para obtener la
validez:
• 1) V. Empírica o de criterio: Se subdivide en
Validez concurrente, Validez Predictiva, y
Validez retrospectiva.
• 2) V. de contenido
• 3) V. estructural o de constructo
• 4) Validez aparente o de facies
• Validez de Contenido:
• Supone básicamente un examen sistemático de los
contenidos o items de una técnica para ver que cubra
todas las dimensiones de la variable bajo estudio, que sea
una muestra representativa del constructo o variable que
se pretende medir Por ej: si diseño un examen que dice
que evalúa toda una materia, las preguntas no podrán ser
solo de Unidad 1, sino en su contenido abarcar las
distintas unidades del Programa de esa materia. La
muestra de items debe cubrir todos los aspectos o
dimensiones de la variable,
• Se utiliza el procedimiento de Juicio experto,
que consiste en mostrar la técnica a otros
profesionales calificados para preguntar su
opinión y estudio del diseño.
• Validez Empírica:
• Validez concurrente: Se tiene en cuenta cuando
otro test ya validado y en el mercado psi sirve
como criterio externo. Por ej.: se administra a
la muestra de sujetos el test que quiero validar
y luego se les administra una técnica ya
validada que mida lo mismo. Luego se analizan
las correlaciones de puntajes obtenidas (r de
Pearson) aquí llamado coeficiente de validez.
• Validez Predictiva:
• Interesa saber en qué medida a partir de los
puntajes obtenidos con técnicas, es posible
anticipar o predecir un logro o
comportamiento futuro, mediato.
• Se administra la técnica que quiero validar y se
especifica el logro que se quiere anticipar
(criterio).
• Por ej. Se aplica una prueba de aptitudes a
estudiantes que ingresan a la Facultad de
medicina, y luego se verifica si los puntajes en
esas pruebas se correlacionan con las notas
obtenidas en las materias del último año del
Secundario. Se eligen 20 alumnos para ser
becados pensando que serán los que
obtendrán mejores rendimientos académicos
(criterio a predecir).
• Validez Retrospectiva:
• Es la correlación entre resultados de un test
ahora y un criterio externo medido con
antelación, aún años antes ( en Clínica, por
ej., en Prevención psicopatológica en Salud
Pública o en clínica individual)
• Validez teórica o estructural o de constructo:
• Es el grado en que una técnica mide un constructo
teórico, en la medida que es una buena
operacionalización del mismo. Es el tipo de validez
básica que debe tenerse en cuenta al diseñar o
adaptar técnicas de evaluación.
• Como procedimiento, por ej. proponer hipótesis a
partir del análisis de un modelo teórico. Intentar
operacionalizarlo a través del diseño de la técnica de
evaluación.
• Se puede obtener tb mediante:
• Estudios evolutivos: Por ej: Con el Test de Bender,
se supone desde lo teórico que a medida que el
niño crece tiene mayor maduración visomotriz. Ver
este resultado tb reflejado con el Test.
• Estudios clínicos: por ej. en estudios de grupos
contrastados, las técnicas deberían diiscriminar
entre psicóticos/ no psicóticos (por ej muestra de
población general) , Depresivos/no depresivos.
• Por análisis factorial: Es un método muy
utilizado, mètodo de reducción de datos con
procedimientos de análisis de correlaciones.
• Por ej. en una N=500 sujetos (muestra de
sujetos), se administra una escala de 100
items, se obtienen 50.000 respuestas. Se
reducen esas 50.000 respuestas a pocos
factores: dimensiones de la variable, a veces
nombradas tb como subescalas.
Habría múltiples coeficientes de correlación entre
las respuestas de todos los sujetos de la muestra a
cada uno de los items.
Error de medición: Asi como habíamos mencionado
que el error de medición en Confiabilidad se llama
asistemático o casual, y se vincula con lo aleatorio e
imprevisible, en VALIDEZ se llama error de medición
sistemático o constante porque es inherente al
propio intrumento la propia técnica.
• Por ej. Si tomo una regla que digo que mide 1 metro y
en realidad mide 1,20 si siempre uso ese metro el
error será constante.
• Validez aparente o de facie:

• Es la adecuación del material a las características del
sujeto. Por ej. si se diseña un test para adultos sus
reactivos no pueden contener dibujos infantiles, x ej
del Ratón Mikey, porque en su apariencia no parece
un test para adultos
• Se puede determinar por:
• Juicio experto: se muestra la técnica a colegas
calificados para que brinden su opinión
• Se realiza una administración Piloto, o sea de
ensayo experimental a ver si hay que
modificar algo.
• Fuente:
• * Fernández Liporace y cols (2009) Curso
básico de psico9metría. Caps. 2 y 4. Bs. As.
Editorial Lugar.
• *Casullo, María Martina y cols (1991) Teoría y
técncias de evaluación psicológica. Bs. As.
Psicoteca Editorial.

Confiabilidad y Validez de Los Tests

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Confiabilidad y Validez de Los Tests

Cargado por

Copyright:

Formatos disponibles

CONFIABILIDAD Y VALIDEZ DE

• Todos ellos se deben administrar a una muestra

• Validez aparente o de facie:

También podría gustarte