Fiabilidad de Un Instrumento - Aula - Carlos Riego

UNIVERSIDAD NACIONAL DE ASUNCIÓN
FACULTAD DE FILOSOFÍA
CARRERA DE PSICOLOGÍA – AREA BÁSICA
PSICOMETRÍA BÁSICA
3er. Curso 3ra. Sección
LIC. CARLOS FERNANDO RIEGO CABRAL
UNIDAD IV – CONFIABILIDAD DE UNA PRUEBA
Contacto: liccarlosriego@gmail.com
“Cualquier cosa que existe, existe en alguna cantidad”.
Thorndike, 1918.
”Cualquier cosa que existe en cantidad, puede medirse”.

McCall, 1939
Lewis R. Aiken (1996) Test Psicológicos y Evaluación
Lic. Carlos F. Riego C.

FIABILIDAD DE UN INSTRUMENTO
en Investigación Cuantitativa
FIABILIDAD DE UN INSTRUMENTO
en Investigación Cuantitativa
¿Qué implica una
Buena Prueba?
Normas y
Fiabilidad Validez
Sistemas de Medidas
 Test-Retest
 Formas alternas
 Edad del Sujeto
 División por mitades  Contenido
 Spearman-Brown  Criterio  Percentiles
 Kuder y Richardson  Puntuaciones
 Constructo
 Alfa Típicas
 Kappa
FIABILIDAD
 Sinónimo de seguridad o consistencia.
 Atributo de consistencia en la medición.
 Confiabilidad en el sentido psicométrico denota algo que es
consistente, no necesariamente consistentemente bueno o malo.
 Es importante para nosotros como administradores de
pruebas y consumidores de información sobre ellas saber qué
tan confiables son así como otros procedimientos de medición.
 Pero la confiabilidad rara vez es una cuestión de todo o nada;
hay diferentes tipos y grados de confiabilidad.
 Un coeficiente de confiabilidad es un índice de confianza.
ERROR EN LA MEDICIÓN
 “Error se refiere al componente de la puntuación observada en la

prueba de capacidad que no tiene que ver con la capacidad de
quien responde la prueba.
 X=T+E
X = Puntuación observada.
T = Puntuación verdadera.
E = Error.
 El término confiabilidad se refiere a la proporción de la varianza
total atribuida a la varianza verdadera. Entre mayor es la
proporción de la varianza total atribuida a la varianza verdadera,
la prueba es más confiable.
 Una fuente de error sistemático no cambia la variabilidad de la
distribución ni afecta la confiabilidad.
FUENTES DE VARIANZA DE ERROR
 Construcción de la prueba: el muestreo de reactivos o muestreo

de contenidos.
 Administración de la prueba:
 En la aplicación de la prueba. Ej. La atención, motivación,
ambiente (iluminación, temperatura, ruido, ventilación, etc.).
 De quien responde la prueba. Ej. Incomodidad física, descanso,
ansiedad, problemas emocionales, fármacos, etc.
 Calificación e Interpretación de la prueba:
 En los examinados, respuestas a estímulos como palabras,
dibujos, oraciones, manchas de tinta.
 En el examinador, subjetividad, respuestas que caen en un área
gris para la calificación, observación conductual, etc.
FUENTES DE VARIANZA DE ERROR
Otras fuentes de error….
 Error No Sistemático, Accidentales o al Azar.
 Es el resultado erróneo debido al azar.
 Fuentes de variación desconocida.
 Fuentes de variación con la misma probabilidad de alterar los
cálculos del estudio en una u otra dirección.
 Ejemplo: Si la prevalencia de Bullying (Violencia escolar) en los
países pobres latinoamericanos alcanza según la UNICEF el
30%, entonces es probable que en la muestra del estudio se
aproxime a esta cantidad, 27% o 32%. El azar determina una
cifra distinta.
 Entre las diferentes técnicas para reducir la influencia del error
debido al azar, la más simple y mejor conocida consiste en
aumentar el tamaño de la muestra.
Error Sistemático, Sesgo o Constante.
 Es un resultado erróneo debido al sesgo. Fuente de variación
que alteran los datos del estudio en una dirección.
 Errores de diseño: si la muestra pretendida y la variables no
representan a la población y los fenómenos de interés, estos
errores pueden alterar las inferencias sobre lo que realmente
ocurre en la población. (Validez externa)
 Errores de realización: si los participantes y las mediciones
reales no representan la muestra y las variables propuestas,
estos errores pueden alterar las inferencias sobre lo que
realmente ocurre en el estudio. (Validez interna)
 Ejemplo: Cuando validamos un test que mide depresión y
tomamos como muestra universitarios solamente en lugar de
tomar en cuenta pacientes diagnosticados con este trastorno.
 Otro ejemplo de error sistemático es la infradotación de la
prevalencia de Bullying (27%) debido a una falta de claridad en
la forma de expresar la pregunta en el cuestionario.
Seguridad, consistencia o precisión.
FIABILIDAD Índice de confianza.
Tipos de Confiabilidad
 Fiabilidad de Prueba y Posprueba:
 Utiliza el mismo instrumento para medir lo mismo en dos puntos en el tiempo.

 Pretende medir algo relativamente estable a lo largo del tiempo. Ej. Personalidad?
Inteligencia? Ansiedad como rasgo? Ansiedad como situación?
 Obtenida al correlacionar pares de puntuaciones de las mismas personas en dos
aplicaciones diferentes de la misma prueba.
 Conforme pasa el tiempo, las personas cambian. Ej. Aprenden cosas nuevas, olvidan
otras, adquieren habilidades nuevas, etc.
 El paso del tiempo puede ser una varianza de error.
 Cuando el intervalo entre las pruebas es mayor que seis meses, a menudo se hace
referencia a la estimulación de la confiabilidad de prueba y posprueba como “Coeficiente
de estabilidad”.
 Varianza de Error: Tomar curso de matemáticas, sufrir un trauma, recibir una
orientación durante un periodo. Puede encontrarse una estimación baja de la
confiabilidad.
 Fiabilidad de Formas Alternas o Equivalentes:
 El grado de la relación entre varias formas de una prueba puede evaluarse por medio
de un coeficiente de confiabilidad de formas alternas o equivalentes, el cual a menudo se
denomina “coeficiente de equivalencia.
Formas alternas y formas equivalentes son términos que en ocasiones se usan en
forma indiscriminada, aunque hay una diferencia técnica entre ellos.
Existen formas equivalentes de una prueba cuando para cada forma de la prueba son
iguales las medias y las varianzas de las puntuaciones de pruebas observadas.
Son versiones diferentes de una prueba que se han construido con el fin de ser
equivalentes. Equivalentes con respecto a variables como contenido y dificultad.
Son similares a una estimación de la confiabilidad de test-retes en: 1° Se requieren dos
aplicaciones de la prueba con el mismo grupo. 2° Las puntuaciones pueden ser afectadas
por factores como la motivación, fatiga, eventos como la práctica, el aprendizaje o
terapia.
 Su desventaja es de índole financiera y temporal.
Su ventaja primordial es que minimiza el efecto de la memoria para el contenido de
una forma de prueba aplicada con anterioridad.
 Tipos de Fiabilidad de Consistencia interna:
 Grado de correlación entre todos los reactivos en una escala.

 Una medida de consistencia entre reactivos se calcula a partir de una sola aplicación
de una forma única de una prueba.
 Un índice de consistencia interna entre reactivos es útil, a su vez, para evaluar la
homogeneidad de la prueba.
 Se dice que las pruebas son homogéneas si contienen reactivos que miden un solo
rasgo.
 Homogeneidad deriva de las palabras griegas homos, que significa “misma”, y
genous, que significa “clase”.
 Es el grado en que la prueba mide un solo factor; o sea en que los reactivos de una
escala son unifactoriales.
 Una prueba no homogénea o heterogénea se compone de reactivos que miden más de
un rasgo.
 Entre más homogénea es la prueba, puede esperarse que tenga más consistencia
entre reactivos.
 Debido a que la prueba abarcaría una muestra de un área de contenido
relativamente reducida, tendría más consistencia interna entre reactivos.
 Pero aunque es deseable una prueba homogénea debido a que se presta con facilidad
a una interpretación clara, a menudo es una herramienta insuficiente para medir
variables psicológicas multifacéticas como la inteligencia o personalidad.
 Tipos de Fiabilidad de Consistencia interna:
 Una forma de evitar esta fuente potencia de dificultad ha sido aplicar una serie de
pruebas homogéneas, cada una diseñada para medir algún componente de una
variable heterogénea.
 Además algunas de las influencias aleatorias que pueden afectar a las medidas de
confiabilidad, la varianza de error en una medida de consistencia entre reactivos
proviene de dos fuentes: 1° El muestreo de reactivos. 2° La heterogeneidad del área
de contenido.
 Entre más heterogénea sea el área de contenido de la que se extrae la muestra, será
menor la consistencia entre reactivos..
 Las decisiones importantes rara vez se toman sólo en base en una prueba. Los
psicólogos se basan con frecuencia en una batería de pruebas, una colección selecta
de pruebas y procedimientos de evaluación en el proceso de valoración. Una batería
de pruebas puede componerse o no de pruebas homogéneas.
 F. de División por Mitades.
Confiabilidad de consistencia interna.

Obtenida correlacionando dos pares de puntuaciones obtenidas de mitades
equivalentes de una sola prueba aplicada una sola vez.
Es una medida de confiabilidad útil cuando es poco práctico o indeseable evaluar la
confiabilidad con dos pruebas o hacer dos aplicaciones de una prueba (debido a factores
de tiempo o costo).
El cálculo de un coeficiente de división por mitades implica tres pasos:
1° Dividir la prueba en mitades equivalentes.
2° Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba.
3° Ajustar la confiabilidad de la mitad de la prueba usando la fórmula de Spearman-
Brown.
 No es recomendable tan solo dividir la prueba por la mitad, debido a que es probable
que este procedimiento elevaría o disminuiría en forma falsa el coeficiente de fiabilidad.
Formas de dividir la prueba: 1°al azar, 2° pares y nones y 3° por contenido (de modo
que cada mitad de la prueba contenga reactivos equivalentes con respecto al contenido y
dificultad).
El objetivo al dividir la prueba en mitades es crear lo que podría denominarse
“miniformas paralelas”, con cada mitad siendo igual a la otra, o lo más similar
humanamente posible, en aspectos de formato, estilísticos, estadísticos y otros
relacionados.
 Fiabilidad de Spearman-Brown:
Debido a que la confiabilidad de una prueba es afectada por su longitud, es

necesaria una fórmula para estimar la confiabilidad de una prueba que se ha acortado
o alargado.
Por lo general es cierto, aunque no siempre, que la confiabilidad se incrementa
conforme aumenta la longitud de una prueba.
Deriva de la Fiabilidad de División por Mitades y consta de tres pasos.
Los reactivos deben ser equivalentes en contenido y nivel de dificultad.
La estimaciones de confiabilidad basadas en la consideración de la prueba entera
tenderán por consiguiente a ser mayores que aquellas basadas en la mitad de una
prueba.
Al determinar la confiabilidad de una mitad de una prueba, un elaborador de
pruebas puede usar luego la fórmula de Spearman-Brown para estimar la
confiabilidad de una prueba entera.
Al agregar reactivos para incrementar la confiabilidad de la prueba hasta un nivel
deseado, la regla es que los reactivos nuevos deber ser equivalentes en contenido y
dificultad, de modo que la prueba más larga todavía mida lo que medía la prueba
original.
Si la confiabilidad de la prueba original es relativamente baja, puede ser poco
práctico incrementar el número de reactivos para alcanzar un nivel de confiabilidad
aceptable.
 Fiabilidad de Spearman-Brown:
 Las estimaciones de confiabilidad de consistencia interna, como las obtenidas

usando la fórmula de Spearman-Brown, son inapropiadas para medir la confiabilidad
de pruebas heterogéneas y pruebas de velocidad.
 Fiabilidad de Kuder-Richardson:
La insatisfacción con los métodos de división por mitades existentes para estimar la
confiabilidad llevo a G. Frederic Kuder y M. W. Richardson a desarrollar sus propias
medidas de estimar la confiabilidad.
La más conocidas de las muchas fórmulas en las que colaboraron es su fórmula
Kuder-Richardson 20 y 21.
KR 20 es la estadística de elección para determinar la consistencia entre reactivos
de reactivos dicotómicos.
Usado en pruebas que miden un solo factor (homogeneidad) del tipo aptitudinal,
con reactivos dicotómicos (correcto o equivocado).
Los reactivos de la prueba deben tener aproximadamente el mismo grado de
dificultad.
En el caso en que los reactivos de la prueba son muy homogéneos, las estimaciones
de confiabilidad KR 20 y de división por mitades serán similares.
Si los reactivos de prueba son más heterogéneos, la KR 20 producirá estimaciones
de confiabilidad inferiores que el método de división por mitades.
 Fiabilidad Alfa:
 Desarrollado por Cronbach (1951).

El coeficiente alfa puede considerarse como la media de todas las correlaciones de
división por mitades posibles, las buenas junto con las malas.
El coeficiente Alfa también puede ser usado en pruebas con reactivos dicotómicos.
Pero es apropiado para pruebas que contienen reactivos que pueden calificarse a lo
largo de un rango de valores. Ej. Encuesta de opinión y de actitud.
 Los reactivos deben presentar un rango de alternativas posibles, donde puede darse
un crédito parcial.
“Es la estadística preferida para obtener una estimación de la confiablidad de
consistencia interna”.
 Fiabilidad Kappa:
Es el grado de acuerdo o consistencia que existe entre dos más observadores (jueces
o evaluadores).
Denominada en formas diversas como “confiabilidad del evaluador”, “confiabilidad
del juez”, “confiabilidad del observador” y “confiabilidad entre evaluadores”.
En algunos tipos de prueba bajo algunas condiciones, la puntuación puede ser más
una función del evaluador que e alguna otra cosa.
 Se asigna un código para categorizar lo observado y la escala debe ser ordinal.
Un elaborador de pruebas responsable que es incapaz de crear una prueba que
pueda ser calificada con un grado razonable de consistencia por evaluadores
capacitados regresará al pizarrón para descubrir la razón para este problema.
Si por ejemplo el problema es una falta de claridad en los criterios de calificación,
entonces el remedio podría ser redactar de nuevo la sección de criterios de calificación
del manual para incluir reglas de calificación redactadas con claridad.
Obs: Una revisión de la literatura sobre la capacitación de evaluadores para mejorar
su desempeño en las estimaciones sugiere que las conferencias para evaluadores sobre
reglas de calificación no son tan efectivas para promover la consistencia entre ellos
como proporcionarles la oportunidad de participar en discusiones de grupo junto con
ejercicios de práctica e información sobre su precisión.
La estadística Kappa fue diseñada en un principio para ser usada en el caso que los
evaluadores estimaciones usando escalas nominales de medición (Cohen, 1960)
 Fiabilidad Kappa:
La estadística Kappa fue modificada después por Fliess (1971) para ser usada con
múltiples evaluadores.
Ejemplo: El grado de acuerdo entre dos o más profesores al calificar una prueba de
ensayo o un examen oral.
Valoración de un índice Kappa:
Fuerza de la
Valor de K
concordancia
≤ 0,20 Pobre
0,21 a 0,40 Débil
0,41 a 0,60 Moderado
0,61 a 0,80 Bueno
0,81 a 1 Muy bueno
Fuente: Urbina (2007, p. 39)
 Referencia Bibliográfica:
Cohen, R. y Swerdlik M. (2001) Pruebas y
Evaluación Psicológicas. Editorial McGraw
Hill. 4ª Edic. México.
 Urbina, S. (2007) Test Psicológicos. TEA
Ediciones. Madrid.
 Hulley S. y Cummings S. (1993) Diseño de la
Investigación Clínica. Editorial Doyma. España.

Fiabilidad de Un Instrumento - Aula - Carlos Riego

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fiabilidad de Un Instrumento - Aula - Carlos Riego

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE ASUNCIÓN

LIC. CARLOS FERNANDO RIEGO CABRAL

UNIDAD IV – CONFIABILIDAD DE UNA PRUEBA

”Cualquier cosa que existe en cantidad, puede medirse”.

Lewis R. Aiken (1996) Test Psicológicos y Evaluación

Lic. Carlos F. Riego C.

 “Error se refiere al componente de la puntuación observada en la

 Construcción de la prueba: el muestreo de reactivos o muestreo

 Utiliza el mismo instrumento para medir lo mismo en dos puntos en el tiempo.

 Grado de correlación entre todos los reactivos en una escala.

Confiabilidad de consistencia interna.

Debido a que la confiabilidad de una prueba es afectada por su longitud, es

 Las estimaciones de confiabilidad de consistencia interna, como las obtenidas

 Desarrollado por Cronbach (1951).

Valoración de un índice Kappa:

También podría gustarte