CONFIABILIDAD

CONFIABILIDAD
Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida
consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario
determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente
confiable como para medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio
permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión,
las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no
sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y hacer
predicciones sobre su conducta. Hablando en términos estrictos, más que ser una característica de
una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se
administra la prueba a un grupo particular de personas en una ocasión particular y bajo
condiciones específicas
(Thompson, 1994).
Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume

que la prueba mide una característica relativamente estable. A diferencia de la inestabilidad, la
falta de confiabilidad es resultado de errores de medición producidos por estados internos
temporales, como la baja motivación o la falta de disposición, o de condiciones externa como un
ambiente de prueba incómodo o con distracciones.
Teoría clásica de la confiabilidad En la teoría clásica de los tests se supone que la calificación
observada de una persona en una prueba está compuesta por una puntuación “real” más algún
error no sistemático de medición. La puntuación real de una persona en una prueba particular se
define como el promedio de las puntuaciones que obtendría si presentara la prueba un número
infinito de veces.
La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un número

decimal positivo que fluctúa entre .00 y 1.00. Una r11 de 1.00 indica una confiabilidad perfecta, y
una r11 de .00 indica una falta absoluta de confiabilidad de la medición. Como la varianza de las
calificaciones reales no puede calcularse de manera directa, la confiabilidad se estima analizando
los efectos de variaciones en las condiciones de la administración y el contenido de la prueba en
las calificaciones observadas
Coeficiente test-retest Se calcula un coeficiente test-retest para determinar si un instrumento

mide de manera consistente de una ocasión a otra. Este coeficiente, conocido también como
coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo
de personas en una aplicación con sus puntuaciones en la segunda aplicación de la prueba.
Método de división por mitades. En este enfoque simplificado de la consistencia interna una sola
prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De
este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades
seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones pueden
calificarse por separado de los que tienen números pares. Entonces la correlación (roe) entre los
dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de
confiabilidad de formas paralelas para una mitad de la prueba tan larga como la prueba original.
Confiabilidad entre calificadores: El enfoque más común para determinar la confiabilidad entre
calificadores es hacer que dos personas califiquen las respuestas de un número considerable de
examinados y calcular luego la correlación entre los dos conjuntos de calificaciones. Otro enfoque
es hacer que muchas personas califiquen las respuestas de un examinado o, mejor aún, que
muchas personas califiquen las respuestas de varios examinados. Esta última estrategia arroja un
coeficiente intraclase o coeficiente de concordancia, el cual es un coeficiente generalizado de
confiabilidad entre calificadores.
Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone de
formas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se
juzga el desempeño oral.
Interpretación de los coeficientes de confiabilidad: Los coeficientes de confiabilidad de

instrumentos afectivos como las listas de verificación, escalas de calificación e inventarios de
personalidad, intereses o actitudes, por lo general son más bajos que los de las pruebas cognitivas
de aprovechamiento, inteligencia o habilidades especiales. Sin embargo, los coeficientes de
confiabilidad obtenidos con esos instrumentos afectivos pueden ser bastante respetables, y los
obtenidos con los instrumentos cognitivos en ocasiones son bastante bajos.
¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instrumento
psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las puntuaciones
de la prueba. Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de
dos grupos de personas son significativamente diferentes, un coeficiente de confiabilidad de .60
a .70 puede ser satisfactorio
Variabilidad y extensión de la prueba: Como la varianza de la calificación de la prueba se relaciona

con la extensión de ésta, un método para incrementar la confiabilidad es hacer la prueba más
larga. Sin embargo, la simple inclusión de más reactivos en una prueba no necesariamente
incrementa su confiabilidad. Los nuevos reactivos deben ser del mismo tipo general y medir la
misma cosa que los reactivos que ya contiene la prueba. De hecho, agregar reactivos que miden
algo diferente de lo que miden los reactivos originales puede dar lugar a una reducción en la
confiabilidad.
Confiabilidad de una prueba alargada como función de la confiabilidad inicial y el factor de

alargamiento: La confiabilidad se incrementa a medida que se agregan a una prueba más reactivos
del mismo tipo general, pero el monto del incremento es mayor cuando la confiabilidad inicial es
baja. Además, la confiabilidad de la prueba alargada se nivela gradualmente conforme la prueba
se vuelve cada vez más larga. La asociación entre la varianza y la confiabilidad de una prueba
también se advierte en que las pruebas compuestas, sobre todo por reactivos de dificultad
intermedia (valores p de alrededor de .50), tienden a ser más confiables que las pruebas donde la
mayoría de los reactivos tienen índices más altos o más bajos de dificultad.
Error estándar de medición: Para ilustrar el cálculo y el significado del error estándar de
medición, suponga que la desviación estándar de una prueba es 6.63 y el coeficiente de
confiabilidad test-retest es .85; entonces Si la calificación de una persona en la prueba es 40,
puede concluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen
calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 – 2.57
=37.43 y 40 + 2.57 = 42.57. Para obtener el intervalo de confianza de 95% para una calificación
real, debe multiplicarse serr por 1.96 y el producto resultante agregarse y restarse de la
calificación observada:
Confiabilidad de las pruebas referidas a criterio: Por otro lado, al elaborar la mayoría de las
pruebas referidas a criterio la meta es identificar a las personas como pertenecientes a uno de dos
grupos. Un grupo consta de personas cuyas puntuaciones igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio. En esta situación, resultan inapropiados los
procedimientos correlacionales tradicionales para determinar los coeficientes testretest, de
formas paralelas y de consistencia interna.
VALIDEZ: la validez se ha definido como el grado en que una prueba mide lo que está diseñada
para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una
validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba
mide lo que se supone debe medir. En realidad, una prueba puede tener muchas clases de validez,
dependiendo de los propósitos específicos para los cuales fue diseñada, la población objetivo, las
condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales
puede determinarse la validez incluyen (1) analizar el contenido de la prueba, (2) calcular la
correlación entre las calificaciones en la prueba y las calificaciones en el criterio de interés y (3)
investigar las características psicológicas particulares o constructos medidos por la prueba. Todos
esos procedimientos son útiles en la medida que mejoran la comprensión de lo que mide una
prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de
interés evaluar la validez creciente de una prueba, es decir, qué tanto añade la prueba a la
predicción y comprensión de los criterios que ya son anticipados por otras medidas.
se refiere a algo más que a la apariencia. La validez de contenido atañe a si éste produce un rango
de respuestas que son representativas del dominio entero o universo de habilidades,
entendimientos y otras conductas que supuestamente debe medir la prueba.
La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad,

aunque quizá menos que la validez de constructo o la relacionada con un criterio.
Validez con relación a criterio: consiste en relacionar las calificaciones en la prueba con el
desempeño en medidas o estándares de criterio con los cuales pueden compararse las
calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio
VALIDEZ 95 hace referencia a procedimientos en los cuales las calificaciones en la prueba de un
grupo de personas se comparan con las puntuaciones, clasificaciones u otras medidas de
desempeño. Algunos ejemplos de criterios contra los cuales se validan las pruebas son las notas
escolares, calificaciones de un supervisor y número o cantidad de dólares en ventas.
Validez concurrente: se emplean siempre que una prueba se aplica a personas clasificadas en
varias categorías, como grupos de diagnóstico clínico o niveles socioeconómicos, con el propósito
de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son
significativamente diferentes de las de los individuos que se hallan en otras categorías.
Validez predictiva: atañe a la precisión con que las puntuaciones de una prueba predicen
puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio del
desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o de
inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se correlacionan
con las puntuaciones, notas de cursos, calificaciones de pruebas de aprovechamiento y otros
criterios de desempeño.
Factores que afectan la validez con relación a criterios: incluye diferencias de grupo, la extensión
de la prueba, la contaminación del criterio y la tasa base. La validez creciente de una prueba, es
decir, la contribución de la prueba que excede a las contribuciones de otras variables, también
debería ser considerada al decidir si se va a utilizar la prueba con propósitos de selección y
ubicación.
validez creciente: se refiere a la cuestión de qué tanta precisión más tiene las predicciones y los
diagnósticos cuando se incluye una prueba particular en una batería de procedimientos de
evaluación.
validez de constructo: es de un interés mayor aún con respecto a las pruebas de personalidad. La
validez de constructo de un instrumento de evaluación psicológica se refiere al grado en que el
instrumento mide un constructo particular, o concepto psicológico como la ansiedad, la
motivación para el logro, la extroversión introversión o el neuroticismo. La validez de constructo,
que es el tipo más general de validez, no se determina de una sola manera o por una investigación.
Más bien involucra una red de investigaciones y otros procedimientos diseñados para determinar
si un instrumento de evaluación que supuestamente mide una determinada variable de
personalidad en realidad lo hace.
Evidencia a favor de la validez de constructo. Entre las fuentes de evidencia a favor de la validez
de constructo de una prueba se encuentran las siguientes:
1. Los juicios de expertos de que el contenido de la prueba corresponde al constructo de interés.
2. Análisis de la consistencia interna de la prueba.
3. Estudios, tanto en grupos formados de manera experimental como en grupos que se presentan
de manera natural, de las relaciones entre las puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
4. Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y

variables con las cuales se espera que tengan cierta relación, seguidas por un análisis factorial de
esas correlaciones.
5. Interrogar con detalle a los examinados o a los calificadores acerca de sus respuestas a una
prueba o escala de calificación para revelar los procesos mentales específicos implicados al dar
respuesta a los reactivos.
Como lo revela esta lista, varios tipos de información contribuyen al establecimiento de la validez
de constructo de un instrumento psicométrico. La información puede obtenerse de análisis
racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su
capacidad para predecir la conducta en las situaciones en que opera el constructo.
UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL:

Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en determinados
puestos para realizar varias tareas. Sin embargo, con frecuencia los procedimientos seguidos para
seleccionar, clasificar y ubicar personal han sido azarosos y asistemáticos. Se ha empleado gran
variedad de procedimientos para la selección y valoración de personal, muchos de los cuales se
basan en la observación casual y la intuición. Por ejemplo, en un tiempo se asignó gran
importancia a rasgos físicos como la forma de la cabeza, los movimientos oculares y la apariencia
corporal general. El origen étnico, la posición social y las conexiones sociales también influyeron
en la determinación de quién era designado para ocupar cierto puesto, contratado para un trabajo
específico o aceptado en determinado programa educativo.
Detección: En este enfoque se utilizan las pruebas psicológicas, junto con información que no
proviene de la prueba (historia personal, características físicas, recomendaciones, etc.), para
ayudar a seleccionar a los solicitantes que pueden desempeñar trabajos particulares, ya sea de
manera inmediata o luego de un entrenamiento apropiado.
Clasificación y ubicación: Las decisiones de clasificación pueden implicar el agrupamiento de los

empleados sobre la base de sus puntuaciones en más de una prueba psicológica, como la
asignación de los reclutas militares a especialidades ocupacionales de acuerdo con sus
calificaciones en la Batería de Aptitudes Vocacionales de las Fuerzas Armadas.
RESUMEN:
Debido a que la producción de las formas paralelas es alta y consume tiempo, los procedimientos
de test-retest y de consistencia interna son las fuentes más populares de evidencia de
confiabilidad. El error estándar de medición, que varía inversamente con la magnitud del
coeficiente de confiabilidad, se utiliza al calcular intervalos de confianza para las calificaciones
reales en una prueba.
La investigación sobre la validez de una prueba puede obtener de varias maneras: analizando el
contenido de la prueba (validez de contenido), ordenando las calificaciones de la prueba con
calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las
calificaciones de la prueba con calificaciones en un criterio medidas en un momento posterior
(validez predictiva), y por el estudio sistemático de lo conveniente de la prueba para valorar un
constructo psicológico especificado (validez de constructo). La magnitud de un error cometido al
anunciar la calificación de criterio de una persona a partir de su calificación en una prueba es
calculada mediante el error estándar de estimación, el cual varía inversamente con el volumen del
coeficiente de validez relacionado con el criterio. Tanto el coeficiente de validez relacionado con el
criterio como el error estándar de estimación son afectad n os por varios factores que
comprenden las diferencias de grupo, la extensión de la prueba y la contaminación del criterio. La
información sobre la validez de constructo de una prueba como medida de una variable o
característica psicológica particular puede obtenerse de varias maneras.
 Cuando se aplica correctamente, el uso de instrumentos de evaluación válidos y

confiables te ayudará a tomar mejores decisiones.
 Determinar cuán rigurosamente se han abordado las dificultades de validez y
confiabilidad en un estudio, es un componente esencial en las críticas que se puedan
hacer a un trabajo, así como influir en la decisión sobre si implementar los hallazgos
del estudio en la práctica de cualquier disciplina.
 En estudios cuantitativos, el rigor se establece a través de una valoración de la
validez y confiabilidad de los materiales o instrumentos manejados durante la
investigación.
La estandarización es un paso significativo en el diseño y la evaluación de pruebas psicológicas y

otros instrumentos de evaluación. Antes de una prueba puede utilizarse con cierta seguridad,
debe adquirir información acerca de su confiabilidad y validez por lo que sus propósitos
específicos corresponde.

CONFIABILIDAD

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

CONFIABILIDAD

Cargado por

Copyright:

Formatos disponibles

CONFIABILIDAD

Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume

La confiabilidad de un conjunto de calificaciones en una prueba se expresa como un número

Coeficiente test-retest Se calcula un coeficiente test-retest para determinar si un instrumento

Interpretación de los coeficientes de confiabilidad: Los coeficientes de confiabilidad de

Variabilidad y extensión de la prueba: Como la varianza de la calificación de la prueba se relaciona

Confiabilidad de una prueba alargada como función de la confiabilidad inicial y el factor de

La validez de contenido también es de interés en las medidas de aptitud, interés y personalidad,

1. Los juicios de expertos de que el contenido de la prueba corresponde al constructo de interés.

2. Análisis de la consistencia interna de la prueba.

4. Correlaciones de las puntuaciones en la prueba con las puntuaciones en otras pruebas y

UTILIZACIÓN DE TESTS EN LA TOMA DE DECISIONES DEL PERSONAL:

Clasificación y ubicación: Las decisiones de clasificación pueden implicar el agrupamiento de los

 Cuando se aplica correctamente, el uso de instrumentos de evaluación válidos y

La estandarización es un paso significativo en el diseño y la evaluación de pruebas psicológicas y

También podría gustarte