Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida
consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario
determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente
confiable como para medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio
permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión,
las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no
sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y hacer
predicciones sobre su conducta. Hablando en términos estrictos, más que ser una característica de
una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se
administra la prueba a un grupo particular de personas en una ocasión particular y bajo
condiciones específicas
(Thompson, 1994).
Teoría clásica de la confiabilidad En la teoría clásica de los tests se supone que la calificación
observada de una persona en una prueba está compuesta por una puntuación “real” más algún
error no sistemático de medición. La puntuación real de una persona en una prueba particular se
define como el promedio de las puntuaciones que obtendría si presentara la prueba un número
infinito de veces.
Método de división por mitades. En este enfoque simplificado de la consistencia interna una sola
prueba se considera compuesta por dos partes (formas paralelas) que miden la misma cosa. De
este modo, puede aplicarse una prueba y asignar calificaciones separadas a sus dos mitades
seleccionadas de manera arbitraria. Por ejemplo, los reactivos con números nones pueden
calificarse por separado de los que tienen números pares. Entonces la correlación (roe) entre los
dos conjuntos de calificaciones obtenidas por un grupo de personas es un coeficiente de
confiabilidad de formas paralelas para una mitad de la prueba tan larga como la prueba original.
Confiabilidad entre calificadores: El enfoque más común para determinar la confiabilidad entre
calificadores es hacer que dos personas califiquen las respuestas de un número considerable de
examinados y calcular luego la correlación entre los dos conjuntos de calificaciones. Otro enfoque
es hacer que muchas personas califiquen las respuestas de un examinado o, mejor aún, que
muchas personas califiquen las respuestas de varios examinados. Esta última estrategia arroja un
coeficiente intraclase o coeficiente de concordancia, el cual es un coeficiente generalizado de
confiabilidad entre calificadores.
Las pruebas orales no se distinguen por tener una elevada confiabilidad, pero se dispone de
formas especiales que pueden mejorar la objetividad, y por ende la confiabilidad, con la que se
juzga el desempeño oral.
¿Qué tan alto debe ser un coeficiente de confiabilidad para que una prueba u otro instrumento
psicométrico sean útiles? La respuesta depende de lo que planeemos hacer con las puntuaciones
de la prueba. Cuando una prueba va a utilizarse para determinar si las calificaciones promedio de
dos grupos de personas son significativamente diferentes, un coeficiente de confiabilidad de .60
a .70 puede ser satisfactorio
Error estándar de medición: Para ilustrar el cálculo y el significado del error estándar de
medición, suponga que la desviación estándar de una prueba es 6.63 y el coeficiente de
confiabilidad test-retest es .85; entonces Si la calificación de una persona en la prueba es 40,
puede concluirse, con 68% de confianza, que forma parte de un grupo de personas que tienen
calificaciones observadas de 40 cuyas calificaciones reales en la prueba caen entre 40 – 2.57
=37.43 y 40 + 2.57 = 42.57. Para obtener el intervalo de confianza de 95% para una calificación
real, debe multiplicarse serr por 1.96 y el producto resultante agregarse y restarse de la
calificación observada:
Confiabilidad de las pruebas referidas a criterio: Por otro lado, al elaborar la mayoría de las
pruebas referidas a criterio la meta es identificar a las personas como pertenecientes a uno de dos
grupos. Un grupo consta de personas cuyas puntuaciones igualan o exceden el nivel de criterio (de
dominio) en la habilidad que se está evaluando; el otro grupo consta de personas cuyas
puntuaciones no alcanzan el nivel de criterio. En esta situación, resultan inapropiados los
procedimientos correlacionales tradicionales para determinar los coeficientes testretest, de
formas paralelas y de consistencia interna.
VALIDEZ: la validez se ha definido como el grado en que una prueba mide lo que está diseñada
para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una
validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba
mide lo que se supone debe medir. En realidad, una prueba puede tener muchas clases de validez,
dependiendo de los propósitos específicos para los cuales fue diseñada, la población objetivo, las
condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales
puede determinarse la validez incluyen (1) analizar el contenido de la prueba, (2) calcular la
correlación entre las calificaciones en la prueba y las calificaciones en el criterio de interés y (3)
investigar las características psicológicas particulares o constructos medidos por la prueba. Todos
esos procedimientos son útiles en la medida que mejoran la comprensión de lo que mide una
prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de
interés evaluar la validez creciente de una prueba, es decir, qué tanto añade la prueba a la
predicción y comprensión de los criterios que ya son anticipados por otras medidas.
se refiere a algo más que a la apariencia. La validez de contenido atañe a si éste produce un rango
de respuestas que son representativas del dominio entero o universo de habilidades,
entendimientos y otras conductas que supuestamente debe medir la prueba.
Validez con relación a criterio: consiste en relacionar las calificaciones en la prueba con el
desempeño en medidas o estándares de criterio con los cuales pueden compararse las
calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio
VALIDEZ 95 hace referencia a procedimientos en los cuales las calificaciones en la prueba de un
grupo de personas se comparan con las puntuaciones, clasificaciones u otras medidas de
desempeño. Algunos ejemplos de criterios contra los cuales se validan las pruebas son las notas
escolares, calificaciones de un supervisor y número o cantidad de dólares en ventas.
Validez concurrente: se emplean siempre que una prueba se aplica a personas clasificadas en
varias categorías, como grupos de diagnóstico clínico o niveles socioeconómicos, con el propósito
de determinar si las puntuaciones en la prueba de las personas ubicadas en una categoría son
significativamente diferentes de las de los individuos que se hallan en otras categorías.
Validez predictiva: atañe a la precisión con que las puntuaciones de una prueba predicen
puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio del
desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o de
inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se correlacionan
con las puntuaciones, notas de cursos, calificaciones de pruebas de aprovechamiento y otros
criterios de desempeño.
Factores que afectan la validez con relación a criterios: incluye diferencias de grupo, la extensión
de la prueba, la contaminación del criterio y la tasa base. La validez creciente de una prueba, es
decir, la contribución de la prueba que excede a las contribuciones de otras variables, también
debería ser considerada al decidir si se va a utilizar la prueba con propósitos de selección y
ubicación.
validez creciente: se refiere a la cuestión de qué tanta precisión más tiene las predicciones y los
diagnósticos cuando se incluye una prueba particular en una batería de procedimientos de
evaluación.
validez de constructo: es de un interés mayor aún con respecto a las pruebas de personalidad. La
validez de constructo de un instrumento de evaluación psicológica se refiere al grado en que el
instrumento mide un constructo particular, o concepto psicológico como la ansiedad, la
motivación para el logro, la extroversión introversión o el neuroticismo. La validez de constructo,
que es el tipo más general de validez, no se determina de una sola manera o por una investigación.
Más bien involucra una red de investigaciones y otros procedimientos diseñados para determinar
si un instrumento de evaluación que supuestamente mide una determinada variable de
personalidad en realidad lo hace.
Evidencia a favor de la validez de constructo. Entre las fuentes de evidencia a favor de la validez
de constructo de una prueba se encuentran las siguientes:
3. Estudios, tanto en grupos formados de manera experimental como en grupos que se presentan
de manera natural, de las relaciones entre las puntuaciones de la prueba y otras variables en las
cuales difieren los grupos.
5. Interrogar con detalle a los examinados o a los calificadores acerca de sus respuestas a una
prueba o escala de calificación para revelar los procesos mentales específicos implicados al dar
respuesta a los reactivos.
Como lo revela esta lista, varios tipos de información contribuyen al establecimiento de la validez
de constructo de un instrumento psicométrico. La información puede obtenerse de análisis
racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su
capacidad para predecir la conducta en las situaciones en que opera el constructo.
Detección: En este enfoque se utilizan las pruebas psicológicas, junto con información que no
proviene de la prueba (historia personal, características físicas, recomendaciones, etc.), para
ayudar a seleccionar a los solicitantes que pueden desempeñar trabajos particulares, ya sea de
manera inmediata o luego de un entrenamiento apropiado.
RESUMEN:
Debido a que la producción de las formas paralelas es alta y consume tiempo, los procedimientos
de test-retest y de consistencia interna son las fuentes más populares de evidencia de
confiabilidad. El error estándar de medición, que varía inversamente con la magnitud del
coeficiente de confiabilidad, se utiliza al calcular intervalos de confianza para las calificaciones
reales en una prueba.
La investigación sobre la validez de una prueba puede obtener de varias maneras: analizando el
contenido de la prueba (validez de contenido), ordenando las calificaciones de la prueba con
calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las
calificaciones de la prueba con calificaciones en un criterio medidas en un momento posterior
(validez predictiva), y por el estudio sistemático de lo conveniente de la prueba para valorar un
constructo psicológico especificado (validez de constructo). La magnitud de un error cometido al
anunciar la calificación de criterio de una persona a partir de su calificación en una prueba es
calculada mediante el error estándar de estimación, el cual varía inversamente con el volumen del
coeficiente de validez relacionado con el criterio. Tanto el coeficiente de validez relacionado con el
criterio como el error estándar de estimación son afectad n os por varios factores que
comprenden las diferencias de grupo, la extensión de la prueba y la contaminación del criterio. La
información sobre la validez de constructo de una prueba como medida de una variable o
característica psicológica particular puede obtenerse de varias maneras.