Está en la página 1de 9

La estandarización es un paso importante en el diseño y la evaluación de pruebas

psicológicas y otros instrumentos de evaluación, pero no es el último paso.

CONFIABILIDAD
Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida
consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario
determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente
confiable como para medir lo que fue diseñada para medir. A diferencia de la
inestabilidad, la falta de confiabilidad es resultado de errores de medición producidos por
estados internos temporales, como la baja motivación o la falta de disposición, o de
condiciones externas como un ambiente de prueba incómodo o con distracciones.
Teoría clásica de la confiabilidad
También se asume en la teoría clásica de los tests que la varianza de las puntuaciones
observadas de un grupo de personas es igual a la varianza de sus puntuaciones reales más la
varianza debida a los errores no sistemáticos de medición Como la varianza de las
calificaciones reales no puede calcularse de manera directa, la confiabilidad se estima
analizando los efectos de variaciones en las condiciones de la administración y el contenido
de la prueba en las calificaciones observadas.

Coeficiente test-retest
Se calcula un coeficiente test-retest para determinar si un instrumento mide de manera
consistente de una ocasión a otra. Este coeficiente, conocido también como coeficiente de
estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo de
personas en una aplicación con sus puntuaciones en la segunda aplicación de la
prueba. Como resultado, la magnitud de un coeficiente de confiabilidad test-retest tiende a
ser mayor cuando el intervalo entre la prueba inicial y el retest es corto que cuando es
largo .
Coeficiente de formas paralelas
Como es obvio, esto afecta sus respuestas en la segunda aplicación, un hecho que por sí
mismo no cambia el coeficiente de confiabilidad si todos recuerdan igual cantidad. Sin
embargo, por lo regular algunas personas recuerdan más del material de la prueba que
otras, ocasionando que la correlación entre el test y el retest sea menos que perfecta. Lo que
parece necesitarse para superar esta fuente de error es una forma paralela del
instrumento, esto es, una que conste de reactivos similares pero no de los mismos
reactivos. Entonces puede calcularse como índice de confiabilidad un coeficiente de formas
paralelas, también conocido como coeficiente de equivalencia.
Coeficientes de consistencia interna
Por esta razón se elaboró un método menos directo de tomar en cuenta los efectos de
diferentes muestras de los reactivos de una prueba sobre la confiabilidad. En este enfoque
simplificado de la consistencia interna una sola prueba se considera compuesta por dos
partes que miden la misma cosa.

Método De División Por Mitades

En este enfoque simplificado de la consistencia interna una sola prueba se considera


compuesta por dos partes (formas paralelas) que miden la misma cosa. Suponiendo que las
dos mitades equivalentes tienen medias y varianzas iguales, la confiabilidad de la prueba
como un todo puede estimarse mediante la fórmula Spearman-Brown:

2𝑟𝑜𝑒
𝑟11 =
1 + 𝑟𝑜𝑒

Método de Kuder-Richardson.

Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan
igual número de reactivos. Bajo ciertas condiciones, la media de todos los coeficientes de
división por mitades puede estimarse mediante una de las siguientes fórmulas:

𝑘[1 − ∑ 𝑝𝑖(1 − 𝑝𝑖)/𝑆2 ]


𝑟11 =
𝐾−1

En estas fórmulas, k es el número de reactivos en la prueba, es la media de las


calificaciones totales de la prueba, s2 es la varianza de las calificaciones totales de la
prueba (calculadas con n en lugar de n – 1 en el denominador), y pi es la proporción de
examinados que dan la respuesta de la clave al reactivo i. Las pi se suman a lo largo de
todos los reactivos k. Las fórmulas 5.5 y 5.6 se conocen como fórmulas Kuder-Richardson.

Coeficiente alfa

El coeficiente alfa se define como:

𝒌 (𝟏 − ∑ 𝒔𝟐𝒊 /𝒔𝟐𝒊
∝=
𝒌−𝟏

donde k es el número de reactivos, s2i la varianza de las calificaciones en el reactivo i, y s2t


la varianza de las calificaciones totales de la prueba. Las fórmulas de Kuder-Richardson
sólo son aplicables cuando los reactivos de la prueba se califican con 0 o 1, pero el
coeficiente alfa es una fórmula general para estimar la confiabilidad de una prueba que
consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a
respuestas diferentes.

Confiabilidad entre calificadores

En este enfoque simplificado de la consistencia interna una sola prueba se considera


compuesta por dos partes que miden la misma cosa. De este modo, puede aplicarse una
prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera
arbitraria.

Interpretación de los coeficientes de confiabilidad


La respuesta depende de lo que planeemos hacer con las puntuaciones de la prueba. Cuando
una prueba va a utilizarse para determinar si las calificaciones promedio de dos grupos de
personas son significativamente diferentes, un coeficiente de confiabilidad de .60 a .70
puede ser satisfactorio

Variabilidad y extensión de la prueba


Como la varianza de la calificación de la prueba se relaciona con la extensión de ésta, un
método para incrementar la confiabilidad es hacer la prueba más larga. Los nuevos
reactivos deben ser del mismo tipo general y medir la misma cosa que los reactivos que ya
contiene la prueba. De hecho, agregar reactivos que miden algo diferente de lo que miden
los reactivos originales puede dar lugar a una reducción en la confiabilidad. La fórmula
general de Spearman-Brown es una expresión del efecto que tiene sobre la confiabilidad el
alargar una prueba incluyendo más reactivos del mismo tipo general.

𝑚𝑟
11
𝑟𝑚𝑚 =1+(𝑚−1)𝑟
11

Donde m es el factor por el cual se alarga la prueba, r11 la confiabilidad de la prueba


original no alargada, y rmm la confiabilidad estimada de la prueba alargada. Por ejemplo, si
una prueba de 20 reactivos que tiene un coeficiente de confiabilidad de .70 se hace tres
veces más larga agregando 40 reactivos más, la confiabilidad estimada de la prueba
alargada será 3(.70)/[1 + 2(.70)] = .875.

Resolver la fórmula 5.8 para marroja la siguiente fórmula para determinar cuántas veces
más extensa debe ser una prueba de confiabilidad r11 a fin de obtener una confiabilidad
deseada (r11):

𝑟𝑚𝑚(1−𝑟11 )
𝑚=
𝑟11(1−𝑟𝑚𝑚)

Esta fórmula puede utilizarse para determinar el incremento necesario en la longitud de la


prueba y, en consecuencia, el número de reactivos que deben agregarse para incrementar la
confiabilidad de un valor desde r11 hasta rmm. Además de depender del número de
reactivos, la varianza y la confiabilidad de una prueba son afectadas por la heterogeneidad
de la muestra de personas que la presentan. Entre mayor sea el rango de diferencias
individuales en cierta característica, mayor será la varianza de las calificaciones en una
medida de esa característica.

Error estándar de medición

Al resolver las anteriores formulas se obtiene:

𝑠𝑒𝑟𝑟 = 𝑠𝑜𝑏𝑠 √1−𝑟11

donde s es la desviación estándar de las calificaciones observadas de la prueba y r11 el


coeficiente de confiabilidad test-retest. Este estadístico, conocido como error estándar de
medición (serr), es una estimación de la desviación estándar de una distribución normal de
las calificaciones de la prueba que se supone serían obtenidas por una persona que
presentara la prueba un número infinito de veces. La media de esta distribución hipotética
de calificaciones sería la calificación real de la persona en la prueba.

Confiabilidad de las pruebas referidas a criterio


El concepto tradicional de confiabilidad corresponde a las pruebas referidas a normas, las
cuales están diseñadas principalmente para diferenciar entre individuos que poseen varias
cantidades de una característica específica. Entre mayor sea el rango de diferencias
individuales en las puntuaciones de una prueba, mayor será la confiabilidad de la prueba.
Teoría de la generalización
Durante muchos años los psicómetras han enfatizado que una prueba no tiene una sino
muchas confiabilidades, dependiendo de las varias fuentes de error de medición que se
toman en consideración al calcular un coeficiente de confiabilidad. La muestra particular de
reactivos incluidos en la prueba, las instrucciones de aplicación, las condiciones
ambientales (temperatura, iluminación, ruido) en que se aplica la prueba, y las
idiosincracias y estados físicos o psicológicos temporales de los examinados pueden afectar
la confiabilidad estimada de una prueba.

VALIDEZ
De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo
que
está diseñada para medir. Una desventaja de esta definición es la implicación de que una
prueba
sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para
determinar
si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas
clases de validez, dependiendo de los propósitos específicos para los cuales fue diseñada, la
población
objetivo, las condiciones en que se aplica y el método para determinar la validez.
De Contenido
La validez de contenido atañe a si éste produce un rango de respuestas que son
representativas del dominio entero o universo de habilidades, entendimientos y otras
conductas que supuestamente debe medir la
prueba. Se supone que las respuestas a la muestra de reactivos de una prueba bien diseñada
son
indicativas de lo que serían las respuestas al universo entero de conductas de interés.
Validez con relación a criterio
Sin embargo, de manera tradicional, el término validez con relación a criterio hace
referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de
personas
se comparan con las puntuaciones, clasificaciones u otras medidas de desempeño.
Siempre que se dispone de una medida de criterio en el momento de la prueba puede
determinarse la validez concurrente del instrumento. Cuando las calificaciones en el criterio
no están disponibles sino hasta
cierto tiempo después de que se aplicó la prueba, se enfatiza la validez predictiva de la
prueba.

Error estándar de estimación. La sección sobre regresión y predicción en el apéndice


Adescribe
el procedimiento a seguir para determinar una ecuación de regresión (ecuación de
predicción)
y pronosticar las calificaciones de criterio de un grupo de personas a partir de sus
puntuaciones en pruebas o en otras variables.

Factores que afectan la validez con relación a criterios


La validez con relación a criterios de una prueba puede ser influida por una serie de
factores, incluyendo
las diferencias de grupo, la extensión de la prueba, la contaminación del criterio y la
tasa base. La validez creciente de una prueba, es decir, la contribución de la prueba que
excede
a las contribuciones de otras variables, también debería ser considerada al decidir si se va a
utilizar
la prueba con propósitos de selección y ubicación.
Diferencias de grupo. Las características de un grupo de personas en quienes se valida una
prueba incluyen variables como sexo, edad y rasgos de personalidad.
Extensión de la prueba. Al igual que la confiabilidad, la validez varía directamente con la
extensión
de la prueba y con la heterogeneidad del grupo de personas examinadas
Contaminación de criterios. La validez de una prueba está limitada no sólo por su
confiabilidad
y el criterio, sino también por la validez del propio criterio como medida de la variable de
interés.
Validez creciente. Cuando se intenta decidir si la aplicación de un instrumento particular
de
evaluación con propósitos predictivos o de diagnóstico está justificada por su costo,
también debería
considerarse la validez creciente.

Validez de constructo La validez de constructo de un instrumento


de evaluación psicológica se refiere al grado en que el instrumento mide un constructo
particular, o concepto psicológico como la ansiedad, la motivación para el logro, la
extroversiónintroversión
o el neuroticismo.
Evidencia a favor de la validez de constructo. La información puede obtenerse de
análisis
racionales o estadísticos de las variables evaluadas por el instrumento y por estudios de su
capacidad
para predecir la conducta en las situaciones en que opera el constructo.
Validación convergente y discriminante. La validez de constructo de un instrumento
psicométrico se confirma por este planteamiento de características y métodos múltiples
(Campbell y Fiske, 1959) cuando las correlaciones entre el mismo constructo medidas por
el mismo y por diferentes métodos son significativamente mayores que las correlaciones
entre diferentes constructos medidas por los mismos o por diferentes métodos.
UTILIZACIÓN DE TESTS EN LATOMA
DE DECISIONES DEL PERSONAL
Desde la antigüedad las personas han sido seleccionadas, clasificadas y ubicadas en
determinados puestos para realizar varias tareas. Sin embargo, con frecuencia los
procedimientos seguidos para seleccionar, clasificar y ubicar personal han sido azarosos y
asistemáticos.
Detección este enfoque se utilizanlas pruebas psicológicas, junto con información que no
proviene de la prueba (historia personal,características físicas, recomendaciones, etc.), para
ayudar a seleccionar a los solicitantesque pueden desempeñar trabajos particulares, ya sea
de manera inmediata o luego de un entrenamiento apropiado
Clasificación y ubicación La detección inicial, por lo regular, es seguida por la
clasificación y la asignación de los solicitantes seleccionados a una de varias categorías
ocupacionales. La detección y la clasificación con frecuencia son seguidas por la ubicación
de los seleccionados en un nivel particular de determinado trabajo o programa
Una tabla de expectativas Los métodos correlacionales pueden aplicarse a la elaboración
de tablas
de expectativas teóricas, pero es posible elaborar una tabla de expectativas empíricas sin
calcular
un coeficiente de correlación o cualquier otro estadístico a excepción de frecuencias y
porcentajes.
Factores que afectan la precisión predictiva Un factor más que también afecta la
precisión con que una prueba puede identificar a las personas que se comportarán de cierta
manera es la tasa base, esto es, la proporción de solicitantes que se esperaría desempeñaran
satisfactoriamente un trabajo incluso si no se hubiera empleado un instrumento o
procedimiento de selección
Límite múltiple y regresión múltiple
En el enfoque de regresión múltiple, una calificación alta en una variable predictora puede
compensar una calificación baja en otra variable predictora. En consecuencia, este
planteamiento
no debería usarse cuando una calificación mínima en cualquiera de los predictores sea
esencial
para el desempeño efectivo en el criterio. Cuando se utiliza un enfoque de regresión
múltiple, debe
calcularse un coeficiente de correlación múltiple (R), el cual es un indicador de la relación
de
una combinación ponderada de las variables predictoras con la variable de criterio.

También podría gustarte