Wuolah Free A

A.
pdf
raquelurbano02
Psicometría
2º Grado en Psicología
Facultad de Psicología
Universidad Católica de Valencia San Vicente Mártir
Reservados todos los derechos.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3.1: EVALUACIÓN DE LA CALIDAD MÉTRICA. FIABILIDAD.
1. CRITERIOS DE CALIDAD MÉTRICA DE LOS INSTRUMENTOS DE MEDIDA.
Criterios de calidad global del test: fiabilidad y validez.
Criterios de calidad individual de los ítems: análisis de elementos.
2. FIABILIDAD.
La fiabilidad de un test hace referencia a la precisión de las medidas obtenidas y a la capacidad

de generalización de estas medidas en situaciones similares; es decir, la no existencia de
errores de medida.
Según la conceptualización del error podemos hablar de diferentes tipos de fiabilidad (hay 3
más usados).
Independientemente del método utilizado, el coeficiente de fiabilidad (pxx’ ), oscila entre 0 y 1.

Si el coeficiente es igual a 1, la fiabilidad es máxima, es decir, no hay error en la medida; pero si
el índice es cercano a 0, el error de medida es muy grande, y en consecuencia, el test no es un
buen instrumento de medida para el constructo.
2.1. Coeficiente de fiabilidad.
Cociente entre la varianza de las puntuaciones verdaderas y la de las empíricas: proporción de

varianza empírica que corresponde a la varianza verdadera.
2.2. Procedimientos para el cálculo empírico del coeficiente de fiabilidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
2.2.1. Como equivalencia: formas paralelas.
Conceptualización del error de medida: diferencias en el contenido de las diversas formas del
test y errores aleatorios en la administración del test.
El método a utilizar es FORMAS PARALELAS.
Correlación de las puntuaciones obtenidas en una muestra para dos formas paralelas de un
test.
Tiene el inconveniente de que hay que construir dos test paralelos lo cual es difícil y costoso en
tiempo y recursos.
FÓRMULA:
2.2.1.1. Interpretación del coeficiente de fiabilidad.
En el caso de que no hubiese errores, la correlación entre las puntuaciones empíricas obtenidas
en ambas formas sería perfecta, igual a 1, y la medición totalmente fiable.
A medida que la correlación se aleja de 1 mayores son los errores de medida.
2.2.2. Como estabilidad: test-retest.
Conceptualización del error de medida: fluctuaciones temporales de la puntuación entre dos

momentos temporales, cambios de conducta del sujeto y errores aleatorios en la
administración del test.
El método a utilizar es el TEST-RETEST.
Solamente se puede calcular cuando se dispone de dos medidas de los mismos sujetos en
momentos temporales distintos.
Se estima mediante la correlación entre los dos conjuntos de valores.
Es más económico que el anterior.
El principal inconveniente es determinar el tiempo óptimo que debe transcurrir entre ambas
ocasiones para evitar el recuerdo y el cambio de los sujetos en el rasgo evaluado.
FÓRMULA:
2.2.3. Como consistencia interna.
Conceptualización del error de medida: muestreo del contenido y errores aleatorios en la

administración del test.
Grado en que diferentes subconjuntos de ítems miden un rasgo o comportamiento

homogéneo; es decir el grado en que cobrarán, correlacionan o son consistentes entre sí
diferentes partes del cuestionario.
2.2.3.1. Dos mitades.
Se puede calcular aplicando el test una sola vez.
Generalmente se eligen los ítems pares frente a los impares.
Si las dos mitades son equivalentes se utiliza el procedimiento de Spearman-Brown mientras

que si son tau-equivalentes o esencialmente tau-equivalentes se utilizan los procedimientos de
Rulon o Guttman-Falnagan.
Cuando el número de ítems es pequeño e impar no es aconsejable utilizar el método.
SPEARMAN-BROWN:
Implica la división del test en dos mitades lo más equivalentes posibles, la relación entre las dos
mitades del test, y la corrección posterior de éstas en relación a la longitud total del test
mediante la corrección Spearman-brown.
Correlación de las dos mitades del test corregida mediante una fórmula basada en la relación
existente entre la longitud del test y su fiabilidad.
RULON.
Se utiliza cuando, aun no siendo las dos mitades definidas estrictamente paralelas, podemos
considerarlas tau equivalentes o esencialmente tau equivalentes.
Lord y Novick definen los test tau equivalentes como aquellos en los que las puntuaciones
verdaderas de los sujetos de una muestra son iguales en ambas formas, pero las varianzas de
error no tienen por qué ser iguales.
Lord y novick definen los test esencialmente tau equivalentes como aquellos en los que la
puntuación verdadera de cada sujeto en uno de los test es igual a la del otro mas una
constante.
Tanto en una situación como en la otra se asume el cumplimiento de igualdad de las varianzas
verdaderas de ambas mitades.
Equivalente a Rulon pero más sencilla de aplicar: Guttman-Flanagan (1937,1945).
Las fórmulas de Rulon y Guttman-Flanagan son equivalentes, aplicadas a los mismos datos dan
el mismo resultado.
Son un caso particular de a, que sería el valor medio que se obtendría al calcular estos
coeficientes para todas las posibles mitades de un test.
2.2.3.2. Basados en la covariación de los ítems.
Coeficiente Alfa de Cronbach.
Fue propuesto por Cronbach en 1951 y es el más utilizado.
Se puede calcular aplicando el test una sola vez.
Expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza
total del test debida a la covariación entre los ítems. Cuanto más covarían los ítems entre sí
mayor será la fiabilidad del test.
Kuder y Richardson (1937): KR20.
*kr20: se utiliza cuando el ítem tiene distinta dificultad (o no te dice nada).

kr21: cuando los ítems tienen la misma dificultad y son dicotómicos.
Es un caso particular de a cuando los ítems son dicotómicos.
Kuder y Richardson (1937): KR21
Es un caso particular de a cuando los ítems son dicotómicos y tienen la misma dificultad
2.2.4. Otros coeficientes de fiabilidad.
2.2.4.1. Theta Ө y Omega.
Estos dos coeficientes constituyen dos indicadores de la consistencia interna y una

aproximación al coeficiente alfa.
El índice Theta es además un indicador de la unidimensionalidad de los ítems. Cuanto mayor

sea la varianza que explica el primer factor mayor será el valor y por consiguiente, la
intercorrelación entre los ítems, los que implica que éstos se distribuyan en torno a una sola
dimensión.
En general se verifica que las igualdades entre los coeficientes se verifican

cuando los ítems son paralelos.
2.2.4.2. Beta de Raju.
Este coeficiente se utiliza en el caso de que un test se divida en varios subtests, con desigual
número de ítems y se quiera estimar la consistencia interna del test total a partir de las
puntuaciones totales de los sujetos en los subtests.
Se utiliza cuando se desconoce la puntuación de los sujetos en los ítems de los distintos test,
pero si la puntuación global de cada uno de ellos.
2.3. Factores que influyen en el coeficiente de fiabilidad.
2.3.1. Longitud del test.
Cuanto mayor sea el número de ítems mayor precisión métrica (más aspectos del rasgo se
pueden evaluar).
La fórmula de Spearman-Brown permite pronosticar el coeficiente de fiabilidad al variar la

longitud del test (al añadir ítems similares o paralelos).
Al principio, a medida que aumentamos el número de ítems la fiabilidad crece muy rápido pero
luego se desacelera llegando a ser asintótica.
Cuando
Aumentar la longitud de un test para incrementar su fiabilidad sólo es adecuado cuando el test
original tiene pocos ítems, de lo contrario la baja fiabilidad se deberá a que los ítems no son
apropiados
Incremento del coeficiente de fiabilidad al aumentar la

longitud del test.
FÓRMULA PARA ESTIMAR EL COEFICIENTE DE FIABILIDAD EN FUNCIÓN DE LA LONGITUD
DEL TEST.
Despejando n puede estimarse el número de ítems necesarios para obtener una fiabilidad
determinada.
2.3.2. Variabilidad de la muestra.
El coeficiente de fiabilidad no es más que una correlación lineal y como tal una de sus
propiedades es que aumenta con la variabilidad de la muestra.
Por tanto, el coeficiente de fiabilidad de un test dependerá de la muestra con la que se calcule
y debemos ser prudentes a la hora de generalizar a otros grupos.
FÓRMULA PARA ESTIMAR EL COEFICIENTE DE FIABILIDAD EN FUNCIÓN DE LA

VARIABILIDAD DE LA MUESTRA.
2.3.2.1. La fiabilidad en los tests referidos al criterio (TRC).
TRC: se utiliza para evaluar el status absoluto del sujeto con respecto a algún dominio de
conocimientos, habilidades, destrezas, bien definido.
Aparecen para cubrir necesidades como: conocer la eficacia de los programas educativos y
evaluar el nivel de habilidades básicas alcanzadas por los sujetos.
DIFERENCIAS ENTRE TEST REFERIDOS AL CRITERIO (TRC) Y REFERIDOS A LA NORMA
(TRN).
TRC: Evaluación de sujetos. TRN: Evaluación sujetos
La puntuación obtenida en el test representa La puntuación obtenida en el test se

una estimación del rendimiento del sujeto en considera un indicador de su puntuación
el dominio. verdadera en un rasgo latente.
Tiene significado en términos absolutos. Sólo tiene significado en relación a los

resultados del grupo normativo.
TRC: Finalidad TRN: Finalidad
Test referido al dominio: describir con Situar al sujeto en el continuo de algún

precisión los conocimientos y habilidades de rasgo, haciendo hincapié en las diferencias
los sujetos en un dominio de contenido individuales y expresando su posición
(puntuación dominio). relativa respecto al grupo normativo.
Test de maestría: establecer puntos de corte

para clasificar a los sujetos en una de las
posibles categorías excluyentes entre sí (ej:
apto-no apto
TRC: Construcción TRN: Construcción
Los ítems se delimitan claramente al dominio Los ítems suelen derivarse de alguna teoría
de contenidos o conductas. de rasgos.
La selección de los ítems dependerá de los El objetivo es maximizar las diferencias

objetivos del test: individuales por lo que se eligen ítems con
alto índice de discriminación
- Test referido al dominio.
- Test de maestría.
2.3.2.2. Fiabilidad de los test de maestría.
El objetivo más frecuente de los TRC y el que ha dado lugar a más procedimientos para evaluar
la fiabilidad es el de la clasificación de sujetos.
Desde este enfoque un test sería fiable si al aplicarlo a los mismo sujetos en dos ocasiones o
dos formas paralelas, estos son clasificados en la misma categoría.
2.4. Métodos para el cálculo de la fiabilidad
Requieren dos aplicaciones del mismo test o dos formas paralelas:
- Coeficiente pc de Hambleton y Novick.

- Coeficiente Kappa de Cohen.
- Índice de Croker y Algina.
Requieren una sóla aplicación del test:
- Método de Huynh.
- Método de Subkoviak.
- Coeficiente de livingston.
2.4.1. Coeficiente pc de Hambleton y Novick.
Se basa en la proporción de sujetos clasificados consistentemente en las dos ocasiones.
El valor máximo de pc es 1 y se obtiene cuando todos los sujetos son clasificados de forma
consistente.
El valor mínimo de pc es igual a la proporción de clasificaciones consistentes que podemos

esperar por azar (pa).
En la fórmula pone puntos suspensivos porque pueden haber más variables.
2.4.2. Coeficiente Kappa de Cohen.
Proporciona una medida de la consistencia de clasificación de la que se ha eliminado el posible

valor esperado por azar.
Su valor oscila entre 1 (fiabilidad perfecta) y 0 (la consistencia observada sería atribuible al
azar).
FÓRMULA:
Consistente es que hayas sacado maestría (superior a x número, va variando según cada test)
en los dos test, o no maestría en los dos test.
3.2. EVALUACIÓN DE LA CALIDAD MÉTRICA. VALIDEZ.
1. DEFINICIÓN GENERAL DE VALIDEZ.
Grado en que el test mide aquello que pretende medir.
Adecuación de las inferencias realizadas a partir de las puntuaciones del test que dependerán
de los objetivos que se persiguen con su aplicación.
1.1. Evolución histórica del concepto de validez.
Ha estado definido por los objetivos concretos para los que se utilizaban los test en cada
momento:
- Determinar el rendimiento o actuación de un sujeto en un universo de situaciones

(contenido).
- Inferir el grado en que un sujeto posee algún rasgo o atributo (constructo).
- Predecir el rendimiento o comportamiento futuro (predictiva) o actual (concurrente) en
una variable externa al test.
1.2. Concepto actual de validez.
Existe una concepción unitaria de la validez: “grado en que la evidencia empírica obtenida y los
conocimientos aportados por las teorías apoyan las inferencias que se hagan a partir de las
puntuaciones del test cuando éste se utiliza para un objetivo concreto”.
En lugar de hablar de distintos tipos de validez se habla de distintas estrategias para llevar a
cabo un estudio de validación.
1.2.1. Estudio de validación de un test.
Proceso mediante el cual se recoge la evidencia empírica (datos, observaciones, argumentos)

necesaria para apoyar las inferencias que se van a realizar a partir de las puntuaciones del test.
Un proceso de validación ideal debe incluir los tipos de evidencia implicados en lso tres tipos
tradicionales de validez: de contenido, de constructo y relativa al criterio.
1.2.2. Validación de contenido.
Es especialmente importante en los test de rendimiento académico.
Trata de garantizar que los elementos o ítems del test constituyen una muestra relevante y
representativa del contenido que este pretende evaluar.
- Relevancia: que todos los aspectos que incluye el test sean relevantes para el dominio
de interés, y no haya ninguno irrelevante.
- Representatividad: que incluya todos los elementos importantes que definen el dominio.
1.2.3. Fases de un estudio de validación de contenido.
Llevar a cabo una especificación de dominio.
Recurrir a un grupo de expertos que deben emitir un juicio subjetivo acerca de:
- La relevancia de los ítems.

- La representatividad del test.
Aunque es un estudio más cualitativo que cuantitativo existen algunos índices numéricos.
FASE 1: ESPECIFICACIÓN DEL DOMINIO.
Debe realizarse una clara y exhaustiva especificación de todas las posibles conductas o áreas
de contenido que debe cubrir el test.
Se construye una tabla de doble entrada donde:
- Las filas representan las distintas áreas de contenido.

- Las columnas muestran las diferentes operaciones, procesos cognitivos, objetivos
instruccionales…
- Las celdas el número o la proporción de ítems que debe contener la prueba en relación
con cada contenido y objetivo (pesos.
Ejemplo: tabla de especificación de dominio de un examen sobre la asignatura de Psicometría.
FASE 2: EVALUACIÓN DE LA RELEVANCIA DE LOS ÍTEMS EN RELACIÓN CON EL DOMINIO.
A partir de la tabla de especificaciones se elaboran los ítems que son evaluados por un
conjunto de jueces en función de su adecaución al contenido para el que ha sido diseñado.
El procedimiento más utilizado es el de Hambleton:
- Se presenta a un grupo de expertos cada uno de los ítems que deben juzgar, mediante
una escalada de 5 puntos, el grado de ajuste con su correspondiente especificación en
el dominio.
- El grado de relevancia de un ítem se define mediante la media o la mediana de estas
puntuaciones.
FASE 3: EVALUACIÓN DE LA REPRESENTATIVIDAD DE LOS ÍTEMS DEL TEST.
Hace referencia al grado en que se han cubierto las especificaciones de dominio y por ende, a
la precisión de las inferencias acerca del dominio de los sujetos de ese campo de conocimiento.
Una vez eliminados los ítems cuya relevancia no alcance un punto de corte previamente
especificado se comprueba la concordancia entre la tabla de especificaciones previa y el test
final.
Un índice de la representatividad podría ser la correlación entre el peso dado a cada

especificación y el número de ítems que la cubren.
Validación de constructo.
Trata de garantizar que:
- Existe un constructo psicológico subyacente que da sentido y significado a las

puntuaciones del test (grado en que el sujeto posee el rasgo o atributo).
- El test mide realmente la variable letente que pretende medir.
La distinción entre validez de constructo y de contenido es un tanto artificial: en la

especificación de dominio podemos limitarnos a describir las conductas (contenido) o
establecer una definición formal que las relacione (constructo).
Definir el constructo de interés a partir de las teorías existentes
Postular hipótesis acerca de la relación del constructo de interés con una serie de variables
directamente observables, y con otros constructos
Diseñar un instrumento de medida que cuente con elementos relevantes y representativos de
las manifestaciones observables del constructo
Obtener datos empíricos para contrastar las hipótesis acerca del constructo
Métodos de evaluación en los estudios de validación de constructo.
Los más utilizados son dos y su finalidad es analizar estructuras internas y externas del test.
- Matriz multimétodo-multirrasgo.
Se intenta medir un mismo constructo mediante diversos procedimientos y diversos

constructos mediante el mismo procedimiento.
Se calculan las correlaciones entre todas las medidas obtenidas y se ordenan en forma de
matriz para su análisis.
Si las correlaciones entre las medidas del mismo constructo obtenidas a través de
procedimientos distintos son altas diremos que existe validez convergente.
Si las correlaciones anteriores son significativamente más altas que las obtenidas al
correlacionar las medidas de distintos constructos con el mismo procedimiento diremos que
existe validez discriminante.
Un problema de este procedimiento es que no existe un criterio estadístico para tomar

decisiones, sólo se puede decir que parece haber evidencia de que el test es válido o no.
- Análisis factorial.
Es la técnica más utilizada para analizar la estructura interna y externa del constructo y de sus
relaciones con otras variables.
Trata de simplificar un conjunto de variables observables (ej: items de un test o un conjunto de

tests) mediante un número menor de factores o constructos, a partir de las intrercorrelaciones
entre las primeras.
Fases del procedimiento:
Se parte de un conjunto de medidas tomadas de n variables observables (ej: items del test,
diversas medidas del constructo y otros constructos) sobre la misma muestra.
Se obtiene una matriz (n x n) con las intercorrelaciones entre todas ellas.
Se aplica alguna técnica estadística multivariada para la extracción de los factores: análisis de
componentes principales, máxima verosimilitud, ejeS principales…
Interpretación de los resultados:
Cuando en un mismo factor se agrupan (saturan) múltiples indicadores del constructo se

obtiene evidencia de la validez convergente.
Cuando en el análisis se han obtenido medidas de otros constructos y éstas aparecen

agrupadas en distintos factores, se obtiene evidencia de la validez discriminante.
1.2.4. Validación referida al criterio.
Trata de garantizar la eficacia del test para hacer inferencias acerca del comportamiento real
de los sujetos en una variable de interés externa (criterio).
A diferencia de los estudios de validación de constructos se acentúa el interés en el aspecto

empírico del proceso más que en el teórico.
Es especialmente importante en el ámbito de la selección de personal.
Tipo de análisis dependiendo del uso que se da al test:
- Validez predictiva: grado de relación de las puntuaciones del test con las de un criterio
externo medido con posterioridad.
- Validez concurrente: grado de relación de las puntuaciones del test con las de un criterio
externo medido en el mismo momento.
Ambas tratan de garantizar la validez del test para pronosticar el posterior rendimiento de los
aspirantes a un programa de formación, un trabajo…
Fases en un estudio de validación referida al criterio.
Definir claramente el criterio e identificar el indicador/es que vamos a utilizar para medirlo.
Aplicar el test para obtener una medida del criterio a una muestra de sujetos representativa de
la población con la que se va a utilizar.
Determinar el grado de relación entre las medidas del test y del criterio.
La selección y medición del criterio.
Todos los indicadores son parciales y no ofrecen una comprensión completa del criterio.
¿Cómo decidir cuál es el más adecuado? Según Thorndike y hagen (1989) deben ser:
- Relevantes.
Un indicador es relevante en la medida en que se corresponde con el criterio.
Para apreciar la relevancia es necesario tener en cuenta consideraciones racionales y apoyarse

en los juicios de expertos.
Ej: la talla de calzado no es un indicador relevante en un proceso de selección de personal para

un puesto de recepcionista ya que no nos proporciona ninguna información acerca de su
desempeño en el puesto.
- Libres de sesgo.
Las medidas del criterio no deben estar afectadas por factores que actúen de forma diferencial
en determinados grupos.
Ej: si utilizamos el juicio de un supervisor o un compañero como indicador puede estar sesgado
para determinados sujetos.
- Fiables.
Las medidas del criterio que proporcionen los indicadores han de ser estables.
De lo contrario sería imposible encontrar un test capaz de pronosticarla.
Ej: un indicador del éxito en un determinado trabajo no puede variar de manera que una
persona sea considerada competente un día e incompetente al siguiente.
- Accesibles.
A la hora de medir los indicadores los hay que plantean más problemas económicos, de
tiempo… que otros.
Hay que tratar de seleccionar aquellos que sean más accesibles siempre y cuando cumplan los
otros requisitos.
Procedimientos para determinar la relación entre el test y el criterio.
1. Un solo test y un sólo indicador del criterio: correlación y modelo de regresión lineal simple.
- La correlación (coeficiente de validez): permite conocer el grado de asociación entre el

test y el criterio.
Correlación entre las puntuaciones obtenidas por los sujetos en el test predictor (X) y en el
criterio (Y).
También es igual a la correlación entre las puntuaciones obtenidas en el criterio (Y) y las
pronosticadas con la ecuación de regresión (Y’).
Indica la eficacia del test para estimar el criterio, en la medida en que el valor sea más alto, la
estimación será más exacta.
El tipo de correlación que se calcule dependerá de la naturaleza de las variables implicadas.
El resultado siempre oscilará entre -1 y 1.
- Modelo de regresión: permite pronosticar, a partir de las puntuaciones obtenidas en el

predictor (test), las del criterio.
Intenta buscar una ecuación que ponga de manifiesto la relación de dependencia lineal entre el
test y el criterio haciendo mínimos los errores de pronóstico.
Mediante la aplicación de esta ecuación obtendremos una estimación puntual de las

puntuaciones de los sujetos en el criterio, a partir de sus puntuaciones en el test.
Para poder realizar predicciones sobre una muestra de sujetos, previamente debemos calcular
los términos de la ecuación utilizando las medidas en el criterio y en el test de una muestra
similar.
*Y’: valor pronosticado en el criterio por la ecuación de regresión.
X: puntuación obtenida en el test predictor.
a: ordenada en el origen o término constante, que representa el valor pronosticado en el

criterio cuando la puntuación en el test es 0.
b: pendiente de la recta de regresión, que representa el cambio en los valores del criterio por
cada cambio unitario en la puntuación del test.
La recta de regresión.
Si representamos mediante un diagrama de dispersión la relación entre las puntuaciones del

test y las pronosticadas en el criterio obtendremos una recta que siempre pasa por el punto.
Errores de estimación.
Error de estimación (Y-Y’): diferencia entre la puntuación obtenida por un sujeto en el criterio y
la pronosticada mediante la ecuación de regresión.
- Con cada sujeto se comete un determinado error de estimación, es una medida de error
individual.
- Estos errores serán menores en la medida en que el coeficiente de validez sea más alto.
- En el caso en que el coeficiente de validez alcanzará su valor máximo, la unidad, el valor
estimado coincidiría con la verdadera puntuación obtenida en el criterio.
Varianza residual o de error o error cuadrático medio: varianza de todos los errores de
estimación de la muestra.
Error típico de estimación: desviación típica de todos los errores de estimación de la muestra.
Propiedades fundamentales de la estimación mediante la ecuación de regresión.
De la última propiedad se puede deducir otras formas de expresar el coeficiente de validez, la

varianza de error y el error típico de estimación.
Principales factores que afectan al coeficiente de validez.
A. Variabilidad de la muestra:
El coeficiente de validez es una correlación y como tal tiende a incrementarse a medida que la
variabilidad de la muestra aumenta.
Por tanto, para un mismo test predictor y una misma medida del criterio el coeficiente de
validez puede variar de una muestra a otra.
Esto puede ocasionar problemas como el de la restricción de rango.
Restricción de rango:
En el ámbito de la selección es frecuente que el coeficiente de validez se calcule con muestras

más homogéneas que aquellas a las que se va a aplicar en el futuro con fines predictivos.
Tanto si se utiliza el método de validación predictiva como el de validación concurrente el

coeficiente de validez suele calcularse sobre una submuestra seleccionada a partir de las
puntuaciones del test u otro criterio.
En ambos casos el coeficiente de validez queda infravalorado.
Basándonos en una serie de supuestos se puede calcular el coeficiente de validez criterio que
se habría obtenido para toda la muestra de aspirantes.
Supuestos:
ECUACIÓN PARA ESTIMAR EL COEFICIENTE DE VALIDEZ DE LA MUESTRA DE ASPIRANTES:
B. Fiabilidad de las puntuaciones obtenidas en el test y en el criterio:
Las puntuaciones del test y las del criterio están afectadas por errores de medida que influyen
en el coeficiente de validez produciendo una serie de sesgos que hay que controlar.
Spearman propuso una fórmula de atenuación que permite corregir la reducción del
coeficiente de validez debida a esos errores de medida.
Estimación del coeficiente de validen en el supuesto de que:
- Se mejora la fiabilidad del test y el criterio.
- Se mejorará la fiabilidad del test.
- Se mejorara la fiabilidad del criterio.
C. Longitud del test.
El coeficiente de fiabilidad del test mejora con el aumento de su longitud (añadiendo ítems
paralelos) lo que repercute en la mejora del coeficiente de validez.
Mediante una fórmula derivada de la de Sperman-Brown y la fórmula de atenuación, para el

supuesto de la mejora de la fiabilidad del test, podemos poner en relación el coeficiente de
validez, la fiabilidad y la longitud del test.
En el caso de que queramos averiguar el número de veces que hay que aumentar o disminuir la
longitud del test para obtener un determinado coeficiente de validez despejamos:
2. Varios test predictores y un sólo indicador del criterio: correlación y regresión lineal múltiple.
Si el criterio es cualitativo se utiliza el análisis discriminante y si es dicotómico la regresión
logística.
3. Varios test predictores cuantitativos y varios indicadores de criterio cuantitativos: regresión

lineal multivariante y correlación canónica. No se utilizan mucho porque los resultados son
difíciles de interpretar.
4. Procedimientos basados en la teoría de la decisión: diferentes métodos para optimizar las

decisiones realizadas a partir del test (técnicas maximin y minimax y Teoría de la utilidad
multiatributo).
3.3. CRITERIOS DE CALIDAD INDIVIDUAL DE LOS ÍTEMS. ANÁLISIS DE
ELEMENTOS.
1. FASES EN EL ANÁLISIS DE ÍTEMS.
Análisis cualitativo: primer estadio donde se estudian la validez de contenido y de constructo,

el formato, la calidad de la redacción…
Análisis cuantitativo: posteriormente se estudian las propiedades estadísticas y psicométricas

de los ítems y su contribución a la calidad psicométrica del test.
2. PROPIEDADES PSICOMÉTRICAS DE LOS ÍTEMS.
Su estudio depende de:
- Qué tipo de variables se miden: aptitudinales y de rendimiento (test de ejecución

máxima) o actitudinales (test de ejecución típica).
- El formato de los ítems: elección múltiple, verdadero-falso, respuesta abierta…
Nos centraremos en el estudio de tests de ejecución máxima con ítems de elección múltiple en
los que sólo hay una alternativa correcta.
2.1. Propiedades psicométricas de los ítems de respuesta múltiple.
Se evalúa a través de las respuestas de los sujetos.
las repsuestas a la alternativa correcta son las que ofrecen mayor información a través de
varios parámetros: dificultad, discriminación, fiabilidad y validez.
El análisis de las respuestas a las alternativas incorrectas (análisis de distractores) también

informa sobre la contribución de estas a la calidad del ítem y del test.
2.2. Parámetros de los ítems.
Dificultad: la dificultad teórica se establece a priori en función del contenido y la complejidad

de las operaciones requeridas para responder y se contrasta después empíricamente a través
del análisis de las respuestas.
De los estadísticos propuestos para su medida el más utilizado es:
Se define como la proporción (o porcentaje si se multiplica por 100) de sujetos que responden
correctamente al ítem.
Su valor oscila entre p=0 (cuando el ítem es tan difícil que ningún sujeto responde
correctamente) y p=1 (cuando es tan fácil que todos respondan correctamente).
Los ítems con valores extremos deben desecharse porque no contribuyen a medir las
diferencias entre sujetos.
La dificultad medida mediante el estadístico p permite la comparación de ítems que miden

distintos dominios o constructos siempre que se apliquen a los mismos sujetos.
El valor de p depende tanto de las características del ítem como de la muestra, se pueden
obtener distintos valores de p para un mismo ítem utilizando muestras diferentes.
Discriminación: se refiere a la capacidad del ítem para diferenciar a los sujetos con diferentes
nvieles en una variable criterio.
Fiabilidad y validez: reflejan la contribución del ítem a la fiabilidad y validez referida a criterio
del test.
2.3. Corrección de la dificultad controlando el azar.
Los sujetos con poca o nula competencia suelen responder al azar a los ítems de respuesta
múltiple.
La fórmula para corregir el impacto de los aciertos debidos al azar sobre la dificultad del ítem
es:
La aplicación de esta correción parte de dos supuestos:
- Existe un subgrupo de sujetos relativamente numeroso que responden correctamente al

ítem por azar.
- Para este grupo todas las alternativas tienen la misma probabilidad de ser elegidas.
2.4. Discriminación o poder discriminativo del ítem.
Capacidad del ítem para diferenciar a los sujetos de bajo, medio y alto nivel en un criterio que
puede ser:
- Interno: la puntuación en el test. Se puede interpretar como una medida del grado de
fiabilidad (índice de homogeneidad) porque expresa el grado de semejanza entre la
respuesta del ítem y la puntuación total en el test.
- Externo: otro test o variable relevante. Es una medida del grado de validez del ítem
referido o ese criterio.
2.4.1. Estadísticos para cuantificar el poder discriminativo del ítem.
De los numerosos estadísticos propuestos los más utilizados son:
- El índice de discriminación D.
Se basa en la comparación del número de sujetos que responden correctamente al ítem en dos
grupos extremos de baja y alta aptitud (27% con mayor puntuación y 27% con menor
puntuación en el test o criterio externo).
Un ítem tendrá un buen índice de discriminación si el número de sujetos que responden

correctamente es mayor en el grupo de alta aptitud.
- Los coeficientes de discriminación.
Se basa en el cálculo del coeficiente de correlación entre el ítem y una variable criterio externa
o interna (puntuaciones en el test).
La ventaja con respecto al índice D es que para su cálculo se considera a todos los sujetos de la
muestra y no sólo al 54% (27% superior + 27% inferior).
Tipos de coeficiente en función del tipo de variable criterio.
Correlación biserial puntual (rbp): correlación entre un ítem dicotómico y una variable criterio
(interna o externa) cuantitativa continua.
Se considera al ítem como una variable dicotómica con dos posibles valores: 0 (respuesta
incorrecta) y 1 (respuesta correcta).
El ítem se correlaciona con una variable criterio continua interna (puntuación en el test) o
externa (variable relevante).
Cuando se correlaciona con la puntuación en el test a esta se le debe restar la del ítem en
cuestión.
Coeficiente phi: correlación entre un ítem dicotómico y un criterio externo también dicotómico.
EJj: calificación en un examen, apto o no apto).
Para su cálculo se ordenan los datos en una tabla de contingencia:
2.5. Fiabilidad y validez del ítem.
Estos estadísticos son función de la desviación típica del ítem y de su correlación con un
criterio:
- Índice de fiabilidad del ítem (IF): cuando el criterio es interno (ej: puntuación del test).
Se considera un indicador de la precisión con la que el ítem mide el constructo o dominio de

interés.
- Índice de validez del ítem (IV): cuando el criterio es externo.
La fiabilidad y validez del test pueden expresarse a través de los IF y los IV respectivamente, los
ítems que lo componen.
2.6. Análisis de los distractores.
Al calcular y valorar los estadísticos del ítem en relación a la alternativa correcta pueden
aparecer ítems con poco poder discriminativo o con valores de dificultad extrema que sería
conveniente eliminar.
Esto a veces no es posible porque son importantes en relación a la validez de contenido o de

constructo.
Una alternativa consiste en revisar los distractores para ver si pueden ser mejorados y con ellos
la calidad psicométrica del ítem.
2.6.1. Condiciones para que los distractores sean considerados eficaces.
Son elegidos por un mínimo de sujetos (más de 10%).
Son aproximadamente igual de atractivos para los sujetos.
El rendimiento medio en el test de los sujetos que eligen cada distractor debe ser inferior al de
los sujetos que eligen la alternativa correcta y a la media de todos los sujetos.
Deben discriminar entre los sujetos de baja, media y alta puntuación en el test pero en el
sentido contrario a la alternativa correcta.
2.6.1. Estadísticos para comprobar estos criterios.
1er y 2º criterio: porcentaje de sujetos que eligen cada distractor.
3er criterio: comparación de medias en la puntuación del test para cada alternativa.
4º criterio: índice de discriminación y coeficiente de correlación para los distractores que

deben presentar un poder discriminativo alto, aunque menor al de la alternativa correcta, y
negativo.

Wuolah Free A

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Wuolah Free A

Cargado por

Copyright:

Formatos disponibles

A.

Reservados todos los derechos.

1. CRITERIOS DE CALIDAD MÉTRICA DE LOS INSTRUMENTOS DE MEDIDA.

Criterios de calidad global del test: fiabilidad y validez.

Criterios de calidad individual de los ítems: análisis de elementos.

La fiabilidad de un test hace referencia a la precisión de las medidas obtenidas y a la capacidad

Independientemente del método utilizado, el coeficiente de fiabilidad (pxx’ ), oscila entre 0 y 1.

2.1. Coeficiente de fiabilidad.

Cociente entre la varianza de las puntuaciones verdaderas y la de las empíricas: proporción de

2.2. Procedimientos para el cálculo empírico del coeficiente de fiabilidad.

El método a utilizar es FORMAS PARALELAS.

2.2.1.1. Interpretación del coeficiente de fiabilidad.

A medida que la correlación se aleja de 1 mayores son los errores de medida.

2.2.2. Como estabilidad: test-retest.

Conceptualización del error de medida: fluctuaciones temporales de la puntuación entre dos

El método a utilizar es el TEST-RETEST.

Se estima mediante la correlación entre los dos conjuntos de valores.

Es más económico que el anterior.

2.2.3. Como consistencia interna.

Conceptualización del error de medida: muestreo del contenido y errores aleatorios en la

Grado en que diferentes subconjuntos de ítems miden un rasgo o comportamiento

2.2.3.1. Dos mitades.

Se puede calcular aplicando el test una sola vez.

Generalmente se eligen los ítems pares frente a los impares.

Si las dos mitades son equivalentes se utiliza el procedimiento de Spearman-Brown mientras

Cuando el número de ítems es pequeño e impar no es aconsejable utilizar el método.

Equivalente a Rulon pero más sencilla de aplicar: Guttman-Flanagan (1937,1945).

2.2.3.2. Basados en la covariación de los ítems.

Coeficiente Alfa de Cronbach.

Fue propuesto por Cronbach en 1951 y es el más utilizado.

Kuder y Richardson (1937): KR20.

*kr20: se utiliza cuando el ítem tiene distinta dificultad (o no te dice nada).

Es un caso particular de a cuando los ítems son dicotómicos.

Kuder y Richardson (1937): KR21

2.2.4.1. Theta Ө y Omega.

Estos dos coeficientes constituyen dos indicadores de la consistencia interna y una

El índice Theta es además un indicador de la unidimensionalidad de los ítems. Cuanto mayor

En general se verifica que las igualdades entre los coeficientes se verifican

2.2.4.2. Beta de Raju.

2.3. Factores que influyen en el coeficiente de fiabilidad.

2.3.1. Longitud del test.

La fórmula de Spearman-Brown permite pronosticar el coeficiente de fiabilidad al variar la

Incremento del coeficiente de fiabilidad al aumentar la

2.3.2. Variabilidad de la muestra.

FÓRMULA PARA ESTIMAR EL COEFICIENTE DE FIABILIDAD EN FUNCIÓN DE LA

2.3.2.1. La fiabilidad en los tests referidos al criterio (TRC).

TRC: Evaluación de sujetos. TRN: Evaluación sujetos

La puntuación obtenida en el test representa La puntuación obtenida en el test se

Tiene significado en términos absolutos. Sólo tiene significado en relación a los

TRC: Finalidad TRN: Finalidad

Test referido al dominio: describir con Situar al sujeto en el continuo de algún

Test de maestría: establecer puntos de corte

TRC: Construcción TRN: Construcción

La selección de los ítems dependerá de los El objetivo es maximizar las diferencias

2.3.2.2. Fiabilidad de los test de maestría.

2.4. Métodos para el cálculo de la fiabilidad

Requieren dos aplicaciones del mismo test o dos formas paralelas:

- Coeficiente pc de Hambleton y Novick.

2.4.1. Coeficiente pc de Hambleton y Novick.

Se basa en la proporción de sujetos clasificados consistentemente en las dos ocasiones.

El valor mínimo de pc es igual a la proporción de clasificaciones consistentes que podemos

En la fórmula pone puntos suspensivos porque pueden haber más variables.

2.4.2. Coeficiente Kappa de Cohen.