Documentos de Académico
Documentos de Profesional
Documentos de Cultura
raquelurbano02
Psicometría
2º Grado en Psicología
Facultad de Psicología
Universidad Católica de Valencia San Vicente Mártir
2. FIABILIDAD.
Según la conceptualización del error podemos hablar de diferentes tipos de fiabilidad (hay 3
más usados).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
2.2.1. Como equivalencia: formas paralelas.
Conceptualización del error de medida: diferencias en el contenido de las diversas formas del
test y errores aleatorios en la administración del test.
Correlación de las puntuaciones obtenidas en una muestra para dos formas paralelas de un
test.
Tiene el inconveniente de que hay que construir dos test paralelos lo cual es difícil y costoso en
tiempo y recursos.
FÓRMULA:
En el caso de que no hubiese errores, la correlación entre las puntuaciones empíricas obtenidas
en ambas formas sería perfecta, igual a 1, y la medición totalmente fiable.
Solamente se puede calcular cuando se dispone de dos medidas de los mismos sujetos en
momentos temporales distintos.
El principal inconveniente es determinar el tiempo óptimo que debe transcurrir entre ambas
ocasiones para evitar el recuerdo y el cambio de los sujetos en el rasgo evaluado.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
FÓRMULA:
SPEARMAN-BROWN:
Implica la división del test en dos mitades lo más equivalentes posibles, la relación entre las dos
mitades del test, y la corrección posterior de éstas en relación a la longitud total del test
mediante la corrección Spearman-brown.
Correlación de las dos mitades del test corregida mediante una fórmula basada en la relación
existente entre la longitud del test y su fiabilidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
RULON.
Se utiliza cuando, aun no siendo las dos mitades definidas estrictamente paralelas, podemos
considerarlas tau equivalentes o esencialmente tau equivalentes.
Lord y Novick definen los test tau equivalentes como aquellos en los que las puntuaciones
verdaderas de los sujetos de una muestra son iguales en ambas formas, pero las varianzas de
error no tienen por qué ser iguales.
Lord y novick definen los test esencialmente tau equivalentes como aquellos en los que la
puntuación verdadera de cada sujeto en uno de los test es igual a la del otro mas una
constante.
Tanto en una situación como en la otra se asume el cumplimiento de igualdad de las varianzas
verdaderas de ambas mitades.
Las fórmulas de Rulon y Guttman-Flanagan son equivalentes, aplicadas a los mismos datos dan
el mismo resultado.
Son un caso particular de a, que sería el valor medio que se obtendría al calcular estos
coeficientes para todas las posibles mitades de un test.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Se puede calcular aplicando el test una sola vez.
Expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza
total del test debida a la covariación entre los ítems. Cuanto más covarían los ítems entre sí
mayor será la fiabilidad del test.
Es un caso particular de a cuando los ítems son dicotómicos y tienen la misma dificultad
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
2.2.4. Otros coeficientes de fiabilidad.
Este coeficiente se utiliza en el caso de que un test se divida en varios subtests, con desigual
número de ítems y se quiera estimar la consistencia interna del test total a partir de las
puntuaciones totales de los sujetos en los subtests.
Se utiliza cuando se desconoce la puntuación de los sujetos en los ítems de los distintos test,
pero si la puntuación global de cada uno de ellos.
Cuanto mayor sea el número de ítems mayor precisión métrica (más aspectos del rasgo se
pueden evaluar).
Al principio, a medida que aumentamos el número de ítems la fiabilidad crece muy rápido pero
luego se desacelera llegando a ser asintótica.
Cuando
Aumentar la longitud de un test para incrementar su fiabilidad sólo es adecuado cuando el test
original tiene pocos ítems, de lo contrario la baja fiabilidad se deberá a que los ítems no son
apropiados
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
FÓRMULA PARA ESTIMAR EL COEFICIENTE DE FIABILIDAD EN FUNCIÓN DE LA LONGITUD
DEL TEST.
Despejando n puede estimarse el número de ítems necesarios para obtener una fiabilidad
determinada.
El coeficiente de fiabilidad no es más que una correlación lineal y como tal una de sus
propiedades es que aumenta con la variabilidad de la muestra.
Por tanto, el coeficiente de fiabilidad de un test dependerá de la muestra con la que se calcule
y debemos ser prudentes a la hora de generalizar a otros grupos.
TRC: se utiliza para evaluar el status absoluto del sujeto con respecto a algún dominio de
conocimientos, habilidades, destrezas, bien definido.
Aparecen para cubrir necesidades como: conocer la eficacia de los programas educativos y
evaluar el nivel de habilidades básicas alcanzadas por los sujetos.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
DIFERENCIAS ENTRE TEST REFERIDOS AL CRITERIO (TRC) Y REFERIDOS A LA NORMA
(TRN).
Los ítems se delimitan claramente al dominio Los ítems suelen derivarse de alguna teoría
de contenidos o conductas. de rasgos.
El objetivo más frecuente de los TRC y el que ha dado lugar a más procedimientos para evaluar
la fiabilidad es el de la clasificación de sujetos.
Desde este enfoque un test sería fiable si al aplicarlo a los mismo sujetos en dos ocasiones o
dos formas paralelas, estos son clasificados en la misma categoría.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Requieren una sóla aplicación del test:
- Método de Huynh.
- Método de Subkoviak.
- Coeficiente de livingston.
El valor máximo de pc es 1 y se obtiene cuando todos los sujetos son clasificados de forma
consistente.
Su valor oscila entre 1 (fiabilidad perfecta) y 0 (la consistencia observada sería atribuible al
azar).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
FÓRMULA:
Consistente es que hayas sacado maestría (superior a x número, va variando según cada test)
en los dos test, o no maestría en los dos test.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
3.2. EVALUACIÓN DE LA CALIDAD MÉTRICA. VALIDEZ.
Adecuación de las inferencias realizadas a partir de las puntuaciones del test que dependerán
de los objetivos que se persiguen con su aplicación.
Ha estado definido por los objetivos concretos para los que se utilizaban los test en cada
momento:
Existe una concepción unitaria de la validez: “grado en que la evidencia empírica obtenida y los
conocimientos aportados por las teorías apoyan las inferencias que se hagan a partir de las
puntuaciones del test cuando éste se utiliza para un objetivo concreto”.
En lugar de hablar de distintos tipos de validez se habla de distintas estrategias para llevar a
cabo un estudio de validación.
Trata de garantizar que los elementos o ítems del test constituyen una muestra relevante y
representativa del contenido que este pretende evaluar.
- Relevancia: que todos los aspectos que incluye el test sean relevantes para el dominio
de interés, y no haya ninguno irrelevante.
- Representatividad: que incluya todos los elementos importantes que definen el dominio.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Llevar a cabo una especificación de dominio.
Recurrir a un grupo de expertos que deben emitir un juicio subjetivo acerca de:
Aunque es un estudio más cualitativo que cuantitativo existen algunos índices numéricos.
Debe realizarse una clara y exhaustiva especificación de todas las posibles conductas o áreas
de contenido que debe cubrir el test.
A partir de la tabla de especificaciones se elaboran los ítems que son evaluados por un
conjunto de jueces en función de su adecaución al contenido para el que ha sido diseñado.
- Se presenta a un grupo de expertos cada uno de los ítems que deben juzgar, mediante
una escalada de 5 puntos, el grado de ajuste con su correspondiente especificación en
el dominio.
- El grado de relevancia de un ítem se define mediante la media o la mediana de estas
puntuaciones.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
FASE 3: EVALUACIÓN DE LA REPRESENTATIVIDAD DE LOS ÍTEMS DEL TEST.
Hace referencia al grado en que se han cubierto las especificaciones de dominio y por ende, a
la precisión de las inferencias acerca del dominio de los sujetos de ese campo de conocimiento.
Una vez eliminados los ítems cuya relevancia no alcance un punto de corte previamente
especificado se comprueba la concordancia entre la tabla de especificaciones previa y el test
final.
Validación de constructo.
Los más utilizados son dos y su finalidad es analizar estructuras internas y externas del test.
- Matriz multimétodo-multirrasgo.
Se calculan las correlaciones entre todas las medidas obtenidas y se ordenan en forma de
matriz para su análisis.
Si las correlaciones entre las medidas del mismo constructo obtenidas a través de
procedimientos distintos son altas diremos que existe validez convergente.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Si las correlaciones anteriores son significativamente más altas que las obtenidas al
correlacionar las medidas de distintos constructos con el mismo procedimiento diremos que
existe validez discriminante.
- Análisis factorial.
Es la técnica más utilizada para analizar la estructura interna y externa del constructo y de sus
relaciones con otras variables.
Se parte de un conjunto de medidas tomadas de n variables observables (ej: items del test,
diversas medidas del constructo y otros constructos) sobre la misma muestra.
Se aplica alguna técnica estadística multivariada para la extracción de los factores: análisis de
componentes principales, máxima verosimilitud, ejeS principales…
Trata de garantizar la eficacia del test para hacer inferencias acerca del comportamiento real
de los sujetos en una variable de interés externa (criterio).
- Validez predictiva: grado de relación de las puntuaciones del test con las de un criterio
externo medido con posterioridad.
- Validez concurrente: grado de relación de las puntuaciones del test con las de un criterio
externo medido en el mismo momento.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Ambas tratan de garantizar la validez del test para pronosticar el posterior rendimiento de los
aspirantes a un programa de formación, un trabajo…
Definir claramente el criterio e identificar el indicador/es que vamos a utilizar para medirlo.
Aplicar el test para obtener una medida del criterio a una muestra de sujetos representativa de
la población con la que se va a utilizar.
Determinar el grado de relación entre las medidas del test y del criterio.
Todos los indicadores son parciales y no ofrecen una comprensión completa del criterio.
¿Cómo decidir cuál es el más adecuado? Según Thorndike y hagen (1989) deben ser:
- Relevantes.
- Libres de sesgo.
Las medidas del criterio no deben estar afectadas por factores que actúen de forma diferencial
en determinados grupos.
Ej: si utilizamos el juicio de un supervisor o un compañero como indicador puede estar sesgado
para determinados sujetos.
- Fiables.
Las medidas del criterio que proporcionen los indicadores han de ser estables.
Ej: un indicador del éxito en un determinado trabajo no puede variar de manera que una
persona sea considerada competente un día e incompetente al siguiente.
- Accesibles.
A la hora de medir los indicadores los hay que plantean más problemas económicos, de
tiempo… que otros.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Hay que tratar de seleccionar aquellos que sean más accesibles siempre y cuando cumplan los
otros requisitos.
1. Un solo test y un sólo indicador del criterio: correlación y modelo de regresión lineal simple.
Correlación entre las puntuaciones obtenidas por los sujetos en el test predictor (X) y en el
criterio (Y).
También es igual a la correlación entre las puntuaciones obtenidas en el criterio (Y) y las
pronosticadas con la ecuación de regresión (Y’).
Indica la eficacia del test para estimar el criterio, en la medida en que el valor sea más alto, la
estimación será más exacta.
Intenta buscar una ecuación que ponga de manifiesto la relación de dependencia lineal entre el
test y el criterio haciendo mínimos los errores de pronóstico.
Para poder realizar predicciones sobre una muestra de sujetos, previamente debemos calcular
los términos de la ecuación utilizando las medidas en el criterio y en el test de una muestra
similar.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
*Y’: valor pronosticado en el criterio por la ecuación de regresión.
b: pendiente de la recta de regresión, que representa el cambio en los valores del criterio por
cada cambio unitario en la puntuación del test.
La recta de regresión.
Errores de estimación.
Error de estimación (Y-Y’): diferencia entre la puntuación obtenida por un sujeto en el criterio y
la pronosticada mediante la ecuación de regresión.
- Con cada sujeto se comete un determinado error de estimación, es una medida de error
individual.
- Estos errores serán menores en la medida en que el coeficiente de validez sea más alto.
- En el caso en que el coeficiente de validez alcanzará su valor máximo, la unidad, el valor
estimado coincidiría con la verdadera puntuación obtenida en el criterio.
Varianza residual o de error o error cuadrático medio: varianza de todos los errores de
estimación de la muestra.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Error típico de estimación: desviación típica de todos los errores de estimación de la muestra.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Principales factores que afectan al coeficiente de validez.
A. Variabilidad de la muestra:
El coeficiente de validez es una correlación y como tal tiende a incrementarse a medida que la
variabilidad de la muestra aumenta.
Por tanto, para un mismo test predictor y una misma medida del criterio el coeficiente de
validez puede variar de una muestra a otra.
Restricción de rango:
Basándonos en una serie de supuestos se puede calcular el coeficiente de validez criterio que
se habría obtenido para toda la muestra de aspirantes.
Supuestos:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Las puntuaciones del test y las del criterio están afectadas por errores de medida que influyen
en el coeficiente de validez produciendo una serie de sesgos que hay que controlar.
Spearman propuso una fórmula de atenuación que permite corregir la reducción del
coeficiente de validez debida a esos errores de medida.
El coeficiente de fiabilidad del test mejora con el aumento de su longitud (añadiendo ítems
paralelos) lo que repercute en la mejora del coeficiente de validez.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
En el caso de que queramos averiguar el número de veces que hay que aumentar o disminuir la
longitud del test para obtener un determinado coeficiente de validez despejamos:
2. Varios test predictores y un sólo indicador del criterio: correlación y regresión lineal múltiple.
Si el criterio es cualitativo se utiliza el análisis discriminante y si es dicotómico la regresión
logística.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
3.3. CRITERIOS DE CALIDAD INDIVIDUAL DE LOS ÍTEMS. ANÁLISIS DE
ELEMENTOS.
Nos centraremos en el estudio de tests de ejecución máxima con ítems de elección múltiple en
los que sólo hay una alternativa correcta.
las repsuestas a la alternativa correcta son las que ofrecen mayor información a través de
varios parámetros: dificultad, discriminación, fiabilidad y validez.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Se define como la proporción (o porcentaje si se multiplica por 100) de sujetos que responden
correctamente al ítem.
Su valor oscila entre p=0 (cuando el ítem es tan difícil que ningún sujeto responde
correctamente) y p=1 (cuando es tan fácil que todos respondan correctamente).
Los ítems con valores extremos deben desecharse porque no contribuyen a medir las
diferencias entre sujetos.
El valor de p depende tanto de las características del ítem como de la muestra, se pueden
obtener distintos valores de p para un mismo ítem utilizando muestras diferentes.
Discriminación: se refiere a la capacidad del ítem para diferenciar a los sujetos con diferentes
nvieles en una variable criterio.
Fiabilidad y validez: reflejan la contribución del ítem a la fiabilidad y validez referida a criterio
del test.
Los sujetos con poca o nula competencia suelen responder al azar a los ítems de respuesta
múltiple.
La fórmula para corregir el impacto de los aciertos debidos al azar sobre la dificultad del ítem
es:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
2.4. Discriminación o poder discriminativo del ítem.
Capacidad del ítem para diferenciar a los sujetos de bajo, medio y alto nivel en un criterio que
puede ser:
- Interno: la puntuación en el test. Se puede interpretar como una medida del grado de
fiabilidad (índice de homogeneidad) porque expresa el grado de semejanza entre la
respuesta del ítem y la puntuación total en el test.
- Externo: otro test o variable relevante. Es una medida del grado de validez del ítem
referido o ese criterio.
- El índice de discriminación D.
Se basa en la comparación del número de sujetos que responden correctamente al ítem en dos
grupos extremos de baja y alta aptitud (27% con mayor puntuación y 27% con menor
puntuación en el test o criterio externo).
Se basa en el cálculo del coeficiente de correlación entre el ítem y una variable criterio externa
o interna (puntuaciones en el test).
La ventaja con respecto al índice D es que para su cálculo se considera a todos los sujetos de la
muestra y no sólo al 54% (27% superior + 27% inferior).
Correlación biserial puntual (rbp): correlación entre un ítem dicotómico y una variable criterio
(interna o externa) cuantitativa continua.
Se considera al ítem como una variable dicotómica con dos posibles valores: 0 (respuesta
incorrecta) y 1 (respuesta correcta).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
El ítem se correlaciona con una variable criterio continua interna (puntuación en el test) o
externa (variable relevante).
Cuando se correlaciona con la puntuación en el test a esta se le debe restar la del ítem en
cuestión.
Coeficiente phi: correlación entre un ítem dicotómico y un criterio externo también dicotómico.
EJj: calificación en un examen, apto o no apto).
Estos estadísticos son función de la desviación típica del ítem y de su correlación con un
criterio:
- Índice de fiabilidad del ítem (IF): cuando el criterio es interno (ej: puntuación del test).
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
- Índice de validez del ítem (IV): cuando el criterio es externo.
La fiabilidad y validez del test pueden expresarse a través de los IF y los IV respectivamente, los
ítems que lo componen.
Al calcular y valorar los estadísticos del ítem en relación a la alternativa correcta pueden
aparecer ítems con poco poder discriminativo o con valores de dificultad extrema que sería
conveniente eliminar.
Una alternativa consiste en revisar los distractores para ver si pueden ser mejorados y con ellos
la calidad psicométrica del ítem.
El rendimiento medio en el test de los sujetos que eligen cada distractor debe ser inferior al de
los sujetos que eligen la alternativa correcta y a la media de todos los sujetos.
Deben discriminar entre los sujetos de baja, media y alta puntuación en el test pero en el
sentido contrario a la alternativa correcta.
3er criterio: comparación de medias en la puntuación del test para cada alternativa.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5259292