Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Facultad de Filosofía
UNIDAD II
Abad Francisco; Garrido, Jesus: Introducción a la Psicometria. Teoría clásica de los Test y
Teoría de Respuesta al Item. Universidad Autónoma de Madrid. 2006.
Cohen, Jay Ronald; Swerdlik E., Mark. Pruebas y evaluación. Edit. Mc. Graw Hill. Ed. 2006.
Cap 6. Pag. 156 al 165; 174 al 183
VALIDEZ
( Resumen )
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestión de qué es lo que auténticamente está evaluando.
La validación es un proceso continuo, que incluye procedimientos diferentes para comprobar si el
cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo de
conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el test. Las
inferencias pueden ser de muy diverso tipo: ¿qué rasgo estamos midiendo realmente? ¿Qué podemos
predecir sobre el comportamiento de un sujeto que obtiene una determinada puntuación en el test? ¿Qué
consecuencias de diverso tipo tiene esa puntuación, en contextos de evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene como objetivo
aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente se han diferenciado
varios procedimientos de validación, alguno de los cuales incluye varios métodos diferentes de
comprobación. Los fundamentales procedimientos son denominados como validez de contenido, de
constructo y referida al criterio.
ÍNDICE DE HOMOGENEIDAD
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem (Hj) se define como la
correlación de Pearson corregida (rco)entre las puntuaciones de los N sujetos en el ítem X y las
puntuaciones Y en el total del test: Hj= rcoxy
El índice de homogeneidad de un ítem nos va a informar del grado en que dicho ítem está midiendo lo
mismo que la prueba globalmente; es decir, del grado en que contribuye a la homogeneidad o consistencia
interna del test. Los ítems con bajos índices de homogeneidad miden algo diferente a lo que refleja la
prueba en su conjunto. Si con el test se pretende evaluar un rasgo o constructo unitario, deberían eliminarse
los que tienen un Hj próximo a cero. (menor de 0,20)
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este caso, los Hx
deben obtenerse con relación a las puntuaciones directas del subtest concreto.
Cuando un Hx es negativo y alto, debemos cuestionar el sistema de cuantificación de las respuestas que se
ha seguido en ese ítem. Si un ítem obtiene una correlación negativa y alta con el total de la prueba,
seguramente es debido a que se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
ÍNDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con las que estos sujetos
obtienen en un criterio de validación externo al test (Y); esta correlación define el índice de validez del ítem
j: Vj= rjy o del test completo con el criterio.
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo rasgo u otro muy
relacionado, de tal manera que si el test mide lo que se pretende, debería correlacionar de forma elevada con
el criterio, así sea midiendo por cada ítem o por la totalidad del test.
1
- VALIDEZ DE CONTENIDO
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...) y en
pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar o en una
especialidad temática concreta), tiene sentido justificar que el conjunto de items que forman el test
conforman una muestra representativa del universo de contenidos que interesa evaluar. La validez de
contenido es un tema particular del de muestreo: si deseamos realizar inferencias sobre el rendimiento de las
personas en una población de contenidos determinada, el test debe incluir una muestra representativa de
dichos contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien pueden utilizarse jueces expertos en
el tema para valorar la congruencia entre los diversos items y los diversos objetivos.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente".
Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de rendimiento (por
ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van a conseguir, el
aprovechamiento de un cursillo o la mejora en un proceso terapéutico) conviene que el test se relacione muy
estrechamente con un criterio externo. Este criterio externo debe ser una medida fiable del rendimiento que
se quiere pronosticar con el test: calificaciones escolares, total de ventas producidas en un determinado
período, estimaciones de un terapeuta de las mejoras conseguidas por cada persona, etc. A la correlación
entre las puntuaciones en el test (X) y en el criterio (Y) se le denomina coeficiente de validez, rxy e indicará
el grado en el que el test sirve para pronosticar con precisión el rendimiento en el criterio.
- VALIDEZ DE CONSTRUCTO
Un constructo es un concepto elaborado por los teóricos de la Psicología para explicar el comportamiento
humano. Inteligencia fluida, extroversión, autoconcepto, asertividad, motivación intrínseca... son
constructos que forman parte de teorías psicológicas y que precisan de indicadores observables para su
estudio. En muchas ocasiones, estos indicadores son los ítems de un test, y debe comprobarse
empíricamente que resultan adecuados para reflejar el constructo de referencia.
El análisis factorial es una técnica estadística multivariante que sirve para estudiar las dimensiones que
subyacen a las relaciones entre varias variables. Normalmente toma como datos de partida la matriz de
correlaciones entre las n variables que interesa analizar. Como información final, proporciona una matriz de
tamaño n × p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las “p” dimensiones extraídas, y que
son las correlaciones de Pearson entre cada variable y cada dimensión.
El análisis factorial se realiza con dos objetivos 1) determinar cual es el número de dimensiones o factores
que mide un test y descubrir cual es el significado de cada una; 2) obtener la puntuación de cada sujeto en
cada dimensión. Normalmente, el número de dimensiones que mide un test es mucho menor que el de
ítems. Para descubrir su significado y darles sentido es necesario fijarse en las variables que saturan de
forma elevada en cada dimensión.
Cuando el investigador se enfrenta con la tarea de dar significado a una dimensión, debe realizar un proceso
inferencial para encontrar el nexo de unión entre las variables que manifiestan correlaciones elevadas en la
dimensión.
El número de factores no se decide de forma caprichosa y se han propuesto varios métodos para determinar
cuál es el número óptimo de factores que deben retenerse. Esta decisión es muy importante, pues el primer
objetivo del análisis factorial es determinar cuantas dimensiones está midiendo un test, es decir, cuantos
factores deben incluirse en la solución factorial.
La técnica utilizada normalmente para obtener evidencias de validez en cuanto a la estructura interna del
test, es el AnálisisFactorial (AF). Los conceptos del AF fueron desarrollados por Spearman
(1904b) intentando probar su teoría de la inteligencia o del factor general.
2
Fue en este ámbito de las teorías de la inteligencia donde tuvo sus primeros desarrollos. Los cálculos
requeridos son complejos y su gran expansión se produjo con la generalización del uso de ordenadores y el
desarrollo de programas fáciles de utilizar por los investigadores.
Siguiendo a Thompson (2004) los propósitos para los que se usa el AF en la investigación psicológica
pueden agruparse en tres:
En primer lugar, uno de los principales propósitos es para informar sobre las evidencias de validez
de un instrumento de medida. Una de las principales cuestiones de la validez es si «las puntuaciones
que proporciona el instrumento parecen medir o no las dimensiones o constructos pretendidos». En
el análisis de tests, establecer la dimensionalidad o el número de factores responsables de las
respuestas es muy importante, ya que es imposible desarrollar buenas medidas de un constructo sin
un conocimiento de su dimensionalidad.
Finalmente, y sin pretensiones teóricas, el AF puede servir de ayuda para reducir grandes
cantidades de variables en una investigación a un número más manejable, para llevar a cabo otros
análisis posteriores.
Cuando se utiliza con finalidad teórica, hay unas variables observadas, que son las puntuaciones en
ítems o tests y unas variables latentes, los factores, que suelen ser constructos teóricos, que se
supone son los responsables del comportamiento de los sujetos en las variables observadas
El AFE:
Tiene como propósito fundamental la búsqueda de una estructura de dimensiones o constructos latentes, a
partir de las correlaciones entre las variables observadas.
No presupone a priori un número determinado de factores
No establece relaciones a priori entre las variables y los correspondientes factores, considerando
simplemente que la conducta en las variables observadas depende de ese número indeterminado de
factores, que pueden afectar a priori a cualquiera de las variables
No se establecen relaciones precisas entre los factores, pudiendo en principio correlacionar todos
entre sí.
Al no disponer de unmodelo a priori, no se establecen hipótesis previas que puedan ser sometidas a
confirmación o refutación, lo que lleva a múltiples decisiones subjetivas.
El AFC:
– Aunque tiene también su papel fundamental en las teorías sobre variables latentes, normalmente no se
utiliza en una exploración o búsqueda de éstas, sino más bien en las pruebas de teorías e hipótesis
establecidas a priori bajo la forma de un modelo.
En el modelo se presupone un número concreto de factores (por ejemplo, 3), especificándose además sobre
qué variables observadas concretas afectan estos factores.
Se establecen hipótesis precisas sobre las relaciones entre factores.
Permite establecer correlaciones entre factores.
La presencia de un modelo, junto con la disponibilidad de determinadas técnicas estadísticas,
permite someterlo a contrastes de hipótesis, evitando múltiples decisiones subjetivas.
Finalmente, su inclusión en estructuras más complejas, dentro de losmodelos de ecuaciones
estructurales, permite establecer relaciones entre constructos, permitiendo abordar cuestiones más
complejas de validez.
Como se ha indicado al principio, coexisten en la actualidad ambas aproximaciones, ya que, como señalan
Nunnally y Bernstein (1994), ambas son útiles en el desarrollo de teorías y en la explicación de los
constructos psicológicos.
No obstante, Gorsuch (1983) indica que cuando es posible es preferible el AFC, por encima de la
replicación de los AFE, ya que es teóricamente más potente.
3
o la matriz de covarianzas entre las variables. El investigador deberá decidir cuál de las matrices utilizará.
En el caso del AFE es habitual utilizar la matriz de correlaciones, que denotamos como R, y es una matriz
cuadrada de orden p (número de variables)
Un examen preliminar de esta matriz permitirá decidir si vale la pena o no realizar el AFE. Si las
correlaciones son muy bajas, no tiene sentido pensar en la existencia de factores comunes. Hay algunos
estadísticos que facilitan esta decisión como los de Kaiser-Meyer-Olkin y la prueba de significación
estadística de esfericidad de la matriz propuesta por Bartlett.
La segunda fase del Análisis Factorial se conoce como la extracciónde los factores. En ella se
determina el número de factores que permiten explicar las correlaciones entre las variables. A veces
se la denomina también solución directa. En esta fase el analista deberá tomar dos decisiones
importantes:
a) Número de factores a extraer.
b) Método de extracción de factores.
Generalmente, aunque no en todos los casos los resultados obtenidos en la fase anterior deben
transformarse para poder encontrar un significado teórico o sustantivo en los resultados. Esta fase se
denomina la rotación de los factores o solución factorial indirecta. Esta fase es exclusiva del AFE y
no tiene equivalente en el AFC. Durante ella, el analista también deberá tomar decisiones, siendo la
primera si rotar o no rotar y en caso afirmativo, elegir el procedimiento, puesto que hay varios.
Con las cuatro primeras fases terminaría normalmente un estudio factorial, no obstante, no suele ser
suficiente un único estudio para la validación de los factores encontrados, por eso es conveniente llevar a
cabo lo que se conoce como validación cruzada o replicación de los factores en nuevas muestras, para
establecer su generalización. Este aspecto, importante en la investigación en general, es especialmente
importante en el AF, puesto que las correlaciones de las que parte son muy sensibles a las muestras en las
que se calculan.
4
Com Autovalores iniciales Sumas de las saturaciones al Suma de las saturaciones al
pone cuadrado de la extracción cuadrado de la rotación
nte Total % de la % Total % de la % Total % de la %
varianza acumulad varianza acumulado varianza acumulado
o
• Cálculo del porcentaje de varianza explicada. Puede calcularse de dos formas según el procedimiento de
extracción de factores empleado:
– Porcentaje de la varianza total. Se suman los autovalores de los k factores y se divide por el número de
variables, puesto que al estar tipificadas su varianza total vale p.
Se asume que cuando la pendiente tiende a hacerse horizontal, los factores son poco interesantes,
representando componentes únicos y error. Aunque el procedimiento suele ser muy útil, las principales
críticas le vienen de la subjetividad en la decisión, por lo que se recomienda a veces complementarlo
con otras técnicas. Entre ellas, la más utilizada es el denominado análisis paralelo, técnica descrita por
primera vez por Horn (1965).
5
Soluciones factoriales indirectas: la rotación
La transformación es posible ya que hay infinitas matrices como A que satisfacen las condiciones del
modelo factorial, y que se pueden obtener mediante transformaciones lineales. Esto es lo que hace la
rotación de los factores, denominación que tiene su origen en los procedimientos geométricos y gráficos
que utilizaban los primeros factorialistas. Se busca una nueva matriz de pesos o saturaciones, la matriz del
patrón factorial o P, transformando A por medio de T que se denomina la matriz de transformación. :
Cuando se habla de saturaciones de 0, nos referimos a valores muy bajos y no necesariamente 0.
a
Matriz de componentes rotados
Componente
1 2
El tamaño muestral afecta a la precisión de todos los estimadores estadísticos incluyendo los del AFE.
Durante muchos años se han propuesto reglas prácticas en términos de la razón del número de sujetos sobre
el número de variables incluidas en el análisis.
Gorsuch (1983) sugiere que el mínimo absoluto es de 5 sujetos por variable y nunca menos de 100 casos
por análisis. Estudios más recientes ponen en cuestión estas reglas, señalando que el problema no es solo de
tamaño de la muestra. Guadagnoli y Velicer (1988) sugieren que el tema más crítico es el de las
saturaciones y no el tamaño de la muestra.