UNIDAD II VALIDEZ - Teórico

Universidad Nacional de Asunción
Facultad de Filosofía
UNIDAD II
 Abad Francisco; Garrido, Jesus: Introducción a la Psicometria. Teoría clásica de los Test y
Teoría de Respuesta al Item. Universidad Autónoma de Madrid. 2006.
 Cohen, Jay Ronald; Swerdlik E., Mark. Pruebas y evaluación. Edit. Mc. Graw Hill. Ed. 2006.
Cap 6. Pag. 156 al 165; 174 al 183
VALIDEZ
( Resumen )
Una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad),
y otra diferente es la cuestión de qué es lo que auténticamente está evaluando.
La validación es un proceso continuo, que incluye procedimientos diferentes para comprobar si el
cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo de
conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el test. Las
inferencias pueden ser de muy diverso tipo: ¿qué rasgo estamos midiendo realmente? ¿Qué podemos
predecir sobre el comportamiento de un sujeto que obtiene una determinada puntuación en el test? ¿Qué
consecuencias de diverso tipo tiene esa puntuación, en contextos de evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene como objetivo
aportar pruebas sobre las inferencias que podemos realizar con un test, tradicionalmente se han diferenciado
varios procedimientos de validación, alguno de los cuales incluye varios métodos diferentes de
comprobación. Los fundamentales procedimientos son denominados como validez de contenido, de
constructo y referida al criterio.
ÍNDICE DE HOMOGENEIDAD
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem (Hj) se define como la
correlación de Pearson corregida (rco)entre las puntuaciones de los N sujetos en el ítem X y las
puntuaciones Y en el total del test: Hj= rcoxy
El índice de homogeneidad de un ítem nos va a informar del grado en que dicho ítem está midiendo lo
mismo que la prueba globalmente; es decir, del grado en que contribuye a la homogeneidad o consistencia
interna del test. Los ítems con bajos índices de homogeneidad miden algo diferente a lo que refleja la
prueba en su conjunto. Si con el test se pretende evaluar un rasgo o constructo unitario, deberían eliminarse
los que tienen un Hj próximo a cero. (menor de 0,20)
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este caso, los Hx
deben obtenerse con relación a las puntuaciones directas del subtest concreto.
Cuando un Hx es negativo y alto, debemos cuestionar el sistema de cuantificación de las respuestas que se
ha seguido en ese ítem. Si un ítem obtiene una correlación negativa y alta con el total de la prueba,
seguramente es debido a que se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
ÍNDICE DE VALIDEZ
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse también con las que estos sujetos
obtienen en un criterio de validación externo al test (Y); esta correlación define el índice de validez del ítem
j: Vj= rjy o del test completo con el criterio.
El criterio de validación "Y" es una medida diferente del test para reflejar el mismo rasgo u otro muy
relacionado, de tal manera que si el test mide lo que se pretende, debería correlacionar de forma elevada con
el criterio, así sea midiendo por cada ítem o por la totalidad del test.
1
- VALIDEZ DE CONTENIDO
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc...) y en
pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar o en una
especialidad temática concreta), tiene sentido justificar que el conjunto de items que forman el test
conforman una muestra representativa del universo de contenidos que interesa evaluar. La validez de
contenido es un tema particular del de muestreo: si deseamos realizar inferencias sobre el rendimiento de las
personas en una población de contenidos determinada, el test debe incluir una muestra representativa de
dichos contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien pueden utilizarse jueces expertos en
el tema para valorar la congruencia entre los diversos items y los diversos objetivos.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente".
- VALIDEZ REFERIDA AL CRITERIO
Sobre todo cuando se pretende utilizar el test para pronosticar determinados criterios de rendimiento (por
ejemplo, el rendimiento escolar en un nivel dado, el total de ventas que se van a conseguir, el
aprovechamiento de un cursillo o la mejora en un proceso terapéutico) conviene que el test se relacione muy
estrechamente con un criterio externo. Este criterio externo debe ser una medida fiable del rendimiento que
se quiere pronosticar con el test: calificaciones escolares, total de ventas producidas en un determinado
período, estimaciones de un terapeuta de las mejoras conseguidas por cada persona, etc. A la correlación
entre las puntuaciones en el test (X) y en el criterio (Y) se le denomina coeficiente de validez, rxy e indicará
el grado en el que el test sirve para pronosticar con precisión el rendimiento en el criterio.
INTERPRETACIÓN Y ESTIMACIONES EN EL CRITERIO

El coeficiente de validez es una correlación de Pearson y, por tanto, su interpretación más inmediata se
fundamenta en el denominado coeficiente de determinación, (r2 ) que es simplemente el cuadrado de la
correlación y que indica la proporción de varianza del criterio que podemos pronosticar con el test. Así, un
test con un coeficiente de validez de 0.5 indicará que explica un 25 % de la variabilidad o diferencias
individuales en el criterio, mientras que el 75 % restante se debe a variables diferentes al test. En palabras
sencillas, indica cuanto de elementos comunes comparten las dos variables.
- VALIDEZ DE CONSTRUCTO
Un constructo es un concepto elaborado por los teóricos de la Psicología para explicar el comportamiento
humano. Inteligencia fluida, extroversión, autoconcepto, asertividad, motivación intrínseca... son
constructos que forman parte de teorías psicológicas y que precisan de indicadores observables para su
estudio. En muchas ocasiones, estos indicadores son los ítems de un test, y debe comprobarse
empíricamente que resultan adecuados para reflejar el constructo de referencia.
VALIDEZ DE CONSTRUCTO FACTORIAL: Validez relativas a la estructura interna del test.
El análisis factorial es una técnica estadística multivariante que sirve para estudiar las dimensiones que
subyacen a las relaciones entre varias variables. Normalmente toma como datos de partida la matriz de
correlaciones entre las n variables que interesa analizar. Como información final, proporciona una matriz de
tamaño n × p, denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de las “p” dimensiones extraídas, y que
son las correlaciones de Pearson entre cada variable y cada dimensión.
El análisis factorial se realiza con dos objetivos 1) determinar cual es el número de dimensiones o factores
que mide un test y descubrir cual es el significado de cada una; 2) obtener la puntuación de cada sujeto en
cada dimensión. Normalmente, el número de dimensiones que mide un test es mucho menor que el de
ítems. Para descubrir su significado y darles sentido es necesario fijarse en las variables que saturan de
forma elevada en cada dimensión.
Cuando el investigador se enfrenta con la tarea de dar significado a una dimensión, debe realizar un proceso
inferencial para encontrar el nexo de unión entre las variables que manifiestan correlaciones elevadas en la
dimensión.
El número de factores no se decide de forma caprichosa y se han propuesto varios métodos para determinar
cuál es el número óptimo de factores que deben retenerse. Esta decisión es muy importante, pues el primer
objetivo del análisis factorial es determinar cuantas dimensiones está midiendo un test, es decir, cuantos
factores deben incluirse en la solución factorial.
La técnica utilizada normalmente para obtener evidencias de validez en cuanto a la estructura interna del
test, es el AnálisisFactorial (AF). Los conceptos del AF fueron desarrollados por Spearman
(1904b) intentando probar su teoría de la inteligencia o del factor general.
2
Fue en este ámbito de las teorías de la inteligencia donde tuvo sus primeros desarrollos. Los cálculos
requeridos son complejos y su gran expansión se produjo con la generalización del uso de ordenadores y el
desarrollo de programas fáciles de utilizar por los investigadores.
Siguiendo a Thompson (2004) los propósitos para los que se usa el AF en la investigación psicológica
pueden agruparse en tres:
 En primer lugar, uno de los principales propósitos es para informar sobre las evidencias de validez
de un instrumento de medida. Una de las principales cuestiones de la validez es si «las puntuaciones
que proporciona el instrumento parecen medir o no las dimensiones o constructos pretendidos». En
el análisis de tests, establecer la dimensionalidad o el número de factores responsables de las
respuestas es muy importante, ya que es imposible desarrollar buenas medidas de un constructo sin
un conocimiento de su dimensionalidad.
 En segundo lugar, el AF también se utiliza en el desarrollo de teorías sobre constructos, ayudando a

especificar cuáles son las principales dimensiones de los constructos, a partir de múltiples medidas.
Muchas de las teorías de la inteligencia y de la personalidad se desarrollaron con ayuda del AF.
 Finalmente, y sin pretensiones teóricas, el AF puede servir de ayuda para reducir grandes
cantidades de variables en una investigación a un número más manejable, para llevar a cabo otros
análisis posteriores.
Cuando se utiliza con finalidad teórica, hay unas variables observadas, que son las puntuaciones en
ítems o tests y unas variables latentes, los factores, que suelen ser constructos teóricos, que se
supone son los responsables del comportamiento de los sujetos en las variables observadas
El AF sigue en la actualidad dos aproximaciones, denominadas Análisis Factorial Exploratorio (AFE) y

Análisis Factorial Confirmatorio (AFC).
El AFE:
Tiene como propósito fundamental la búsqueda de una estructura de dimensiones o constructos latentes, a
partir de las correlaciones entre las variables observadas.
 No presupone a priori un número determinado de factores
 No establece relaciones a priori entre las variables y los correspondientes factores, considerando
simplemente que la conducta en las variables observadas depende de ese número indeterminado de
factores, que pueden afectar a priori a cualquiera de las variables
 No se establecen relaciones precisas entre los factores, pudiendo en principio correlacionar todos
entre sí.
 Al no disponer de unmodelo a priori, no se establecen hipótesis previas que puedan ser sometidas a
confirmación o refutación, lo que lleva a múltiples decisiones subjetivas.
El AFC:
– Aunque tiene también su papel fundamental en las teorías sobre variables latentes, normalmente no se
utiliza en una exploración o búsqueda de éstas, sino más bien en las pruebas de teorías e hipótesis
establecidas a priori bajo la forma de un modelo.
En el modelo se presupone un número concreto de factores (por ejemplo, 3), especificándose además sobre
qué variables observadas concretas afectan estos factores.
 Se establecen hipótesis precisas sobre las relaciones entre factores.
 Permite establecer correlaciones entre factores.
 La presencia de un modelo, junto con la disponibilidad de determinadas técnicas estadísticas,
permite someterlo a contrastes de hipótesis, evitando múltiples decisiones subjetivas.
 Finalmente, su inclusión en estructuras más complejas, dentro de losmodelos de ecuaciones
estructurales, permite establecer relaciones entre constructos, permitiendo abordar cuestiones más
complejas de validez.
Como se ha indicado al principio, coexisten en la actualidad ambas aproximaciones, ya que, como señalan
Nunnally y Bernstein (1994), ambas son útiles en el desarrollo de teorías y en la explicación de los
constructos psicológicos.
No obstante, Gorsuch (1983) indica que cuando es posible es preferible el AFC, por encima de la
replicación de los AFE, ya que es teóricamente más potente.
PROCESO DE UN ANALISIS FACTORIAL

 Preparación inicial de los datos. En esta fase el investigador debe seleccionar las variables
que pretende analizar y recoger datos en muestras de tamaño adecuado. Deberán tenerse en cuenta
todos aquellos aspectos tratados en temas anteriores y que pueden afectar a las correlaciones, tales
como la fiabilidad de sus medidas y la variabilidad de las muestras (Gorsuch, 1988).
Es muy importante que la elección de variables o los ítems en el caso de los tests esté guiada por la
teoría. Una vez recogidos los datos deben someterse a todos los procesos de preanálisis que son parte de la
estadística bajo la etiqueta de exploración de los datos. Esta fase se concluye con la matriz de correlaciones
3
o la matriz de covarianzas entre las variables. El investigador deberá decidir cuál de las matrices utilizará.
En el caso del AFE es habitual utilizar la matriz de correlaciones, que denotamos como R, y es una matriz
cuadrada de orden p (número de variables)
Un examen preliminar de esta matriz permitirá decidir si vale la pena o no realizar el AFE. Si las
correlaciones son muy bajas, no tiene sentido pensar en la existencia de factores comunes. Hay algunos
estadísticos que facilitan esta decisión como los de Kaiser-Meyer-Olkin y la prueba de significación
estadística de esfericidad de la matriz propuesta por Bartlett.
 La segunda fase del Análisis Factorial se conoce como la extracciónde los factores. En ella se
determina el número de factores que permiten explicar las correlaciones entre las variables. A veces
se la denomina también solución directa. En esta fase el analista deberá tomar dos decisiones
importantes:
a) Número de factores a extraer.
b) Método de extracción de factores.
 Generalmente, aunque no en todos los casos los resultados obtenidos en la fase anterior deben
transformarse para poder encontrar un significado teórico o sustantivo en los resultados. Esta fase se
denomina la rotación de los factores o solución factorial indirecta. Esta fase es exclusiva del AFE y
no tiene equivalente en el AFC. Durante ella, el analista también deberá tomar decisiones, siendo la
primera si rotar o no rotar y en caso afirmativo, elegir el procedimiento, puesto que hay varios.
 La cuarta fase es la correspondiente a la interpretación de los factores. En ella se analizarán los

resultados a la luz de la teoría sobre los constructos implicados en el análisis y es costumbre
ponerles nombres a los factores. Deben participar en ella expertos en el ámbito teórico en el que se
aplica el AFE.
Con las cuatro primeras fases terminaría normalmente un estudio factorial, no obstante, no suele ser
suficiente un único estudio para la validación de los factores encontrados, por eso es conveniente llevar a
cabo lo que se conoce como validación cruzada o replicación de los factores en nuevas muestras, para
establecer su generalización. Este aspecto, importante en la investigación en general, es especialmente
importante en el AF, puesto que las correlaciones de las que parte son muy sensibles a las muestras en las
que se calculan.
Métodos de extracción de los factores

Número de factores a extraer
Otra de las decisiones importantes que debe tomar el usuario de los métodos de AFE se refiere a cuántos
factores se extraerán. Cuando se utiliza el AFE no se establecen hipótesis previas explícitas sobre el número
de factores. La respuesta no es fácil y este problema es uno de los más graves y debatidos de las soluciones
exploratorias. No existe ninguna solución completamente satisfactoria
ni unánimemente aceptada. A continuación presentamos algunas de las soluciones propuestas.
 Aproximaciones estadísticas al número de factores

La pregunta a la que pretenden responder es «después de la extracción de k factores, ¿es estadísticamente
significativa la matriz de correlaciones residual?
». Si la respuesta es afirmativa es que aún queda una parte significativa de la varianza común sin explicar y
deberían extraerse más factores. Para aplicar estas pruebas deben establecerse ciertos supuestos
distribucionales.
 Aproximaciones basadas en los autovalores

• Regla del autovalor mayor que 1. Kaiser propuso una regla consistente en retener tantos factores como
autovalores mayores que 1 (Kaiser, 1970). Esta regla había sido justificada por Guttman (1954). Esta es la
regla usada con mayor frecuencia, ya que es el valor por defecto de la mayor parte de los programas. Sin
entrar en justificaciones formales, la regla implica que un factor para que sea útil debería explicar al menos
tanta varianza como una variable individual (que en típicas tienen varianza de 1). El problema es que en las
muestras, los primeros autovalores muestran sesgo positivo. Cuando hay muchas variables un autovalor de
1 explica muy poca varianza, por ejemplo solamente el 2% si hay 50 variables. Esta regla tiende a sugerir la
retención de demasiados factores, especialmente cuando se analizan ítems de tests como variables. El
criterio suele funcionar con un número reducido de variables (de escala, no ítems) y comunalidades.
4
Com Autovalores iniciales Sumas de las saturaciones al Suma de las saturaciones al
pone cuadrado de la extracción cuadrado de la rotación
nte Total % de la % Total % de la % Total % de la %
varianza acumulad varianza acumulado varianza acumulado
o
1 4,195 46,613 46,613 4,195 46,613 46,613 2,737 30,414 30,414

2 1,138 12,645 59,258 1,138 12,645 59,258 2,596 28,844 59,258
3 ,897 9,970 69,228
4 ,642 7,136 76,363
5 ,596 6,624 82,988
6 ,482 5,359 88,346
7 ,423 4,695 93,041
8 ,338 3,756 96,797
9 ,288 3,203 100,000
Método de extracción: Análisis de Componentes principales.
• Cálculo del porcentaje de varianza explicada. Puede calcularse de dos formas según el procedimiento de
extracción de factores empleado:
– Porcentaje de la varianza total. Se suman los autovalores de los k factores y se divide por el número de
variables, puesto que al estar tipificadas su varianza total vale p.
• Representación gráfica de los autovalores: el scree test o gráfico desedimentación. Un procedimiento

simple y muy seguido en la práctica es la representación gráfica de los autovalores de la matriz, ya que
cuando el valor de éstos decae considerablemente indica que el aumento en varianza explicada debido a la
inclusión de un nuevo factor será mínimo. El procedimiento fue introducido por Cattell (1966) y es tratado
en detalle en Cattell (1978).
En un plano se representan en el eje de ordenadas los autovalores y en el eje de abscisas los sucesivos
factores. Habrá un punto en el que la pendiente de la curva se aproxime a 0, es decir, los autovalores
comienzan a ser casi iguales. En este punto se establece el corte y el número de factores.
Se asume que cuando la pendiente tiende a hacerse horizontal, los factores son poco interesantes,
representando componentes únicos y error. Aunque el procedimiento suele ser muy útil, las principales
críticas le vienen de la subjetividad en la decisión, por lo que se recomienda a veces complementarlo
con otras técnicas. Entre ellas, la más utilizada es el denominado análisis paralelo, técnica descrita por
primera vez por Horn (1965).
5
Soluciones factoriales indirectas: la rotación
La transformación es posible ya que hay infinitas matrices como A que satisfacen las condiciones del
modelo factorial, y que se pueden obtener mediante transformaciones lineales. Esto es lo que hace la
rotación de los factores, denominación que tiene su origen en los procedimientos geométricos y gráficos
que utilizaban los primeros factorialistas. Se busca una nueva matriz de pesos o saturaciones, la matriz del
patrón factorial o P, transformando A por medio de T que se denomina la matriz de transformación. :
Cuando se habla de saturaciones de 0, nos referimos a valores muy bajos y no necesariamente 0.
a
Matriz de componentes rotados
Componente
1 2
VAR00003 ,786 ,216

VAR00005 ,725 ,086
VAR00007 ,596 ,518
VAR00009 ,331 ,549
VAR00010 ,572 ,448
VAR00011 -,010 ,841
VAR00001 ,766 ,164
VAR00013 ,201 ,777
VAR00015 ,417 ,658
Interpretación de los factores

La interpretación sustantiva de los factores se hace sobre los pesos o saturaciones que muestran en ellos las
variables. Inevitablemente surge la pregunta de ¿qué saturaciones se utilizarán en la interpretación? Una
saturación puede considerarse como la correlación entre la variable y el factor.
La primera respuesta es que deberán ser al menos estadísticamente significativas.

A partir de datos procedentes de estudios de simulación, Stevens (2002) sugiere interpretar solamente las
saturaciones superiores a 0,40, señalando además que la variable debe mostrar al menos un 15% de varianza
común con el factor, lo que supondría saturaciones al menos de 0,40.
No obstante, la regla no es unánimemente aceptada. Thompson (2004) propone obtener la significación
estadística utilizando procedimientos de remuestreo
Tamaños muestrales requeridos para realizar Análisis Factorial
El tamaño muestral afecta a la precisión de todos los estimadores estadísticos incluyendo los del AFE.
Durante muchos años se han propuesto reglas prácticas en términos de la razón del número de sujetos sobre
el número de variables incluidas en el análisis.
Gorsuch (1983) sugiere que el mínimo absoluto es de 5 sujetos por variable y nunca menos de 100 casos
por análisis. Estudios más recientes ponen en cuestión estas reglas, señalando que el problema no es solo de
tamaño de la muestra. Guadagnoli y Velicer (1988) sugieren que el tema más crítico es el de las
saturaciones y no el tamaño de la muestra.
No obstante, el mejor criterio es el de la replicabilidad o prueba repetida de los factores. La replicabilidad

puede llevarse a cabo por medio de procedimientos de validación cruzada utilizando otras muestras, o
dividiendo la muestra original si es grande en dos submuestras, una de las cuales se utilizará para este tipo
de validación

UNIDAD II VALIDEZ - Teórico

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

UNIDAD II VALIDEZ - Teórico

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Asunción

- VALIDEZ REFERIDA AL CRITERIO

INTERPRETACIÓN Y ESTIMACIONES EN EL CRITERIO

VALIDEZ DE CONSTRUCTO FACTORIAL: Validez relativas a la estructura interna del test.

 En segundo lugar, el AF también se utiliza en el desarrollo de teorías sobre constructos, ayudando a

El AF sigue en la actualidad dos aproximaciones, denominadas Análisis Factorial Exploratorio (AFE) y

PROCESO DE UN ANALISIS FACTORIAL

 La cuarta fase es la correspondiente a la interpretación de los factores. En ella se analizarán los

Métodos de extracción de los factores

 Aproximaciones estadísticas al número de factores

 Aproximaciones basadas en los autovalores

1 4,195 46,613 46,613 4,195 46,613 46,613 2,737 30,414 30,414

Método de extracción: Análisis de Componentes principales.

• Representación gráfica de los autovalores: el scree test o gráfico desedimentación. Un procedimiento

VAR00003 ,786 ,216

Interpretación de los factores

La primera respuesta es que deberán ser al menos estadísticamente significativas.

Tamaños muestrales requeridos para realizar Análisis Factorial

No obstante, el mejor criterio es el de la replicabilidad o prueba repetida de los factores. La replicabilidad

También podría gustarte