4 Validez

4.
- VALIDEZ
4.1. Introducción
Validez es el grado en el que un instrumento mide aquello que dice medir. La validez
garantiza que medimos aquello que nos proponemos medir (Camacho y Sánchez, 1997).
En Psicología, como en otras ciencias, se pretende la explicación de variables relevantes a
través de su relación con otras variables. Pero, para poder establecer tal relación entre variables,
hemos de asegurar la correcta medición de las mismas (Nunnally y Bernstein, 1995). Este
problema hace referencia a los conceptos de fiabilidad y validez de los instrumentos de medición
en Psicología. La fiabilidad es la precisión en la medida, la validez es la utilidad y la adecuación
de esa medida.
La validez se ha convertido, desde hace ya algún tiempo, en un concepto central de la
investigación psicométrica, incluso en detrimento de los estudios de fiabilidad (AERA, APA,
NCME, 1985; Silva, 1989). La fiabilidad no es un fin en sí misma, sino un medio a través del
cual conseguimos pruebas de la validez del instrumento de medida. Sin embargo, el concepto de
validez, los diferentes tipos de validez (Messick (1980) recoge distintas designaciones dadas a la
validez junto a sus respectivas interpretaciones descriptivas) y los métodos que se utilizaban para
mostrar la validez de los instrumentos de medición han cambiado desde los inicios de la
Psicología como ciencia. La adecuación a las exigencias del momento y a las distintas corrientes
psicológicas en boga permiten explicar la evolución del concepto de validez. Martínez Arias
(1995) y Paz (1997) presentan un recorrido exhaustivo por la historia y evolución del concepto
de validez. En dichos textos se aprecia la distancia que separa la definición inicial de validez
como grado de correlación entre puntuaciones (Guilford, 1946) de la definición actual de validez
como prueba de hipótesis (Messick, 1989).
Entre otras cosas, ambas autoras destacan cómo, progresivamente, la definición de validez ha
pasado de poner el énfasis en el test en sí mismo para centrarse en las interpretaciones que se
derivan de sus puntuaciones (AERA, APA, NCME, 1985; pág, 9). Es decir, en sentido estricto,
no se valida un test, ni siquiera las puntuaciones obtenidas en ese test, sino las consecuencias que
se derivan de la interpretación de esas puntuaciones. Esto supone un cambio en la asunción de
responsabilidades respecto a la validez de un instrumento de medida, que pasa del constructor del
test, que originariamente era el garante de la validez del mismo, al administrador del test, que es
el encargado de demostrar la utilidad del test para los propósitos perseguidos, ya que un mismo
test puede ser válido en una situación y para unos objetivos determinados y no serlo en
situaciones y para objetivos distintos (Cronbach y Quirk, 1976).
El nuevo concepto de validez (Cronbach y Meehl, 1955; Guion, 1974; Messick, 1975, 1980,
1989; etc.) implica también algunos cambios respecto a su formulación y cálculo. En realidad, no
existe un único coeficiente de validez que determine su adecuación para todos los casos y en
todas las situaciones, ya que lo importante no son las puntuaciones en sí, sino las consecuencias
que se derivan de ellas. La validez es un proceso de acumulación de evidencias que justifiquen
las inferencias (Messick, 1980); no hay un único coeficiente ni hay un único método para
demostrar la validez de un test, del mismo modo que un test nunca es totalmente válido: la
1
validez es una cuestión de grados. Como afirman Camacho y Sánchez (1997) «la validación hace
referencia al proceso que permite ir depurando, delimitando y perfeccionando cada vez más
nuestro instrumento de medida» (pág. 99).
Otro cambio observado en la evolución del concepto de la validez se refiere al número y tipos
de validez definidos. Ya en 1954, en los standards, la APA define tres tipos de validez: validez
referida al criterio, validez de contenido y validez de constructo - que aparece por primera vez-.
Aunque, en la actualidad, no se hace referencia a los mismos como tipos de validez sino como
diferentes aspectos de la validez, que es considerada un concepto unitario, se siguen estudiando y
utilizando como si fuesen distintos tipos de validez, como si existiesen distintas valideces. En
realidad, son sólo distintos caminos para obtener evidencias de validez.
Delimitado así el problema hay varios acercamientos o vías de solución. Ninguna de ellas se
puede decir que sea determinante, sino que todas ellas contribuyen a reunir evidencias (Gomez-
Benito, 1996; Sánchez, 1997) o argumentos (Cronbach, 1988; Kane, 1992) a tener en cuenta en
función de los objetivos planteados con la medida.
Así, por lo que respecta a las posibles definiciones operativas de validez, se suele hablar de
Validez de Contenido si lo que se define operativamente es el dominio o universo de medida, de
Validez Predictiva o Referida al Criterio si se define otro criterio externo cuya relación, poder
predictivo o dependencia con el test se desea optimizar, y Validez de Constructo si lo que se
intenta medir es un constructo teórico definido estructuralmente u operativamente a través de un
mapa de interinfluencias que explican relativamente las correlaciones observadas entre las
medidas empíricas. Así, la validez de contenido pone el mayor énfasis en la construcción de los
reactivos o ítems; la validez criterial lo pone en la utilidad práctica (predictiva) del instrumento
de medida; mientras que, por último, la validez de constructo da su mayor importancia a su poder
explicativo del comportamiento a través de aptitudes o actitudes diferenciadas de la psique
(rasgos psicológicos).
La validez referida al criterio tiene un carácter fundamentalmente predictivo. Interesa a través
de un test, que se supone correlacionado con alguna conducta relevante, establecer inferencias
sobre esa conducta de interés. De esta forma podremos elaborar un test orientado a seleccionar
administrativos en una empresa si tenemos constancia de la relación entre dicha prueba y las
capacidades manifiestas en las labores de gestión. O bien, una determinada prueba podrá ser
indicativa del posible futuro éxito académico en la universidad, y utilizar dicha prueba a efectos
de pronósticos.
Así, la validez referida al criterio tiene un interés práctico, funcional. Históricamente, hasta
los años 50 ha sido el tipo de validez preponderante. Pero se han hecho notar sus deficiencias, y
frecuentemente interesa conocer las razones intrínsecas por las cuales una prueba es válida, y no
solamente por su ligazón con el criterio externo de referencia.
Por otro lado, no siempre nos interesa predecir o pronosticar un cierto criterio.
Frecuentemente el criterio en sí, sin más, es nuestro objeto de estudio, y necesitamos justificarlo
en base a sus propios materiales. Esto es, en base a su Validez de Contenido. Por ejemplo, el
examen de psicometría como tal prueba de evaluación no necesita ser justificada sin más
referencia que a sí misma. En este caso, es evidente que el examen debe reflejar la consecución
de unos objetivos a través de unos contenidos que, a su vez, son procesados a distintos niveles
cognitivos. Esta es la intención de la denominada validez de contenido. Se supone que la materia
objeto de estudio engloba un cierto universo de elementos debidamente ponderados y la prueba
elaborada debe ser una muestra representativa, proporcionalmente, de tal universo o dominio.
Por último, la validez de constructo se refiere a lo adecuado de un test para medir un
constructo psicológico previamente definido. La definición del constructo implica tanto una
definición operativa, a través de la especificación de los indicadores observables de ese
constructo no observable, así como una definición relacional, a través de la especificación del
tipo de relación que ese constructo mantiene con otros constructos que forman parte de una
misma teoría substantiva (Cronbach y Meehl, 1955). Validación de constructo es, entonces,
validación de teorías. Para Messick (1980) la validación de constructo es la única validez, que
engloba y subsume los tipos de validez previamente definidos. A diferencia de los otros tipos de
2
Introducción 3
validez, es fundamentalmente conceptual, teórica, busca la comprensión más que la
funcionalidad, e intenta responder a cuestiones tales como qué es la inteligencia (o la depresión o
la asertividad), de qué factores depende, cómo están entrelazados entre sí, etc. Recursos
estadísticos tales como el análisis factorial (exploratorio y confirmatorio) o la matriz multirrasgo-
multimétodo, serán, como veremos, sus herramientas más usuales.
No obstante, a pesar del carácter preeminente de la validación de constructo, las evidencias de
validez referida al criterio y referida al contenido siguen siendo ampliamente utilizadas. Esto es
así porque, como decíamos anteriormente, lo importante en la validación es, por un lado, la
acumulación de evidencias de validez, y por tanto, cualquier abordaje es útil; y, por otro lado, lo
que se valida son las inferencias, las consecuencias derivadas de la aplicación de un test. Ya que
los objetivos que nos planteamos al elaborar un instrumento de medida pueden ser muy variados,
y también las inferencias resultantes, distintos tipos de inferencias requerirán el abordaje de la
validez desde distintos enfoques (Martínez Arias, 1995).
Por todo ello, en este capítulo sobre validez se abordarán los tres tipos de validez descritos.
La estructura del capítulo responde al desarrollo histórico de la validez: comenzaremos
estudiando la validez referida al criterio (el primer tipo de validez estudiada), al hilo de la
exposición de la validez referida al criterio se abordarán aspectos relacionados con la validez
como fiabilidad, longitud del test, variabilidad de la muestra, etc. Posteriormente, se abordará el
estudio de la validez de contenido (cuyo desarrollo, históricamente, fue posterior, a pesar de ser
la primera evidencia de validez necesaria en el proceso de construcción y depuración de un test).
Este tipo de validez será descrito brevemente y con carácter marcadamente teórico, ya que en el
tema sobre construcción de un instrumento, se abordan detenidamente todos los pasos necesarios
para asegurar la validez de contenido de una prueba. Para finalizar este tema estudiaremos el
último de los tipos de validez definidos: la validez de constructo. El ocupar ésta la última
posición responde no sólo a la estructura cronológica del texto, sino que, además, nos servirá para
demostrar, tras las exposiciones previas, que la validez de constructo engloba y subsume el resto
de tipos de validez descritos.
4.2. Validez referida al criterio
La validez referida al criterio (también denominada validez predictiva o validez de

pronóstico) satisface un cierto grado de exigencias, aunque no demasiado. Como ya hemos
indicado, es un tipo de validez útil para un determinado contexto, ateórico, pragmático, donde lo
que interesa es que las cosas funcionen aunque no sepamos exactamente por qué. Este tipo de
validez se denomina "referida al criterio" porque el punto de partida hace referencia a alguna
conducta, que se entiende que es clara, manifiesta, evidente per se. Esta conducta es lo que se
denomina criterio, y es precisamente la que queremos inferir a partir de otra cosa, más sencilla
en su ejecución, tal como un determinado test. Test que suponemos (y contrastaremos si es así)
fuertemente correlacionado con el criterio, y por ello nos puede servir con fines de selección,
orientación o, en definitiva, optimización. El valor de la cuantía de la validez de un determinado
test se expresa mediante el coeficiente de correlación de Pearson (supuesta la linealidad de la
relación), que se denomina en este contexto coeficiente empírico de validez. Se denomina así para
diferenciarlo de la validez teórica, validez máxima, o validez por atenuación del error de medida
en test y criterio. Esto último sería la relación entre los constructos o grupos de constructos de los
que dependen test y criterio.
Este tipo de validez es frecuentemente utilizado en el ámbito industrial, tal como en selección
de personal, en el contexto escolar, en pruebas de pronóstico académico o de selección a algún
centro, tal como la universidad, y también en contexto clínico, como seguimiento de terapias,
etc. En todos estos casos, el test proporciona de forma mucho más sencilla información sobre la
tarea que se quiere optimizar sin necesidad de realizarla (dicha tarea o rendimiento). Por ejemplo,
supongamos que deseamos becar a diez estudiantes de Bachillerato para que estudien psicología
3
4 Validez
en la universidad de Sevilla. Tomaremos como criterio de validez el rendimiento académico una
vez que cursan psicología. A este respecto, se ha elaborado un test, que, tras pasarse a un grupo
representativo de los estudiantes de la Facultad de Psicología, presenta una alta correlación con el
rendimiento en dicha especialidad universitaria. En estas circunstancias, podemos utilizar el
mencionado test como pronóstico del posible éxito en esta carrera. Si aplicamos el test a un
grupo de estudiantes de Bachillerato, aquellos que obtengan puntuaciones altas en la prueba -los
diez mejores- muy probablemente serán igualmente brillantes cuando acometan los estudios
universitarios. De esta forma, el test en cuestión será válido para pronosticar el éxito académico
de los estudiantes en la facultad mencionada.
Obsérvese que aquí no nos preguntamos por las razones que dan lugar a que un sujeto sea un
buen estudiante universitario. Tan sólo nos importa que exista una fuerte correlación entre el test
y el criterio de referencia. Esta es la garantía de un buen pronóstico. Nada de teoría, sólo eficacia.
Como señala Nunnally (1978, pág. 101): si se descubriera que jugar bien al fútbol
correlacionase fuertemente con el éxito académico, la calidad en el juego sería una medida
válida para predecir tal éxito.
La validez referida al criterio tiene algunas variantes. Se habla de validez concurrente cuando
el test y el criterio se miden al mismo tiempo (o casi). Cuando el criterio se mide con
posterioridad al test, nos encontramos con la validez predictiva o de pronóstico. Por último, si el
criterio es previo a la prueba, la validez correspondiente se denomina validez retrospectiva.
Según las circunstancias, aplicaremos uno u otro tipo de validez. Por ejemplo, en el caso
mencionado de los estudiantes de BUP, se trata de validez predictiva ya que con el test
anticipamos su futuro rendimiento académico. Pero si deseamos aplicar un test que permita
identificar algún trastorno en la infancia de un sujeto, la validez será retrospectiva. Y un caso de
validez concurrente, ahora que estamos en la era de la informática, sería si un test por ordenador,
a efectos de diagnóstico, sustituyese eficazmente la opinión de una comisión de psicólogos
expertos.
Estrictamente hablando lo que se valida no es un test sino el uso que se hace del mismo. En
este sentido un mismo test puede aplicarse para diferentes objetivos, y en consecuencia, presentar
diferentes "valideces". No siempre existe el mismo criterio para un cierto test, y aunque existiese,
probablemente iría modificando su valor a lo largo del tiempo. Por ejemplo, podría darse el caso
de un test que midiera la capacidad para aprender idiomas y se utilizase tanto para predecir las
calificaciones de los estudiantes de inglés como de francés. Es obvio que la correlaciones de
dicho test con estos idiomas serán distintas, y por tanto, sus coeficientes de validez. Por otro
lado, puede cambiar de un año para otro las exigencias en los departamentos donde se cursan
estas materias, y en consecuencia, quedar modificados los distintos coeficientes de validez
respectivos.
Este hecho, más que expresar una de las cualidades del coeficiente de validez, lo que muestra
es una de sus más notorias insuficiencias. Es extraordinariamente difícil, como señala Magnusson
(1969, pág. 155) encontrar una buena medida del criterio, o mejor, encontrar la verdadera medida
del criterio. Como dice el citado autor, normalmente no disponemos del criterio verdadero sino
más bien de criterios asequibles, esto es, a los que razonablemente tenemos acceso. Muchas
dificultades son de tipo práctico, a la hora de definir el grupo normativo sobre el que se
obtendrán las puntuaciones del criterio.
Por ejemplo, en el caso del test orientado a idiomas, sería conveniente elaborar tantos tests
como idiomas, ya que está claro, que el inglés, francés o alemán, por citar tan sólo algunos
idiomas, no exigen equivalentes capacidades. Por otro lado, dentro de cada idioma hay diferentes
especialidades, por lo que si queremos predecir el éxito futuro de un determinado estudiante,
necesitaremos como criterio las puntuaciones medias de los sujetos de un determinado idioma
que han cursado una especialidad concreta. Así, podríamos seguir indefinidamente. Al final no
habría muestra suficiente de donde obtener el criterio.
Otras dificultades son de carácter teórico y cuestionan lo que podríamos llamar la validez del
criterio. Éste quizás sea el problema fundamental de este tipo de validez. Aquí, el criterio se
4
Validez referida al criterio 5
suele considerar dado más que algo que debamos elaborar, como sucede en la validez de
contenido y/o de constructo, que se tratarán más adelante. Se busca el criterio en alguna conducta
reconocible, más que fabricarlo según los requisitos pertinentes. Por ejemplo, en el caso que
estamos tratando, las calificaciones en los exámenes se consideran el referente último, pero como
todo el mundo sabe, no siempre los exámenes representan el nivel de conocimientos de una
materia. Otras veces, se recurre al juicio de personas que se supone conocen el tema, así
profesionales en medicina o superiores del cuerpo de policía pueden juzgar a quienes solicitan ser
candidatos a ingresar en sus respectivos centros. Pero también en este caso hay que tener
cuidado, no suceda que no elijamos los mejores sino los más convenientes para nuestros
intereses, como se cita en Nunnally y Bernstein (1995, pág. 108) donde en una prueba de
selección para la policía, los mejores evaluados por sus superiores eran precisamente los más
inadaptados, esto es, los más sumisos.
Así pues, en la práctica se elige un criterio, digamos razonable, y se trabaja con el mismo
como referente del test, pero debe quedar claro, como indica Bollen (1989, pág. 186), que
entonces, la correlación entre el test y el criterio no expresa la validez absoluta de dicho test sino
una validez relativa a dicho criterio que, como toda medida, estará afectado por su grado de
imprecisión y de validez propios. En la siguiente figura se ilustra la validez empírica como la
correlación (rvc) entre las puntuaciones en el tests y en el criterio (operando en puntuaciones
estandarizadas). Este modelo refleja fielmente la validez empírica (predictiva) en el grado en que
el test X y el criterio Y son expresiones del constructo V1 (no observable) que pretendemos
medir(ver figura 4.1):
πV V V2
V1 2 1
πXV 1 πYV 2
X Y
Figura 4.1.- Correlación entre la medida X y el criterio Y, como expresiones
de las variables latentes V1 y V2, respectivamente
En este caso, la correlación entre el test y el criterio será (operando en puntuaciones
estandarizadas): rxy = π xv1 * π v2 v1 * π yv2 . Esto se que el coeficiente empírico de validez es igual a
la fiabilidad del test multiplicado por la validez teórica multiplicado por la fiabilidad del criterio.
5
6 Validez
lo que demuestra que dicha correlación

-
queda mediatizada por el grado en el
que el criterio refleja la verdadera
D1 dimensión del rasgo en cuestión.
r Por esta razón, en la medida en que
Vx vxvy Vy el criterio observado corresponda con lo
que pretendemos medir, parece más
rx1v rx2v ry1v ry2v apropiado definir, de acuerdo con Lord
y Novick (1968, pág. 261), la validez
referida al criterio como la correlación
entre el test y alguna conducta
observable (validez empírica); o bien
X1 X2 Y1 Y2 como la correlación entre el test y algún
constructo teórico (validez teórica).
Cuando tengamos la garantía, de algún
E1 E2 E3 E4 modo siempre dudosa, de que el
constructo y la conducta observable
Figura 4.2.- Modelo de medida para estimar el nuevo coinciden (V2=Y), o, al menos, que test
coeficiente de validez a partir de modificaciones en la y criterio participan de un mismo
fiabilidad. constructo, entonces podremos utilizar
la ecuación de regresión para determinar el valor en el criterio que obtendrá un sujeto al que se le
haya aplicado un determinado test. Más adelante, con la validez de contenido y de constructo,
ampliaremos estos conceptos.
La validez referida al criterio es susceptible de ser tratada desde distintas metodologías de
análisis. Guiados por la utilidad práctica que caracteriza a la validez referida al criterio podemos
hacer uso de la regresión para predecir, anticipar y optimizar los valores en el criterio. Por otro
lado, si sospechamos que, como es habitual, test y criterio pueden estar afectados por un cierto
error de medida, podemos hacer uso de las distintas fórmulas, presentadas en el apartado
siguiente, que relacionan fiabilidad y validez. Por último, si queremos beneficiarnos de las
ventajas que ofrecen, en cuanto a comprensión del fenómeno, los modelos de estructuras de
covarianzas podemos seguir el planteamiento de la validez de constructo.
4.2.1.- Validez y fiabilidad
Como se ha indicado, validez hace referencia a la adecuación de la medida, y fiabilidad a la

precisión con que se realiza esa medida. De ello se deduce que hay dos tipos de errores
superpuestos en el valor del coeficiente empírico de validez (referida al criterio): uno que hace
referencia a la mayor o menor adecuación y otro a la mayor o menor precisión. Ambos afectan a
la validez empírica. Es obvio que en la medida en que se mejore la fiabilidad de un test
mejoremos su validez empírica. Aunque hay que decir que en el caso extremo de obtener una
medida cuya validez empírica sea cero, nada lograremos aumentando su fiabilidad; tan sólo
estaremos consiguiendo medir cada vez mejor algo completamente distinto a lo que se pretende
medir. Es algo parecido a lo que ocurre con el que tiene una balanza de gran precisión para
medir la estatura. Por esta razón se dice que la fiabilidad es condición necesaria pero no
suficiente para mejorar el grado de validez de una cierta medida.
En el caso de la validez referida al criterio hemos de considerar, además, que tal criterio,
como medida empírica que es, contemplará un cierto error de medida. Quiere decir esto que el
criterio, a su vez, presentará una cierta fiabilidad.
6
Hay muchas situaciones en las que nos interesa estimar cuál sería la validez criterial si
atenuamos (modificamos o eliminamos) el error de medida en test en criterio o en los dos. Este
problema se plantea y resuelve en el contexto de la
relación entre fiabilidad y validez. D1
Debido a que la fiabilidad es un medio y como
rv2v1 V2
tal afecta a la validez referida al criterio puesta de V1
manifiesto a través del coeficiente empírico de
validez (normalmente el coeficiente de correlación rx1x1 ry1y1
de Pearson), Podemos plantearnos cómo afecta a
este coeficiente empírico de validez la anulación o
disminución de errores de medida en test o en
criterio (recordemos los diagramas de ejemplos
presentados en el capítulo 1, figuras 1.6 a 1.9).
Para conceptualizar la situación y hacerla más X 1 Y1
intuitiva y asequible podemos observar el diagrama
path de la figura 4.2. Supongamos que los
parámetros de este modelo ( rx1 y1 , rx 2 y 2 ) reproducen E1 E3
de forma perfecta los distintos coeficientes Figura 4.3.-Validez máxima o teórica.
empíricos de validez y por lo tanto:
rx y 1 = rx x * rv v * ry y
1 1 1 x y 1 1
Figura 4.4. Validez máxima o teórica tras modificar
rx 2y2
= rx x * rv v * ry
2 2 x y 2 y2
(4.1) las medidas de test y criterio
D1
Cuando se anula error de medida en test y en
criterio, despejando de 4.1., tenemos (4.2), como V1 rV V
2 1 V2
valor de la validez máxima o teórica.
rx y
rv v =
x y
1 1
; rx x 2 2 ry y
2 2
rx x * * ry y
1 1 1 1
rx
rv v =
x y
2 y2
(4.2) X2 Y2
rx 2 x2
* * ry 2 y2
E2 E4
Igualando a partir de 4.2 tenemos (4.3):
rx y rx
1 1
= 2 y2
rx x * ry y
1 1 1 1
rx x * ry
2 2 2 y2
rx y rx x * ry y rx x * ry y
1 1
= 1 1 1 1
⇒ rx 2 y2
= rx y 1 1 1 1
(4.3)
rx 2 y2
rx x * ry
2 2 2 y2
1 1
rx x * ry
2 2 2 y2
4.2.2.- Validez y longitud
En el apartado anterior hemos visto la relación entre la validez empírica referida al criterio y la
fiabilidad tanto del test como del criterio. En la práctica, un procedimiento relativamente frecuente
para intervenir sobre la fiabilidad es, como se sabe, incrementando el número de medidas -items- del
test en cuestión. En este sentido, si nos interesa conocer la forma en que la longitud del test o del
8 Validez
criterio afecta al coeficiente de validez , si incrementamos el test n1 veces y el criterio n2 veces,
tendremos que:
1.- Conocer la nueva fiabilidad del test (primero) y de criterio (después), aplicando la ecuación 3.29.
nrx x nry y
rx x = 1 1
; ry 2 y 2 = 1 1
(4.4)
2 2
1 + (n − 1)rx x 1 1
1 + (n − 1)ry y
1 1
2.- Aplicar ecuación 4.3 para conocer la nueva validez en función del cambio en número de ítems de
test y criterio.
rx x * ry y
rx 2 y2
= rx y
1 1
1 1 1 1
rx x * ry
2 2 2 y2
;
4.2.4.- Validez y variabilidad
El coeficiente de validez criterial, como coeficiente de correlación, vendrá afectado por la

variabilidad de la muestra donde se aplica, en el sentido de que cuanto mayor sea ésta, mayor será el
coeficiente de validez. Ocurre lo mismo que con el coeficiente de fiabilidad, situación ya tratada
anteriormente.
Aquí, por razones de simplicidad, consideraremos tan sólo el caso bivariado -un único test y un
único criterio-. Situaciones más complejas, donde se contemplan tres o más variables predictoras
pueden estudiarse en Yela (1980, págs. 190-220), Martínez Arias (1995, págs. 390-405) o Muñiz
(1994, págs. 130-137). Un tratamiento más extenso puede encontrase en Gulliksen (1950, págs. 129-
172).
Es relativamente frecuente, en el caso de la validez referida al criterio, que el coeficiente de
validez se calcule con un grupo de sujetos seleccionados y no con todos aquellos a los que se les
aplicó el test. Por ejemplo, si utilizamos un determinado test para seleccionar pilotos, el coeficiente
de validez podría calcularse correlacionando las puntuaciones del test con las habilidades
manifestadas por los pilotos en la ejecución de su tarea. Está claro que no hemos seleccionado a
todos los sujetos que se presentaron a las pruebas de acceso, si no tan sólo a un grupo reducido de
ellos -los mejores-, y que por tanto, pertenecerán al rango superior de puntuaciones del test (y no a
todo el rango del test). Su variabilidad será menor, y en consecuencia, el coeficiente de validez
calculado con estos sujetos será inferior al obtenido si se calculara con todos las personas a las que se
aplico el test. Este es el problema que se
conoce como restricción de rango, y que
suele presentarse en estas situaciones. La
solución consistirá en intentar recomponer,
asumiendo ciertos supuestos, la situación
en la que están presentes todos los sujetos a
los que les fue aplicado el test.
En la figura 4.5 se observa
precisamente cómo el grupo de
seleccionados, al comprender un rango de
variación menor que el total de los sujetos
a los que se les aplicó el test, presenta un
Figura 3.11.- Efecto de la variabilidad sobre la diagrama de dispersión más redondeado, lo
correlación y por lo tanto la validez validez. que es indicativo de un coeficiente de
correlación inferior.
8
Como de la única información que disponemos es la correlación para el grupo seleccionado,
intentaremos calcular a partir de ésta la correlación para todo el rango de variación de los sujetos.
Para ello asumiremos los siguientes supuestos: a) la pendiente es la misma, tanto para el grupo
reducido como el total de los sujetos, y b) el error típico de estimación es el mismo para ambos
grupos (completo y el de rengo restringido).
De esta forma, para el primer supuesto, igualaremos ambas pendientes:
Sy SY
rxy = rXY (4.5)
Sx SX
donde hemos utilizado letras mayúsculas para los sujetos de rango completo y letras minúsculas para
los sujetos de la muestra reducida.
Y en relación al segundo supuesto, igualaremos sus errores tipos de estimación:
S y 1 − rxy2 = S Y 1 − rXY2 4.6)
rxyS ySX
Si despejamos S Y de (4.5): SY = (4.7)
rXY S x
rxy S y S X
Y sustituyendo su valor en 4.6: S y 1 − rxy2 = 1 − rXY2 (4.8)
rXY S x
S X rxy
Despejando: rXY = (4.9)
S X2 rxy2 + (1 − rxy2 ) S x2
4.3. Validez de contenido
En la validez referida al criterio se da por hecho que el criterio es el referente último. Es una
validez, digamos, prestada por el criterio.Pero es obvio que el criterio, a su vez, puede carecer de
validez. Además, como ya hemos indicado, muchas medidas no necesitan de ningún referente
externo al que aferrarse como criterio de validez. En este caso, la validez no vendrá, necesariamente,
determinada por la correlación de las puntuaciones en la prueba con un criterio externo, ya que la
propia prueba es su criterio (Nunnally y Bernstein, 1995). La validez de contenido suele aplicarse en
tests con un cierto grado de concreción, como los tests educativos. De hecho, a lo largo de este
apartado, cuando hablemos de tests y pruebas nos estaremos refiriendo a pruebas de rendimiento.
La validez de contenido es «el grado en que el contenido de un test constituye una muestra
representativa de los elementos del constructo que pretende evaluar» (Martínez Arias, 1995; pág.
335). Es decir, podemos afirmar que un determinado test posee validez de contenido cuando los items
que lo componen son una muestra representativa del universo de items que sirven para medir una
determinada conducta. Por ejemplo, una prueba de rendimiento (examen de una asignatura) tendrá
validez de contenido en la medida en que sus items representen a todos los contenidos y objetivos
definidos en el programa de la asignatura.
En los exámenes de asignaturas previstas en cualquier plan de estudios y en la mayoría del resto
de pruebas de rendimiento, las inferencias que se hacen no son acerca de una conducta externa al test,
ni acerca de un rasgo o constructo (Paz, 1996), sino acerca de un conjunto de items (indicadores de
los contenidos y objetivos del programa) que suponemos bien representados por los items que
componen la prueba. Este tipo de test suelen ser denominados test referidos al criterio por
contraposición a los test referidos a la norma (Glaser, 1963). En este último caso, las puntuaciones de
9
10 Validez
un sujeto se interpretan de forma relativa con respecto a un grupo, que sirve de referencia o norma;
en el caso de los tests referidos al criterio la interpretación de las puntuaciones de un sujeto se hacen
en sentido absoluto, como proporción de items del universo que el sujeto domina (recordemos lo
dicho a este respecto en el tema 2, apartado de baremación).
Para poder asegurar que la puntuación de un sujeto representa la proporción de items del universo
que domina, es necesario que los items representen o reproduzcan las características esenciales del
universo en sus proporciones adecuadas (Lennon, 1956). Para ello, hemos de tener en consideración
tanto el número de items referidos a un contenido u objetivo concreto como el método de selección
de los mismos. Esto mismo es destacado por Messick (1975) cuando afirma que los dos aspectos
centrales de la validación de contenido son la relevancia de los ítems y la representatividad del test.
Los reactivos o ítems de una prueba de rendimiento deben ser relevantes para las consecuencias
que se derivarán de las puntuaciones que los sujetos obtienen en el test (aprobar si la proporción de
ítems que el sujeto domina es considerada suficiente o suspender la asignatura, en caso contrario) y,
además, deben ser representativos del conjunto de contenidos y objetivos definidos en el programa de
la asignatura. La relevancia de los ítems se asegura cuando todos forman parte del dominio
previamente definido -son todos los que están-; la representatividad del test se asegura eligiendo una
muestra aleatoria y representativa del universo de ítems -están todos los que son, al menos
representados proporcionalmente-. La evaluación de ambos aspectos es más cualitativa que
cuantitativa, aunque, como veremos, se han propuesto algunos índices numéricos para los mismos.
4.3.1. Evaluación de la validez de contenido.
Crocker y Algina (1986) proponen los siguientes pasos en la elaboración de los contenidos
adecuados de un test:
1º. Definir el dominio o universo de contenidos objetivos del test.

2º. Seleccionar un conjunto de expertos cualificados en el dominio.
3º. Proporcionar un marco estructurado para el proceso de emparejar items con el dominio referido -
para asegurar la relevancia y representatividad de los ítems.
4º. Recogida y resumen de los datos resultantes del proceso de emparejamiento mencionado.
Los pasos uno, dos y cuatro son comunes tanto a la relevancia como a la representatividad de los
ítems, e implican acciones tales como la definición de las áreas de contenido a cubrir, de los objetivos
instruccionales y procesos cognitivos (taxonomías) que se evaluarán, así como la especificación de la
importancia relativa de cada uno de estos contenidos, objetivos o procesos. Será en el tercer paso
cuando la relevancia y la representatividad impliquen actuaciones diferenciadas, cuantificando el
grado de congruencia ítem-objetivo, en el primer caso, y a través del cuadro de especificaciones del
test, en el segundo caso.
En realidad, la validez de contenido es lo que se consigue siguiendo un proceso adecuado en la
construcción del test. De ahí que la validez de contenido sea una cualidad basada en los
procedimientos y técnicas descritas en el tema 5.
Relevancia de los ítems.
La relevancia de los ítems es juzgada por los expertos mediante un procedimiento de asociación
de cada uno de ellos con su dominio. El dominio de los ítems habrá sido previamente definido en
base a los objetivos, contenidos y, en ocasiones, procesos cognitivos implicados. El procedimiento
más usual es proporcionar a los expertos una lista de objetivos y contenidos de la asignatura y, en
fichas separadas, los ítems elaborados para medir cada uno de los objetivos; partiendo de esta
información, el experto cuantificará la relevancia de cada ítem (Martínez Arias, 1995).
10
Para cuantificar la relevancia de los ítems, Hambleton (1980) propone utilizar una escala de 1 a 5,
donde 1 indique un mal ajuste del ítem al objetivo definido y 5 indicará un ajuste perfecto entre item
y objetivo. La relevancia de un ítem vendría definida por la media o mediana de las puntuaciones
dadas por todos los jueces. Esta medida es el índice de congruencia ítem-objetivo, cuanto más
cercano a 5 sea este índice, mayor será la relevancia del ítem.
Como método alternativo para medir la relevancia de los ítems, Berk (1984) propone, además,
comparar los índices de dificultad obtenidos en situaciones de pre y postinstrucción, o en dos grupos
distintos, sujetos competentes y no competentes. Según esta lógica, serán ítems válidos aquellos con
altos índices de discriminación, o sea, aquellos ítems cuyas diferencias entre ambos índices de
dificultad son elevadas.
También puede ser considerado como índice de relevancia el grado de asociación (π, τ, etc.) del
ítem con el constructo que mide. Este aspecto será tratado en el apartado de validez de constructo
como englobadora de los otros tipos de validez.
Representatividad del test.
En teoría, para asegurar la representatividad del test basta con extraer aleatoriamente de un banco
de ítems aquellos que formarán parte del test. Al ser una extracción al azar, según la ley de
probabilidades, el grado de representatividad del test vendrá determinado por el número de ítems
seleccionados. Sin embargo, es necesario hacer una precisión. Por lo general, los contenidos y
objetivos suelen estar ponderados, no todos tienen la misma importancia dentro del programa de la
asignatura, por lo tanto, no todos han de estar representados por el mismo número de ítems. En este
caso, es preferible un muestreo estratificado (donde los estratos son los diferentes contenidos y
objetivos) a un muestreo aleatorio simple (Paz, 1996).
En la práctica, todo este proceso no suele llevarse a cabo tal y como ha sido descrito por la
inexistencia, en la mayoría de los casos, de un banco de ítems que recoja todos los posibles ítems de
un dominio. En estos casos, para determinar la representatividad del test se siguen unos pasos
distintos.
En primer lugar, se elabora una tabla de especificaciones para cada objetivo definido. La tabla de
especificaciones de un objetivo concreto es una tabla de doble entrada (ver tabla 5.1 del tema 5), en
la que en las columnas estarían los procesos cognitivos (taxonomías) y en las filas los contenidos. En
los marginales de fila, columna y en las casillas de dicha tabla se establecerán de forma proporcional
las ponderaciones de cada contenido, de cada proceso y de sus combinaciones. No es necesario
especificar ponderaciones para todas las combinaciones de contenidos y procesos, ya que algunos
contenidos pueden ser irrelevantes para algunos procesos (Martínez Arias, 1995).
A partir de esta tabla de especificaciones se elaboran los ítems, cuya relevancia será determinada
por los jueces. Tras la eliminación de aquellos ítems que no son relevantes se compara la tabla de
especificaciones elaborada y la resultante. La representatividad del test vendrá determinada por la
concordancia entre los porcentajes de las casillas de la tabla de especificaciones elaborada y los
porcentajes de la tabla resultante tras la eliminación de los ítems irrelevantes.
Otros índices numéricos de la representatividad de un test serían el porcentaje de especificaciones
cubiertas por los ítems o la correlación entre el peso dado a cada especificación y el número de items
que la cubren (Crocker y Algina, 1986).
No obstante, las pruebas de rendimiento no solamente han de tener representatividad y relevancia
del contenido. Puesto que lo que se valida no es el test en sí sino las inferencias que se derivan de él,
es preciso demostrar que estamos midiendo el rasgo que deseamos medir y que las puntuaciones en la
prueba no están afectadas por otro tipo de factores (Paz, 1996). Estas consideraciones, además de la
evolución histórica del concepto de validez de contenido hacen aconsejable la aplicación de la
validación de constructo a las pruebas de rendimiento.
11
12 Validez
4.4. Validez de constructo
Validez de constructo es el grado en el que un test mide el constructo que pretende medir. Para
determinar el grado de adecuación entre el constructo de interés y el test construido para su medición,
partimos de una doble definición del constructo: una definición semántica u operativa, según la cual
el constructo queda definido por su relación con variables observables que suponemos indicadores
adecuados del mismo; y una definición sintáctica o relacional, a través de la cual ponemos en
relación el constructo con otros constructos que suponemos relacionados con él dentro de una misma
teoría (Camacho y Sánchez, 1997). Posteriormente retomaremos tanto la definición de constructo
como la doble vertiente de la validación de constructo. Ahora intentaremos demostrar que la validez
de constructo engloba el resto de tipos de validez estudiados.
Históricamente, la noción de validez de contenido ha sido conceptualizada de tres formas
distintas, aunque relacionadas, influidas por el paradigma dominante en Psicología: a) grado en que
el contenido del test representa una muestra adecuada del contenido del dominio de interés (APA,
1954, 1966); b) grado en el que las conductas exhibidas en el test constituyen una muestra
representativa de las conductas del dominio (APA, 1974); y c) grado en que los procesos empleados
por los sujetos para llegar a la respuesta son típicos de los procesos subyacentes a las respuestas del
dominio (APA, 1985). Según estas dos últimas definiciones, si las inferencias se refieren a las
conductas y los procesos implicados en la respuesta a los ítems, la separación entre validez de
contenido y validez de constructo se hace cada vez más borrosa; por lo que a través de los métodos y
procesos propios de la validez de constructo también podemos llegar a obtener evidencia de validez
de contenido.
Además, el concepto de validez es un concepto unitario y, en cierta medida, la validación de
constructo es toda la validación posible, quedando subsumidas en ella la relevancia y
representatividad de los contenidos y las relaciones con los criterios (Loevinger, 1957; Messick,
1980).
Respecto a la validez referida al criterio, al medir el grado de asociación del constructo con otros
constructos que forman parte de la misma teoría substantiva estamos obteniendo una evidencia de
validez referida al criterio; el criterio, en este caso, es el otro constructo que suponemos relacionado.
En cuanto a la validez de contenido, obtenemos evidencia de la relevancia del contenido a través
de los índices de asociación de los indicadores observables con el constructo, es decir, si la relación
entre los indicadores y el constructo es estadísticamente significativa obtenemos una prueba de que
todos los ítems incluidos son una medida adecuada del constructo (son todos los que
están=relevancia del contenido).
Del mismo modo, a través de la validación de constructo, también obtenemos evidencia de la
representatividad del contenido si los constructos definidos se relacionan entre ellos como habíamos
hipotetizado. Para demostrar la relación entre dos constructos es necesario que en la definición
operativa de los mismos estén incluidas todas las conductas que son indicadores observables de los
mismos (de lo contrario, estaríamos midiendo otros rasgos que, en buena lógica, no deberían estar
relacionados) o, al menos, que las conductas incluidas sean una muestra representativa de la
población de conductas que son indicadores observables de dichos constructos (están todos los que
son = representatividad del contenido).
Así pues, podemos concluir que la validez de constructo engloba las consideraciones de validez
de contenido y validez referida al criterio. A continuación, para una mejor comprensión de la validez
de constructo, analizaremos el concepto de constructo, la definición de validez de constructo y los
métodos de evaluación de la validez de constructo.
Los constructos son concepciones que tenemos de la realidad para una mejor comprensión de la
misma, y que no son susceptibles de ser observados directamente. Para Cronbach y Quirk (1976) un
constructo es una categoría creada con el fin de organizar la experiencia en proposiciones generales
que tengan forma de leyes.
En ningún caso debemos entender un constructo, tal y como es defendido desde la teoría de la
validación de constructo, como una entidad real que está dentro del sujeto y que existe
independientemente de nuestra capacidad de observarlo, sino como un instrumento del conocimiento.
12
En resumen, un constructo es una construcción científica que nos servirá para explicar y organizar el
conocimiento previo (Gómez Benito, 1986).
Crocker y Algina (1986) añaden a la definición un aspecto relevante y no contemplado en las
definiciones previas : los constructos están, necesariamente, ligados a la evidencia empírica. Para
ellos un constructo es una idea desarrollada para permitir la categorización y la descripción de
algunas conductas directamente observables. El carácter de construcción teórica del constructo lo
hace no observable ni medible en sí mismo y, para poder contrastar la utilidad y relevancia del
mismo, debemos ponerlo en relación con conductas observables que suponemos indicadores válidos
de ese constructo (Silva, 1989). Esto implica que un primer paso en el proceso de validación de
constructo es la contrastación empírica de la relación entre el constructo y sus indicadores
observables.
Un constructo no se reduce, sin embargo, a sus referentes empíricos. Un constructo no es igual a
sus medidas, ni se define básicamente por éstas, sino que se define por una red de relaciones que al
estar ligadas a conductas observables son empíricamente constrastables (Messick, 1975). Los
constructos elaborados por el científico no se dan en el vacío sino que se enmarcan dentro de una
teoría de interrelaciones que les confiere significado, dentro de una red nomológica o sistema de
hipótesis relacionales que conecta a los constructos entre sí y a los indicadores observables con los
constructos (Campbell, 1960). En este mismo sentido, Bunge (1976) afirma que los constructos, para
ser válidos, han de formar parte de un sistema, han de estar inmersos en una teoría científica.
De este modo, hemos retomado la doble definición de constructo a la que hacíamos referencia al
principio de este apartado. La definición semántica, operativa, según la cual un constructo se define
por sus indicadores observables y la definición sintáctica, relacional, que define un constructo por sus
interrelaciones con otros constructos incluidos en una misma teoría. Desde esta doble perspectiva, la
validación de constructo es, en esencia, validación de teorías, es un proceso de contrastación de
hipótesis relacionales, relaciones entre constructos y relaciones entre constructos e indicadores.
Validación de constructo es, pues, validación de hipótesis de trabajo (Cronbach, 1972). La
validación de constructo es un proceso científico (Messick, 1989) que hace uso de las estrategias y
fases del método científico. Lo que hacemos cuando hacemos validación de constructo es enunciar
una teoría que sugiere variables, constructos y sus relaciones; y contrastar esa teoría (Nunnally y
Bernstein, 1995).
De todo ello se deduce que un instrumento de medida estará ligado al constructo o constructos
que pretende medir y la validación de constructo nos indicará «el grado en que el instrumento de
evaluación es una medida adecuada del constructo y en qué medida las hipótesis derivadas del
constructo pueden confirmarse mediante la utilización del instrumento» (García Ramos, 1986).
Cronbach y Meehl (1955) establecen distintas fases en el proceso de validación de constructo:
1ª. Especificación de los constructos que están en la base de la ejecución de un test, definiéndolos
mediante una red de asociaciones.
2ª. Para que la validación sea posible algunas de esas asociaciones han de ser relaciones con variables
observables. En esta segunda fase se establecen las relaciones entre variables observables y
constructos y se establecen, también, las relaciones entre constructos.
3ª. Verificación de la red de asociaciones establecida. Si el resultado es el esperado, podemos afirmar
que el instrumento tiene validez de constructo; cuando no es así, el fallo puede estar en la
interpretación de las puntuaciones del test o en la teoría de relaciones entre constructos.
En resumen, «el proceso de validación de un constructo es un proceso largo y continuado que
requiere tanto investigaciones de la dimensión interna del constructo como investigaciones de las
relaciones entre el constructo objeto de estudio y otros con los que en la teoría aparece implicado»
(González, Tourón y Gaviria, 1994; pág. 47). Ello implica distintas formas de análisis. Por un lado,
hemos de intentar definir la estructura interna del constructo -sus factores y dimensiones- y, a través
de la metodología de análisis adecuada, contrastar dicha estructura. Por otro lado, hemos de definir
otros constructos con los que, presumiblemente, estará relacionado y verificar esta asociación entre
constructos.
La doble vertiente del proceso de validación de constructo, el carácter englobador y unitario de la
validación de constructo y la propia definición de validez como proceso continuo de obtención de
13
14 Validez
evidencias que justifiquen las decisiones que tomamos partiendo de las puntuaciones de un test, hace
que los métodos y técnicas de análisis y evaluación de la validez de constructo sean múltiples. A
estos métodos dedicamos el siguiente apartado.
4.4.1. Evaluación de la validez de constructo.
Ya que la validez de constructo engloba cualquier tipo de evidencia de validez, cualquier método
para obtener distintas evidencias de validez es adecuado para la evaluación de la validez de
constructo. Además, dado que la validación no es un coeficiente único sino un proceso continuo,
puede ser utilizada cualquier metodología de análisis, ya sea de carácter cuantitativo o cualitativo,
que aporte evidencias de validez.
Los métodos y técnicas utilizados en la validación de constructo son, pues, diversos; en este
apartado se recogen sólo algunos de los más utilizados. Además de las técnicas aquí reseñadas se
pueden utilizar el análisis del escalograma de Guttman, la comparación entre grupos, la metodología
experimental, etc (Hambleton, 1984; Crocker y Algina, 1986; Martínez Arias, 1995).
Análisis factorial exploratorio
Con el uso del Análisis Factorial Exploratorio se intenta encontrar consistencias a través de
distintas mediciones. Disponemos de un conjunto de indicadores y queremos saber qué pautas
presentan. Dicho de otro modo, disponemos de una serie de mediciones y a través de sus
intercorrelaciones intentamos determinar cuántas y cuáles son las fuentes de variación común
subyacente a tales observaciones. Tras los análisis estadísticos pertinentes se concluye en la
denominada matriz factorial, donde bajo el epígrafe de factores aparecen las distintas variables que
comparten varianza. Los factores, en la medida que indican fuentes distintas de variación, se
interpretan como las dimensiones subyacentes al conjunto de observables. En este sentido, se ha
querido ver tales dimensiones como los constructos que configuran la parcela de conducta observada.
No pretendemos que el lector comprenda cabalmente la técnica del análisis factorial sino tan solo
que tenga un cierta comprensión de la misma a través de los ejemplos que expondremos. Para una
profundización al respecto pueden consultarse las obras de Gorsuch (1983), Harman (1976) o
Ferrando (1993).
Uno de los ejemplos más ilustrativos donde se ha aplicado el análisis factorial ha sido en la
medición de la inteligencia, como instrumento de ayuda en la conceptualización de la misma.
Supongamos a este respecto que no sabemos muy bien cuáles son las funciones que integran la
inteligencia, pero más o menos conocemos conductas en las que suponemos se manifiesta la misma,
TABLA 4.3.- Matriz factorial con datos supuestos
Variable Factor I Factor II Factor III Comunalidad
________________________________________________________________
Vocabu1ario 0.85 0.02 0.12 0.737
Comprensión 0.74 0.14 0.01 0.567
Fluidez verbal 0.45 0.10 0.40 0.373
Sinónimos 0.75 0.03 0.04 0.565
Rompecabezas 0.11 0.76 0.09 0.598
Semejanzas 0.15 0.54 0.03 0.315
Figuras 0.01 0.67 0.21 0.531
Cubos 0.13 0.71 0.10 0.531
Sumas 0.35 0.29 0.86 0.750
_______________________________________________________________
Var. Explicada 2.21 1.93 0.98
Prop. Var. Exp. 25.54 21.52 10.88
14
tales como dominio del vocabulario, comprensión de conceptos, ciertas operaciones aritméticas,
manejo de figuras geométricas, ... Sometemos a una serie de personas al conjunto de items que
suponemos expresan inteligencia, y que aparecen en la siguiente figura 4.12. Tras el análisis
estadístico obtenemos la matriz factorial de orden 9*3, donde las filas representan las variables y la
columnas, las dimensiones o factores, tal como se presenta en la tabla 4.3.
En las columnas encabezadas por los factores se encuentran las correlaciones de las variables con
dicho factor. A éstos valores se les denominan saturaciones. Por ejemplo, en el primer factor la
prueba de vocabulario presenta una correlación de 0.85, lo que se interpreta como una proporción de
varianza explicada de 0.852 = 0.723 por parte del factor respecto a dicha variable. Se observa,
igualmente, que hay ciertas familias de variables. Así, la mencionada prueba de vocabulario junto a
la de comprensión, fluidez verbal y sinónimos están emparentadas por sus saturaciones en el primer
factor. Otro tanto sucede en el segundo factor con las pruebas de rompecabezas, semejanzas,
completar figuras y construcción de Cubos. Hay, por último, un tercer factor, con saturaciones
importantes en fluidez verbal y sumas (número de sumas). La tabla se completa con una cuarta
columna denominada comunalidad que expresa el total de la varianza de la prueba explicada por el
conjunto de los factores. Si retomamos la prueba de vocabulario tendremos que entre todos los
factores explican 0.852+0.022+0.122=0.737; esto es, el 74% de varianza de dicha prueba. Si sumamos
igualmente los cuadrados de los elementos de las columnas obtendremos para cada factor la varianza
explicada por el mismo sobre el conjunto de prueba aplicadas. Así, en el caso del primer factor el
valor es de 2.21. Si tenemos en cuenta, al operar con variables estandarizadas, que el total de varianza
de las nueve pruebas valdrá precisamente 9, entonces interpretaremos el valor de 2.21 como que
dicho factor explica la proporción de 2.21/9=0.2454, o lo que es lo mismo, el primer factor explica un
24.54% de la variabilidad total de los datos. Como los demás factores explican menos podemos
considerar que el mencionado factor tiene un peso mayor en la inteligencia que los restantes.
Estos datos necesitan ser interpretados en los términos de la investigación realizada, o lo que es lo
mismo, hemos de interpretarlo en términos psicológicos. Hemos hablado de "familias" de variables.
Se trata ahora de ver el parentesco que presentan las mismas y ponerles algún nombre que las
identifique. En este caso, podemos suponer que hay un primer factor o dimensión, que por las
variables que la integran, podremos denominarla como factor verbal, ya que en todas ellas el común
denominador es un cierto discurso mental en el que interviene el lenguaje. El segundo factor,
podremos denominarlo como factor manipulativo, en contraposición al anterior, ya que se entiende
que el lenguaje no forma parte del mismo, sino un tipo de razonamiento, digamos, de carácter
manipulativo. Por último, el número de palabras que puedan expresarse en un cierto tiempo, o bien el
número de sumas capaz de realizarse, lo denominaremos como factor de rapidez.
TABLA 4.4. Matriz factorial igualando a cero saturaciones inferiores a 0.25
Variable Factor I Factor II Factor III
Vocabulario 0.85 0.00 0.00

Comprensión 0.74 0.00 0.00
Fluidez verbal 0.45 0.00 0.40
Sinónimos 0.75 0.00 0.00
Rompecabezas 0.00 0.76 0.00
Semejanzas 0.00 0.54 0.00
Figuras 0.00 0.67 0.00
Cubos 0.00 0.71 0.00
Sumas 0.35 0.29 0.86
Al objeto de simplificar el modelo, podemos considerar que aquellas saturaciones con valores
iguales o inferiores a 0.25 son irrelevantes. Transformando en cero tales valores, obtendremos la
matriz factorial adjunta (ver tabla 4.4).
Como consecuencia de ello obtendremos el siguiente modelo, que exponemos gráficamente:
15
16 Validez
VOC MAN RAP
voc com flu sin rom sem fig cub sum
E2 E2 E3 E4 E5 E6 E7 E8 E9
Figura 4.12. Modelo de Análisis Factorial Exploratorio igualando a cero las saturaciones
inferiores a 0.25
Podríamos sentirnos tentados a considerar que con este modelo hemos logrado determinar la
estructura de la inteligencia. En este sentido, se ha llegado a afirmar que el procedimiento factorial
proporciona validez factorial, lo cual no es correcto. Habría que hablar, más bien, de composición
factorial de las medidas, tal como sugiere Nunnally (1978, pág. 127), ya que el análisis factorial por
sí mismo no valida nada -no es más que una transformación matemática-, y en este sentido, tan sólo
estructura un determinado material. Ofrece una salida con un cierto grado de consistencia, pero que
obviamente depende del material que hayamos suministrado de entrada -validez de contenido-.
Posiblemente, si hubiéramos introducido otros ítems (por ejemplo, alguna prueba de atención) o bien,
si en lugar de utilizar una matriz de transformación ortogonal que proporciona factores incorrelados,
hubiéramos recurrido a una matriz de transformación oblicua, los factores serían distintos y
correlacionados. Se deduce, pues, que el análisis factorial es un instrumento puramente mecánico,
que permite según ciertas restricciones estructurar un determinado material, y que tiene un interés
puramente orientativo como veremos más adelante, cuando expongamos la lógica de los modelos
estructurales.
Igual que en el caso de la matriz multirrasgo-multimétodo, el rasgo común medido es lo que se
entiende por constructo. Aquí el constructo es la consecuencia de un cierto tanteo matemático -
contexto exploratorio- que desemboca en la matriz factorial citada, mientras que en caso de la
denominada validez convergente explícitamente hemos medido lo que suponemos que es el mismo
rasgo, por diferentes métodos. Del parecido en las correlaciones deducimos lo acertado de nuestros
propósitos y concluimos que hay algo común, que es nuestro rasgo objeto de estudio. Es una
deducción que establecemos a partir de la matriz de correlaciones, un tanto a ojo de buen cubero,
mientras que en el caso factorial hay un aparato matemático que registra y nos ofrece las pautas
comunes subyacentes. Se observa, pues, que ambas técnicas son más complementarias que
excluyentes, aunque hay que decir que el procedimiento factorial, menos exigente, y como fase
previa, de carácter exploratorio cuando no se conoce muy bien la naturaleza de las cosas, es más
frecuentemente utilizado.
Hay que hacer también aquí algunas observaciones a la validez factorial, no solamente a lo
discutible del término, tal como hemos apuntado, sino incluso al concepto de composición factorial
en el sentido de si la estructura obtenida permite discriminar rasgos o constructos distintos o tan sólo
que pueda haber una apariencia falaz de una estructura en la naturaleza de lo medido que no es más
que un artificio, resultado de mediciones distintas (que no de mediciones que miden distintas cosas).
16
INT
ver man
voc com flu sin rom sem figcub sum
E1 E2 E3
E2 E4 E5 E6 E7 E8 E9
Figura 4.13. Modelo de Análisis Factorial Confirmatorio

Tal como sugieren Carmines y Zeller (1979, pág. 65-70) en un interesante ejemplo, donde se estudia
la composición factorial de la autoestima, y donde supuestamente items que miden lo mismo pero
planteados de diferente forma ofrecen (equivocadamente) dimensiones distintas en un análisis
factorial, debido a que el formato de presentación fue precisamente el que marcó la pauta
diferenciadora en las puntuaciones.
El análisis factorial aplicado a la validez ofrece este elemento de confusión. Paradójicamente, esta
técnica es más útil para la fiabilidad donde sólo nos cuestionamos la consistencia de las medidas sin
más supuestos (recordemos el apartado 3.3.2); mientras que en el caso de la Validez, dicha técnica de
Análisis Factorial hay que considerarla fundamentalmente como un instrumento que permite ir
aquilatando y configurando un constructo, junto a otras evidencias empíricas, más que como
exponente de la teoría explicativa de la validez de constructo. La teoría exige de evidencias
empíricas, pero tales evidencias no garantizan la teoría. Al final hay una cierta circularidad en los
planteamientos.
Modelos Estructurales
El análisis factorial exploratorio es útil en las primeras fases como tanteo que ayuda a tener una
idea de la posible estructura de un determinado material. Esta fase tiene un interés fundamentalmente
orientativo y se caracteriza por carecer de hipótesis previas, claramente definidas, de cómo funcionan
las cosas. Justo lo contrario del planteamiento de los modelos estructurales como procedimiento para
determinar la validez de constructo. Aquí, el investigador, en base a sus conocimientos teóricos del
tema, y virtualmente ayudado por técnicas tales como el análisis factorial comentado, propone el
modelo explicativo del fenómeno a estudiar. Así, siguiendo con el ejemplo que tratábamos en el
apartado de Análisis Factorial Exploratorio, supone que el tercer factor no tiene una interpretación
clara y subsume todos los items en dos constructos. Además, considera, que en cuanto inteligencia
los factores verbal y manipulativo no son independientes. Así, establece el modelo de figura 4.13.
Por otro lado, puede ocurrir que su objetivo no se limite a estudiar la inteligencia per se, sino que
tenga interés en integrarla en modelos más complejos donde se alcance mayor riqueza explicativa. De
17
18 Validez
E1 Bx1e1 X1 πX V 1 1
Bx2v1 V1 X6 Bx6e6 E6
E2 Bx2e2 X2 Bv3v1 Bx6v3
ρ F2F1
Bx7 v3 Bx7e7 E7
E3 Bx3e3 X3
V3 X7
Bx3v2
Bv3v2 Bx8v3
E4 Bx4e4 Bx4 v2
V2 Bx8e8
X4 Bv3 d3 X8 E8
Bx5 v2
E5 Bx5e5 X5 D3
Figura 4.14. Modelo estructural aplicado a la validez de constructo
esta manera, puede crear un marco más amplio donde tengan cabida constructos tales como Nivel
social y Rendimiento escolar. A este respecto puede tomar como indicadores del Nivel social las
siguientes variables: a) Ingresos, b) Estudios y c) Ocupación. Y como indicadores del Rendimiento
escolar: a) Examen, b) Evaluación del profesor y c) Autoevaluación. Supongamos, igualmente, que
por razones de simplicidad disponemos de dos indicadores de Inteligencia. De esta manera hemos
agrupado en una única prueba todos los items que integran el constructo que hemos denominado
Inteligencia verbal. Y lo mismo con los items que integran la Inteligencia no verbal (manipulativa,
práctica, espacial ..). Así, elaboraremos el modelo de figura 4.14 ampliado con carácter explicativo
del Rendimiento en función de la Inteligencia y el Nivel social:
Como puede comprobarse, en este modelo se contemplan tres constructos o variables
latentes. Hay dos constructos exógenos V1 (Inteligencia) y V2 (Nivel social), que consideraremos
como variables exógenas, y un constructo endógeno V3 (Rendimiento). La ecuación estructural que
los liga es: V 3 = π v 3 v 1 V 1 + π v 3 v 2 V 2 + π v 3 D 3 D 3 (4.20)
En términos matriciales:
V 
[
V3 = π V V π V V ] 1  + [π V D
V
] [D ] 3 (4..21)
 2
3 1 3 2 3 3
Por otro lado, en lo que respecta al modelo de medida tenemos para los indicadores del Ren-
dimiento:
X6 =π X 6V 3 V3 + π X 6 E6 E6
X7 =π X 7V 3 V3 + π X 7 E7 E7
X8 =π X 8V 3 V3 + π X 8 E8 E8
En notación matricial:
 X 6  π X V   E6 
 X  = π 
[ ]  E  (4.22)
6 3
 7  X V 7 3 V3 + π X 6 E6
πX 7 E7
πX 8 E8  7
 X 8  π X V 8 3

  E8 
donde X6, X7 y X8 hace referencia a las variables Examen, Evaluación del profesor y Autoevaluación.
18
Y en relación a los indicadores de Inteligencia y Nivel social:
X 1 = π X V V1 + π X E E1
1 1 1 1
X 2 = π X V V2 + π X
2 2 2 E2
E2
X 3 = π X V V3 + π X
3 3 3 E3
E3 (4.23)
X 4 = π X V V4 + π X
4 4 4 E4
E4
X 5 = π X V V5 + π X
5 5 5 E5
E5
en notación matricial:
 X 1  π X V 0   E1 
 X  π 0 
1 1
E 
 2  X V V   2
[ ]
2 1
X3  =  0 πX V   1+ πX E πX 2 E2
πX 3 E3
πX 4 E4
πX 5 E5
 E3  (4.24)
    V  
3 2
πX V   2
1 1
X 4   0 4 2  E4 
 X 5   0 π X V 
5 2
 E5 
donde X1 y X2 hacen referencia a los factores verbal y manipulativo de la inteligencia, y X3, X4 y X5
expresan respectivamente las variables Ingresos, Estudios y Ocupación como indicadores del
constructo Nivel social.
Una vez definido el modelo, mediante el diagrama causal y las ecuaciones que lo integran, se
procede a determinar la validez -validez de constructo- del mismo, que consiste, como se sabe,
en comprobar la viabilidad del modelo especificado. Dicho en otros términos, el modelo se
considera válido si los datos son coherentes (merced a una determinada prueba estadística) con la
estructura especificada. De dicha coherencia no se deduce que hayamos definido el modelo
correcto, sino tan solo un modelo, de los (probablemente) muchos posibles, tal que la matriz de
varianzas-covarianzas reproducida por el modelo no discrepe significativamente de la matriz de
varianzas-covarianzas elaborada a partir de los datos reales. Se trata de aceptar la hipótesis nula,
que como es bien conocido, conlleva un riesgo desconocido $ de equivocarse. Este es el
problema de siempre cuando queremos asegurarnos de la validez de nuestras concepciones de la
realidad. Elaboramos una teoría que exige de evidencias empíricas, pero a su vez, tales
evidencias no garantizan la teoría formulada. Al final hay una cierta circularidad en el proceso
que impide tomar una conclusión definitiva, aunque existe la esperanza de que el esfuerzo no
haya sido en vano y haya una cierta progresión hacia la verdad de nuestros planteamientos.
No nos extenderemos en estos aspectos, que sería demasiado prolijo desarrollar, y que en
parte se supone conoce el lector. Nos hemos limitado a hacer una breve exposición, -al hilo del
modelo que nos concierne- de la lógica de los modelos estructurales. Para una mayor
profundización al respecto recomendamos la excelente obra de Bollen (1989).
En prácticas desarrollaremos algunos ejemplos en los que se contrastará su validez de
constructo a través de las técnicas aquí descritas.
19
20 Validez
Matrices multirrasgo-multimétodo.
La matriz multirrasgo-multimétodo (MRMM), propuesta inicialmente por Campbell y Fiske

(1959), es un procedimiento heurístico, no estadístico, utilizado para obtener evidencias de
validez de contructo de un test. Como su propio nombre indica es una matriz de correlaciones de
Pearson entre medidas de distintos rasgos psicológicos (constructos) obtenidas a través de
distintos métodos. Para obtener una matriz multirrasgo-multimétodo todos los rasgos han de ser
medidos con todos los métodos. Para comprender mejor la utilidad, ventajas y desventajas de las
matrices MRMM, comenzaremos aclarando algunas precisiones respecto a la validez hechas por
los citados autores.
Campbell y Fiske hablan de validez convergente y validez discriminante como evidencias de
validez. Campbell (1960) distingue entre validez de rasgo y validez nomológica como evidencias
de validez de constructo. La validez de rasgo se basa en la demostración de la existencia de un
rasgo psicológico concreto, independientemente del método de medida utilizado, más que en
identificar constructos enclavados dentro de teorías relacionales (lo que sería validez
nomológica).
Las matrices MRMM permiten obtener evidencias de validez de rasgo, es decir, evidencias de
la existencia de un constructo psicológico más allá de los métodos de medida utilizados. Validez
de rasgo indica que las correlaciones entre medidas de un mismo constructo con diferentes
métodos han de ser mayores (evidencia de validez convergente) que las medidas de diferentes
constructos con un mismo método (evidencia de validez discriminante) (Messick, 1989). Según
la teoría de validez de rasgo, un constructo no estaría asociado únicamente a un método de
medida ni estaría indebidamente relacionado con otros constructos.
Para demostrar que un constructo no está asociado a un único método de medida se requiere
la convergencia de dos o más métodos de medida del constructo. Para demostrar que un
constructo no es redundante con otros constructos se requiere la discriminación entre medidas de
dos o más constructos. MRMM ofrece información simultánea acerca de múltiples rasgos
medidos por múltiples métodos.
A modo de ejemplo, analizaremos la siguiente matriz de correlaciones. En ella aparecen tres
rasgos de personalidad: neuroticismo, extroversión e introversión; medidos a través de dos tests
diferentes: Rorschach y MMPI. MRMM es una matriz de correlaciones entre mediciones
(métodos por rasgos) con una excepción: la diagonal principal se sustituye por la fiabilidad de
cada medida. Es una matriz simétrica, por lo tanto, sólo se ofrece la parte inferior de la diagonal1.
Cada coeficiente de correlación de la matriz es identificado como uno de los tres siguientes
(Crocker y Algina, 1986):
1. Coeficientes de fiabilidad: son las correlaciones entre las medidas de un mismo constructo
utilizando el mismo método. Ocupan la diagonal principal y están entre paréntesis.
2. Coeficientes de validez convergente: correlaciones entre medidas del mismo constructo
usando diferentes métodos. Aparecen en negrita ocupando la diagonal del cuadrado
sombreado.
3. Coeficientes de validez discriminante: son las correlaciones entre medidas de diferentes
constructos usando un mismo método (triángulos heterorrasgo-monométodo, cuyos
coeficientes aparecen en cursiva). También, son las correlaciones entre medidas de diferentes
constructos usando diferentes métodos (triángulos heterorrasgo-heterométodo, cuyos
coeficientes aparecen subrayados dentro del cuadrado sombreado).
1
En la matriz, cuyos datos son inventados para este ejemplo, sólo aparecen correlaciones positivas para favorecer la
interpretación de los coeficientes, ya que sólo nos interesa la magnitud del coeficiente y no el sentido de la relación.
20
Tabla 4.5.- Matriz de correlaciones multirrasgo multimétodo
RORSCHACH MMPI
Rasgos A1 B1 C1 A2 B2 C2
Método 1 A1 Neuroticismo (.95)
Rorschach B1 Extroversión 25 (.90)
C1 Introversión 40 59 (.94)
Método 2 A2 Neuroticismo 75 .18 32 (.93)
MMPI B2 Extroversión 13 59 37 14 (.70)
C2 Introversión 27 42 65 20 28 (.97)
Al interpretar los datos de la matriz MRMM hemos de tener en cuanta las siguientes
consideraciones (Gómez-Benito, 1996; Messick, 1989; Bagozzi, 1993):
1º La evidencia de validez convergente se muestra a través de los coeficientes de correlación

marcados en negrita dentro del bloque sombreado. Son coeficientes de correlación
monorrasgo-heterométodo: la correlación existente entre medidas de un mismo rasgo
obtenidas a través de distintos métodos de medida. Estos coeficientes han de ser
estadísticamente significativos y lo suficientemente grandes para garantizar la validez
convergente. Ello demostraría que los distintos métodos están midiendo un mismo rasgo.
2º Los valores de validez convergente para un rasgo medido por diferentes métodos han de
ser mayores que las correlaciones encontradas entre rasgos y métodos que no tienen nada en
común. Es decir, los valores de la diagonal de validez convergente para un rasgo han de ser
mayores que los valores que aparezcan en las filas y columnas de los triángulos heterorrasgo-
heterométodo para ese rasgo (correlaciones subrayadas en recuadro sombreado).
En nuestra matriz, podemos apreciar que cada uno de los coeficientes en negrita es superior a
cualquier coeficiente incluido en su misma fila o columna del bloque sombreado. Esto es una
evidencia de validez convergente y discriminante.
3º Puesto que dos métodos independientes que midan el mismo rasgo deben correlacionar
más que las medidas de diferentes rasgos con el mismo método, los valores de validez
convergente para un rasgo han de ser mayores que las correlaciones para ese rasgo en los
triángulos heterorrasgo-monométodo (correlaciones en cursiva).
Así, al comparar el coeficiente de validez convergente del rasgo Neuroticismo (correlación
A1A2=0.75) vemos que es mayor que cualquiera de las correlaciones de A1 con B1 y C1 y
que cualquiera de las correlaciones de A2 con B2 y C2. Existe pues evidencia de validez
discriminante: la correlación entre medidas del rasgo Neuroticismo con distintos métodos es
mayor que las correlaciones de este rasgo con medidas de otros rasgos con los mismos
métodos. No ocurre así cuando nos fijamos en el coeficiente de validez convergente del rasgo
Extroversión (correlación B1B2=0.59), que es mayor que las correlaciones de B2 con A2 y
C2 y que las correlaciones de B1 con A1, pero igual que la correlación B1C1. Ello provoca
una confusión entre la varianza debida al método y la varianza debida al rasgo y sugiere
problemas de validez discriminante. No existen problemas de validez discriminante en el caso
del rasgo Introversión, cuyo coeficiente de validez convergente es mayor que cualquiera de
los coeficientes que surgen de las posibles combinaciones heterorrasgo-monométodo.
21
22 Fiabilidad
De cualquier modo, hemos de tener en cuenta que Introversión y Extroversión no son rasgos
independientes, sino rasgo muy relacionados. Incluso podemos considerarlos dos polos de un
mismo rasgo. Por lo que se puede considerar dicho ejemplo como evidencia de validez
convergente más que invalidez discriminante; o, incluso, como evidencia de validez
nomológica.
4º El patrón de interrelaciones entre rasgos distintos se repite en todos los triángulos

heterorrasgo, ya sean monométodo (coeficientes en cursiva) o heterométodo (coeficientes
subrayados).
Como se puede apreciar en la matriz, las correlaciones entre Extroversión e Introversión son
siempre las más elevadas y las correlaciones entre Extroversión y Neuroticismo las más bajas.
El cumplimiento de este criterio supone que las correlaciones verdaderas entre rasgos son
independientes del método utilizado. De no ser así, sería una prueba de que la varianza de
método estaría actuando diferencialmente a través de las correlaciones.
Sin embargo, a la hora de analizar la baja validez convergente del rasgo Extroversión,
debemos tener en cuenta que el coeficiente de fiabilidad de este rasgo medido a través del test
MMPI es reducido, de hecho es el más bajo de todos los coeficientes de fiabilidad de la matriz.
Esto indica que los coeficientes de correlación de B2 no son comparables con los otros y, en
concreto, que el coeficiente de validez convergente está atenuado por la baja fiabilidad de B2,
por su elevado error de medida.
Por otro lado, como se puede apreciar en la matriz, las correlaciones entre los rasgos medidos
a través de MMPI son sensiblemente inferiores a las correlaciones entre rasgos medidos con
Rorschach. Ello puede evidenciar una influencia del factor de método que afecta a la validez
convergente y discriminante (en suma, a la validez de constructo de los instrumentos de medida).
Obsérvese, además, la diferencia (y semejanza) entre fiabilidad y validez convergente, tal
como la entienden Campbell y Fiske. Mientras que fiabilidad hace referencia a la medición del
mismo rasgo por métodos equivalentes, validez expresa la medición del mismo rasgo por
métodos lo más diferentes posibles. Hemos dicho también "semejanza" porque en la medida en
que en la fiabilidad no logramos medidas realmente paralelas nos estaremos aproximando a la
noción de validez. Si la intención es medir lo mismo con otros items, se hace difícil en estos
casos distinguir validez de fiabilidad.
De hecho, estos autores reconocen que el problema de la validez no queda resuelto con este
procedimiento. Nunca estaremos seguros de que estamos midiendo el mismo constructo. Lo más
que se puede decir es que si diferentes métodos producen resultados similares cuando se intenta
medir un mismo rasgo, tendremos entonces más confianza en la validez de nuestras medidas que
si sucediera lo contrario. Se deduce de ello que la validez convergente proporciona la base para
inferir el constructo, pero no se deduce de ella el constructo mismo. Diríamos que es condición
necesaria pero no suficiente. Al final, los constructos son hipótesis, y como tales hipótesis -ya lo
hemos comentado- contienen un plus que no queda agotado en evidencias empíricas.
22
En resumen, MRMM es una metodología operacional para medir validez de constructo. En
una misma matriz es posible examinar la validez convergente y la discriminante
simultáneamente. Con la inclusión de los métodos al mismo nivel que los rasgos, Campbell y
Fiske acentuan la importancia de fijarnos en los efectos como suma de lo que medimos y de
cómo lo medimos. No obstante, como señala Bagozzi (1993), las matrices MRMM adolecen de
algunos problemas metodológicos, lo que hacen que su uso no se haya extendido desde su
introducción en 1959. Las limitaciones más significativas son:
a) Es imposible cuantificar el grado de validez de constructo en un estudio MRMM. La
propia naturaleza de las matrices MRMM conlleva que diferentes investigadores puedan
llegar, legítimamente, a conclusiones distintas, ya que no existen estándares para comparar la
validez convergente y discriminante.
b) No se puede determinar en qué medida la varianza es debida al rasgo, al método o al error
de medida.
c) Tiene algunos supuestos muy restrictivos como es la obligada incorrelación entre los
factores de rasgo y de método, respectivamente. O, también, el hecho de que la influencia de
los métodos haya de ser igual para todos los rasgos y que todas las medidas hayan de ser
igualmente fiables.
Por todo ello, este mismo autor (Bagozzi, 1993) propone distintos procedimientos para el
análisis de las matrices MRMM. En este sentido, a continuación haremos una presentación de las
posibilidades que ofrecen los modelos estructurales para analizar matrices MRMM.
MMRMM analizadas con Modelos Estructurales
Como acabamos de comprobar, una de las limitaciones de los modelos MRMM es la

imposibilidad de desligar los efectos debidos al rasgo, los debidos a los métodos y los debidos al
error de medida. Éste es uno de los problemas que se pueden solucionar haciendo uso de los
modelos estructurales, a través de un modelo de Análisis Factorial Confirmatorio, para analizar
las matrices MRMM. Otro es que, además, este tipo de modelos permiten hipotetizar relaciones
entre los rasgos y entre los métodos, respectivamente, algo que no se podía hacer siguiendo la
propuesta inicial de Campbell y Fiske.
En un modelo de AFC se hipotetiza que las variaciones en cada una de las variables
observadas son debidas a los efectos propios del rasgo, más los efectos del método, más su
unicidad. Representando la unicidad el error de medida aleatorio y los errores sistemáticos no
correlacionados ni con los rasgos ni con los métodos.
En la figura 4.15 aparece un modelo de AFC aplicado a un diseño MRMM. En este modelo
se especifican tres factores de rasgo (R1, R2 y R3, correlacionados entre sí) y tres factores de
método (MA, MB y MC, correlacionados entre sí) que determinan las variaciones en cada una de
las variables observadas. Junto a los factores de rasgo y de método, deberían aparecer los efectos
de las unicidades o errores propios de cada una de las variables observadas. En este caso no es así
para facilitar la visión del resto de efectos.
En el modelo se especifica que las puntuaciones en cada uno de los tests son debidas a los
efectos del rasgo que mide, más los efectos propios del método de medida utilizado, más el error
de medida. Si elegimos, por ejemplo, las puntuaciones en el primero de los test r1ma, vemos que
éstas se pueden descomponer en:
r1ma = π1a,1R1 + π1a,aMA + π1a,E1a E1a
donde: π1a,1 = efecto del rasgo R1 en el test '1a'.
π1a,a = efecto del método MA en el test '1a'.
π1a,E1a = efecto de la unicidad del test '1a', o errores aleatorios y sistemáticos que
afectan al test '1a'.
24 Fiabilidad
Además, en el modelo se especifica la correlación entre los factores de rasgo y la correlación

entre los factores de método. Las unicidades son incorrelacionadas entre sí y con los factores de
rasgo y de método.
Al poner a prueba el modelo lo que hacemos es estimar los parámetros π de relación entre las
variables observadas y los factores hipotetizados, y calcular la validez del modelo global.
Si las saturaciones factoriales, parámetros π, de las variables observadas con los factores de
r1ma
R1 r1mb MA
r1mc
N21 NBA
r2ma
N31 MB NCA
R2 r2mb
r2mc
N32 NCB
r3ma
R3 r3mb MC
r3mc
Figura 4.15. Representación gráfica de un diseño MRMM.

(adaptado de Gómez-Benito, 1996; p.511)
rasgo son elevadas y estadísticamente significativas, obtenemos evidencia de validez
convergente. Por el contrario, idealmente, las saturaciones de las variables observadas con los
factores de método han de ser bajas y no significativas. Las correlaciones entre factores,
parámetros ρ, deberían ser bajas y no significativas para concluir que el diseño posee validez
discriminante. Si las correlaciones entre rasgos son bajas indican que, efectivamente, miden
distintos constructos. Por otro lado, bajas correlaciones entre factores de método denotan
independencia entre los efectos de método. El ajuste global del modelo nos indicará en qué
medida los datos concuerdan con el modelo teórico y aporta evidencia de validez de constructo.
Mash (1989) propone que, mejor que estimar el modelo completo, es preferible comparar
distintos modelos explicativos y elegir el más ajustado a los datos. En este sentido, Widaman
(1985) propuso una taxonomía de modelos AFC que combinan distintas estructuras de rasgo y
distintas estructuras de método.
Las cuatro estructuras de rasgo se definen como:
1. No hay factores de rasgo
2. Hay un factor general de rasgo definido por todas las variables observadas
3. Hay r factores de rasgo no correlacionados
4. Hay r factores de rasgo correlacionados
Las cuatro estructuras de método son:
A. No hay factores de método
B. Hay un factor general de método definido por todas las variables observadas
C. Hay m factores de método no correlacionados
D. Hay m factores de método correlacionados
De la combinación de las cuatro estructuras de rasgo y las cuatro estructuras de método

surgen 16 modelos de AFC posibles (ver Gómez-Benito (1996), para una descripción exhaustiva
de cada uno de los 16 modelos).
24
r1ma r1mb r1mc r2ma r2mb r2mc r3ma r3mb r3mc
E1 E2 E3 E4 E5 E6 E7 E8 E9
Figura 4.16.- Diagrama multirrasgo (correlacionados) con errores correlacionados.

(Adaptado de Gómez-Benito, 1996; p.517)
Para cada uno de los modelos se pueden estimar sus parámetros y conocer sus índices de
ajuste. Por otro lado, al formar algunos de los modelos resultantes secuencias anidadas, pueden
compararse sus respectivos ajustes mediante diferencias de χ2 y así seleccionar el modelo más
ajustado a los datos. La mayor prueba de la existencia de validez convergente y discriminante del
diseño la obtendríamos en el caso hipótetico en que el modelo más ajustado a los datos fuese
aquél que hipotetiza la existencia de r factores de rasgo no correlacionados y la no existencia de
factores de método. Así pues, los modelos de AFC permiten analizar diseños MRMM
estimando, por separado, los efectos de rasgo, método y error de medida y, además, permiten una
mayor flexibilidad a la hora de plantear modelos explicativos. No obstante, también tienen
algunos inconvenientes. Entre otros, Bagozzi (1993), destaca:
a) No permiten separar la varianza del error aleatorio de la varianza del error sistemático
(ambas representadas a través de las unicidades).
b) Con mucha frecuencia se suelen obtener soluciones impropias, como varianzas del error
negativas, no convergencia de la solución o valores de parámetros extraños.
c) Requiere como mínimo tres factores de rasgo y tres factores de método; o dos factores de
rasgo y cuatro de método; o cuatro factores de rasgo y dos de método.
Por todos estos problemas, que se ven acentuados con tamaños muestrales pequeños o cuando
existen pocos indicadores observables para cada factor, son varios los autores (Marsh, 1989;
Bagozzi, 1993; Byrne y Goffin, 1993) que proponen el uso de modelos alternativos como pueden
ser el definir modelos sin factores de método pero con las unicidades propias de cada método
correlacionadas o el uso de modelos multiplicativos.
En la figura 4.16 aparece el anterior modelo, pero eliminando los factores de método y
especificando las correlaciones entre unicidades alternativamente. Es decir, se prevé la relación
entre los errores de las mediciones realizadas con un mismo método.
26 Fiabilidad
Como se puede apreciar en el modelo, en este caso no se preveen factores de método que
afecten a las medidas originales. Por contra, se hipotetiza que los errores de medida propios de
las mediciones llevadas a cabo con un mismo método están relacionados entre sí. Desde el punto
de vista de la validez, este modelo no es sustancialmente distinto al anterior ya que, de
confirmarse la existencia de esas correlaciones, y si éstas son elevadas y significativas, sería
prueba de que el método de medida afecta sistemáticamente a las puntuaciones de los sujetos. No
obstante, al plantear este modelo resolvemos algunos de los problemas de no convergencia o de
soluciones impropias ya descritas.
Los modelos de unicidades correlacionadas (UC) evitan, en un elevado porcentaje de
casos, las soluciones impropias de los modelos AFC generales. Los modelos
multiplicativos (de productos directos - PD -) sugieren que los métodos pueden actuar
con los rasgos de modo multiplicativo: la correlación entre dos rasgos relacionados se
verá incrementada al utilizar un mismo método de medida, este efecto multiplicativo no
se producirá en el caso de rasgos no relacionados.
26

4 Validez

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4 Validez

Cargado por

Copyright:

Formatos disponibles

4.

4.2. Validez referida al criterio

La validez referida al criterio (también denominada validez predictiva o validez de

lo que demuestra que dicha correlación

4.2.1.- Validez y fiabilidad

Como se ha indicado, validez hace referencia a la adecuación de la medida, y fiabilidad a la

4.2.2.- Validez y longitud

El coeficiente de validez criterial, como coeficiente de correlación, vendrá afectado por la

4.3. Validez de contenido

4.3.1. Evaluación de la validez de contenido.

1º. Definir el dominio o universo de contenidos objetivos del test.

Relevancia de los ítems.

Representatividad del test.

4.4.1. Evaluación de la validez de constructo.

Análisis factorial exploratorio

Vocabulario 0.85 0.00 0.00

VOC MAN RAP

voc com flu sin rom sem fig cub sum

voc com flu sin rom sem figcub sum

Figura 4.13. Modelo de Análisis Factorial Confirmatorio

La matriz multirrasgo-multimétodo (MRMM), propuesta inicialmente por Campbell y Fiske

Método 1 A1 Neuroticismo (.95)

Rorschach B1 Extroversión 25 (.90)

Método 2 A2 Neuroticismo 75 .18 32 (.93)

MMPI B2 Extroversión 13 59 37 14 (.70)

1º La evidencia de validez convergente se muestra a través de los coeficientes de correlación

4º El patrón de interrelaciones entre rasgos distintos se repite en todos los triángulos

MMRMM analizadas con Modelos Estructurales

Como acabamos de comprobar, una de las limitaciones de los modelos MRMM es la

Además, en el modelo se especifica la correlación entre los factores de rasgo y la correlación

Figura 4.15. Representación gráfica de un diseño MRMM.

De la combinación de las cuatro estructuras de rasgo y las cuatro estructuras de método

r1ma r1mb r1mc r2ma r2mb r2mc r3ma r3mb r3mc

Figura 4.16.- Diagrama multirrasgo (correlacionados) con errores correlacionados.

También podría gustarte