Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN
Si la fiabilidad tiene como objetivo estudiar la precisión de las medidas obtenidas en el
proceso de la medición psicológica y con los errores aleatorios que se introducen en dicho
proceso, la validez se dirige a valorar en qué grado las puntuaciones del test reflejan la
característica objeto del mismo, es decir, en qué grado el test mide lo que afirma medir.
Mientras que el estudio de la fiabilidad de un test desemboca en un indicador estadístico
que nos informa de la misma, EL COEFICIENTE DE FIABILIDAD (obtenido por cualquiera de los
procedimientos vistos en el tema anterior), el estudio de la VALIDEZ conlleva diferentes
aproximaciones y enfoques orientados a aportar el mayor número de evidencias posibles al
respecto. Una sola de estas evidencias suele quedarse corta en el proceso de estudio de esa
validez y por ello nos planteamos aportar cuantas más evidencias mejor teniendo en cuenta que
muchas veces (por el tipo de test o el ámbito de aplicación u otras múltiples causas) es imposible
aportar todas estas evidencias de forma exhaustiva. Por eso el objetivo es aportar el mayor
número de evidencias de las que podamos disponer.
Así pues, podríamos considerar, desde esta perspectiva, múltiples aproximaciones al
estudio de la validez en las que cada una de ellas nos permite aportar uno o varios indicadores
empíricos que constituyen esas evidencias de Validez de las que hablamos. Vamos a ver,
someramente, las más importantes de estas aproximaciones que catalogamos como TIPOS DE
VALIDEZ:
1. VALIDEZ DE CONTENIDO
La validez de contenido es un proceso de validación mediante el cual se examina la
adecuación del contenido de los ítems del test al constructo que pretende medirse (es un tipo de
evidencia eminentemente cualitativa ya que no se plasma en un índice estadístico específico). En
concreto, hay que examinar la adecuación con que el contenido del test representa al dominio
conductual o área de conocimiento evaluada.
(2) se puede optar sencillamente por darles la información relativa al objetivo del test, a la
primera fase del proceso.
A la hora de construir un test se sigue todo un proceso de fases de construcción que culminan
en la elaboración de los items (definición del constructo, finalidad del test, población diana, etc.
etc.). Pues bien, cuando tratamos de recabar la opinión de los jueces expertos se les puede dar
toda esa información previa: decirles lo que se pretende medir, a quiénes, cómo van a ser
medidos, etc. etc. (procedimiento 1) para que emitan su valoración o juicio sobre la posible validez
de contenido, o indicarles simplemente cuál es el objetivo del test y que ellos indiquen, según su
juicio, qué es lo que miden los items y si son adecuados para ese objetivo (procedimiento 2).
Básicamente la diferencia entre las dos formas de proceder es que en la primera, los expertos
disponen de toda la información sobre el proceso de elaboración de los items y simplemente
indican si les parecen adecuados o no; mientras que en la segunda forma, los expertos tienen
que, en base a los objetivos del test y el contenido de los items, averiguar qué es lo que se
pretende medir con cada item y juzgar si es adecuado o no.
Sea cual sea la opción elegida, la tarea a la que se enfrentan los expertos es analizar el
contenido del test, de acuerdo a la especificación propuesta por el constructor o a la suya propia.
Para ello, deberán examinar la relevancia de los ítems: Deben indicar para cada ítem del test
si éste refleja, en términos de su contenido, el dominio del que deriva. Los expertos pueden emitir
un juicio dicotómico (Sí/No) o bien utilizar una escala de 1 (ajuste pobre) a 5 (ajuste excelente).
Utilizando algún punto de corte, como la media o la mediana, en las valoraciones de los expertos,
el constructor decide si el ítem es relevante. En este proceso de valoración la fiabilidad interjueces
cobra un papel fundamental para asegurar que los expertos están aplicando los mismos criterios
de valoración.
Uno de los métodos de validación de un test consiste en analizar la estructura interna del
mismo. Para ello, se estudian las relaciones entre los diversos ítems del test entre sí y se
comprueba si la estructura empírica del test coincide con la estructura teórica postulada.
La lógica de este tipo de validación es relativamente simple. Como hemos visto en los
primeros temas de la asignatura, a la hora de construir un test iniciamos un proceso teórico que
culmina con la elaboración de los ítems. A partir de ahí, dejamos a un lado lo teórico y empezamos
a hacer los análisis empíricos sobre las respuestas que los sujetos han dado a esos ítems. Pues
bien, para comprobar la validez del constructo lo que hacemos es “volver hacia atrás” es decir,
basándonos solo en las respuestas empíricas emitidas por los sujetos comprobamos si de ellas
podemos deducir el modelo teórico del que inicialmente partimos; si efectivamente a partir de esos
datos empíricos somos capaces de reproducir el modelo teórico propuesto inicialmente
concluimos que el test tiene validez de constructo.
Las técnicas de análisis estadístico por excelencia en este método son el Análisis Factorial
Exploratorio (AFE) o el Análisis Factorial Confirmatorio (AFC), mediante los cuales se puede
analizar la estructura subyacente (no observable empíricamente) de los datos y comprobar si esa
estructura es compatible con el constructo teórico que condicionó la elaboración original del test.
NOTA: Pese a que este tipo de validez es de los más importantes, dada su complejidad y
al no poder explicarlo de forma presencial, baste con este breve apunte para conocer su existencia
(cualquiera de los manuales recomendados en la bibliografía dedica algún capítulo a este tipo de
validez con lo que, quien quiera profundizarlo puede recurrir a esas fuentes)
(a) Medidas del mismo constructo obtenidas con otras pruebas o tests y también medidas
de otros constructos diferentes insertos en el modelo teórico de referencia.
(a) En un estudio experimental el investigador manipula una o más variables del modelo
teórico para comprobar cómo influyen en las puntuaciones del test y, de esta forma, generar
evidencia en favor o en contra de dicho modelo.
(b) En un estudio correlacional el investigador tiene, en primer lugar, que obtener medidas
del mismo constructo evaluado con otras pruebas o tests, así como medidas de otras
variables externas relevantes y, en segundo lugar, se calculan las correlaciones entre todas
las medidas obtenidas. Las relaciones entre las puntuaciones del test y las puntuaciones
en otras pruebas que miden el mismo constructo proporcionarán información acerca de la
validez confirmatoria o validez convergente. Por su parte, las relaciones entre las
puntuaciones del test y las de otras medidas de otros constructos diferentes proporcionarán
información acerca de la validez no confirmatoria o validez discriminante.
A partir de esta matriz de correlaciones se comparan éstos entre sí. El test será válido si los
coeficientes de validez convergente son mayores que los coeficientes de validez discriminante, es
decir, si las correlaciones entre las medidas de un mismo constructo (monorasgo) obtenidas con
distintos procedimientos de medida (heterométodo) son mayores que las medidas de distintos
constructos (heterorasgo) obtenidas con el mismo método (monométodo). Si, por el contrario, los
coeficientes de validez discriminante son mayores que los de validez convergente, ello será
evidencia en contra de la validez del test y de la teoría sobre la que se apoya el constructo que
pretende medir dicho test, ya que la correlación entre dos variables no debe estar en función de
la similitud del método utilizado para medirlas, sino de su similitud en el contenido.
Otra forma de obtener evidencia acerca de la validez de las puntuaciones de un test para
representar al constructo psicológico que pretende medir es examinando la capacidad predictiva
del test para pronosticar el valor que el sujeto obtendría en una variable (denominada criterio). La
variable criterio es una medida de conductas o comportamientos que se supone que son
consecuencia del rasgo o atributo que posee el sujeto y que es lo que trata de medir el test. En la
medida en que el test acredite este tipo de validez, puede ser usado para pronosticar ese tipo de
conductas observables.
( )
Sy
Y = Y ′ ± Z nc . S y.x ; donde Y ′ = rxy X−X +Y ; y S y.x = S y 1 − rxy
2
Sx
donde rxy y Rxy son los coeficientes de validez de las muestras inicial y final,
respectivamente; Sx es la desviación típica del test en la muestra inicial, y SX es la desviación
típica del test en la muestra final.
(b) La fiabilidad de las medidas del test y del criterio. La fiabilidad del test y del criterio
afectan al coeficiente de validez de un test. En concreto, cuanto mayor es la fiabilidad del test y
del criterio tanto mayor será el coeficiente de validez del test. Esta relación se formaliza en la
siguiente ecuación:
rxy
Rxy =
rxx ⋅ ryy
R xx ⋅ R yy
donde rxy y Rxy son los coeficientes de validez del test inicial y del test final que se obtendría
modificando los coeficientes de fiabilidad del test y del criterio. Por tanto, rxx y ryy representan los
coeficientes de fiabilidad del test y del criterio en su versión inicial, y Rxx y Ryy son los coeficientes
de fiabilidad del test y del criterio en su versión final.
En relación con esta modificación conviene tener en cuenta que la ecuación anterior es la
versión completa para calcular un nuevo coeficiente de validez cuando se modifican tanto la
fiabilidad del test como la del criterio de validación. Sin embargo, en la práctica, los investigadores
tienen la opción de modificar la fiabilidad del test (añadiendo o quitando ítems, etc.) pero
difícilmente pueden alterar la fiabilidad del criterio (ryy o Ryy)(incluso muchas veces no se conoce
esa fiabilidad)
Cuando ello ocurre, la ecuación anterior se ve modificada en el sentido de que la fiabilidad
del criterio se mantiene constante porque no se modifica y, por lo tanto, sea cual sea ryy será igual
que Ryy con lo que desaparecen de la ecuación y ésta sólo contempla la casuística (más realista)
de analizar un cambio de validez cuando se produce un cambio de la fiabilidad SOLO DEL TEST
con lo que la ecuación anterior quedaría de la siguiente manera:
𝑟𝑟𝑥𝑥𝑥𝑥
𝑅𝑅𝑥𝑥𝑥𝑥 =
𝑟𝑟
�𝑅𝑅𝑥𝑥𝑥𝑥
𝑥𝑥𝑥𝑥
Así pues, mediante esta ecuación es posible estimar el coeficiente de validez que
obtendríamos si se modifica la fiabilidad del test y/o del criterio.
Como una aplicación interesante de este aspecto, podemos utilizar esta ecuación para
determinar cuál sería el valor del coeficiente de validez del test si la fiabilidad del test y del criterio
fueran máximas, es decir, si no hubieran errores de medida y, en consecuencia, Rxx y Ryy serían
iguales a 1. Dicho en otras palabras, cuál sería el coeficiente de validez MÁXIMO que podríamos
conseguir con ese test con respecto a ese criterio de validación (daros cuenta que esa validez
máxima sería la que provendría de un test y un criterio infalibles).
donde RVxVy representa el coeficiente de validez entre las puntuaciones verdaderas del
test y del criterio, ya que al no existir error de medida estaríamos estimando sin error dichas
puntuaciones verdaderas. Esta ecuación, que se debe a Spearman, se conoce como la fórmula
de corrección de los efectos de atenuación.
𝑅𝑅 𝑟𝑟𝑥𝑥𝑥𝑥
𝑉𝑉𝑥𝑥 𝑌𝑌=
�𝑟𝑟𝑥𝑥𝑥𝑥
(c) La longitud del test. Existe una estrecha relación entre la fiabilidad, la validez y la
longitud de un test, ya que si la longitud del test incrementa la fiabilidad y un incremento en la
fiabilidad produce un aumento de la validez, queda claro que a mayor longitud mayor validez. Al
estudiar la fiabilidad del test ya vimos que a mayor longitud del test mayor fiabilidad. Y en el
apartado anterior hemos puesto de manifiesto que a mayor fiabilidad, mayor validez. Esto permite
poner en relación directa el coeficiente de validez de un test con su coeficiente de fiabilidad y su
longitud (nº de ítems) con el fin de simplificar el proceso.
Es posible, pues, formalizar la relación entre validez, fiabilidad y longitud mediante una
ecuación que nos permite estimar la validez final de un test modificando la longitud y la fiabilidad
del mismo o, al revés, determinar en cuantos ítems es preciso aumentar la longitud de un test para
alcanzar un determinado valor de validez:
rxy 1 − rxx
R xy = ; ó n=
1 − rxx 2
rxy
+ rxx − rxx
n R2 xy
donde rxy y Rxy son los coeficientes de validez del test inicial y del test final,
respectivamente; rxx es el coeficiente de fiabilidad del test inicial y n es el número de veces
en que se ha modificado la longitud del test inicial, que se define como:
LF
n=
LO
Donde LF recordemos que es la Longitud Final del Test y LO la Longitud original del mismo.
En este sentido, conviene tener presente un caso curioso que se puede producir cuando
aplicamos la ecuación de “n” (incógnita) para averiguar cuántas veces hay que aumentar la
longitud original de un test para conseguir una determinada Rxy deseada. Veámoslo con un
ejemplo:
Suponed que tenemos un test de 25 items (LO) y que presenta una rxx = 0,90 y una rxy =
0,65; y nos planteamos cuántos ítems paralelos habría que añadir a ese test para aumentar su
validez hasta conseguir una Rxy = 0,80. Para resolver esta cuestión lo más simple es aplicar la
ecuación anterior de “n” para averiguar el nº de veces que hay que aumentar LO. Una vez que
tengamos “n” basta con multiplicarlo por LO y tendremos LF. Finalmente si restamos LF-LO
obtendremos el nº de ítems que hay que añadir (que es la cuestión planteada):
1 − 0,90
𝑛𝑛 = = −0,42
0,652
− 0,90
0,802
Como podéis observar, obtenemos un valor negativo. ¿Qué significa esto?¿Hay que
quitar ítems para aumentar la validez? Esto sería incongruente. Lo cierto es que, CUANDO
OBTENEMOS UN VALOR n NEGATIVO LO QUE OCURRE ES QUE PRETENDEMOS UN
VALOR Rxy QUE ES IMPOSIBLE DE CONSEGUIR SOLO AÑADIENDO ITEMS AL TEST.
NOS ESTÁ ADVIRTIENDO QUE EL COEFICIENTE DE VALIDEZ MÁXIMO DE ESE TEST
(CUANDO EL TEST ES INFALIBLE, ES DECIR, CUANDO YA NO SE PUEDEN AÑADIR
MÁS ITEMS) ES MENOR QUE EL QUE ESTAMOS PRETENDIENDO. LA FORMA DE
PONER DE MANIFIESTO ESTE HECHO ES OBTENIENDO UN VALOR DE n NEGATIVO.
Para que lo entendáis mejor vamos a calcular, con los datos del ejemplo, cuál sería
el valor máximo de rxy, esto es RVxY, y veréis que es menor que 0,80 que era el nuevo Rxy
deseado:
𝑟𝑟𝑥𝑥𝑥𝑥 0,65
𝑅𝑅𝑉𝑉𝑉𝑉𝑉𝑉 = = = 0,69
�𝑟𝑟𝑥𝑥𝑥𝑥 √0,90
Como véis, 0,69 es el mayor coeficiente que se puede obtener añadiendo ítems al
test por lo que el valor de 0,80 que era el que se pedía, es imposible de conseguir solo
aumentando la longitud del test y por eso en la ecuación nos salió un valor NEGATIVO.
Estadísticos descriptivos
Nº de
Desviación
Media típica N Items
Correlaciones
Test X’ Criterio Y
CUESTIONES DE LA PRÁCTICA 5.