Está en la página 1de 9

Tema 7.

LA VALIDEZ COMO INDICADOR DE LA


CALIDAD MÉTRICA DEL TEST

INTRODUCCIÓN
Si la fiabilidad tiene como objetivo estudiar la precisión de las medidas obtenidas en el
proceso de la medición psicológica y con los errores aleatorios que se introducen en dicho
proceso, la validez se dirige a valorar en qué grado las puntuaciones del test reflejan la
característica objeto del mismo, es decir, en qué grado el test mide lo que afirma medir.
Mientras que el estudio de la fiabilidad de un test desemboca en un indicador estadístico
que nos informa de la misma, EL COEFICIENTE DE FIABILIDAD (obtenido por cualquiera de los
procedimientos vistos en el tema anterior), el estudio de la VALIDEZ conlleva diferentes
aproximaciones y enfoques orientados a aportar el mayor número de evidencias posibles al
respecto. Una sola de estas evidencias suele quedarse corta en el proceso de estudio de esa
validez y por ello nos planteamos aportar cuantas más evidencias mejor teniendo en cuenta que
muchas veces (por el tipo de test o el ámbito de aplicación u otras múltiples causas) es imposible
aportar todas estas evidencias de forma exhaustiva. Por eso el objetivo es aportar el mayor
número de evidencias de las que podamos disponer.
Así pues, podríamos considerar, desde esta perspectiva, múltiples aproximaciones al
estudio de la validez en las que cada una de ellas nos permite aportar uno o varios indicadores
empíricos que constituyen esas evidencias de Validez de las que hablamos. Vamos a ver,
someramente, las más importantes de estas aproximaciones que catalogamos como TIPOS DE
VALIDEZ:

1. VALIDEZ DE CONTENIDO
La validez de contenido es un proceso de validación mediante el cual se examina la
adecuación del contenido de los ítems del test al constructo que pretende medirse (es un tipo de
evidencia eminentemente cualitativa ya que no se plasma en un índice estadístico específico). En
concreto, hay que examinar la adecuación con que el contenido del test representa al dominio
conductual o área de conocimiento evaluada.

Se trata de un proceso de validación especialmente utilizado en el ámbito de las Ciencias


Sociales. La forma típica de realizar un estudio de estas características consiste en reunir a un
grupo o panel de expertos en el dominio evaluado por la prueba, pudiéndose proceder de dos
formas:
(1) Se les puede proporcionar todo el material con el que trabajó el constructor del test en
las fases previas a la confección de los ítems, de forma que éstos dispongan de todo el
substrato teórico y conceptual de la prueba; ó

(2) se puede optar sencillamente por darles la información relativa al objetivo del test, a la
primera fase del proceso.

A la hora de construir un test se sigue todo un proceso de fases de construcción que culminan
en la elaboración de los items (definición del constructo, finalidad del test, población diana, etc.
etc.). Pues bien, cuando tratamos de recabar la opinión de los jueces expertos se les puede dar
toda esa información previa: decirles lo que se pretende medir, a quiénes, cómo van a ser
medidos, etc. etc. (procedimiento 1) para que emitan su valoración o juicio sobre la posible validez
de contenido, o indicarles simplemente cuál es el objetivo del test y que ellos indiquen, según su
juicio, qué es lo que miden los items y si son adecuados para ese objetivo (procedimiento 2).
Básicamente la diferencia entre las dos formas de proceder es que en la primera, los expertos
disponen de toda la información sobre el proceso de elaboración de los items y simplemente
indican si les parecen adecuados o no; mientras que en la segunda forma, los expertos tienen
que, en base a los objetivos del test y el contenido de los items, averiguar qué es lo que se
pretende medir con cada item y juzgar si es adecuado o no.

Sea cual sea la opción elegida, la tarea a la que se enfrentan los expertos es analizar el
contenido del test, de acuerdo a la especificación propuesta por el constructor o a la suya propia.

Para ello, deberán examinar la relevancia de los ítems: Deben indicar para cada ítem del test
si éste refleja, en términos de su contenido, el dominio del que deriva. Los expertos pueden emitir
un juicio dicotómico (Sí/No) o bien utilizar una escala de 1 (ajuste pobre) a 5 (ajuste excelente).
Utilizando algún punto de corte, como la media o la mediana, en las valoraciones de los expertos,
el constructor decide si el ítem es relevante. En este proceso de valoración la fiabilidad interjueces
cobra un papel fundamental para asegurar que los expertos están aplicando los mismos criterios
de valoración.

2. ANÁLISIS DE LA ESTRUCTURA INTERNA DEL TEST (VALIDEZ DE


CONSTRUCTO)

Uno de los métodos de validación de un test consiste en analizar la estructura interna del
mismo. Para ello, se estudian las relaciones entre los diversos ítems del test entre sí y se
comprueba si la estructura empírica del test coincide con la estructura teórica postulada.
La lógica de este tipo de validación es relativamente simple. Como hemos visto en los
primeros temas de la asignatura, a la hora de construir un test iniciamos un proceso teórico que
culmina con la elaboración de los ítems. A partir de ahí, dejamos a un lado lo teórico y empezamos
a hacer los análisis empíricos sobre las respuestas que los sujetos han dado a esos ítems. Pues
bien, para comprobar la validez del constructo lo que hacemos es “volver hacia atrás” es decir,
basándonos solo en las respuestas empíricas emitidas por los sujetos comprobamos si de ellas
podemos deducir el modelo teórico del que inicialmente partimos; si efectivamente a partir de esos
datos empíricos somos capaces de reproducir el modelo teórico propuesto inicialmente
concluimos que el test tiene validez de constructo.
Las técnicas de análisis estadístico por excelencia en este método son el Análisis Factorial
Exploratorio (AFE) o el Análisis Factorial Confirmatorio (AFC), mediante los cuales se puede
analizar la estructura subyacente (no observable empíricamente) de los datos y comprobar si esa
estructura es compatible con el constructo teórico que condicionó la elaboración original del test.

NOTA: Pese a que este tipo de validez es de los más importantes, dada su complejidad y
al no poder explicarlo de forma presencial, baste con este breve apunte para conocer su existencia
(cualquiera de los manuales recomendados en la bibliografía dedica algún capítulo a este tipo de
validez con lo que, quien quiera profundizarlo puede recurrir a esas fuentes)

3. MÉTODOS BASADOS EN LA RELACIÓN CON OTRAS VARIABLES


Otra estrategia para estudiar la validez de las puntuaciones de un test consiste en analizar
las relaciones existentes entre tales puntuaciones y otras variables externas relevantes desde el
modelo teórico en el que se inserta el constructo psicológico que pretende medir el test. Si las
relaciones observadas son consonantes con las predicciones del modelo teórico, entonces se
obtiene evidencia favorable a la interpretación propuesta para sus puntuaciones. En caso
contrario, deberá cuestionarse la adecuación de la prueba para medir el constructo pretendido.
Las variables externas relevantes pueden ser:

(a) Medidas del mismo constructo obtenidas con otras pruebas o tests y también medidas
de otros constructos diferentes insertos en el modelo teórico de referencia.

(b) Criterios o variables directamente relacionadas con el constructo supuestamente medido


por el test que, por alguna razón, puede ser difícil o costoso medir, por lo que se procede a
pronosticar su valor una vez conocida la puntuación obtenida por el sujeto en el test.

3.1 Relación con variables relevantes desde el punto de vista teórico


(MEDIDAS DEL MISMO CONSTRUCTO)
Consiste en examinar la validez del test analizando las relaciones de éste con otras
variables externas relevantes enmarcadas dentro de un modelo teórico más o menos formalizado,
de forma que lo que da significado a las puntuaciones del test es la red de relaciones con otras
variables y situaciones de la vida real. La obtención de las relaciones entre las variables puede
llevarse a cabo mediante un estudio experimental o mediante un estudio correlacional.

(a) En un estudio experimental el investigador manipula una o más variables del modelo
teórico para comprobar cómo influyen en las puntuaciones del test y, de esta forma, generar
evidencia en favor o en contra de dicho modelo.

(b) En un estudio correlacional el investigador tiene, en primer lugar, que obtener medidas
del mismo constructo evaluado con otras pruebas o tests, así como medidas de otras
variables externas relevantes y, en segundo lugar, se calculan las correlaciones entre todas
las medidas obtenidas. Las relaciones entre las puntuaciones del test y las puntuaciones
en otras pruebas que miden el mismo constructo proporcionarán información acerca de la
validez confirmatoria o validez convergente. Por su parte, las relaciones entre las
puntuaciones del test y las de otras medidas de otros constructos diferentes proporcionarán
información acerca de la validez no confirmatoria o validez discriminante.

Un estudio correlacional de esta índole puede llevarse a cabo mediante la elaboración de


una Matriz Multirasgo-Multimétodo. Su aplicación requiere disponer de varios constructos o rasgos
(uno de ellos es el que pretende medir el test) y de varias medidas diferentes (o métodos) de cada
constructo (una de ellas es el test que se pretende validar). Todas las medidas se aplican sobre
una misma muestra de sujetos y se calculan todos los coeficientes de correlación entre ellas. El
resultado es una matriz con tres tipos diferentes de correlaciones:
- Coeficientes de fiabilidad: Son las correlaciones entre cada medida consigo misma;
es decir, de cada constructo cuando se utiliza el mismo procedimiento de medida.
Son, pues, coeficientes monométodo-monorasgo.
- Coeficientes de validez convergente: Son las correlaciones entre las diferentes
medidas de un mismo constructo. Son, pues, coeficientes heterométodo-
monorasgo.
- Coeficientes de validez discriminante: Son las correlaciones entre las diferentes
medidas de diferentes constructos (coeficientes heterométodo-heterorasgo) y las
correlaciones entre diferentes rasgos con la misma medida (coeficientes
monométodo-heterorasgo).

A partir de esta matriz de correlaciones se comparan éstos entre sí. El test será válido si los
coeficientes de validez convergente son mayores que los coeficientes de validez discriminante, es
decir, si las correlaciones entre las medidas de un mismo constructo (monorasgo) obtenidas con
distintos procedimientos de medida (heterométodo) son mayores que las medidas de distintos
constructos (heterorasgo) obtenidas con el mismo método (monométodo). Si, por el contrario, los
coeficientes de validez discriminante son mayores que los de validez convergente, ello será
evidencia en contra de la validez del test y de la teoría sobre la que se apoya el constructo que
pretende medir dicho test, ya que la correlación entre dos variables no debe estar en función de
la similitud del método utilizado para medirlas, sino de su similitud en el contenido.

Veamos un pequeño ejemplo:


La matriz multirasgo-multimétodo es un método de análisis para estudiar la fiabilidad y la
validez de un test asociado al concepto de VALIDEZ CONVERGENTE Y DISCRIMINANTE; es
bastante laborioso y complejo, pero, cuando se puede hacer, es muy interesante la información
que aporta.
Como su nombre indica, para elaborarla se necesitan datos obtenidos de diferentes fuentes:
Supongamos que queremos analizar un test X que pretende medir IMPULSIVIDAD (rasgo 1
o constructo que tratamos de evaluar) en niños y niñas de 8 a 12 años con un formato de items
de elección múltiple que se aplica mediante un CUESTIONARIO (método 1). Para ello aplicamos
a la muestra seleccionada para tal efecto el test X (bien en dos momentos temporales distintos:
Test-Retest o bien con dos formas paralelas, obteniendo así dos medidas X1 y X2 del mismo
constructo o rasgo con el mismo método). Este test X, por lo tanto, trata de medir un rasgo 1 con
un método 1. Por otra parte, empleando la OBSERVACIÓN SISTEMÁTICA (OS) (método 2)
recogemos una medida de la IMPULSIVIDAD (rasgo 1) de esos niños aportada por sus maestros
o maestras y cuidadores (incluso podríamos recabar la medida aportada por sus padres, por
ejemplo). Ya tenemos la medida de un rasgo (impulsividad) obtenida por dos métodos
(multimétodo).
Supongamos que el test X tiene algunos items cuyo contenido nos parece que puede medir
más bien otro rasgo que no es la impulsividad, por ejemplo, EXTRAVERSIÓN (rasgo 2) y para
asegurarnos, les pasamos a esos niños un test Y de EXTRAVERSIÓN similar a nuestro test X
(método 1) en cuanto al formato y, además, pedimos también que por OBSERVACIÓN
SISTEMÁTICA (OS) (método 2), los maestros/as, cuidadores/as o padres... etc. nos aporten
medidas de la EXTRAVERSIÓN (rasgo 2) de esos niños.
Al final tenemos cuatro fuentes de medidas que constituyen una medición Multimétodo
(Cuestionarios y Observación Sistemática) y Multirasgo (Impulsividad y Extraversión).
En definitiva, tenemos 3 medidas de Impulsividad (X1, X2 y OS-I) y 2 medidas de Extraversión
(Y y OS-E) Con esos datos elaboramos una matriz de correlaciones cuadrada en la que se
recogen todas las correlaciones de todas esas medidas unas con otras. Al final de lo que se trata
es de analizar esas correlaciones obtenidas e interpretarlas.
¿Cómo sabemos deducir de estos datos que nuestro test X es fiable y válido?
En primer lugar, si la correlación entre X1 y X2 es alta, el test es fiable (correlación monorasgo-
monométodo).
¿Y válido?
Para ello hay que analizar la matriz de forma más compleja. Está claro que si queremos medir
Impulsividad la correlación entre X (da igual X1 ó X2) y OS-I (correlación monorasgo-multimétodo)
debe ser suficientemente alta (VALIDEZ CONVERGENTE) y, en todo caso mayor que la obtenida
entre X e Y (correlación multirasgo-monométodo) ó entre X y OS-E (correlación multirasgo-
multimétodo). Estas últimas correlaciones de X con Y o con OS-E deben ser relativamente bajas
ya que los constructos son diferentes (VALIDEZ DISCRIMINANTE).
Si todo esto se verifica acabamos concluyendo que el test X es FIABLE y además aporta
evidencias de buena validez CONVERGENTE-DISCRIMINANTE.
3.2 VALIDEZ EMPÍRICA, DE CRITERIO O DE PRONÓSTICO (MEDIDAS
DE CRITERIO)

Otra forma de obtener evidencia acerca de la validez de las puntuaciones de un test para
representar al constructo psicológico que pretende medir es examinando la capacidad predictiva
del test para pronosticar el valor que el sujeto obtendría en una variable (denominada criterio). La
variable criterio es una medida de conductas o comportamientos que se supone que son
consecuencia del rasgo o atributo que posee el sujeto y que es lo que trata de medir el test. En la
medida en que el test acredite este tipo de validez, puede ser usado para pronosticar ese tipo de
conductas observables.

(1) El coeficiente de validez de un test se define como el coeficiente de correlación de


Pearson entre las puntuaciones obtenidas en el test (X) y las obtenidas en el criterio (Y) por una
muestra (N) de sujetos. Indica la fuerza que tiene el test para pronosticar el criterio (rxy)
Si se eleva al cuadrado el coeficiente de validez se convierte en el coeficiente de
determinación (r2xy) que expresa la proporción de la varianza del criterio que es explicada por la
varianza del test. Cuanto más se aproxime a 1, tanto mayor será la validez predictiva del test sobre
el criterio.

(2) Estimación o Pronóstico de la puntuación en el criterio


Este punto constituye un proceso muy similar al que vimos (relacionado con la fiabilidad)
para estimar la puntuación verdadera (V) en un test a partir de una puntuación empírica (X) usando
el procedimiento de la Regresión. Con la fiabilidad (rxx), a partir de la puntuación empírica (X)
pronosticamos la verdadera puntuación del test (V). Para ello a partir de X estimamos V’ por
Regresión y a partir de V’ pronosticamos el intervalo confidencial de V.
En el caso de la validez de criterio (rxy), a partir de la puntuación empírica del test (X)
pronosticamos la puntuación del criterio (Y). Para ello a partir de X estimamos Y’ por Regresión y
a partir de Y’ pronosticamos el intervalo confidencial de Y.
Para estimar mediante un intervalo de confianza la puntuación que obtendría un sujeto en
un criterio a partir de su puntuación en un test aplicamos:

( )
Sy
Y = Y ′ ± Z nc . S y.x ; donde Y ′ = rxy X−X +Y ; y S y.x = S y 1 − rxy
2
Sx

(3) Factores que influyen en la relación test-criterio


Tanto el coeficiente de fiabilidad como el coeficiente de validez de un test son coeficientes
de correlación y, en consecuencia, se dejan afectar por varios factores. Como ya vimos, al
coeficiente de fiabilidad le afectaban la longitud del test y la variabilidad de la muestra.
En el caso del coeficiente de validez los tres factores que mayor influjo tienen sobre él son:
(a) la variabilidad de la muestra (Desviación típica), (b) la fiabilidad del test y del criterio y (c) la
longitud del test (como un caso particular de la afectación debida a la fiabilidad del test).

(a) La variabilidad de la muestra (restricción del rango). Cuanto más homogéneo es el


grupo en sus puntuaciones en el test, tanto menor será el coeficiente de validez del test. Esto
implica que cuanto menor es la varianza (desviación típica) del test menor es el coeficiente de
validez. Este fenómeno se conoce como restricción del rango de variación de las variables
implicadas.
No obstante, es posible estimar el coeficiente de validez de un test para un grupo de sujetos
con una determinada variabilidad a partir del coeficiente de validez de ese mismo test en un grupo
de características similares pero con una variabilidad diferente (en el test), siempre y cuando
podamos asumir que existe la misma relación lineal entre las puntuaciones del test y del criterio
en los dos grupos.
S X ⋅ rxy
R xy =
S 2X ⋅ rxy
2
(
+ 1 − rxy
2
)
s 2x

donde rxy y Rxy son los coeficientes de validez de las muestras inicial y final,
respectivamente; Sx es la desviación típica del test en la muestra inicial, y SX es la desviación
típica del test en la muestra final.

(b) La fiabilidad de las medidas del test y del criterio. La fiabilidad del test y del criterio
afectan al coeficiente de validez de un test. En concreto, cuanto mayor es la fiabilidad del test y
del criterio tanto mayor será el coeficiente de validez del test. Esta relación se formaliza en la
siguiente ecuación:

rxy
Rxy =
rxx ⋅ ryy
R xx ⋅ R yy

donde rxy y Rxy son los coeficientes de validez del test inicial y del test final que se obtendría
modificando los coeficientes de fiabilidad del test y del criterio. Por tanto, rxx y ryy representan los
coeficientes de fiabilidad del test y del criterio en su versión inicial, y Rxx y Ryy son los coeficientes
de fiabilidad del test y del criterio en su versión final.
En relación con esta modificación conviene tener en cuenta que la ecuación anterior es la
versión completa para calcular un nuevo coeficiente de validez cuando se modifican tanto la
fiabilidad del test como la del criterio de validación. Sin embargo, en la práctica, los investigadores
tienen la opción de modificar la fiabilidad del test (añadiendo o quitando ítems, etc.) pero
difícilmente pueden alterar la fiabilidad del criterio (ryy o Ryy)(incluso muchas veces no se conoce
esa fiabilidad)
Cuando ello ocurre, la ecuación anterior se ve modificada en el sentido de que la fiabilidad
del criterio se mantiene constante porque no se modifica y, por lo tanto, sea cual sea ryy será igual
que Ryy con lo que desaparecen de la ecuación y ésta sólo contempla la casuística (más realista)
de analizar un cambio de validez cuando se produce un cambio de la fiabilidad SOLO DEL TEST
con lo que la ecuación anterior quedaría de la siguiente manera:

𝑟𝑟𝑥𝑥𝑥𝑥
𝑅𝑅𝑥𝑥𝑥𝑥 =
𝑟𝑟
�𝑅𝑅𝑥𝑥𝑥𝑥
𝑥𝑥𝑥𝑥

Así pues, mediante esta ecuación es posible estimar el coeficiente de validez que
obtendríamos si se modifica la fiabilidad del test y/o del criterio.

Como una aplicación interesante de este aspecto, podemos utilizar esta ecuación para
determinar cuál sería el valor del coeficiente de validez del test si la fiabilidad del test y del criterio
fueran máximas, es decir, si no hubieran errores de medida y, en consecuencia, Rxx y Ryy serían
iguales a 1. Dicho en otras palabras, cuál sería el coeficiente de validez MÁXIMO que podríamos
conseguir con ese test con respecto a ese criterio de validación (daros cuenta que esa validez
máxima sería la que provendría de un test y un criterio infalibles).

En este caso, la ecuación quedaría así:


𝑅𝑅 𝑟𝑟𝑥𝑥𝑥𝑥
𝑉𝑉𝑥𝑥 𝑉𝑉𝑦𝑦 =
�𝑟𝑟𝑥𝑥𝑥𝑥 𝑟𝑟𝑦𝑦𝑦𝑦

donde RVxVy representa el coeficiente de validez entre las puntuaciones verdaderas del
test y del criterio, ya que al no existir error de medida estaríamos estimando sin error dichas
puntuaciones verdaderas. Esta ecuación, que se debe a Spearman, se conoce como la fórmula
de corrección de los efectos de atenuación.

Esta ecuación, lo mismo que comentaba anteriormente, en la práctica se suele utilizar


desconociendo la fiabilidad del criterio con lo que este cálculo de validez MÁXIMA se suele
establecer solo planteándola como que el test se hace infalible, es decir Rxx =1, pero sin alterar
para nada la fiabilidad del criterio. La ecuación quedaría de la siguiente manera (obsérvese que
el coeficiente que estamos buscando ahora no es RVxVy sino RVxY, ya que la medida del test es
“V” por ser infalible, pero la medida del criterio sigue siendo “y” al no alterarse su fiabilidad:

𝑅𝑅 𝑟𝑟𝑥𝑥𝑥𝑥
𝑉𝑉𝑥𝑥 𝑌𝑌=
�𝑟𝑟𝑥𝑥𝑥𝑥

(c) La longitud del test. Existe una estrecha relación entre la fiabilidad, la validez y la
longitud de un test, ya que si la longitud del test incrementa la fiabilidad y un incremento en la
fiabilidad produce un aumento de la validez, queda claro que a mayor longitud mayor validez. Al
estudiar la fiabilidad del test ya vimos que a mayor longitud del test mayor fiabilidad. Y en el
apartado anterior hemos puesto de manifiesto que a mayor fiabilidad, mayor validez. Esto permite
poner en relación directa el coeficiente de validez de un test con su coeficiente de fiabilidad y su
longitud (nº de ítems) con el fin de simplificar el proceso.

Es posible, pues, formalizar la relación entre validez, fiabilidad y longitud mediante una
ecuación que nos permite estimar la validez final de un test modificando la longitud y la fiabilidad
del mismo o, al revés, determinar en cuantos ítems es preciso aumentar la longitud de un test para
alcanzar un determinado valor de validez:
rxy 1 − rxx
R xy = ; ó n=
1 − rxx 2
rxy
+ rxx − rxx
n R2 xy

donde rxy y Rxy son los coeficientes de validez del test inicial y del test final,
respectivamente; rxx es el coeficiente de fiabilidad del test inicial y n es el número de veces
en que se ha modificado la longitud del test inicial, que se define como:

LF
n=
LO

Donde LF recordemos que es la Longitud Final del Test y LO la Longitud original del mismo.

En este sentido, conviene tener presente un caso curioso que se puede producir cuando
aplicamos la ecuación de “n” (incógnita) para averiguar cuántas veces hay que aumentar la
longitud original de un test para conseguir una determinada Rxy deseada. Veámoslo con un
ejemplo:
Suponed que tenemos un test de 25 items (LO) y que presenta una rxx = 0,90 y una rxy =
0,65; y nos planteamos cuántos ítems paralelos habría que añadir a ese test para aumentar su
validez hasta conseguir una Rxy = 0,80. Para resolver esta cuestión lo más simple es aplicar la
ecuación anterior de “n” para averiguar el nº de veces que hay que aumentar LO. Una vez que
tengamos “n” basta con multiplicarlo por LO y tendremos LF. Finalmente si restamos LF-LO
obtendremos el nº de ítems que hay que añadir (que es la cuestión planteada):

1 − 0,90
𝑛𝑛 = = −0,42
0,652
− 0,90
0,802

Como podéis observar, obtenemos un valor negativo. ¿Qué significa esto?¿Hay que
quitar ítems para aumentar la validez? Esto sería incongruente. Lo cierto es que, CUANDO
OBTENEMOS UN VALOR n NEGATIVO LO QUE OCURRE ES QUE PRETENDEMOS UN
VALOR Rxy QUE ES IMPOSIBLE DE CONSEGUIR SOLO AÑADIENDO ITEMS AL TEST.
NOS ESTÁ ADVIRTIENDO QUE EL COEFICIENTE DE VALIDEZ MÁXIMO DE ESE TEST
(CUANDO EL TEST ES INFALIBLE, ES DECIR, CUANDO YA NO SE PUEDEN AÑADIR
MÁS ITEMS) ES MENOR QUE EL QUE ESTAMOS PRETENDIENDO. LA FORMA DE
PONER DE MANIFIESTO ESTE HECHO ES OBTENIENDO UN VALOR DE n NEGATIVO.

Para que lo entendáis mejor vamos a calcular, con los datos del ejemplo, cuál sería
el valor máximo de rxy, esto es RVxY, y veréis que es menor que 0,80 que era el nuevo Rxy
deseado:

𝑟𝑟𝑥𝑥𝑥𝑥 0,65
𝑅𝑅𝑉𝑉𝑉𝑉𝑉𝑉 = = = 0,69
�𝑟𝑟𝑥𝑥𝑥𝑥 √0,90

Como véis, 0,69 es el mayor coeficiente que se puede obtener añadiendo ítems al
test por lo que el valor de 0,80 que era el que se pedía, es imposible de conseguir solo
aumentando la longitud del test y por eso en la ecuación nos salió un valor NEGATIVO.

En alguna de las cuestiones de la práctica siguiente veréis un caso similar.


PRÁCTICA 5 (Tema 7 APARTADO 3.2: Validez de criterio: Pronóstico
del criterio y factores que afectan a la validez; variabilidad; fiabilidad;
longitud)

Un investigador está interesado en analizar hasta qué punto el grado de extraversión


de las personas es un buen predictor de su éxito profesional como vendedores de
productos comerciales. Para ello diseña un test “X” que pretende medir Introversión-
Extraversión.

A continuación aparecen los principales descriptivos y correlaciones de ese test X


que se ha aplicado a un grupo de 140 vendedores de la plantilla de una determinada
empresa comercial. También se recogen los datos correspondientes a la medida de
un criterio de validación “Y” que consiste en la puntuación en una escala de 1 a 10
puntos que les han otorgado a esos 140 sujetos los responsables del departamento
de recursos humanos en relación con su productividad comercial a los largo del
último mes evaluado (en la tabla de correlaciones aparece la correlación entre los
resultados de dos aplicaciones en distintos momentos temporales del mismo test, X
y X’, así como la correlación con el criterio Y).

Estadísticos descriptivos

Nº de
Desviación
Media típica N Items

Test X 9,94 5,201 140 20

Criterio Y 5,66 2,083 140

Correlaciones

Test X’ Criterio Y

Test X 0.890 0.776

CUESTIONES DE LA PRÁCTICA 5.

1. ¿Qué puntuación en productividad cabría pronosticar, con una seguridad del


95%, a un individuo que hubiese obtenido 17 puntos en el test de
Extraversión?

2. Con el ánimo de mejorar la fiabilidad de ese test, el investigador lo modifica


añadiéndole 15 items paralelos más. ¿Cómo se vería afectado el pronóstico
anterior con la modificación realizada?

3. ¿Cuántos ítems deberían añadirse al test si se pretendiese que la precisión


en el pronóstico, con esa seguridad del 95% no excediese de ± 1,78 puntos?

4. ¿Cómo se vería afectado el coeficiente de validez predictiva si en vez de


calcularlo con esa muestra de sujetos se hubiese aplicado a otra más amplia
a nivel nacional integrada por 340 sujetos y cuya media y desviación típica
en el test X fuese de 8,73 y 6,5 respectivamente?

También podría gustarte