Tema 2

Psicometría.
Validez de las puntuaciones de los tests
TEMA 2
VALIDEZ DE LAS PUNTUACIONES DE LOS TESTS
Concepto y tipos de recogida de evidencias de validez

Validez de Contenido
Validez referida al Criterio
Validez de Constructo
Validez Estructural
Validez Convergente y Divergente
Validez y Utilidad
Objetivos
 Introducir y diferenciar distintos tipos de validez de las puntuaciones de los tests
 Calcular e interpretar distintos tipos de validez de las puntuaciones de los tests
 Aplicar los distintos tipos de validez a las puntuaciones de tests concretos
Lecturas
Martínez Arias, M. R. (1995). Psicometría. Madrid: Síntesis
Capítulo 12: : La validez de los tests. Pp. 329-360
Martínez Arias, M. R., Hernández, M.J. y Hernández, M.V. (2006). Psicometría.
Madrid: Alianza Editorial
Capítulo 8: Validez de los tests. Pp. 219-244
Capítulo 9: Evidencias de validez referidas a un criterio, I: una variable predictora.
Pp. 245-258
Capítulo 10: Evidencias de validez referidas a un criterio, II: validez y utilidad. Pp.
279-288
Capítulo 12: Evidencias de validez relativas a la estructura interna del test, I:
Análisis Factorial Exploratorio. Pp. 317-352
Paz, M.D. (1996). Validez. (pp: 88-93) En Muñiz, J. (1996). Psicometría. Madrid:
Universitas
Yela, M. (1996). Los tests y el análisis factorial. Psicothema, 8, 73-88.7

http://www.psicothema.com/pdf/654.pdf
1
Facultad de Psicología. T. Rivas Moya
Definición de Validez
Validez es el grado en el que un instrumento de medida mide lo que se propone
medir (Cronbach, 1984). Aunque la definición del concepto parece simple no lo es,
como se puede comprobar en la extensa bibliografía que hay acerca del mismo.
Anteriormente, otros autores dieron definiciones similares. Vernon (1963) añade que
un test es válido para algún fin o propósito.
Se valida un instrumento de medida con relación al fin o propósito para el que se

utiliza. Un instrumento puede ser perfectamente válido para medir una determinada
característica y no serlo para medir otra. Por tanto, la validez se encarga de analizar
qué mide realmente el test y de probar cuál es realmente su utilidad para predecir
otras variables relacionadas.
Aspectos a destacar en la definición de validez

De estas definiciones de validez destacan dos aspectos según Messick (1995):
Relevancia del test para el propósito al que se aplica y utilidad del test en la
situación en la que se aplica.
Cronbach (1988, p.6) indica que se debe considerar también en la validación de un

test un aspecto relevante como las consecuencias sociales del uso del test. Es
decir, la persona que construye el test debe revisar si el test tiene las consecuencias
adecuadas en los sujetos, instituciones u organizaciones, con objeto de evitar
consecuencias adversas y evitar que haya sujetos desfavorecidos de forma
sistemática con la aplicación del test.
Se deben evitar los sesgos culturales: sexo, raza, etc.
En la actualidad sigue abierto el debate sobre si la evaluación de las consecuencias
sociales del uso de los tests debe formar parte de la validación de un test (Padilla,
Gómez, Hidalgo y Muñiz, 2006; Prieto y Delgado, 2010).
• Messick (1995, p.741) vuelve a plantear que el proceso de validación es un

proceso continuo, nunca acabado.
• Diversos autores (Guión,1978,1980; Tenopyr,1977; Messick, 1995). han intentado

unificar las distintas acepciones de validez en un único tipo de validez.
2
Psicometría. Validez de las puntuaciones de los tests
• Reconociendo la importancia de los argumentos esgrimidos por los autores

citados, en su insistencia en la validez de constructo como criterio unificador,
mantenemos, por razones prácticas, las dos grandes áreas que se pueden extraer
de las sugerencias de la APA (1974), en cuanto que un test puede considerarse
válido por su significación (validez de constructo y validez de contenido) o por su
utilidad (validez referida a un criterio) (Mateo, 1993). Por tanto, el término validez
tiene tres significados principales: validez de constructo, validez de criterio y validez
de contenido. Los tres términos tienen muchos aspectos en común aunque hay
importantes diferencias entre ellos (Nunnally & Bernstein, 1995).
Aparente
Criterio Predictiva
o Concurrente
VALIDEZ Retrospectiva
Empírica
Muestral
Comprobada o
Contenido
Teórica
Factorial
Convergente
Conceptual Divergente
o Otros
Constructo
3
Validez de Contenido
Expresa el grado en el que una medida empírica (conjunto de ítems de un test) es
representativa de un dominio específico de contenido. Es decir, validez de contenido
es el grado en que la muestra de ítems que forman un test representa una muestra
adecuada del dominio de objetivos o conductas de interés.
En la validez de contenido hay dos aspectos según Messick (1975). Los ítems deben
ser relevantes para el uso que se va a dar a las puntuaciones del test y
representativos del dominio de ítems de interés.
La relevancia hace referencia a que el test no tiene contenidos irrelevantes. La

representatividad hace referencia a que el test cubre todo el dominio de contenido
y no hay facetas o áreas mal representadas. (Sireci, 2003).
1) Definir el dominio completo de contenido que es relevante a la situación de

medida particular.
La definición del dominio conlleva especificar las áreas de contenido que debe cubrir
el test y los objetivos instruccionales (ejemplo: test educativo).
2) Especificar una muestra de ítems representativa de este dominio
3) Definir los items del test.

a) Revisar la bibliografía que hay sobre el tema.
b) Encontrar las dimensiones más importantes.
c) Dividir estas dimensiones en subdimensiones
d) Construir ítems que reflejen el significado asociado a cada subdimensión.
No se puede especificar el número exacto de ítems que contiene un dominio de
contenido particular. Es preferible construir muchos a pocos y eliminar los que
resulten inadecuados.
La validez de contenido es importante en todos los tipos de tests.
La validez de contenido es imprescindible en la construcción de tests educativos
(Dominio: Listas de objetivos de la instrucción) y ocupacionales.
La validez de contenido es fundamental en los Tests Referidos al Criterio.
4
Ejemplos
Ejemplo: Test de rendimiento en matemáticas.
Objetivo: Evaluar conocimiento general de matemáticas
Objetivo: Evaluar conocimiento de matemáticas después del curso de 1º de bachiller
Ejemplo: Test de ortografía de sustantivos. Objetivo: Evaluar nivel de ortografía de

los sujetos después de un curso. Requiere una muestra relevante y representativa
del material con el que se va a evaluar a los sujetos.
Ejemplo: Test para la selección de empleados en la administración.

Dominio: Todas las tareas que debe realizar un empleado para ese puesto de
trabajo.
El test contiene una muestra de tareas a realizar en este puesto de trabajo que debe
ser relevante y representar las destrezas y conocimientos necesarios para este
puesto de trabajo.
Ejemplo. Validez de contenido en tests educativos (Paz, 1996, pp: 88-93)
Martínez Arias, (1995, pp. 337-340) describe las etapas y algunos procedimientos a
seguir para llevar a cabo el análisis de la validez de contenido. Uno de estos
procedimientos consiste en analizar el grado de acuerdo del emparejamiento ítems-
objetivos entre ‘jueces expertos en el contenido’. Los jueces emiten juicios sobre el
grado en que ítems-objetivos definidos en la tabla de Especificaciones están
emparejados. Posteriormente, esta información se resume mediante algunos índices
(Indice de Congruencia de Rovinelli & Hambleton, 1977; etc.)
La representatividad de los items con relación al dominio de contenido se puede
analizar con la Teoría de la Generalizabilidad.
5
Validez Aparente
Un test tiene validez aparente si mide lo que parece medir. Este tipo de validez
suele venir dada por los sujetos que responden al test.
“No hay una relación lógica entre ‘validez aparente’ y ‘validez real’. Aunque en
algunas situaciones puede haber una relación positiva entre ambas, en otras
situaciones - por ejemplo, en selección - la validez aparente puede ser una
desventaja” (Cattell y Warbuton, 1967).
Validez de Criterio
Es la capacidad del test para predecir un criterio relevante. Es decir, el grado en el
que el test es útil para predecir un objetivo determinado viene dado por su relación
con un criterio externo al test.
La utilidad de la validez de criterio va a depender de la calidad de la medida del

criterio y del instrumento en sí.
• La limitación más importante es que en muchas de las medidas de las ciencias

sociales no existen o es difícil definir variables criterio relevantes. Cuanto más
abstracto es un concepto, más difícil es encontrar un criterio adecuado y dar una
medida de él. De hecho, se conoce como ‘el problema del criterio’ decidir qué
medir como criterio(s).
Ejemplos de tests criterio

 En inteligencia, las Escalas Wechsler, Stanford-Binet,etc.
 En personalidad, es ampliamente aceptado que el Cuestionario de Personalidad
de Eysenck (Eysenck Personality Questionnaire (EPQ), Eysenck & Eysenck,
1975) proporciona medidas de las dimensiones de personalidad - neuroticismo o
ansiedad y extraversión - con un alto grado de validez.
Ejemplos de variables criterio

 Grupos de sujetos con y sin trastorno
6
No hay un único coeficiente de validez de criterio, hay tantos como criterios se

puedan definir para una medida particular.
 La elección del procedimiento estadístico para analizar la validez de criterio

depende de: el número de predictores (un predictor, múltiples predictores), el
número de criterios (un solo criterio, criterios múltiples o criterio compuesto)
y el nivel de medida de las puntuaciones del test y del criterio.
 Si hay un solo criterio, el grado de validez de criterio se expresa mediante un

coeficiente que indica el grado de asociación que existe entre el test (predictor) y
el criterio. Este índice se obtiene mediante el coeficiente de correlación de
Pearson si test y criterio son variables continuas y la relación es lineal. El test
será útil si hay una correlación alta entre test y criterio.
Tipos de validez de criterio

Validez de criterio concurrente. Es el grado de relación entre el test y el criterio,
siendo éstos medidos al mismo tiempo.
En la práctica, índices  0,75 pueden considerarse altos índices de validez

concurrente si se considera un test criterio ‘con garantías suficientes’.
El nuevo test, debe tener algunas ventajas comparado con el test criterio.
Ejemplo. Test de diagnóstico de un trastorno. Criterio los grupos Casos/No casos

diagnosticados con una entrevista clínica
Validez de criterio predictiva. Concierne con la relación entre las puntuaciones de un

test y un criterio medido posteriormente.
Ejemplos
 Un test de inteligencia (Stanford-Binet) se administra a una muestra de niños de
5 años y sus controles. En el futuro, se mide éxito académico (libros y artículos
publicados, compañías dirigidas, patentes que han generado y salarios, etc.) La
relación entre las puntuaciones del test y las de estas variables pueden dar
evidencia de la validez predictiva del test, excepto cuando esta relación se pueda
explicar por otras causas.
 Test de inteligencia. Criterio de ‘Rendimiento académico’
7
 Un test de inteligencia puede ser un buen predictor de la nota media de la

diplomatura (grado)
 Un test de inteligencia puede ser un mal predictor para la moralidad
 Test(s) de selección para un puesto de trabajo. Criterio(s) de ‘éxito en el trabajo’,
‘tasas de absentismo laboral’, etc.
Validez de criterio retrospectiva. Es el grado de relación entre las puntuaciones de

un test aplicado en un momento dado y un criterio medido con anterioridad.
Ejemplo. Diferenciar adolescentes que tuvieron en la infancia un ambiente hostil o

acogedor.
Otros ejemplos de tests y sus correspondientes criterios se pueden consultar en

Martínez Arias (1995).
Ejercicio
Enunciar tres ejemplos de tests con sus respectivos criterios
Coeficientes de correlación entre las puntuaciones obtenidas en un test y en

un criterio
Se organizan en una Tabla las puntuaciones obtenidas por un grupo de N sujetos
en un test X y en un criterio Y :
Suj X Y
1 X 1 Y1
2 X 2 Y2
3 X 3 Y3
i Xi Yi
N X N YN
8
Dependiendo del nivel de medida de las variables se pueden obtener los siguientes
coeficientes de correlación:
(a) X Continua - Y Continua

Coeficiente de correlación de Pearson rXY 
S XY
rXY   1  rXY  1
S X SY
Coeficiente de determinación
2
rXY 0  rXY
2
1
Siendo:
S XY Covarianza de X eY
S X Desviación típica de las puntuaciones en X
S Desviación típica de las puntuaciones en Y

Y
Cuestiones relacionadas con la interpretación del coeficiente:

 Cuando se ha elegido un ‘buen criterio’ ¿Cómo de grande debe ser la
correlación? La correlación más alta se da del test consigo mismo (fiabilidad).
Como la fiabilidad no suele ser mayor de 0,9, por tanto, la validez de criterio será
menor que 0,9.
 Un test puede ser muy fiable y poco válido
 ¿Un coeficiente de validez concurrente de rXY  0,7 es una buena evidencia de
validez concurrente? La varianza común a los dos conjuntos de puntuaciones
2
(test y criterio) es rXY  0,49 .
El 49% de la variabilidad de las puntuaciones en el criterio se puede explicar a
partir de la variabilidad de las puntuaciones en el test. El 51% de la variabilidad
de las puntuaciones en el criterio se puede explicar a partir de otros factores
distintos a los que mide el test.
 Interpretación rXY (Cohen, 1992)
0,10  rXY  0,30 pequeño

0,30  rXY  0,50 medio
rXY  0,50 grande
9
(b) X Ordinal – Y Ordinal

6 d 2j
Coeficiente de correlación rho de Spearman  XY   XY  1 
N3  N
 1   XY  1
Siendo:
d j  X j  Y j j:1,2,...N ; d j es la diferencia de rangos para cada sujeto j
N número de sujetos
(c) X Continua- Y Dicotómica
Coeficiente de correlación Biserial-puntual rbp 
XA  X p
rbp   1  rbp  1
SX q
Siendo:
X Media de las puntuaciones en X
S X Desviación típica de las puntuaciones en X
X A Media de las puntuaciones X en los sujetos que han puntuado ‘uno’ en el criterio
Y.
N 1
p siendo N 1 número de sujetos que han puntuado ‘uno’ en el
N
criterio
siendo N 0  número de sujetos que han puntuado ‘cero’ en el
N ( 0)
q  1 p 
N
criterio
10
(c) X Dicotómica- Y Dicotómica

Coeficiente de correlación Phi (  )
Las respuestas de X e Y se organizan en la siguiente Tabla:

Criterio (Y)
1 0 Total
Test (X) 1
0
Total
p X 1,Y 1  p X 1 pY 1

 1    1
p X 1 1  p X 1 pY 1 1  pY 1 
Siendo:
p  X 1,Y 1 proporción de respuestas 1 a ambas X e Y
p X 1 proporción de respuestas 1 al test X
p Y 1 proporción de respuestas 1 al criterio Y
Validez de Constructo
Cronbach y Meehl (1955) introducen el concepto de validez de constructo. Para
estos autores, un test se crea para medir un constructo. Para medir el constructo se
especifica la teoría acerca de este constructo y lo que se espera acerca de la
relación entre
a) este constructo y otros constructos,
b) este constructo y otras medidas (es decir, tests), y
c) el test que se va a validar y otras medidas.
Estos autores denominan a estas relaciones red nomológica. La validez se prueba si
se puede demostrar que los resultados obtenidos con el test se ajustan al
constructo.
No se puede identificar las puntuaciones del test con el constructo. Cuando se

establece la validez de constructo, se pueden interpretar las puntuaciones obtenidas
con el test. La validación de constructo es la acumulación de evidencias que apoyan
que la puntuación del test es una de sus manifestaciones (Messick,1989)
11
Validez de constructo es el grado en el que una medida particular se relaciona con

otras medidas - consistentes con hipótesis derivadas de la teoría - de los conceptos
o constructos que se van a medir.
La validez de constructo requiere el uso de una teoría sustantiva para definir el

constructo que se va a medir y de la teoría de la medida para proporcionar una
medida del mismo (Nunnally & Bernstein, 1995).
Este tipo de validez no se puede expresar mediante un único coeficiente, sino que el
estudio de la misma es un proceso continuo que requiere muchos tipos y fuentes de
evidencia. Para mostrar evidencias de validez de constructo, se plantea un conjunto
de hipótesis/relaciones - derivadas de las características psicológicas que mide el
test -se presentan los resultados obtenidos a partir del test acerca de este modelo de
relaciones. Posteriormente, se decide, de forma subjetiva, si estos resultados se
ajustan o no al constructo.
Aspectos a tener en cuenta en el estudio de la validez de constructo

• Desde el punto de vista teórico
• Interpretación teórica del constructo
• Análisis de las interrelaciones entre el constructo y otros constructos o
variables
• Diferenciar el constructo de otras interpretaciones (constructos o variables)
• Algunos procedimientos de análisis
• Validez estructural (de rasgo, estructura interna del constructo, validez
factorial)
• Validez nomológica: Grado en que una medida se relaciona/diferencia de un
conjunto de constructos teóricos y sus respectivas medidas.
• Validez convergente y divergente (discriminante). Procedimientos basados en
las matrices MultiRasgo-MultiMétodo (MRMM) para obtener relaciones con
otras medidas del constructo.
• Plantear nuevas investigaciones a partir de los resultados derivados de las

hipótesis
12
• El análisis del sesgo o funcionamiento diferencial de los items o tests. El

sesgo se considera como varianza irrelevante para el constructo. El estudio
del sesgo permite analizar si el test favorece sistemáticamente a unos grupos
de sujetos frente a otros.
• Determinar el grado de generalizabilidad de las puntuaciones obtenidas con el
test
• Diferenciar grupos (validez diferencial)
• Validez instruccional, curricular, incremental, etc.
Estructura interna del constructo

Un conjunto de items no es necesariamente una dimensión o escala. A un conjunto
de items subyace una o más dimensiones.
Ejemplo
25 items de afecto ¿forman una escala o varias escalas de diferentes estados de
afecto como depresión, euforia, hostilidad, ansiedad, etc.? ¿Deberían estar en dos
escalas diferentes items positivos de afecto e items negativos de afecto (‘feliz’
versus ‘triste’ para depresión, ‘tenso’ versus ‘calma’ para ansiedad) La pregunta es
¿Subyace una o mas variables latentes a un conjunto de items de varios estados de
afecto?
El estudio de la estructura interna del constructo consiste en encontrar las

dimensiones que subyacen a un conjunto de items. Se suele utilizar una técnica de
Análisis Multivariante. La más frecuentemente utilizada es el Análisis Factorial (AF).
Spearman (1904) fue el primero que aplicó esta técnica en el análisis de habilidades
humanas e inteligencia. Desde entonces, el AF es una técnica ampliamente utilizada
en Psicometría.
13
Conceptos Básicos de Análisis factorial

Trata de encontrar las dimensiones o factores que subyacen a un conjunto de
variables o ítems. Puede ser exploratorio o confirmatorio. Se va a exponer los
conceptos básicos del análisis factorial exploratorio.
• Obtención de factores de primer orden. Una vez que una prueba con 5 (n) items
se administra a una muestra de N sujetos se obtiene la siguiente matriz de
respuestas.
Items
Sujetos 1 2 3 … 5(n)
1
2
3
…
• Las relaciones entre todos los pares de items se organiza en la matriz de

correlación R . Si n=5, R
nxn 5x5
• La estructura de esta matriz, por ejemplo, para 5 items sería:
 r11 r12 r13 r14 r15   1 r12 r13 r14 r15 
   
 r22 r23 r24 r25   1 r23 r24 r25 
R5 x 5   r33 r34 r35   1 r34 r35 
   
 r44 r45   1 r45 
 r55  
 1 
• El Análisis Factorial parte de la matriz de correlaciones (covarianzas) entre las

respuestas a los ítems de un test y encuentra variables no observables, factores
o escalas. Para que haya validez de rasgo, los factores obtenidos deben reflejar
los constructos o las áreas de un constructo definidos con la teoría psicológica.
14
• Modelo 1: Análisis de Factores Principales (AFP)
i1  a11 F1  a12 F2  a13 F3  a14 F4  a15 F5  u 1

i 2  a 21 F1  a 22 F2  a 23 F3  a 24 F4  a 25 F5  u 2
i3 
i4 
i 5  a 51 F1  a 52 F2  a 53 F3  a 54 F4  a 55 F5  u 5
• Modelo 2: Análisis de Componentes Principales (ACP)
i1  a11 F1  a12 F2  a13 F3  a14 F4  a15 F5

i2  a21F1  a22 F2  a23 F3  a24 F4  a25 F5
i3 
i4 
i5  a51 F1  a52 F2  a53 F3  a54 F4  a55 F5
Factor. Es una combinación de variables (pueden ser items, constructos,

dimensiones, escalas, etc.). Se denota Fi
Factores de primer orden. A partir de la matriz de correlaciones entre pares de ítems

se obtienen los factores de primer orden.
Autovalor es la varianza explicada por el factor. Se denota i . Se suele interpretar
como % de Varianza
Comunalidad. Es la proporción de varianza de una variable o ítem que queda

explicada por los factores. Se denota hi2
Saturación. Correlación entre una variable y un factor. Se denota aij
Muestra la importancia de una variable o ítem en la definición de un factor (Suelen

tomarse valores mayores que 0,3)
Estructura factorial. Conjunto (o matriz) de saturaciones
15
Rotación. Giro de los ejes.

La rotación a ejes ortogonales proporciona factores independientes.
La rotación a ejes oblicuos proporciona factores correlacionados
Factores de segundo orden. Si el AF parte de correlaciones entre las puntuaciones

obtenidas con distintos tests o escalas (obtenidas con un AF de primer orden), cada
factor estará formado por grupos de escalas o tests que presentan rasgos o
características comunes.
Ejemplo. Obtención de factores de orden superior

Factores de segundo orden relacionados (no independientes) son la Inteligencia
cristalizada y la inteligencia fluida.
Factores de primer orden de la Inteligencia fluida: inducción, visualización,
razonamiento cuantitativo (en algunos estudios surge también el factor fluidez de
ideas).
Factores de primer orden de la Inteligencia cristalizada: habilidad verbal, desarrollo
del lenguaje, comprensión lectora, razonamiento secuencial e información general
(en algunos estudios también subyace el factor fluidez de ideas).
Si se factorizan las puntuaciones en las escalas de los factores de segundo orden,

se obtienen los factores de tercer orden. Un ejemplo es el factor g de inteligencia.
16
Validez Convergente y Divergente

Campbell y Fiske (1959) en su trabajo ‘Covergencia y Divergencia’ ofrecen
procedimientos conceptuales y empíricos para la validación de constructo. Indican
que, conceptualmente, cualquier medida de un constructo debe mostrar
correlaciones altas con otras medidas del constructo y bajas con medidas de otros
constructos. Esta información se suele organizar en una matriz MultiRasgo-
MultiMétodo (MRMM) o Multimétodo Multirasgo (MMMR).
Una matriz MultiRasgo-MultiMétodo (MRMM) es la que resulta de correlacionar

variables (rasgos) intra y entre métodos. Valores de las relaciones para cualquier
número de rasgos (agresividad o extraversión) se obtienen por varios métodos
(observación, test psicométrico) y se incluyen en una tabla. La matriz de
correlaciones que resulta proporciona información de la validez convergente y
divergente con los métodos usados.
La siguiente Tabla proporciona información de la estructura básica de la matriz
cuando las medidas de los tres rasgos se han obtenido con tres métodos.
Método 1 Método 2 Método 3

Rasgo1 Rasgo2 Rasgo3 Rasgo1 Rasgo2 Rasgo3 Rasgo1 Rasgo2 Rasgo3
Método1
Rasgo1
Rasgo2
Rasgo3
Método2
Rasgo1
Rasgo2
Rasgo3
Método 3
Rasgo1
Rasgo2
Rasgo3
17
Habrá validez convergente cuando se encuentren relaciones (correlaciones) altas

entre medidas del mismo constructo obtenidas con diferentes métodos, y estas
correlaciones serán más altas que las correlaciones entre medidas de diferentes
constructos medidos con el mismo /distintos método(s) (validez divergente).
METODOS METODOS
Resumen = 
RASGOS = Fiabilidad Convergencia
RASGOS  Divergencia Divergencia
Ejemplo. Matriz MultiRasgo-MultiMétodo

A, B, C denotan los constructos, rasgos.
1,2 denotan los métodos.
El rasgo A medido con el Método 1 se denota A1.
Tabla. Tres rasgos medidos con dos métodos
Método 1 Método 2
Rasgo Rasgo
A1 B1 C1 A2 B2 C2
Metodo 1
A1 (0,95)
B1 (1) 0,28 (0,86)
C1 0,58 0,39 (0,92)
Metodo 2
A2 0,76 0,32 0,57 (0,95)
B2 (2) 0,30 0,65 0,40 (3) 0,39 (0,76)
C2 0,40 0,31 0,60 0,55 0,26 (0,74)
( ) Coeficientes de fiabilidad
Coeficientes para diferentes rasgos medidos con el mismo método
Coeficientes para diferentes rasgos medidos con distintos métodos
___ Coeficientes para el mismo rasgo evaluado con diferentes métodos
18
En (1) y (3) los elementos diagonales son Fiabilidad

En (1) y (3) los elementos no diagonales son correlaciones entre distintos rasgos y
el mismo método (Validez Divergente)
En (2) los elementos diagonales son correlaciones de cada rasgo con diferentes
métodos (Validez Convergente)
En (2) los elementos no diagonales son correlaciones entre diferentes rasgos
usando diferentes métodos (Validez Divergente)
Validez y utilidad
La utilidad de las decisiones que se toman con los tests es un concepto asociado a
la validez de criterio. Se va a exponer este concepto asociado a un criterio
dicotómico. Así mismo, el tipo de decisión que se va a tomar con el test es
dicotómica, por ejemplo, admitir o no admitir a sujetos a un puesto de trabajo,
considerar a un sujeto apto o no apto en una materia, asignar a un sujeto o no a una
categoría de diagnóstico.
Se considera:
 N sujetos a los que se les administra, por ejemplo, un cuestionario (test
predictor) y una entrevista clínica (criterio)
 Test X . Sobre X - puntuaciones empíricas de los sujetos en el test – se

establece una puntuación de corte X C .
Se considera la regla de decisión a partir de este punto de corte, por ejemplo,

X  X C  el sujeto se considera ‘con alta posibilidad de tener el trastorno’ según
el test, seleccionado para un puesto de trabajo, etc.

X  X C  el sujeto se considera ‘con baja posibilidad de tener el trastorno’
según el test, no seleccionado para un puesto de trabajo, etc.

(Notación: También se puede definir X  X C , X  X C )
 Criterio Y . La variable criterio puede ser dicotómica o continua.
19
- Si es dicotómica, se codifica 0 ‘fracaso’ 1 ‘éxito’.

Fracaso indica la categoría ‘sin trastorno’, ‘bajo rendimiento en el puesto de
trabajo’, etc.
Éxito indica la categoría ‘con trastorno’, ‘alto rendimiento en el puesto de trabajo’,
etc.
- Si es continua, se establece un punto de corte sobre las puntuaciones de Y ,

por ejemplo,
Y  YC  el sujeto se considera ‘con trastorno’, ‘alto rendimiento en el puesto de
trabajo’ según el criterio
Y  YC  el sujeto se considera ‘sin trastorno’, ‘bajo rendimiento en el puesto de
trabajo’ según el criterio

(Notación: También se puede definir Y  YC , Y  YC )
 Considerando la clasificación dada por el criterio Y como la más adecuada, se

trata de analizar la clasificación establecida por el test X .
Indices de utilidad de un test de diagnóstico clínico

Con objeto de poner un ejemplo de esta situación, se consideran 20 sujetos a los
que se les administra un test X , que clasifica a cada sujeto en una de dos
categorías: (+) ‘con alta posibilidad de tener el trastorno’ o (-) ‘con baja posibilidad de
tener el trastorno’; y un criterio Y que clasifica a cada sujeto ‘con trastorno’ o ‘sin
trastorno’
En la Figura se representan las puntuaciones en el criterio y en el predictor. El

eje de abscisas representa el predictor (cuestionario de evaluación en clínica, etc. ),
el eje de ordenadas representa el criterio (diagnóstico clínico, etc.). Las
puntuaciones o respuestas de cada sujeto en ambos – predictor y criterio -
representan los puntos en el gráfico. Cada punto muestra la puntuación de un sujeto
en el predictor y en el criterio
20
FALSOS NEGATIVOS VERDADEROS POSITIVOS

c a
CON TRASTORNO
. . . .
. . .
PUNTO DE CORTE
. .
EN CRITERIO ( Yc )
. . . . .
. . .
SIN TRASTORNO
. .
VERDADEROS NEGATIVOS FALSOS POSITIVOS
b d
PUNTUACIÓN PUNTO DE CORTE PUNTUACIÓN

BAJA EN EL TEST EN PREDICTOR ALTA EN EL TEST
(-) (+)
( Xc)
De esta forma, la figura se divide en cuatro cuadrantes.

 El cuadrante superior derecho contiene sujetos que tienen una puntuación
alta en el test (+) y tienen el trastorno según el criterio (Verdaderos
Positivos).
 El cuadrante superior izquierdo contiene sujetos que tienen una puntuación
baja en el test (-) y tienen el trastorno según el criterio (Falsos Negativos).
 El cuadrante inferior izquierdo contiene sujetos que tienen una puntuación
baja en el test (-) y no tienen el trastorno según el criterio (Verdaderos
Negativos).
 El cuadrante inferior derecho contiene sujetos que tienen una puntuación alta
en el test (+) y no tienen el trastorno según el criterio (Falsos Positivos).
21
Esta situación de decisión se muestra en la siguiente Tabla.
Decisión con el test  X 
Test +  X  X C  Test -  X  X C 
Total
Con a (VP) c (FN) a+c
Criterio de trastorno
diagnóstico Sin d (FP) b (VN) b+d
Y  trastorno
Total a+d b+c N
ac
Prevalencia (Tasa Base) 
N
VP a
Sensibilidad (Proporción de Verdaderos Positivos)= 
VP  FN a  c
FN c
Proporción de Falsos Negativos= 
VP  FN a  c
VN b
Especificidad (Proporción de Verdaderos Negativos)= 
VN  FP b  d
FP d
Proporción de Falsos Positivos= 
FP  VN b  d
Eficiencia diagnóstica (Proporción de individuos clasificados correctamente)=

VP  VN a  b
  bien clasificados con el test
N N
Una medida ‘resumen’ de la sensibilidad y la especificidad, calculadas en todos los

posibles puntos de corte del test, es el índice de Youden:
Indice de Youden J  =
Máximo (Sensibilidad i  + Especificidad i  – 1)
posibles puntos de corte (i) sobre el test
Se  Es  0  J  1  Discrepancia perfecta entre test y criterio

Se  Es  1  J  1  Concordancia perfecta entre test y criterio
Se  Es  0,5  J  0  Test clasifica igual que si se hiciese al azar

22
Indices de utilidad de un test de selección

En condiciones similares a las que se han descrito para un test de diagnóstico
clínico (ver Tabla):
Decisión con el test (X)

Admitido No admitido Total
Alto a c a+c
Criterio de 8 2 10
rendimiento d b b+d
(Y) Bajo 2 8 10
a+d b+c N=20
Total 10 10
Para analizar si en la selección se ha elegido a los mejores sujetos, se definen los

índices de Validez de Criterio, Razón de Selección, Tasa Base y Razón de Eficacia.
Si analizados estos índices, la respuesta es afirmativa, entonces se puede
considerar el coste de utilizar la selección
N – Número de aspirantes a un puesto de trabajo

ac
Tasa Base TB 
N
Proporción de aspirantes que tienen éxito (alto rendimiento) en el trabajo.
ad
Razón de Selección RS 
N
Proporción de aspirantes que son admitidos con el test.
a
Razón de Eficacia RE 
ad
Proporción de sujetos admitidos con el test que tienen éxito (alto rendimiento) en el
trabajo.
23
TEMA 2. ACTIVIDADES
Ejemplo. Validez de Criterio (Coeficiente de correlación de Pearson)

Obtener el coeficiente de Validez de Criterio siendo las puntuaciones en el test (X) y
las puntuaciones en el criterio (Y) variables continuas.
Suj X Y
1 6 11
2 8 15
3 7 16
4 7 14
5 5 10
6 4 12
7 6 10
8 9 17
9 9 18
10 9 17
Suj X Y XY
1 6 11 66
2 8 15 120
3 7 16 112
4 7 14 98
5 5 10 50
6 4 12 48
7 6 10 60
8 9 17 153
9 9 18 162
10 9 17 153
 70 140 1022
70 140
X  7 Y   14
10 10
S X  1,6733 S Y  2,8983
 7,14  102,2  98  4,2
1022
S XY 
10
4, 2
rXY   0,8574
1,6733 * 2,8983
Coeficiente de determinación
rXY  0,8574   0,7351  73,5%
2 2
24
Ejemplo. Validez de Criterio (Coeficiente de correlación de Spearman)

Obtener el coeficiente de Validez de Criterio siendo las puntuaciones en el test X y
las puntuaciones en el criterio Y .
Dadas las puntuaciones de X e Y , se obtienen los rangos de X e Y .
Suj X Y RangoX RangoY dj d 2j

1 86 84 3 4 -1 1
2 91 93 1 1 0 0
3 75 77 7 7 0 0
4 64 61 9 10 -1 1
5 73 75 8 9 -1 1
6 82 80 4 6 -2 4
7 79 81 6 5 1 1
8 79 76 6 8 -2 4
9 88 85 2 3 -1 1
10 80 89 5 2 3 9
 22
6 d 2j 6 * 22 132  
 XY  1   1  1  1  0,13  0,86
N N
3
10  10
3
990
25
Ejemplo 3. Validez de Criterio (Correlación  )
Suj X Y X Y
1 Sin trastorno Sin trastorno 0 0
2 Con trastorno Con trastorno 1 1
3 Sin trastorno Con trastorno 0 1
4 Con trastorno Sin trastorno 1 0
9 Sin trastorno Sin trastorno 0 0
10 Con trastorno Con trastorno 1 1
Criterio (Y)
1 0 Total
Test (X) 1 2 3 5
0 3 2 5
Total 5 5 10
2 5 5 2 25 2
p  X  1, Y  1  p  X  1 p Y  1  
  10 10 10  10 100  10  1 
  
p  X  1 1  p  X  1 p Y  1 1  p Y  1  5 5 5 5 25 25
10 10 10 10 100 100
2100 20 5
 1 1   0,20
2510 25 25
26
A continuación se muestran dos ejemplos. En cada uno de ellos, identificar el tipo de

validez que corresponde a cada hipótesis.
Ejemplo. Test de inteligencia

Saklofske & Zeidner (1995), plantean las siguientes hipótesis en una investigación
sobre un test de inteligencia:
• El test debe correlacionar al menos 0,8 con otros tests de inteligencia.
• El test debe correlacionar al menos 0,5 con otros tests de habilidad.
• El test debe tener una correlación muy baja o cero con la mayor parte de tests de
personalidad.
• El test debe correlacionar alrededor de 0,3 con medidas de personalidad
autoritaria.
• El test debe tener una correlación positiva con el éxito académico
• Estas correlaciones deben ser mayores para algunos sujetos (físicos, médicos…)
que para otros (estudios de danza, sociología)
• El test debe tener una correlación alrededor de 0,3 con el éxito en el trabajo
• Las puntuaciones en el test deben ser más altas para los sujetos de unos
trabajos que para los de otros trabajos.
• Las puntuaciones deben mostrar una heredabilidad de alrededor de 0,7.
Si todas estas hipótesis/relaciones se confirman con claridad, habría evidencia de

que se trata de un test de inteligencia. Sin embargo, si los resultados no son claros o
si no se pueden comprobar las hipótesis/relaciones con claridad a partir de los
resultados, la validez de constructo suele ser equívoca y subjetiva.
27
Ejemplo. Test de ansiedad

Con objeto de clarificar el constructo ansiedad, se debería poner a prueba las
siguientes hipótesis:
 En sujetos que reciban tratamiento psiquiátrico debería ser más probable obtener
puntuaciones altas que puntuaciones bajas en el test.
 En sujetos con ocupaciones estresantes o peligrosas, debería ser más probable
obtener puntuaciones bajas que puntuaciones altas en el test.
 El test de ansiedad debería tener correlaciones positivas con otros tests de
ansiedad ya validados
 El test de ansiedad debería tener correlación cero con tests de personalidad que
no midan ansiedad
 El test de ansiedad debería tener correlación cero con tests de habilidades y
motivación
Si estas hipótesis se pueden probar es difícil mantener que el test no mide ansiedad.
Dada la naturaleza del constructo ansiedad, estos son los resultados que se
deberían esperar.
28
Ejemplo. Obtención de factores de primer orden en dos grupos

Se analiza la dimensionalidad de los ítems del Cuestionario de Autoestima de
Rosenberg en una muestra no-clínica y en una muestra clínica.
Cuestionario Cuestionario de Autoestima (Rosenberg, 1979)
Se presentan 10 frases en las que se expresan una serie de pensamientos y sentimientos. Señala
con una “X” el casillero que más se aproxime a cómo te percibes a ti mismo/a de acuerdo con la
siguiente escala:
1. Estoy satisfecho/a conmigo mismo/a    

2. A veces pienso que no sirvo para nada    
3. Creo tener varias cualidades buenas    
4. Puedo hacer las cosas tan bien como la mayoría de la gente    
5. Creo que no tengo muchos motivos para enorgullecerme    
6. A veces me siento realmente inútil    
7. Siento que soy una persona digna de estima, al menos en igual medida que
los demás    
8. Desearía sentir más respeto por mí mismo/a    

9. Me inclino a pensar que soy un fracaso    
10.Asumo una actitud positiva hacia mí mismo/a    
La dimensionalidad de los items se ha analizado con un Análisis de Componentes

Principales (ACP) en una muestra clínica y en una muestra no-clínica de población
general (Rivas, Bersabé y Jiménez, 2004). Este trabajo muestra que la
unidimensionalidad se prueba en esta muestra clínica pero no en la muestra no
clínica.
Las características de ambas muestras, los resultados del ACP, análisis de los ítems
y fiabilidad (consistencia interna) se describen a continuación.
29
 Estructura factorial en una muestra no-clínica

La muestra no-clínica está formada por 1643 adolescentes de 14 colegios de
Málaga. De ellos, 1421 (575 hombres y 846 mujeres) respondieron a todos los items
de los cuestionarios. La edad de los adolescentes varía entre 12 y 21 años
(M=15,62; DT=1,99 en mujeres, y M=15,31; DT=2,08 en hombres).
Tabla. Análisis factorial y análisis de los items del cuestionario de Autoestima de

Rosenberg en una amplia muestra de sujetos de la comunidad (N=1421)
Estructura factorial Análisis de items y fiabilidad

 si se
Item Comunalidad Saturación I.homogeneidad elimina
el ítem
1 0,488 0,698 0,550 0,746
2 0,498 -0,706 0,582 0,740
3 0,354 0,595 0,440 0,760
4 0,422 0,650 0,483 0,756
5 0,048 -0,220 0,171 0,795
6 0,473 -0,688 0,569 0,741
7 0,203 0,451 0,314 0,775
8 0,185 -0,430 0,333 0,776
9 0,523 -0,723 0,604 0,737
10 0,388 0,623 0,483 0,754
Nota. Las columnas 4-5 se podrán interpretar después de estudiar el Tema 6
Resultados en la muestra no-clínica de

 Análisis Factorial
Las columnas 2-3 de esta Tabla se observa que
1) el ítem 5 comparte muy poca varianza con el resto de items
2) todos los items excepto el item 5 tienen una saturación mayor que 0,40
3) a través de los autovalores, no se puede justificar la unidimensionalidad en
esta muestra. Un factor explica el 35,8% de la variabilidad de los ítems en esta
muestra
30
 Estructura factorial en una muestra clínica

La muestra clínica se compone de 146 sujetos que acuden a distintos centros
clínicos de Málaga por un posible trastorno de la conducta alimentaria. De ellos, 128
(13 hombres y 115 mujeres) contestaron todos los items de los cuestionarios. La
edad de las mujeres varía entre 11 y 45 años (M=19,39; DT=5,32) y la de los
hombres entre 12 y 21 años (M=16,38; DT=3,07).
Tabla. Análisis factorial y análisis de los items del cuestionario de Autoestima de

Rosenberg en una muestra clínica de sujetos con TCA (N=128)
Estructura factorial Análisis de items y fiabilidad

 si se
Item Comunalidad Saturación I.homogeneidad elimina
el ítem
1 0,386 0,621 0,531 0,874
2 0,650 -0,806 0,735 0,857
3 0,529 0,727 0,637 0,866
4 0,558 0,747 0,649 0,865
5 0,203 -0,451 0,376 0,886
6 0,554 -0,744 0,668 0,863
7 0,384 0,620 0,522 0,874
8 0,287 -0,536 0,449 0,879
9 0,767 -0,876 0,819 0,851
10 0,617 0,785 0,698 0,861
Nota. Las columnas 4-5 se podrán interpretar después de estudiar el Tema 6
Resultados en la muestra clínica de

 Análisis Factorial
Las columnas 2-3 de esta Tabla se observa que
1) las comunalidades son aceptables
2) las saturaciones son mayores o iguales a 0,40
3) a través de los autovalores, se puede justificar la unidimensionalidad en esta
muestra. Un factor explica el 49,3% de la variabilidad de los ítems
31
Ejemplo. Obtención de factores de segundo orden

Factorización de las puntuaciones en las escalas de dos cuestionarios de
personalidad. (Kline, 2003)
Dos inventarios de personalidad NEO (Costa y McCrae, 1992) y EPQ-R (Eysenck y

Eysenck, 1991) se factorizan para probar dos objetivos diferentes propuestos por los
autores. Costa y McCrae defienden que la varianza de los tests de personalidad se
puede explicar en 5 factores y Eysenck defiende que tres factores son suficientes.
Ambos autores coinciden en que Extraversión (E) y Neuroticismo o ansiedad (N) son
factores importantes. Sin embargo, Eysenck piensa que Psicoticismo (P) incluye
Apertura a la Experiencia (O), Afabilidad (A) y Conciencia (C).
• El AF ayudará a explicar si se deben considerar tres ó 5 factores.
• Para ello se parte de la matriz de puntuaciones en las distintas escalas
(obtenidas con un Análisis Factorial de primer orden) y de la matriz de
correlaciones asociada a estas puntuaciones.
Puntuaciones en las escalas

Sujetos NEO C NEO E NEO A NEO O NEO N EPQ P EPQ E EPQ N
1
2
3
…
siendo:
NEO A – Afabilidad
NEO C – Conciencia
NEO O – Apertura a la Experiencia (Openess)
NEO N – Neuroticismo
NEO E – Extraversión
EPQ E – Extraversión
EPQ N – Neuroticismo (Ansiedad)
EPQ P – Psicoticismo
32
Matriz de Correlaciones entre las puntuaciones en las escalas
 NEO C NEO E NEO O NEO A NEO N EPQ P EPQ E EPQ N 

 
 NEO C 
 NEO E 
 
 NEO O 
R8 x8   NEO A 

 NEO N 
 
 EPQ P 
 EPQ E 
 
 EPQ N 
Tabla. Análisis Factorial de los tests de Personalidad NEO y EPQ

(Rotación Oblimín Directa)
Factor 1 Factor 2 Factor 3 h2
NEO C - 0,009 -0,760 -0,022 0,593
NEO A 0.064 -0,468 -0,412 0,355
NEO E 0,902 -0,193 -0,251 0,883
NEO O 0,613 0,175 -0,171 0,398
NEO N -0,203 0,064 0,916 0,841
EPQ P 0,221 0,890 0,018 0,819
EPQ E 0,873 0,148 -0,062 0,780
EPQ N -0,191 -0,005 0,930 0,874
Autovalor 2,35 1,77 1,42

% de Varianza 29,4 22,1 17,8
% de Varianza Acumulada 29,4 51,5 69,3
Interpretación de los resultados

Factor 1. Las saturaciones más altas del Factor 1 son las escalas de
Extraversión (E) de los dos tests. Además, la escala NEO O (Apertura a la
Experiencia) también tiene una saturación alta en este factor. Esto sugiere que
está relacionada con la escala E.
33
Factor 2. Las saturaciones más altas son NEO C y A (Conciencia y Afabilidad) y la

escala P de EPQ. Notar las saturaciones negativas. Esto significa que baja
Conciencia, Baja Afabilidad y Psicoticismo saturan en este factor.
Factor 3. Las dos escalas N de Neuroticismo saturan en este factor. Se denomina

Factor de Ansiedad. También satura la escala A (Afabilidad) con saturación
negativa. A mayor ansiedad, menor afabilidad.
Ejemplo. (Cohen, R.R., 2005)

El test que se va a validar pretende medir Satisfacción Laboral (SL) medida con un
test de papel y lápiz, medida autoinformada de satisfacción en el lugar de trabajo. Se
va a relacionar con un segundo rasgo, Satisfacción Marital (SM) y con un tercer
rasgo que se ha definido como Autosatisfacción (AS). Este tercer rasgo mide
satisfacción y confort con uno mismo (confort y satisfacción personal a nivel
académico, económico y logro social) Si se encuentran altas correlaciones entre los
tres rasgos se puede decir que los tres SL, SM y AS miden lo mismo, un constructo
que se puede llamar ‘Satisfacción con la vida en general’. Si se obtienen
correlaciones moderadas entre ellos con los instrumentos que se están utilizando, se
puede sugerir que aunque los tres son componentes de la satisfacción en general,
cada uno contribuye en algo único y cada uno representa un rasgo independiente y
distinto de los otros.
34
Tabla. Tres rasgos diferentes medidos por tres métodos

Autoinforme Escala ‘rating’ de Cuestionario de
la pareja iguales
SL SM AS SL SM AS SL SM AS
Autoinforme
SL 0,98
SM 0,50 0,94
AS 0,42 0,59 0,96
Escala
‘rating’
de la pareja
SL 0,65 0,10 0,15 0,92
SM 0,02 0,61 0,18 0.40 0,89
AS 0,04 0,10 0,66 0,60 0,52 0,86
Cuestionario
de iguales
SL 0,59 0,08 0,11 0,69 0,00 0,04 0,80
SM 0,01 0,55 0,09 0,00 0,72 0,02 0,10 0,85
AS 0,06 0,11 0,58 0,02 0,05 0,68 0,50 0,46 0,88
Indicar los índices de fiabilidad, validez convergente y validez divergente. Interpretar

estos índices.
35
Ejemplo Utilidad de un test de diagnóstico
Test ( X C  19 )
+ - Total
Criterio Con Trastorno 174 a 184 c 358
Sin Trastorno 18 d 23 b 41
Total 192 207 399
Determinar e interpretar la Sensibilidad, Especificidad y Eficiencia diagnóstica del

test -considerando el punto de corte X C  19 - para pronosticar el criterio.
174
Se   0,4860  48,60%
358
23
Es   0,5609  56,09%
41
184
Proporción de Falsos Negativos=1-Se 
358
18
Proporción de Falsos Positivos=1-Es 
41
174  23
ED   0,4937  49,37%
399
36
Ejemplo. Utilidad de un test de selección

Test
Admitido No admitido Total
Criterio de Alto 26 a 38 c 64
Rendimiento Bajo 5d 37 b 42
Total 31 75 106
Obtener e interpretar el Coeficiente de validez de criterio, la Tasa Base, la Razón de

Selección y la Razón de Eficacia.
El coeficiente de validez del test  
a  c 64
Tasa Base =   0,6038  60%
N 106
ad 31
Razón de Selección =   0,2925  29%
N 106
a 26
Razón de Eficacia=   0,8387  84%
a  d 31
37
Ejemplo
La Tabla 1 muestra las respuestas de 10 sujetos a un test (X) y a un test criterio (Y).
La puntuación 8 determina si un sujeto es apto o no apto en el test y en el criterio.
Tabla 1
S X Y
1 8 10
2 8 8
3 8 8
4 8 9
5 8 8
6 8 7
7 8 6
8 7 8
9 6 7
10 4 5
Obtener la Tabla 2 (2x2) para los sujetos aptos/no aptos en test y criterio
--------------------------------------------------------------------------------
Ayuda:
Cada puntuación de X se dicotomiza de forma que si:
X  XC  8  X  0  no apto
X  XC  8  X  1  apto
Cada puntuación de Y se dicotomiza de forma que si:
Y  YC  8  Y  0  no apto
Y  YC  8  Y  1  apto
--------------------------------------------------------------------------
Criterio (Y)
Apto No Apto Total
Apto 5 2 7
Test (X) No Apto 1 2 3
Total 6 4 10
Calcular e interpretar el coeficiente de validez de criterio a partir de la Tabla 2
5 7 6
 
10  10 10 
 
7 76 6
1    1  
10  10  10  10 
Calcular e interpretar la Eficiencia Diagnostica del test X con respecto al test criterio Y
38
52 7
ED    0,7  70%
10 10
Calcular e interpretar el coeficiente de validez de criterio a partir de la Tabla 2

Calcular e interpretar la Eficiencia Diagnostica del test X con respecto al test criterio Y
-------------------------------------------------------------------------
Disponible en http://psicologia.cv.uma.es
Basado en 20111025
Última revisión: 20171202
39

Tema 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 2

Cargado por

Copyright:

Formatos disponibles

Psicometría.

Validez de las puntuaciones de los tests

Concepto y tipos de recogida de evidencias de validez

Yela, M. (1996). Los tests y el análisis factorial. Psicothema, 8, 73-88.7

Se valida un instrumento de medida con relación al fin o propósito para el que se

Aspectos a destacar en la definición de validez

Cronbach (1988, p.6) indica que se debe considerar también en la validación de un

• Messick (1995, p.741) vuelve a plantear que el proceso de validación es un

• Diversos autores (Guión,1978,1980; Tenopyr,1977; Messick, 1995). han intentado

• Reconociendo la importancia de los argumentos esgrimidos por los autores

La relevancia hace referencia a que el test no tiene contenidos irrelevantes. La

1) Definir el dominio completo de contenido que es relevante a la situación de

2) Especificar una muestra de ítems representativa de este dominio

3) Definir los items del test.

Ejemplo: Test de ortografía de sustantivos. Objetivo: Evaluar nivel de ortografía de

Ejemplo: Test para la selección de empleados en la administración.

Ejemplo. Validez de contenido en tests educativos (Paz, 1996, pp: 88-93)

La utilidad de la validez de criterio va a depender de la calidad de la medida del

• La limitación más importante es que en muchas de las medidas de las ciencias

Ejemplos de tests criterio

Ejemplos de variables criterio

No hay un único coeficiente de validez de criterio, hay tantos como criterios se

 La elección del procedimiento estadístico para analizar la validez de criterio

 Si hay un solo criterio, el grado de validez de criterio se expresa mediante un

Tipos de validez de criterio

En la práctica, índices  0,75 pueden considerarse altos índices de validez

Ejemplo. Test de diagnóstico de un trastorno. Criterio los grupos Casos/No casos

Validez de criterio predictiva. Concierne con la relación entre las puntuaciones de un

 Un test de inteligencia puede ser un buen predictor de la nota media de la

Validez de criterio retrospectiva. Es el grado de relación entre las puntuaciones de

Ejemplo. Diferenciar adolescentes que tuvieron en la infancia un ambiente hostil o

Otros ejemplos de tests y sus correspondientes criterios se pueden consultar en

Coeficientes de correlación entre las puntuaciones obtenidas en un test y en

(a) X Continua - Y Continua

S X Desviación típica de las puntuaciones en X

S Desviación típica de las puntuaciones en Y

Cuestiones relacionadas con la interpretación del coeficiente:

0,10  rXY  0,30 pequeño

(b) X Ordinal – Y Ordinal

(c) X Continua- Y Dicotómica

Coeficiente de correlación Biserial-puntual rbp 

(c) X Dicotómica- Y Dicotómica

Las respuestas de X e Y se organizan en la siguiente Tabla:

p X 1,Y 1  p X 1 pY 1

No se puede identificar las puntuaciones del test con el constructo. Cuando se

Validez de constructo es el grado en el que una medida particular se relaciona con

La validez de constructo requiere el uso de una teoría sustantiva para definir el

Aspectos a tener en cuenta en el estudio de la validez de constructo

• Plantear nuevas investigaciones a partir de los resultados derivados de las

• El análisis del sesgo o funcionamiento diferencial de los items o tests. El

Estructura interna del constructo

El estudio de la estructura interna del constructo consiste en encontrar las

Conceptos Básicos de Análisis factorial

• Las relaciones entre todos los pares de items se organiza en la matriz de

• El Análisis Factorial parte de la matriz de correlaciones (covarianzas) entre las

• Modelo 1: Análisis de Factores Principales (AFP)

i1  a11 F1  a12 F2  a13 F3  a14 F4  a15 F5  u 1

• Modelo 2: Análisis de Componentes Principales (ACP)

i1  a11 F1  a12 F2  a13 F3  a14 F4  a15 F5

Factor. Es una combinación de variables (pueden ser items, constructos,

Factores de primer orden. A partir de la matriz de correlaciones entre pares de ítems

Autovalor es la varianza explicada por el factor. Se denota i . Se suele interpretar

Comunalidad. Es la proporción de varianza de una variable o ítem que queda