Tema 5

TEMA 5.
TEST PSICOLÓGICOS, CRITERIOS DE CALIDAD Y ÉTICOS POR FERNANDO LINO– COMISION DE PSICOLOGÍA 2017-18
TEMA 5. Criterios de calidad y éticos; test psicológicos
*Este tema es la unión de los originales temas 3 y 6; intentó juntarlos porque se entienden mejor
que por separado, dándole una orientación más práctica e interesante.
¿A qué asociáis la palabra test?
Un test es un instrumento estandarizado y tipificado que compara conducta de dos o más

personas. Un test estandarizado es aquel diseñado para su uso de una manera uniforme; pase
quien pase el test van a dar los mismos resultados. En cambio, un test tipificado es aquel en el
que las puntuaciones obtenida se pueden transformar con el fin de compararlas con el resto de
la población (es decir un determinado grupo de sujetos).
De alguna manera este tipo de instrumentos se han centrado en el ámbito manipulativo,

manipular una unidad concreta.
Características
Se mide algo subyacente: un constructo
Material, instrucciones, modos de aplicación e interpretación estandarizados.
El resultado obtenido es independiente del profesional que realiza la evaluación, esta es la

consecuencia de la estandarización.
El resultado se expresa de forma numérica.
La interpretación de la puntuación obtenida se basa en la comparación con la de un grupo que

se establece como normal -> debido a que es una puntuación transformada.
Recogen una muestra de comportamientos (conductuales, cognitivos o biológicos)

representativa de un rasgo o constructo subyacente.
Elicitan la conducta verbal, escrita u oral, o la ejecución manipulativa, que se representa como
rasgos de lo que son.
Pueden proporcionar al evaluador datos válidos para emitir un juicio sobre la presencia de un
síntoma y sobre el nivel de alteración de forma más objetiva cuantificable y fiable.
pág. 33
TEMA 5. TEST PSICOLÓGICOS, CRITERIOS DE CALIDAD Y ÉTICOS POR FERNANDO LINO– COMISION DE PSICOLOGÍA 2017-18
 tengo un niño con hiperactividad, en primer lugar con un test (test WISC) tengo que ver
si no es un retraso mental, ya que suelen ser similares.
Facilitan el diagnóstico diferencial, aunque ningún test puede realizar un diagnóstico, sólo
precisarlo. El diagnóstico sería competencia de un experto, sólo un profesional realiza
diagnóstico.
¿Cómo construiríais un test?
Crítica hacia tests psicométricos: es más complejo que en un cuestionario. Muchos tests
psicométricos pueden quedarse obsoletos durante muchos años porque el proceso de
actualización es largo y tedioso.
Además, muchas propiedades psicométricas carecen de adaptación cultural, por lo que en

ocasiones se termina aplicando una simple traducción del test sin tener en cuenta las
diferencias culturales.
Los pasos para la elaboración de un test son los siguientes:
1. Identificación objetivo: ¿para qué queremos el test?
Es imprescindible determinar cuál será la función de nuestro test, por ejemplo, podemos crear
un test que nos ayude a predecir o a clasificar conductas o que nos ayude a precisar un
diagnóstico. Además, también debemos seleccionar el contexto de utilización, que sería
decidir a qué población va dirigido. En esta fase también es necesario establecer la duración de
la prueba, aunque esto muchas veces va a determinado por la población (no se deben aplicar
test largos a niños). Otro aspecto importante es elegir si el test se realiza de forma individual o
colectiva, porque muchas veces se cometen errores por aplicar un determinado test en un
contexto erróneo
2. Definición del constructo
Selección de la teoría en la que se basa la investigación, definición de constructos, y de los

comportamientos indicadores del constructo: hipótesis teórica que quiero evaluar.
3. Diseño del test
Elaboración de la tabla de especificaciones (estructura test e ítems)
pág. 34
 toma de decisiones sobre cómo se van a agrupar los diferentes indicadores (cognitivos,
afectivos…), cómo se relacionan entre ellos, el número de ítems previsto, tipo y número
de alternativas de respuesta para los ítems...
Primero mirar la estructura global y después de cada uno de los ítems.
4. Redacción de los ítems
Elaborar los ítems para los indicadores previstos del constructo.
Formatos de respuesta elegida: elección múltiple, V o F…
Formatos de respuesta construida: terminación de frases, respuesta breve…
Evitar: términos ambiguos, enunciados confusos, frases gramaticalmente complejas…
-> Cuestión más bien técnica
5. Análisis de los ítems
Debemos realizar dos análisis.
 Índices de dificultad: se refiere al porcentaje (proporción) de personas que contestan

correctamente.
25% fáciles
50% medios
25% difíciles
 Índices de discriminación: se refiere al grado en que un ítem discrimina entre los que
más y menos saben.
 Ejemplo: análisis de reactivos

Reactivo S (20) M (20) I (20) dificultad Discriminación
(S+M+I) (S-I)
1 15 9 7 31 8
2 20 20 16 56* 4
3 19 18 9 46 10
4 10 11 16 37 -6*
.
.
75
Los que tienen asterisco tienen o mal índice de dificultad o desiscriminación. No son ítems
correctos o buenos.
pág. 35
6. Análisis de fiabilidad y validez
La fiabilidad se entiende como la cualidad que tiene una medida tal que, cuando se repite la
medición, no se producen cambios. Es la precisión con la que mide la prueba. En cambio, la
validez se refiere a si el test mide el constructo o rasgo que se pretende medir → si mido
introversión realmente la mido, y no otra cosa.
 Índices de fiabilidad:
o Fiabilidad como consistencia interna: el más utilizado es el alfa de Cronbach. En
tests dicotómicos se suelen utilizar los coeficientes de Kuder y Richardson.
o Estabilidad temporal: se suele aplicar el test-retest
o Objetividad del registro: se refiere a situaciones en las que hay dos
observadores. En tests dicotómicos se utiliza el coeficiente de Kappa y en los de
respuesta múltiple el coeficiente de concordancia.
Criterio calidad Concepto Cálculo

Fiabilidad (precisión con la que Consistencia interna Coeficiente alfa de Cronbach;
mide la prueba) coeficientes de Kuder y
Richardson
Fiabilidad (precisión con la que Estabilidad temporal Test- retest
mide la prueba)
Fiabilidad (precisión con la que Objetivo del registro Coeficiente de Kappa;
mide la prueba) coeficiente de concordancia
Fiabilidad (precisión con la que Fiabilidad alta: >= .90 Fiabilidad alta >= .90
mide la prueba) Fiabilidad moderada:. .75 a .90 Fiabilidad moderada. .75 a .90
Fiabilidad baja: <.65 Fiabilidad baja: <.65
*Consistencia interna muy importante
 Índices de validez:
o Validez de contenido: se calcula mediante el juicio de expertos, esto significa
que calculamos la correlación con otras medidas de la misma variable.
o Validez del criterio.
o Concurrente: Correlación entre test y criterio.
o Sensibilidad/Especificidad: coeficientes de sensibilidad y especificidad. Con ellos
se calcula el punto de corte, es decir, la puntuación mínima que debe obtener
un sujeto que presenta la condición que queremos medir. Así, la sensibilidad se
refiere a la probabilidad de que la prueba dé positiva si el rasgo o constructo
está presente. Cuando un sujeto llega al punto de corte en un test con
sensibilidad alta, es muy probable que el sujeto realice conductas relacionada
con el constructo que quieres medir. En cambio, el coeficiente de especificidad
pág. 36
es la probabilidad de que la prueba dé negativa si el rasgo está ausente. Los

mejores test tienen un grado de especificidad y de sensibilidad similar.
Un coeficiente de especificidad o sensibilidad alto sería aquel mayor o igual a .90, el moderado
estaría entre .75 y .90 y el bajo sería menor que .65.
o Predictiva: correlación con el criterio

o Validez del constructo.
o Convergente/Discriminante: correlaciones con medidas similares y diferentes
respectivamente. Para conocer la validez convergente se calcula la correlación
de nuestro test con otros instrumentos de medida que estudian el mismo
constructo. En cambio, en la discriminante se calcula la correlación entre test
que miden rasgos diferentes. En este caso, el coeficiente de correlación debería
ser muy bajo, pero, OJO, no negativo.
Criterios calidad Concepto Cálculo

Validez Contenido Juicio de expertos; correlaciones
con otras medidas de la misma
variable
Validez Criterio
Validez Concurrente Correlación entre el test y un
criterio: al mismo tiempo
Validez Sensabilidad/especifidad Sensibilidad: Diferenciar en
poblaciones personas que
puedan tener un problema
determinado
Especificidad: esa persona no va
a tener el problema
Son dos caras de una misma
moneda
Validez Predictiva Correlación en el criterio:
pasamos el test en un momento
determinado y espero hasta el
final de curso para ver las notas
y correlaciono
Validez Constructo
Validez Convergente/divergente Correlaciones con medidas
similares y diferente
Validez Análisis factorial
*Lo que está en subrayado es la clase y lo que está en cursiva subclase.
Criterio: ·Concurrente ·Sensibilidad/Especifidad ·Predictiva

Constructo: ·Convergente/divergente
pág. 37
Cargas factoriales de los ítems del EPQR-A en neuroticismo (análisis exploratorio)
Ítem Neuroticismo
¿Tiene con frecuencia subidas y bajadas de su estado de ánimo? (1) .72
¿Se siente con frecuencia harto/a (hasta la coronilla)? (9) .60
¿Se considera una persona nerviosa? (11) .72
¿Es usted una persona demasiado preocupada? (14) .67
¿Sufre usted de los nervios? (18) .68
¿Se siente muy solo/a con frecuencia? (21) .62
Análisis exploratorio: tratas de buscar los factores y agrupar los ítems en esos factores.
Validez divergente y convergente: ejemplos
En la subescala de Neuroticismo, se hallaron correlaciones inversas y significativas con la

autoeficacia (r = -0,35, p < 0,001) y con los contactos sociales agradables (r = -0,22, p < 0,001).
Por otra parte, se hallaron correlaciones directas y significativas con la sintomatología
depresiva (r = 0,59, p < 0,001) y con los pensamientos negativos (r = 0,53, p < 0,001).
7. NORMAS DE INTERPRETACIÓN
Interpretación referida a normas y a criterios

La interpretación referida al criterio: analiza el desempeño con relación a estándares
previamente establecidos en una habilidad o porque se ha pasado el límite posible. Es
importante destacar que el uso de normas implica aportar información sobre el desempeño.
Puntuaciones referidas a la norma: se compara la ejecución de un sujeto con su grupo

normativo y la puntuación obtenida por el sujeto indica su posición con respecto al grupo
referido.
1. Puntuación percentil: el porcentaje (%) de sujetos del grupo que queda por debajo de
la puntuación obtenida por un sujeto.
2. Puntuación cronológica: relación que guarda la puntuación que obtiene un sujeto en un
test en función de la edad cronológica: edad y coeficiente intelectual.
3. Puntuación típica: distancia que separa al sujeto de la media del grupo normativo en
unidades de desviación típica.
pág. 38
Otras aproximaciones
 Construcción racional: los ítems se construyen en base a las relaciones lógicas o

racionales en el constructo que se desea medir.
 Construcción empírica: se pueden incluir otros ítems cuyo contenido no tenga relación
obvia con una dimensión que se está midiendo.
 Construcción analítico-factorial: se caracteriza por el énfasis en la estructura interna
final del test. Se analiza factorialmente una gran población de ítems, generalmente
obtenido de diferentes test, para determinar las dimensiones básicas que subyacen al
conjunto de ítems.
LA TEORÍA DE RESPUESTA AL ÍTEM (TRI)
Mantiene que la respuesta a cada ítem está lo esencial de la respuesta, ya que cada sujeto
contesta de una manera diferente a cada uno de ellos.
La TRI calcula la capacidad discriminativa de un ítem mediante diagramas de regresión, en donde
aparece la proporción de personas que contesta a cada ítem adecuadamente en cada nivel de
puntuación total.
Se puede apreciar cómo cada ítem tiene distinta discriminación entre unos sujetos que poseen
la misma puntuación total.
GARANTÍA DE LOS DATOS RECOGIDOS
De puntuaciones: capacidad de que se obtengan los mismos valores por diversos autores,
usando el mismo instrumento.
De elementos: posibilidad de que cada uno de los elementos de una prueba y su conjunto
cubran y den cuenta por completo del constructo a evaluar.
De tiempo: posibilidad de que puntuaciones obtenidas al respecto de un sujeto en un momento

dado sean medidas válidas en otro momento de su vida.
De situaciones: capacidad de una prueba para obtener sus puntuaciones cuando es aplicada a
diferentes contextos (generalización).
De método: generalizar las puntuaciones obtenidas a través de dos o más métodos diferentes.
pág. 39
De dimensiones: generalizar aquellas puntuaciones que se han obtenido mediante el análisis de

un determinado constructo, de forma que sirvan también para apreciar otro distinto.
CLASIFICACIÓN DE LOS TESTS
Test de rendimiento máximo

Su objetivo es recoger los niveles más altos de rendimiento de una persona, exigen a la persona
que rinda al máximo de sus posibilidades. Dentro de éste, encontramos el test de inteligencia o
aptitudes, dónde hay dos diferentes: de potencia y de velocidad.
Potencia: los ítems aumentan de dificultad progresivamente, determinado así el nivel

máximo de ejecución.
Velocidad: los ítems tienen una dificultad similar, pero tienen el hándicap de que deben
ser resueltos en un tiempo limitado.
Hay diferentes test de este tipo: WPPSI - III, WISC- IV, WAISS- III y K- bit.
WPPSI III: sobre la inteligencia general según 6 subescalas (algunas de ellas son la verbal, la
manipulativa, la velocidad de procesamiento y el lenguaje) y 14 subtest. Están pensadas para
evaluar a los niños en la infancia (2,6 - 7,3 años).
WISC-IV: personas entre 6 y 16 años, basado en la inteligencia general, comprensión verbal,
razonamiento perceptivo, memoria de trabajo y velocidad (10 subtest principales y 5 optativos).
WAISS - III: personas entre 16 años y 94 años. Estudia la inteligencia general según dos
subescalas (verbal y manipulativa) y tres índices: comprensión verbal, organización perceptiva,
memoria de trabajo y velocidad de procesamiento.
K- BIT: personas de entre 4 a 90 años. Estudia la inteligencia general según dos subescalas
(verbal y no verbal).
Test de rendimiento típico
Su objetivo es recoger el modo habitual de comportarse de las personas.
Algunos ejemplos podrían ser los test de personalidad o algunos cuestionarios, inventarios o
escalas.
MMP1- 2- RF: tanto a adolescentes como a adultos. Sus 42 escalas sustantivas permiten una
evaluación eficiente y actualizada de las variables clínicamente relevantes en distintas áreas de
la personalidad y la psicopatología (ansiedad, miedos, obsesividad o depresión).
pág. 40
Inventario Clínico (Multiaxial de Millon) - MCMI - III: a partir de los 18 años. Cuenta con 4
índices que permiten evaluar la validez del protocolo y 24 escalas clínicas agrupadas de acuerdo
con el nivel de gravedad: por una parte, patrones clínicos de personalidad (esquizoide,
antisocial) y por la otra, síndromes clínicos (ansiedad, depresión o pensamiento psicótico).
ASPECTOS DEONTOLÓGICOS
Actuar siempre con independencia (artículo 4).

Confidencialidad: mantener bajo un estricto secreto profesional los datos del cliente
(artículo 8), aún después de la muerte (artículo 49).
No aprovecharse del propio beneficio de la información obtenida del cliente (artículo 11).
Al elaborar un informe usar palabras comprensibles y que no hieran a la sensibilidad del
cliente (artículo 12).
No firmar un informe que no sea el resultado verdadero de nuestro proceso de evaluación
(artículo 14).
No aceptar un caso si no se está suficientemente preparado para resolverlo (artículo 17).
La instrumentación y los procedimientos deben de ser los adecuados, con garantías
científicas y no dar acceso a los mismos a gente no capacitada. (artículo 18 y 19).
Precisar cómo la interacción con otros profesionales para llevar a cabo ha de realizarse
directamente o indicando al paciente con precisión lo que debe hacer (artículo 20).
Cerciorarse del uso correcto de los informes que se solicitan (artículo 24).
No evaluar a un menor sin avisar a sus padres o tutores legales (artículo 26).
Cerciorarse antes de indicar una evaluación que el cliente no está ya con otro profesional
(artículo 30).
pág. 41

Tema 5

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 5

Cargado por

Copyright:

Formatos disponibles

TEMA 5.

TEMA 5. Criterios de calidad y éticos; test psicológicos

¿A qué asociáis la palabra test?

Un test es un instrumento estandarizado y tipificado que compara conducta de dos o más

De alguna manera este tipo de instrumentos se han centrado en el ámbito manipulativo,

Material, instrucciones, modos de aplicación e interpretación estandarizados.

El resultado obtenido es independiente del profesional que realiza la evaluación, esta es la

El resultado se expresa de forma numérica.

La interpretación de la puntuación obtenida se basa en la comparación con la de un grupo que

Recogen una muestra de comportamientos (conductuales, cognitivos o biológicos)

¿Cómo construiríais un test?

Además, muchas propiedades psicométricas carecen de adaptación cultural, por lo que en

Los pasos para la elaboración de un test son los siguientes:

1. Identificación objetivo: ¿para qué queremos el test?

2. Definición del constructo

Selección de la teoría en la que se basa la investigación, definición de constructos, y de los

3. Diseño del test

Elaboración de la tabla de especificaciones (estructura test e ítems)

Primero mirar la estructura global y después de cada uno de los ítems.

4. Redacción de los ítems

Elaborar los ítems para los indicadores previstos del constructo.

Formatos de respuesta elegida: elección múltiple, V o F…

Formatos de respuesta construida: terminación de frases, respuesta breve…

Evitar: términos ambiguos, enunciados confusos, frases gramaticalmente complejas…

-> Cuestión más bien técnica

5. Análisis de los ítems

Debemos realizar dos análisis.

 Índices de dificultad: se refiere al porcentaje (proporción) de personas que contestan

 Ejemplo: análisis de reactivos

6. Análisis de fiabilidad y validez

Criterio calidad Concepto Cálculo

es la probabilidad de que la prueba dé negativa si el rasgo está ausente. Los

o Predictiva: correlación con el criterio

Criterios calidad Concepto Cálculo

Criterio: ·Concurrente ·Sensibilidad/Especifidad ·Predictiva

Cargas factoriales de los ítems del EPQR-A en neuroticismo (análisis exploratorio)

Validez divergente y convergente: ejemplos

En la subescala de Neuroticismo, se hallaron correlaciones inversas y significativas con la

Interpretación referida a normas y a criterios

Puntuaciones referidas a la norma: se compara la ejecución de un sujeto con su grupo

 Construcción racional: los ítems se construyen en base a las relaciones lógicas o

GARANTÍA DE LOS DATOS RECOGIDOS

De tiempo: posibilidad de que puntuaciones obtenidas al respecto de un sujeto en un momento

De dimensiones: generalizar aquellas puntuaciones que se han obtenido mediante el análisis de

CLASIFICACIÓN DE LOS TESTS

Test de rendimiento máximo

Potencia: los ítems aumentan de dificultad progresivamente, determinado así el nivel

Actuar siempre con independencia (artículo 4).

También podría gustarte