Bloque II. Capítulo 4. Instrumentos de Evaluación y Garantías de Calidad. María José Ramos

Bloque II. Capítulo 4.
INSTRUMENTOS de Evaluación y GARANTÍAS de

Calidad. UNED.
1. INTRUDUCCIÓN.
 Los instrumentos de Evaluación Psicológica:

 Son procedimientos y recursos que utiliza el psicólogo cuando evalúa.
 Constituyen las herramientas que el evaluador utiliza durante cada una de las “Fases” del
Proceso de Evaluación Psicológica (permiten obtener información).
Existen diferentes nomenglaturas para nombrarlos: técnica, prueba, test,… Existiendo diferencias
entre ellas.
Las técnicas pueden ser procedimientos cuantificables y Tipificados, o NO serlo.
 Las técnicas psicométricas son procedimientos cuantificados y tipificados, que disponen
de:
 Normas para aplicarlos,
 Baremos para su interpretación y permiten comparar a una persona con su grupo
de referencia.
Pruebas (otra forma de denominar a los instrumentos de evaluación, con independencia de
que estén o NO estandarizados).
 Ha sido habitual utilizarla como sinónimo de test, si bien difiere xque:
 Las pruebas de evaluación psicológica pueden ser tanto procedimientos tipificados
como No tipificados.
 Los test siempre deben estar tipificados.
 Las diferentes técnicas psicológicas se han ido generando desde los distintos modelos teóricos.
Estas técnicas se basan en:
 Los planteamientos teóricos de cada modelo.
 Los tipos y niveles de inferencia de las variables o dimensiones que evalúan, y
 Los métodos aplicados para construirlas.
 Los Modelos: Dinámico (q evalúa el mundo inconsciente del individuo) y Constructivista
(centrado en las construcciones subjetivas de las personas):
 Utilizan técnicas proyectivas y subjetivas.
 Se sirven de instrumentos que NO suelen estar tipificados.
 Los Modelos del Atributo o Cognitivo-Conductual:
 Utilizan técnicas psicométricas que disponen de baremos para situar a cada persona en
relación al grupo de referencia al que pertenece y con el que se compara (evalúa aspectos
cuantificables).
 ¿Qué técnica de Evaluación Psicológica es la mejor?

 Desde el punto de vista de los autores del manual, TODAS pueden serlo, teniendo presente que la
Evaluación Psicológica es un “proceso y (NO la aplicación de un único instrumento) q requiere
entrenamiento y un elevado grado de formación y experiencia sobre el “proceso” y los
“instrumentos” de evaluación.
 El psicólogo puede ser capaz de observar, detectar y diagnosticar problemas de una persona
incluso aplicando técnicas menos estructuradas (entrevista o técnicas proyectivas):
Siempre que se haya formado y sea un experto en su aplicación, corrección e interpretación.
Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 1

Bloque II. Capítulo 4. INSTRUMENTOS de Evaluación y GARANTÍAS de
Calidad. UNED.
 Aplicar técnicas como las psicométricas o de Observación sistemática:

 Requieren una profunda formación en las mismas, y
 Ofrecen información fiable y válida, ya que han incorporado grandes avances en consonancia
con los cambios sociales y tecnológicos del s. XXI:
Se han creado e incorporado a la Evaluación Psicológica:
 Test informatizados, con programas de aplicación desde el ordenador u otros dispositivos
y “software” que no necesitan conexión a internet, y
 Plataformas de corrección on line.
Esto requiere q el evaluador aprenda a:

 Administrar las pruebas de manera diferente a la de lápiz y papel.
 Corregirlas e interpretarlas ayudándose de los informes con perfiles gráficos de las
nuevas tecnologías.
Ventajas: Facilitan las tareas mecánicas a los psicólogos y evitan posibles errores de sumas o
de consulta correcta de los correspondiente baremos.
 En definitiva, todas las técnicas (cualitativas o No) resultarán eficaces durante el proceso de
evaluación siempre que el profesional q las administre tenga,
Un profundo conocimiento de la aplicación de la técnica, de su corrección e
interpretación.
 Además los diferentes objetivos y contextos (o ámbitos) de evaluación psicológica requieren de la
selección preferente de unas u otras técnicas.
2. LAS TÉCNICAS DE EVALUACIÓN PSICOLÓGICA.
Para la selección de las diferentes técnicas (entrevista, observación, psicométricas…) hay que tener en
cuenta:
1. Los objetivos de la Evaluación (diagnóstico, orientación, selección o intervención psicológica).
2. Los contextos en los que se vaya a realizar su aplicación, y
3. Finalmente las Fases del Proceso de Evaluación Psicológica.
A. La Entrevista:
 Técnica utilizada a lo largo de todo el “Proceso”.
 El tipo de entrevista es diferente:
 Según el contexto al q se aplique (clínico, educativo, recursos humanos, forense…)
 dependiendo del objetivo q se proponga (diagnóstico, orientación, selección o intervención)
 En las distintas fases del proceso de evaluación.
Así, la entrevista inicial en cualquiera de los ámbitos tiene una duración u contenidos distintos
de la utilizada para aplicar las pruebas de evaluación, en la entrega de resultados, durante la
intervención o durante el seguimiento del un caso.
B. La Observación:
 Técnica de evaluación que:
 Establece diferentes tipos de registros según se quiera realizar una Auto o una Hetero-
observación.
 En las primeras fases del proceso de evaluación: se aplica de forma + asistemática.
 Se aplica con mayor grado de sistematicidad en fases + avanzadas del proceso.

Calidad. UNED.
C. Las Técnicas psicométricas:

 Son los test que están estandarizados y disponen de baremos.
 Se identifican con los test: cuestionarios, inventarios y escalas que están estandarizadas
(también son técnicas psicométricas).
 Se suelen aplicar durante el proceso de evaluación, a continuación de la Entrevista y la
Observación.
D. Técnicas Proyectivas:
 Se les añade el término “test”: Test de Rorschach, Test del dibujo de la Familia, Test de
Apercepción Temática (TAT)…, aunque
 En realidad NO son test si no están estandarizados y no disponen de baremos
psicométricamente establecidos.
 No obstante algunas, aún siendo proyectivas, sí disponen de estándares. Ejemplos en las q las
pruebas permiten realizar una interpretación cuantitativa y también cualitativa con criterios
bien establecidos:
Test del Dibujo de 2 Figuras Humanas (T2F; Maganto y Garaigordobil, 2009):

 Se identifica como un “test” proyectivo” xque incorpora metodología cuantitativa y
psicométrica (además de la cualitativa).
 Ofrece diferentes baremos para niños y niñas de diferentes edades, lo cual facilita
transformar las puntuaciones directas en percentiles.
 Dispone de Normas de aplicación, corrección e interpretación bien definidas.
Test de los Cuentos de Hadas (FTT: Coalacoglou, 1995):

 Además de Normas de aplicación y corrección, incluye baremos para transformar las
puntuaciones directas a puntuaciones T.
E. Técnicas Subjetivas:
 Evalúan significados personales sobre la persona y su mundo valiéndose del uso de categorías del
lenguaje para realizar atribución y/o auto-atribución subjetiva de significado.
 Se han desarrollado pruebas con mayor o menor grado de estructuración de los datos:
listados de adjetivos, la técnica Q, la técnica de rejilla, el diferencial semántico, o los métodos
hermenéuticos y narrativos.
 Incluso se han creado programas informatizados para su corrección e interpretación (no solo
cualitativo) sino también cuantitativa.
 (Aunque en su mayoría no pueden considerarse test xque no disponen de baremos), existen
algunas pruebas subjetivas que sí se consideran test psicométricos:
 Están enmarcados dentro de la categoría de “listados de adjetivos” que disponen de:
 Normas de Corrección y aplicación.
 Apropiadas cualidades psicométricas y de baremos para poder interpretar las puntuaciones.
Por ejemplo, las pruebas como:
La escala de Satisfacción Familiar por Adjetivos (ESFA) de Barraca y López-Yarto (1997,
2017),
El Inventario de Adjetivos para la Evaluación de los Trastornos de Personalidad (IA-TP)
de Tous, Pont y Muiños (2005-2009).

Calidad. UNED.
El Listado de Adjetivos para la Evaluación del auto-concepto (LAEA) de Garaigodobil

(2001).
 En el proceso de Evaluación, las técnicas subjetivas (en su conjunto) son especialmente útiles
cuando el psicólogo las conoce en profundidad y su objetivo es utilizarlas (además de para evaluar)
durante la intervención psicoterapéutica.
F. Técnicas Objetivas:
 Utilizan aparatos que permiten registrar y analizar variables cognitivas, motoras y
psicofisiológicas sin que el sujeto pueda controlarlas, ni el evaluador pueda intervenir en los
resultados.
 En el caso de considerar utilizarlas en el proceso de Evaluación (dada la complejidad de aplicación
a todos los niveles),
 Se aplicarían en fases + avanzadas ya que son + objetivas.
También se pueden llamar “autoinformes” a técnicas como la entrevista, los autorregistros de

observación, los test, los cuestionarios, las escalas o inventarios, los listados de adjetivos…
Fernández-Ballesteros (2011) define el autoinforme como: “mensaje verbal q emite un sujeto
sobre cualquier tipo de manifestación propia (interna y externa) y tanto objetiva como subjetiva”.
Se consideran la + amplia categoría metódica en Evaluación Psicológica.
Se pueden emplear desde todas las corrientes psicológicas, incluidas:
 la Fenomenológica,
 la Constructivista y la Psicodinámica, en las que es especialmente importante la
evaluación de los mensajes orales de las personas.
Los instrumentos de evaluación psicológica son distintos en función de los modelos de evaluación
de los que deriven. En general:
 Los psicólogos formados en corrientes + humanistas o constructivistas: usan técnicas subjetivas.
 Desde la vertiente psicodinámica: aplican técnicas proyectivas.
 Los conductistas y cognitivo-conductuales aplican mayoritariamente técnicas psicométricas y
objetivas.
Estas diferencias van siendo cada vez menos radicales, pues desde una perspectiva ecléctica
(*tomar conceptos o puntos de vista compatibles de las diferentes escuelas y mezclarlos para formar
una síntesis propia y coherente):
 La combinación de distintos tipos de técnicas (o instrumentos) sirve para ofrecer una visión +
holística y completa de la persona evaluada, ya que integra:
 lo que responde la persona en un test,
 y además se conoce el significado personal de sí misma y de su entorno,
 o de su estructura de personalidad menos consciente.
Cada técnica no está exenta de críticas o de sesgos, por lo cual es importante que los evaluadores se
formen y adquieran competencias adecuadas para la correcta evaluación. En este sentido diremos que:
 El “instrumento” de evaluación + importante es “el propio evaluador o psicólogo”, ya que
evaluar es una responsabilidad con uno mismo y con los demás.

Calidad. UNED.
Y el denominador común de todos los ámbitos (áreas) o contextos de aplicación donde se ha

introducido la Psicología (clínico, de la salud, jurídico, educativo, intervención social…) es que el
psicólogo siempre trabaja con “personas”.
3. ¿QUÉ ASPECTOS GENERALES SE DEBEN TENER EN CUENTA PARA ELEGIR UN INSTRUMENTO

DE EVALUACIÓN PSICOLÓGICA?
 Previo a la evaluación, lo 1º que el psicólogo debe conocer es el objetivo de la misma:
 qué variables, constructos o dimensiones quiere evaluar.
 a quién: elegir entre los instrumentos adecuados a la edad y a las características de la persona.
 La fase del proceso de evaluación: determina la elección de pruebas + generales o + específicas.
 El contexto donde se realiza la evaluación (clínico, educativo, laboral, jurídico…) q determina
también la selección de los instrumentos, tiempo de aplicación q requieren, tipo de administración
(individual o colectiva) y los formatos de presentación de la prueba.
 También se ha de tener en cuenta:
 el mayor o menor grado de estructuración de sus ítems (o estímulos) y el tipo de
respuestas y el grado de enmascaramiento de determinadas pruebas.
 y conocer las garantías de calidad de los instrumentos.
En todos los casos, es imprescindible que el evaluador tenga los conocimientos y formación necesarios
para administrar las pruebas, corregirlas e interpretarlas.
Incluso, en muchos manuales recomiendan q se realicen prácticas supervisadas sobre la
administración de los distintos instrumentos de evaluación.
Para ello, el APA ha realizado una clasificación estableciendo unas Normas sobre el uso de los
test, que asume el Consejo General de la Psicología de España.
 a su vez utilizan las editoriales para clasificar los instrumentos de evaluación
psicológica en 3 niveles (según el nivel profesional requerido para adquirirlas y aplicarlas):
a) Nivel a: Formación y experiencia en el ámbito concreto de aplicación y a través de
pruebas que se puedan administrar, corregir e interpretar sólo con la ayuda del manual.
b) Nivel b: Conocimiento sobre la Tª de los Test y métodos estadísticos, garantizado
por la correspondiente titulación académica. Requieren conocimientos estadísticos
sobre:
 la construcción y uso de los test,
 diferencias individuales, personalidad y otros aspectos psicológicos.
c) Nivel c: Titulados Superiores en Psicología, Psiquiatría o Psicopedagogía y con
experiencia profesional en diagnóstico clínico.
 Se requiere mayor preparación y amplia práctica sobre la aplicación de los test y técnicas como las
subjetivas, proyectivas o determinadas pruebas psicométricas muy complejas.
La formación, conocimientos, práctica y experiencia son imprescindibles para la aplicación de instrumentos

de evaluación psicológica, por lo que la ética y la deontología han de guiar el proceso.
4. ¿CÓMO APLICAR CORRECTAMENTE LOS INSTRUMENTOS DE EVALUACIÓN PSICOLÓGICA?
Los instrumentos de evaluación psicológica disponen de Manuales que incluyen información sobre:
 Las Normas de Aplicación y sobre la realización de las buenas prácticas para garantizar la
validez de su administración y la correcta obtención de los resultados.

Calidad. UNED.
 Aspectos relacionados con las personas a quienes se les aplicarán (los test). Así explican la
importancia de:
a) Establecer un buen clima durante la aplicación, así como las mejores condiciones ambientales de
luz, temperatura, silencio y evitar interrupciones.
b) Explicar el objetivo de la evaluación y garantizar la confidencialidad de los resultados: se indica
que sólo se transmiten a la persona evaluada y/o a quienes se otorgue permiso.
c) Motivar a las personas para que pongan interés al realizar las pruebas y muestren veracidad en
sus respuestas.
d) En los casos de pruebas con tiempo limitado para responder, se debe indicar que se esfuercen
al máximo, pero sin que repercuta en q se sientan ansiosos.
e) Considerar la edad de la persona.
 Cuando se trate de niños: utilizar silla y mesa cómodas (que sentados puedan llegar con los
pies al suelo, y que la mesa les permita ver bien el material presentado, o escribir y dibujar
cómodamente).
Conviene disponer siempre de juegos (x si se precisan un tiempo).
f) Si la persona evaluada tiene alguna deficiencia sensorial o discapacidad: el evaluador debe
adaptarse a sus necesidades específicas.
g) Los materiales han de prepararse con anterioridad (antes de comenzar la evaluación) colocándolos
estratégicamente en la mesa para que el evaluado no vea el cuadernillo de anotación, ni donde se
indican las respuestas correctas de cada ítem.
En general, para evitar las fuentes de error del evaluador y del evaluado:
El evaluador:
 Siempre ha de leer y estudiar el manual de la prueba que quiera aplicar,
 Preparar bien el lugar de aplicación, los materiales necesarios, y
 Seguir siempre las indicaciones exactas del manual (así siempre dará las mismas instrucciones
a todos lo evaluados).
 Garantizar (junto a la correcta aplicación) que el sujeto comprenda lo que se le pide.
De esta forma se evita que el evaluador (x ejemplo) utilice otros modos de preguntas que no consten
en los manuales, y se evita en el evaluado la deseabilidad social en sus respuestas (entre otras).
4.1. Fuentes de Error de los Instrumentos de Evaluación Psicológica:

Las fuentes de error de los instrumentos se pueden deber a los siguientes factores:
 Los constructores del instrumento (autores) y/o adaptadores de los mismos;
 al evaluador y/o evaluado.
A. Los constructores del test (autores): Son 3 las posibles fuentes de error:
1) del propio contenido del test.
2) la inestabilidad de las puntuaciones a lo largo del tiempo.
3) las diferencias en la aplicación o corrección por un mismo evaluador en 2 momentos temporales
diferentes, o por distintos evaluadores en un mismo momento temporal.
B. Respecto a la persona evaluada y al propio evaluador:
 El evaluador tiene la responsabilidad de estar pendiente de que NO influya en los resultados de
la evaluación el cansancio, el nerviosismo, el nivel atencional… de la persona evaluada, ni del
evaluador.
Así, en la evaluación infantil y en personas mayores hay q considerar:
 No realizar la evaluación a últimas horas del día,
Calidad. UNED.
 Seleccionar bien las pruebas en cada sesión: empezar aplicando las + fáciles o
divertidas (motiva a q acuda el próximo día).
En cuanto al evaluador (además de saber aplicar una prueba, corregirla e interpretarla) es
importante que se preste atención a sí mismo, a cómo se está trabajando, al estado físico y
emocional propio. Por lo q se recomienda dedicar unos minutos al descanso entre cada
evaluación.
 Mostrar una actitud serena, empática y calmada beneficiará todo el proceso de
Evaluación Psicológica; para ello es necesario:
 preparar previamente la sala y los materiales, y además
 prepararse a uno mismo para estar centrado y atento.
El hecho de que el psicólogo se muestre tranquilo, y no muestre nerviosismo ante los sujetos
que evalúa: repercute positivamente en las respuestas y en los resultados, evitando sesgos.
El cuerpo, palabra y mente en calma, facilitan nuestra labor profesional.

En los distintos objetivos de la evaluación (diagnóstico, selección o intervención) siempre hay
presentes con nosotros una o varias “personas”, así:
 Nuestro cuerpo (expresión corporal) facilita la comunicación con el otro/s.
 Nuestra palabra (expresión oral) debe ser correcta: la indicada por los manuales para
aplicar el test, o usar las palabras + ecuánimes para pedir la información al evaluado.
 Nuestra mente en calma (equilibrio emocional) se puede conseguir practicando por
ejemplo, unos minutos de meditación o “mindfulness”.
5. ¿QUÉ CONOCIMIENTOS SE DEBEN TENER PARA CORREGIR E INTERPRETAR UN

INSTRUMENTO DE EVALUACIÓN PSICOLÓGICA?
Es necesario, una buena formación para aprender a corregir e interpretar las pruebas de evaluación. Para
ello debemos conocer:
1º, las variables que evalúa un instrumento y su interrelación con otros constructos.
Los modelos que han guiado la construcción del instrumento seleccionado, sus contenidos.
Lo que mide un test, la población a la q va dirigido, su forma de aplicación y el contexto.
Las puntuaciones y corrección, y los criterios de calidad de los instrumentos de evaluación.
5.1. Conocer las variables q evalúa un instrumento y su interrelación con otros constructos:
En la asignatura de “Evaluación Psicológica” se ponen en marcha los aprendizajes de todas las materias
del Plan de Estudios sobre Psicología (q están interrelacionados entre sí). Ya que,
Para poder evaluar cualquier constructo (o variable) hay que conocer las principales características de
dicha variable. Por ejemplo,
 Para elegir un instrumento que mida la depresión: necesitamos saber los signos y síntomas q la
caracterizan.
 Si evaluamos la Personalidad: necesitamos conocer los aspectos descriptivos y clínicos de la
misma y lo que significan las diferentes dimensiones de la personalidad que se evalúan desde los
distintos modelos.

Calidad. UNED.
 Desde el modelo de Eysenck se evalúan 2 grandes Factores bipolares (Extraversión-

Introversión y Neuroticismo-Estabilidad).
 Desde el modelo de los 5 Factores: los test evalúan Afabilidad, Tesón, Energía, Estabilidad
Emocional y Apertura Mental.
En ambos casos, necesitamos conocer el significado de cada variable evaluada para poder
realizar una interpretación y explicación sobre los sujetos evaluados.
 Para evaluar el Desarrollo o la Inteligencia debemos:

 Conocer los procesos evolutivos en las diferentes etapas del ciclo vital (desde la infancia
hasta la vejez) para poder interpretar los resultados.
 Estudiar, de forma pormenorizada, el desarrollo cognitivo, psicomotor, lingüístico,
procesos de memoria, de velocidad de procesamiento de la información, y todas las
aptitudes q intervienen en los aprendizajes.
 Considerar q los distintos constructos NO se pueden entender por separado.

 No se puede separar la personalidad de las aptitudes intelectuales cuando queramos
interpretar un instrumento de evaluación.
 Por ejemplo, la motivación tiene una importante función en el aprendizaje escolar; al
igual q el auto-concepto o autoestima, y la atención que se presta al realizar una tarea.
Anastasi y Urbina (1998) indican que NO se pueden estudiar las aptitudes de forma independiente de las
variables afectivas.
5.2. Conocer los modelos que han guiado la construcción de los instrumentos:
Para una correcta y + amplia interpretación de la prueba es necesario:

 (Además de conocer las variables evaluadas y su interpretación con otros constructos),
 Conocer las bases conceptuales que han guiado la construcción del test, en relación a:
 la dimensión (o constructo) que mide y
 los aspectos psicométricos de su construcción.
Por ejemplo siguiendo con el ejemplo de los Test del Desarrollo y de la Inteligencia:
Muchos test han sido creados o adaptados desde el modelo CHC de Cattell-Hoin-Carroll.
La Información sobre los teóricos de la pruebas facilita su interpretación al conocer (en este caso
concreto) la estructura jerárquica subyacente del modelo.
 Por otro lado, es importante informarse a través de los Manuales sobre las bases psicométricas
que han guiado la creación o revisión de los test.
 Conocer estos aspectos, permite interpretar mejor las puntuaciones q se obtienen en cada instrumento,
lo cual ayuda a realizar una interpretación de los resultados correcta y fiable.
 Una vez que entendamos el modelo teórico sobre la construcción de las pruebas, comprenderemos
mejor la información q nos ofrece cada una de ellas.

Calidad. UNED.
5.3. Conocer lo que mide un test, la población y el contexto de aplicación:
En cuanto a saber lo que mide un test:

Debemos saber qué mide cada prueba, cómo lo mide, la edad de aplicación, los contenidos, el contexto de
aplicación, cómo se calculan las puntuaciones y se interpretan y las fortalezas y debilidades de cada
instrumento.
Ejemplo.- Queremos evaluar a un niño de entre 2:6 años y 3:11.

 Deseamos conocer su Índice de Aptitud Intelectual Gral (g), y además,
 Queremos información + precisa sobre la formación de conceptos y razonamiento verbal del niño,
y el BAS-II para este rango de edad sólo dispone del IG (Índice General), por lo que necesitamos
conocer qué otras pruebas se pueden aplicar para obtener esta información. Así encontramos que:
o Dentro de las Escalas de Wechsler (cap. 12) podemos elegir el WPPSI-IV (que dispone para
dicho rango de edad, de la puntuación CI Total, equivalente al índice General g, y permite el
cálculo de otros índices: compresión verbal y Visoespacial) para conocer el conocimiento
verbal adquirido, la formación de conceptos verbales, la formación de conceptos
verbales y el razonamiento verbal.
Toda esta información (y +) está contenida en los manuales de pruebas clasificadas en el nivel de
formación “c”, los cuales (a veces) incluyen 2 manuales:
1. Un manual de aplicación y Corrección, y
2. El Manual técnico: donde se detallan aspectos de lo que mide cada índice y sobre la comparación
de las puntuaciones para realizar una correcta interpretación.
En cuanto a la población y el contexto de aplicación de los instrumentos de evaluación:

 Debemos saber que aunque las Escalas de Wechsler se pueden aplicar en el contexto clínico,
neuropsicológico y educativo,
 El WPP-IV y WISC-V se aplican en el contexto educativo (evalúan niños y adolescentes)
 El WAIS-IV (q se aplica desde los 16:00 hasta los 89:11 años de edad) se considera una medida
de la inteligencia del adulto y se administra en el contexto clínico.
 Pruebas como el BAT-7 (evalúa ente los 12 y 60 años de edad) es muy adecuado en el ámbito
laboral (aunque también se emplea en el educativo), ya que mide la capacidad General (o factor “g”).
 Se utiliza para procesos de selección de personal junto a otros test de personalidad o entrevistas
estructurales.
 El test de MATRICES se utiliza para evaluar personas con problemas de lenguaje o que no
dominan el español:
Que con el mínimo contenido verbal posible evalúa la Inteligencia general (o factor “g”), a través de
estímulos NO verbales:
 Permite evaluar la capacidad para resolver problemas complejos y razonar con contenido
abstracto, aspectos necesarios para el aprendizaje y rendimiento escolar o laboral relacionadas
con el factor Gf (o de inteligencia fluida)
 No mide la Gc (Inteligencia cristalizada).

Calidad. UNED.
5.4. Conocer la forma de puntuación, corrección e interpretación de un test:

Resumen del proceso que debe seguirse en la puntuación y coirrección de los test principales:
1. Se aplican los test principales siguiendo las instrucciones del Manual.
2. En el cuadernillo de anotación se incluyen y puntúan los aciertos y fallos a cada ítem.
3. La suma de las respuestas correctas en cada test son las Puntuaciones Directas (PD) de los mismos.
En el mismo cuadernillo están incluidas unas Tablas que permiten conocer la “Puntuación del
constructo objeto de la evaluación”, por ej., Aptitud”, (PA) correspondiente a cada PD de cada test.
Esta conversión de PD a PA es una novedad relacionada con la TRI.
4. Las PA de los test principales (por ejemplo del BAS-II) se traspasan a la página de resumen y se
convierten en puntuaciones normativas T y percentiles (consultando los baremos corresp. por ej. a
la edad si se trata de un niño).
Sabemos q las puntuaciones normativas nos permiten conocer la situación del sujeto en
relación a su grupo de referencia (o normativo) en la variable evaluada.
5. A continuación, se vuelven a anotar las puntuaciones T en las columnas pertenecientes a los índices
específicos de la variable evaluada (ej. aptitud intelectual Verbal, Razonamiento no verbal...) y se
suman para obtener “puntuaciones compuestas” que
se transforman en puntuaciones, por ejemplo CI (consultando los baremos corresp.) y representan
todos los índices generales.
6. La suma de las puntuaciones T de los diferentes índices da como resultado las puntuaciones T del
índice + general, que así mismo se transforma (consultando los baremos) en la puntuación de la
variable o constructo q estamos evaluando (por ejemplo CI de 91), q es el un nivel de interpretación +
general.
Los test clasificados en un nivel “c” (por ejemplo el BAS-II) o incluso en el “b” (ej. El BAT-7)
requieren una formación específica, entrenamiento, ensayos y supervisión de psicólogos expertos
en la misma.
5.5. Conocer las puntuaciones y los criterios de calidad de los instrumentos de evaluación:
Otro criterio para seleccionar un instrumento de evaluación es conocer las puntuaciones que se pueden
obtener, así como sus criterios de calidad o propiedades psicométricas.
 Las puntuaciones y criterios de calidad se describen en los manuales de los “test
psicométricos”.
 Son difíciles de aplicar en otras técnicas como por ej. las proyectivas (xq poseen
características diferentes), pero se les puede hacer un análisis de consistencia interna y de
validez interjueces y/o conurrente junto a otros tipos de técnicas de evaluación (ej.
Psicométricas)
 Se han establecido normas o estandarización de las formas de aplicar dichos test y recoger
las respuestas.
 La aplicación conjunta de técnicas psicométricas y proyectivas pueden ofrecer una riqueza
extraordinaria a la hora de la evaluación psicológica. Pero para ello es necesario conocerlas en
profundidad.
 En la infancia, el dibujo es una forma de expresión de cómo el niño capta su realidad, su familia, sus
miedos... Así pues, se utilizan técnicas proyectivas como:
 El test de la figura humana q evalúa el desarrollo madurativo y emocional del niño y se ha
introducido en escalas como las de McCarthy

Calidad. UNED.
 El Test del Dibujo de dos figuras humanas (T2F), que dispone de normas estandarizadas de
aplicación, corrección e interpretación y ha demostrado, a través de estudios de fiabilidad y
validez, la capacidad diagnóstica de las mismas.
6. LAS PUNTUACIONES EN LOS INSTRUMENTOS DE EVALUACIÓN PSICOLÓGICA.
6.1. Interpretación de las puntuaciones en los test psicológicos:

Lo primero que el evaluador obtiene cuando realiza un test:
es una puntuación directa o bruta (Xi o PD):
 Es un valor o número que resume la ejecución de la persona en el test y
 Se obtiene siguiendo las instrucciones que se indican en el manual.
 No contiene ningún significado por sí misma (Por ejemplo, una puntuación directa alta en un
test de aptitud puede ser un resultado favorable, y en un test que evalúe un rasgo psicopatológico
puede ser desfavorable).
Algunos test de inteligencia basados en los modelos de Teoría de Respuesta al Ítem (como el BAS-II),:
 además de puntuaciones directas, incluyen Puntuaciones de Aptitud (PA) que indican el nivel puro
de rendimiento en el test.
 Así,las puntuaciones directas (q no pueden ser comparadas entre sí ni sirven para consultar las
tablas de baremos) deben convertirse en Puntuaciones de Aptitud que:
 se basan en la dificultad de los ítems intentados y en el número de respuestas correctas y
 se obtienen a partir del modelo de Rasch.
 No constituyen puntuaciones normativas y las cifras que se emplean son arbitrarias
(representan una escala común sobre la que expresar el rendimiento del niño a partir de los ítems
que se le han aplicado).
Para poder interpretar la puntuación directa en el test (o la puntuación de aptitud, si la tiene) debemos
referirla, o a los contenidos incluidos en el test, o al rendimiento de las restantes personas que
comparten el grupo normativo.
Así, se distinguen dos fuentes de información en las que los test se apoyan para dar significado a
la puntuación obtenida por el sujeto:
1. Los criterios de rendimiento (en el caso de los Test Referidos al Criterio)
2. Los baremos (en los Test Referidos a la Norma).
6.1.1. Criterios de rendimiento:
Algunas veces, existe una relación establecida entre los ítems del test y los estándares de
rendimiento en el mismo, con lo cual se dispone de unos criterios de rendimiento.
 la puntuación obtenida por un individuo en el test se evalúa mediante la interpretación referida a
un criterio.
 Este tipo de puntuación nos informa acerca del dominio que tiene el sujeto en una habilidad
particular.

Calidad. UNED.
Las pruebas referidas a criterio:

 son adecuadas para:
 Evaluar los conocimientos que tiene un sujeto en un ámbito específico.
 Para saber la evolución del sujeto con relación a sí mismo (permite valorar si se han alcanzado
los niveles deseados y en caso afirmativo, en qué cuantía se han alcanzado esos niveles).
 Una de las principales aplicaciones de la evaluación referida al criterio es instruccional y se utiliza en
la evaluación educativa.
 En este caso la puntuación no necesita transformarse en otra puntuación debido a que tienen
sentido en sí mismas (si un sujeto acierta el 90% de las preguntas de un test significa que ha
adquirido el 90% de las competencias).
 En ciertas pruebas, para determinar puntos de corte o saber si poseen o no un trastorno psicológico.
 Ejemplos de test referidos al criterio son: Prueba de “screening” del Inventario de Desarrollo
Battelle - Beck Depression Inventory (BDI-II) - Beck Anxiety Inventory (BAI) - Guía de Educación de
Preescolar Portage. - Cuestionario compeTEA (permite la evaluación de determinadas
competencias en el ámbito laboral y proporciona una interpretación tanto normativa como
criterial).
6.1.2. Interpretación en función de baremos:

Los baremos constituyen el rendimiento o la conducta típica de uno o más grupos de referencia en el
test que estamos valorando. Así,
 la puntuación directa obtenida por un sujeto se interpreta en función de unos baremos
determinados (Interpretación normativa de las puntuaciones).
Los baremos: son tablas que recogen los resultados de asignar un valor numérico a cada
puntuación directa obtenida por un individuo;
Este valor permite comparar individuos entre sí, o con su grupo de referencia,ya que
 informa sobre la posición que ocupa la puntuación del individuo en relación con el resto del
grupo.
Para interpretar una puntuación referida a la norma: se transforma la puntuación directa en otra
puntuación que indique la posición que ocupa (respecto al grupo de referencia o normativo).
El proceso de baremación de un test: consiste en calcular una/s escala/s de valores que nos permiten
clasificar las puntuaciones obtenidas por un sujeto de acuerdo con algunas de sus características.
Formas de baremar un test: Baremos cronológicos, Puntuaciones centiles o percentiles, Baremos típicos.
A. Baremos cronológicos:
 Se utilizan en poblaciones infantiles y cuando se aplican test de inteligencia general.
 Ejemplos: (aunque Edad mental y cronológica están obsoletas y se han sustituido por CI de
desviación).
 Edad Mental (EM): puntuación media que obtiene en una prueba el conjunto de la población de
esta det. edad. El problema es que un año de edad mental no significa lo mismo a lo largo del
desarrollo, ya que la distancia que va de un año al siguiente disminuye con la edad.
 Cociente Intelectual (CI): cociente entre la edad mental y la edad cronológica multiplicada por 100,
elimina el problema sobre la EM (mencionado) al dividir la edad mental por la edad cronológica.

Calidad. UNED.
Ej.: Aplicamos un test de inteligencia de dificultad progresiva a diferentes grupos de niños de entre 4 y
16 años y las puntuaciones medias de cada grupo de edad son:
Edad 4 5 6 7 8 9 10 11 12 13 14 15 16
Puntuación media 16 18 19 21 24 25 28 32 34 37 39 40 41
 A partir de los resultados se establece una correspondencia entre las edades y las
puntuaciones medias y obtenemos la EM: Así, si un niño obtiene en el test una puntuación
directa de 28, le asignamos una EM de 10 años (con independencia de su edad cronológica
real) ya que esa puntuación es la media que obtienen los niños de 10 años en el test.
 También podemos calcular el CI dividiendo la edad mental entre la edad cronológica del sujeto
y multiplicándolo por 100, por ejemplo, si un niño de 10 años obtiene una puntuación directa de
34 puntos, diremos que su EM es de 12 años y su CI es 120. CI=(12/10)*100=120
o Si la EM=EC (es decir, coinciden exactamente), entonces
 CI es igual a 100: Indica que este sujeto obtiene exactamente la puntuación media
de su grupo de edad. 
o Si el CI > 100: el sujeto tiene una inteligencia superior al promedio de su edad. 
o Si el CI < 100, el sujeto tiene una inteligencia inferior a la media de su edad.
El Wechsler, en el manual del WISC-R considera a estos conceptos obsoletos, xq no permiten la

comparar sujetos sin tener en cuenta el factor edad. Así, para que el CI resulte significativo
basándose en la EM, debe indicarse la edad cronológica del sujeto.
Algunos test actuales utilizan un nuevo concepto de CI que deriva de la comparación del
rendimiento del sujeto con el rendimiento promedio de un grupo de referencia (basado en la
edad):
 CI de desviación: es una puntuación estándar (puntuación Z) transformada de modo que el

promedio tiene valor 100 y la desviación típica 15,
 indica la medida y dirección en que el resultado de un sujeto se desvía del resultado
promedio de su grupo de comparación.
 El valor 100 para el promedio se ha conservado para establecer correspondencia con el valor
“normal” obtenido con la fórmula clásica del CI.
 El término CI se ha conservado para expresar el resultado de la medición (aun siendo
técnicamente incorrecto) ya que el CI de desviación es una transformación en una
puntuación estándar (no es un cociente).
Cuando necesitamos conocer qué es lo que se espera q el niño haga en las diferentes etapas de
su desarrollo mental (y aunque se haya abandonado el concepto de Edad Mental) podemos obtener
esta información a través de :
 Edad equivalente: q se halla comparando sus puntuaciones directas y evaluando sus

aptitudes a partir de sus puntuaciones en cada prueba.
 Es la edad en la que la puntuación del niño es igual a la mediana (percentil 50) de la
distribución de la muestra normativa.

Calidad. UNED.
Dentro de este contexto describimos:

Puntuaciones de Desarrollo:
o Resultan de escalas como las Escalas BAyley de Desarrollo Infantil III.
 Para cada prueba de la escala, las puntuaciones directas se pueden transformar en
sus correspondientes puntuaciones de desarrollo siguiendo el modelo de la Teoría de
Respuesta al ítem (TRI): calculando las puntuaciones de capacidad de acuerdo con el
modelo logístico de un parámetro. Posteriormente, se reescalan para construir las
puntuaciones de desarrollo, con media 500 y desviación típica 100. Estas puntuaciones
proporcionan una escala de intervalos a través de la cual se puede medir el progreso del
sujeto evaluado a lo largo del tiempo.
o Proporcionan una estimación de la capacidad (con independencia de los niños de su
misma edad) y permiten seguir su desarrollo a lo largo del tiempo.
o Resultan muy útiles cuando se evalúa a un niño de manera periódica y permiten analizar
los cambios en el rendimiento en una misma prueba a través del tiempo.
B. Puntuaciones centiles o percentiles:

 Representan medidas de posición en una distribución de frecuencias: ordenan a los sujetos, e indican
el porcentaje del grupo que se deja por debajo. En los baremos centiles se asigna a cada puntuación
directa un valor en una escala de 1 a 100, que se denomina centil o percentil:
 Si un sujeto obtiene en la escala perfeccionismo de un test de personalidad una puntuación directa
de 20 puntos, y suponemos q (a esa puntuación directa) le corresponde el percentil 80, podemos
afirmar que el sujeto supera en ese rasgo al 80% de los sujetos utilizados para baremar el test.
 Si ese grupo normativo es representativo de la población general, podemos inferir q el individuo
supera en perfeccionismo al 80% de las personas y que solo el 20% son + perfeccionistas q él
 Aunque los percentiles son fáciles de interpretar, NO explican las diferencias entre percentiles, ya
que son sólo medidas de orden, ni tampoco permiten comparar los percentiles obtenidos por un
mismo sujeto en diferentes instrumentos de evaluación.
 Los centiles son cuantiles q dividen la distribución en 100 partes. Pero hay otros cuantiles:
 Mediana: divide la distribución en 2 partes (mediana= centil 50).
 Deciles: dividen la distribución en 10 partes (decil 1= centil 10,..., decil 10=centil 100)
 Cuartiles: dividen la distribución en 4 partes (cuartil 1= centil 25, cuartil 2=centil 50, cuartil 3=centil
75, cuartil 4=centil 100).
C. Baremos típicos:
 Una puntuación típica estándar (Zi):
 es la diferencia entre la puntuación directa obtenida por el sujeto en el test y la media del grupo
de referencia, dividida por la desviación típica de ese mismo grupo en el test.
 Indica el número de desviaciones típicas a la que se encuentra la puntuación de un sujeto
respecto a la media del grupo normativo.
 Tienen de media 0 y desviación típica 1,y pueden ser positivas o negativas y contener decimales.
Una puntuación típica=1,5 indica que la puntuación directa del sujeto está 1,5 por encima de la
media del grupo;
Una puntuación típica= -1,5, se encuentra una desviación típica y media por debajo de la media del
grupo.

Calidad. UNED.
 Esta puntuación significa lo mismo en cualquier distribución, también en diferentes grupos y

variables. Se puede comparar un test con otro y podremos tener una posición exacta de la persona, o
conocer cuánto se dispersa de su media del grupo.
 A veces, cuando se trabaja con muestras reales, ocurre que las puntuaciones no se ajustan
exactamente a la distribución normal, por lo que se debe realizar el proceso de normalización:
 Adaptar las puntuaciones a la distribución normal, manteniendo los valores de su media y su
desviación típica.
 Una puntuación típica normalizada (Zni) es el valor Zi asociado con el centil correspondiente a una
determinada puntuación directa en la distribución normal: Indica el número de desviaciones típicas
que una puntuación se encuentra por encima (si es positiva) o por debajo (si es negativa) de la
media en una distribución normal.
 Ventaja de las puntuaciones típicas normalizadas: permiten comparar las puntuaciones en
test que presenten distribuciones diferentes y expresar las diferencias cuantitativas entre los
sujetos.
 Principal problema de las puntuaciones típicas (estándares y normalizadas) para su interpretación

es que tienen la posibilidad de asumir valores decimales y valores negativos.
 Se pude solucionar con las puntuaciones típicas derivadas: realizando transformaciones
lineales de las puntuaciones típicas sin que se modifique la distribución de las puntuaciones
originales. Su ventaja es q el evaluador puede elegir como media y desviación típica los valores
que considere.
Las puntuaciones típicas derivadas dan lugar a:
 Escalas típicas derivadas: si el objeto de la transformación lineal es una puntuación típica
estándar.
 Escalas típicas derivadas normalizadas: si suponen la transformación lineal de una
puntuación típica normalizada.
Las escalas típicas derivadas de uso más frecuente en los baremos de los test son:
a) Puntuaciones T: representan una escala con media 50 y desviación típica 10
b) Puntuaciones S: suponen una escala con media 50 y desviación típica 20
c) Decatipos (DE): representan una escala con media 5.5 y desviación típica 2
d) Eneatipos (EN): representan una escala con media 5 y desviación típica 2
e) Escalas de CI: representan una escala con media 100 y desviación típica 15
f) Puntuaciones Escalares (Pe): suponen una escala con media 10 y desviación típica 3.
7. CRITERIOS DE CALIDAD PSICOMÉTRICOS DE LOS INSTRUMENTOS DE EVALUACIÓN

PSICOLÓGICA.
La Evaluación Basada en la Evidencia (EBA) consiste en el uso de la investigación y las teorías

científicas como base para:
a) La selección de los constructos a evaluar según los objetivos de evaluación establecidos
b) El uso de técnicas e instrumentos validados para su contrastación
c) La implementación del proceso de evaluación.

Calidad. UNED.
Una aproximación de la evaluación basada en la evidencia supone obtener criterios de precisión y

utilidad en la toma de decisiones, así como valorar los costes y el impacto que los resultados obtenidos
tienen sobre la persona evaluada.
Uno de los aspectos más importantes en la evaluación psicológica es la selección de los instrumentos o
técnicas adecuados.
 La APA, AREA, NCME, etc. han establecido los estándares científicos requeridos para
considerar una medida psicológica adecuada.
 La Comisión Internacional de Test (ITC) proporciona los criterios exigidos para la traducción y
adaptación de test creados en países diferentes a los de la población evaluada, las normas de uso de
los test, y el uso de instrumentos informatizados de evaluación.
Para que un instrumento sea psicométricamente sólido debe estar estandarizado y tener evidencias
adecuadas de fiabilidad y validez.
7.1. Fiabilidad:
 La APA describe la fiabilidad como la “exactitud (consistencia y estabilidad) de la medición de un
test (la precisión con la que mide la prueba”). Así,
 La falta de fiabilidad conlleva inconsistencia e imprecisión, y ambas se relacionan con el error de
medida.
o El cálculo de la fiabilidad nos informa de la cuantía del error de medida, por lo que a menor error,
mayor fiabilidad tendrá el test.
El error es cualquier efecto irrelevante para los fines o resultados de la medición que influye sobre la
falta de fiabilidad de la misma. Puede ser de dos tipos:
a) Error sistemático (o constante): se produce cuando las mediciones que se obtienen con un
instrumento de evaluación son sistemáticamente mayores o menores que lo que realmente debe ser.
b) Error no sistemático (o causal): se produce cuando las medidas son alternativamente mayores o
menores de lo que realmente deben ser.
 La fiabilidad de un instrumento se ve influenciada por los errores de medida no sistemáticos. Hay

tres posibles fuentes de varianza de error no sistemático:
1. Las relativas a la construcción del instrumento (referentes al muestreo de contenidos que
recoge para evaluar un constructo, si son más o menos adecuados).
2. Las relativas a la administración (referidas al ambiente de administración de la prueba y a los
sesgos en la aplicación por parte del evaluador).
3. Las relativas a la calificación e interpretación de las pruebas (referidas al posible error en la
calificación y por tanto en la interpretación del resultado).
Estos errores tienen que ver con la salud, fatiga, motivación, tensión emocional, fluctuaciones de
la memoria, condiciones externas de luz, humedad, etc.
Muñiz, 1996. El cálculo de la fiabilidad de un test supone determinar la cantidad de errores

aleatorios cometidos al medir la variable de interés.

Calidad. UNED.
 Hay varios enfoques teóricos con el objetivo de cuantificar la magnitud de esos errores (que varían en
los aspectos que se consideran importantes y en el procedimiento para cuantificarlo):
7.1.1. Fiabilidad desde la Teoría Clásica de Test:
Desde la Teoría Clásica de los Test se considera que la puntuación que obtiene un sujeto en un test o
puntuación observada (Xi) se compone de una puntuación verdadera o real (Vi) + algún error no
sistemático de medida (Ei).
 La calificación real del sujeto sería el promedio de las calificaciones que se obtendrían si una
persona realizara la prueba una cantidad infinita de veces.
Los indicadores de fiabilidad más frecuentes desde los modelos clásicos son: la consistencia interna,
la consistencia temporal o estabilidad test-retest, y acuerdo entre evaluadores o fiabilidad
interjueces.
A. Consistencia Interna:
 Grado en que los diferentes ítems de una escala miden de manera consistente el mismo
constructo subyacente.
 Constituye el método más extendido para el cálculo de la fiabilidad.
 Normalmente se analiza por medio de coeficientes de correlación que reflejan las relaciones entre las
puntuaciones en los ítems de un test obtenidas en una única aplicación.
o El coeficiente más utilizado para el cálculo de la fiabilidad es el Coeficiente Alfa de Cronbach:
 Expresa la fiabilidad del test en función del número de ítems y de la proporción de la
varianza total del test debida a la covariación de los ítems.
 Cuanto más covaríen los ítems entre sí, mayor será la fiabilidad del test. Los valores de
este coeficiente oscilan entre 0 y 1. Cuanto más cerca se encuentre de 1 mayor será la
consistencia interna de los ítems.
o El método de las dos mitades es una variante en el cálculo de la consistencia interna y
consiste en calcular la correlación entre las dos mitades en las que se ha dividido el test original.
Inconveniente: se obtiene el coeficiente de fiabilidad de lo que constituiría la mitad del test. Por lo
tanto, como corrección se utiliza la fórmula de Speraman-Broun; también se pueden utilizar las de
Flanagan, Guttman o de Rulon.
El Error Típico de Medida (ETM) proporciona una estimación de la cantidad de error que contiene
la puntuación obtenida.
El error de medida se suele expresar en términos de unidades de desviaciones típicas; es decir el
error típico de medida es = a una desviación típica en la distribución de los errores de medida.
Dt es la unidad de desviación típica del test

ETM = Dt √1 − Rₓₓ Rxx es el coeficiente de fiabilidad entendida como
consistencia interna.
 El ETM es inversamente proporcional a la fiabilidad de la prueba, por lo que cuanto mayor es la
fiabilidad, menor es el error.
 A partir del ETM se pueden estimar los intervalos de confianza donde se encontrará la
verdadera puntuación de una persona evaluada con un cierto nivel de probabilidad. El nivel de
confianza más utilizado suele ser el 95%.

Calidad. UNED.
B. Estabilidad (o consistencia) temporal o coeficiente test-retest:

 Indica estabilidad de la medida a lo largo del tiempo en el caso de comportamientos que se supone que
permanecen relativamente constantes (que las puntuaciones del test sean similares en diferentes
momentos).
 Requiere un diseño de recogida de datos en el que la misma prueba se aplique a un mismo grupo
de personas con un intervalo temporal entre ambas.
 El cálculo del coeficiente test-retest (o coeficiente de Estabilidad) consiste en correlacionar las
puntuaciones que obtiene un grupo de sujetos en la aplicación de una prueba con las obtenidas en una
segunda aplicación.
 Inconveniente: Determinar cuánto tiempo que se ha de dejar transcurrir entre las dos aplicaciones del
test con el objetivo de evitar el recuerdo. Si no existe recuerdo por parte de los sujetos, se obtienen dos
medidas paralelas.
C. Fiabilidad interjueces:
 Se trata de determinar si dos o más resultados obtenidos por dos o más evaluadores distintos, o
por el mismo evaluador en momentos diferentes, son coincidentes.
 Se calcula a través de un índice de concordancia entre evaluadores, siendo el más utilizado el índice
Kappa.
Utilizar un procedimiento u otro para el cálculo de la fiabilidad de un instrumento, es responsabilidad del

evaluador y también lo es seleccionar aquellos instrumentos que muestren altos o adecuados niveles de
fiabilidad.
Según Nunnally (1967):
 En las primeras fases de la investigación: un valor de fiabilidad de 0.5 o 0.6 puede ser suficiente
 En la investigación básica: se necesita al menos 0.8
 En la investigación aplicada: deben encontrarse entre 0.90 y 0.95
Según Forns y cols (2002):
 Los niveles de fiabilidad del test deben ser superiores a 0.9 para tomar decisiones que afectan a
los individuos
 Los test de fiabilidad moderada (entre 0.75 y 0.85) se pueden usar como pruebas preliminares o de
cribado.
 Las pruebas de fiabilidad baja (<0.67) han de ser rechazadas porque incluyen un exceso de error.
7.1.2. Fiabilidad desde la Teoría de Respuesta al ítem (TRI):

Según Hambleton y Swaminathan (1985), desde la TRI el concepto de fiabilidad es equivalente a la
“inversa de la varianza muestral del estimador del rasgo latente”.
 Implica que cuanto mayor es el poder discriminativo y menor es la varianza de las estimaciones,
mayor es la información y por tanto la precisión con la que se mide.
 Aquí el concepto fiabilidad se sustituye por el de información (propuesto por Birnbaum,1981): la

función de información de un test (o su fiabilidad), será igual a la suma de las funciones de información
de todos sus elementos.
 La función de la información es distinta para cada nivel del rasgo latente, por lo que la fiabilidad
es distinta a lo largo del continuo de habilidad. Motivo por el que se debe abandonar el concepto

Calidad. UNED.
global de test fiables en su conjunto para todos los sujetos, y pasar a la idea de que “el test es
preciso según el intervalo del continuo de aptitud que estemos evaluando”.
7.2. Validez:
 Hace referencia al grado de adecuación de las inferencias realizadas a partir de las puntuaciones de
los test de manera que estas sean apropiadas, significativas y útiles (tradicionalmente, grado en que
un instrumento mide lo que pretende medir).
 Según los Standards for Educational and Psychological Testing (SEPT), el proceso de validación
es la obtención de evidencias empíricas que argumenten la interpretación del test y de su uso.
 Las distintas evidencias de validez no representan distintos tipos de validez, sino distintas
aproximaciones a la validez entendida como un concepto unitario.
 Es una propiedad del significado de las puntuaciones y de la interpretación que se realiza de las
mismas (y no una propiedad del instrumento).
 Puede verse afectada por:
 errores no sistemáticos: de construcción, de administración y de calificación de las pruebas, (como
en el caso de la fiabilidad )
 por errores sistemáticos : ya q es difícil valorar un rasgo aislado , un constructo determinado, sin
la influencia de otros. Ej. si queremos construir un test para medir razonamiento es difícil que no se
vea afectado por la influencia de la atención o memoria.
o el error sistemático de medición surge cuando, sin que el autor lo sepa, la prueba mide de
manera consistente alguna otra variable que no es el rasgo para el que se creó.
Por ello, una prueba puede ser fiable sin ser válida, pero no puede ser válida sin ser fiable.
Silva (1989) recoge matizaciones importantes sobre la validez:

a) La validez se relaciona con las inferencias hechas a partir de las puntuaciones obtenidas mediante un
instrumento y en determinadas circunstancias.
b) Se validan las interpretaciones que se hagan a partir de sus puntuaciones (y no el instrumento)
c) La validez es algo estimado que se infiere a partir de un conjunto de informaciones.
d) No debe hablarse de clases o tipos de validez, sino de tipos o clases de evidencias. El concepto de
validez es esencialmente unitario. No existe límite en cuanto al tipo de procedimiento o de datos
utilizados para estimar la validez. Cualquier información puede ser relevante en el proceso de
validación (q se identifica con el proceso científico de construcción y contrastación de hipótesis).
7.2.1. Métodos clásicos para el cálculo de la validez:

Los más frecuentes son:
1. Validación del contenido: análisis del contenido
2. Validación referida al criterio: establecer la relación de las puntuaciones obtenidas en la prueba
con un criterio de interés u otras medidas
3. Validación del constructo: análisis general de las características psicológicas o constructos
particulares que mide cada prueba
A. Validación del contenido:

 Grado en que los elementos que componen un instrumento de medida son una muestra relevante y
representativa del posible universo de ítems que se podrían haber utilizado para medir el constructo de
interés.

Calidad. UNED.
 Es una manera de operativizar un concepto abstracto (constructo) mediante elementos concretos y

tangibles (ítems).
 Según Crocker y Algina (1986) Fases de un estudio de validación de contenido:
a) Definir el dominio del constructo,
b) Elaborar las especificaciones del test
c) Seleccionar un panel de expertos en el dominio
d) Establecer un marco estructurado para el emparejamiento entre ítems y objetivos
e) Evaluar el grado de congruencia ítems-objetivos.
 Existen diversos índices que permiten cuantificar el grado de congruencia en las respuestas de
los jueces sobre la asignación de los ítems a cada dimensión y su nivel de representatividad y utilidad.
 El índice propuesto por Rovinelli y Hamblentone es uno de los + usados: se le pide al juez que
valore en una escala de tres puntos (-1, 0, 1) el grado en el que el ítem está relacionado con la
dimensión que pretende medir y así, evaluar el grado de validez de contenido de cada ítem.
 Cuando un mismo ítem ha sido valorado con 1 por todos los jueces se obtiene un índice de
congruencia 1, (el ítem ha sido emparejado a la misma dimensión por todos los jueces).
Para incrementar la validez de contenido de un test se planifica con cuidado su construcción, y se

requiere una visión clara y concreta de lo que se pretende medir. Para ello, se debe:
 Recoger un rango ajustado de tareas y/o estímulos y situaciones
 Establecer la clase más apropiada de respuesta que el observador o el evaluador registra
 Y se tienen que dar las instrucciones exactas para informar al examinado de lo que tiene que hacer.
Otros conceptos relacionados con validez son:
a) Validez aparente: grado en que un test “da la impresión” a los evaluados de que mide lo que
pretende. A veces se requiere que las personas perciban que los ítems del test tienen que ver con la
finalidad que se persigue al aplicarlo, otras veces se necesita que el test no parezca que mide lo que
mide
b) Validez ecológica: grado en que los comportamientos observados y registrados en una investigación
reflejan aquello que realmente acontece en los escenarios naturales. También, grado en que los
resultados pueden generalizarse al mundo real.
c) Validez curricular: pretende examinar el grado en el que el test refleja los objetivos, cultura, filosofía,
etc... de la institución que realiza la medición.
d) Validez instruccional: su objetivo es evaluar el grado en el que el test refleja la “dinámica
instruccional” q se sigue para la enseñar el contenido.
B. Validación referida al criterio:

 Con la cual se pretende examinar las relaciones empíricas entre las puntuaciones del test y un
criterio o variable externa de interés.
 Se establece el grado en el que el instrumento está asociado a un criterio independiente.
 Es un tipo de evidencia basada en la relación con otras variables.
 Hace referencia a la selección del objetivo que se va a utilizar.
 Se recomienda que los criterios sean relevantes, fiables, libres de sesgo y fáciles de obtener, para
obtener evidencias de validez de criterio con ciertas garantías,
 La forma + directa y fácil de cuantificar el grado de validez referida al criterio es obteniendo la
correlación entre las puntuaciones del test y el criterio. También se puede utilizar + de un predictor
y un criterio, con otras técnicas estadísticas más complejas, dependiendo del caso concreto.

Calidad. UNED.
 Existen tres tipos de diseños para la obtención de evidencias de validez de criterio. Que se
diferencian en el modo en que han sido recogidas las puntuaciones del test y del criterio:
a) Estudio de validación predictiva: Estudia la correlación entre las puntuaciones obtenidas en el test
con las puntuaciones de algún criterio que serán recogidas en un tiempo futuro (el criterio se administra
en un momento posterior al test).
 El objetivo es determinar la adecuación del test para predecir las puntuaciones futuras en el
criterio (ejemplo de validación de criterio: observar si las puntuaciones obtenidas en un examen
de ingreso (test) predicen las calificaciones universitarias (criterio). En la selección de personal se
utilizan instrumentos que pretenden predecir el rendimiento futuro de los candidatos al puesto de
trabajo basándose en las respuestas obtenidas.
b) Estudio de validación concurrente: se administran de forma simultánea el test y la medida del
criterio.
 Se utiliza para validar un test nuevo por comparación con otro ya validado previamente.
c) Estudio de validación retrospectiva: el criterio se mide antes de aplicar el test. Se utiliza para
dilucidar mediante alguna prueba algún aspecto del pasado que ya no es accesible.
C. Validación del Constructo:

En la Psicología muchos de los conceptos (variables psicológicas como neuroticismo) utilizados no son
directamente observables y requieren medidas indirectas. Para definirlos se desarrollan una serie de
teorías en las que ponemos de manifiesto nuestras expectativas sobre cómo se relacionan las variables
de interés con otras variables.
 La validez de constructo es la medida en que el test refleja la teoría psicológica a partir de la que
se ha construido y permite interpretar las puntuaciones dándoles un significado teórico, por
(ejemplo, la aplicación de la teoría jerárquica de la inteligencia CHC de Cattell-Horn-Carroll).
 Es una condición indispensable para valorar la eficacia de un instrumento de evaluación.
 Suen (1990), la validez de contenido y la de criterio se pueden ver como aspectos concretos de la
validez de constructo.
 Un prerrequisito de la validez de constructo es la relevancia y representatividad del test (con
respecto al universo de elementos que sirven para medirlo).
 Y a su vez, la validez de criterio contribuye con evidencias empíricas sobre el significado de un
test en la medida en que se relaciona con otras variables.
 El Análisis Factorial (tanto de la perspectiva exploratoria como confirmatoria), indicador de la validez

factorial; y la Matriz Multirrasgo-multimétodo (MRMM), indicador de la validez convergente-
discriminante: son los métodos más utilizados para obtener datos sobre la validez de constructo.
Validez factorial:
Análisis factorial exploratorio-confirmatorio: es una técnica de análisis multivariado que permite
obtener evidencias sobre la dimensionalidad subyacente de los instrumentos de medida o validez
factorial.
 Conceptualmente y metodológicamente presenta dos tipos o modalidades diferentes q se
corresponden con dos grandes aproximaciones para definir constructos:
1. Análisis Factorial Exploratorio (AFE), q se corresponde con la aproximación “inductiva” o
exploratoria.

Calidad. UNED.
 Se utiliza cuando NO tenemos certeza sobre la dimensionalidad de la escala constituida.

 se basa en los datos e intenta determinar cuántas dimensiones o factores se pueden deducir
del conjunto de ítems que componen el test.
2. Análisis Factorial Confirmatorio (AFC), que se corresponde con la aproximación “deductiva”
o confirmatoria.
 Se utiliza cuando tenemos determinadas expectativas fundamentadas sobre una teoría
acerca de la dimensionalidad subyacente del instrumento de medida.
 Bollen (1989): desde la perspectiva confirmatoria se establece de antemano un número
determinado de dimensiones, así como su relación y distribución de los ítems para
comprobar posteriormente si dicha estructura se reproduce en los datos; si es así podemos
afirmar que el modelo sirve para explicar las relaciones entre los datos obtenidos.
Validez convergente-discriminante:
Matrices multirrasgo-multimétodo (MRMM):
 Las propone Campbell y Fiske para examinar el grado en que el test es una medida adecuada
del constructo (y no la propia entidad del constructo, como ocurre con el resto de las técnicas).
 La matriz en sí misma se compone de correlaciones del test con otras medidas del mismo
constructo obtenidas con distintos métodos, y de otros constructos obtenidos con el mismo método.
Por lo tanto, la aplicación de la técnica requiere:
1) Seleccionar dos o más formas de medir el constructo/rasgo de interés (a través de un test,
una entrevista y una técnica subjetiva).
2) Identificar dos o más constructos que puedan medirse por los mismos métodos que el
constructo/rasgo de interés (ej. si el constructo de interés es la motivación, medimos también
satisfacción e implicación).
3) Medir en una muestra de personas, todos los constructos a través de todos los métodos.
Con las respuestas obtenidas, se calculan las correlaciones entre todas las parejas de medidas
posibles. Los diferentes coeficientes de correlación pueden agruparse en una de estas tres
categorías:
a. Coeficientes de fiabilidad: son las correlaciones entre las medidas de un solo constructo
con el mismo método de medida. En un buen instrumento los coeficientes de fiabilidad deben
ser elevados.
b. Coeficientes de validez convergente: son las correlaciones entre las medidas de un solo
constructo/rasgo con métodos de medida diferentes.
 Si las mediciones del mismo rasgo realizadas con distintos métodos correlacionan entre
sí decimos que existe validez convergente.
 Un indicador fiable de la existencia real de ese rasgo es q un mismo constructo se
detecte por igual con varias metodologías. Se dice que las medidas convergen.
c. Coeficientes de validez discriminante son:
 las correlaciones entre las medidas de diferentes constructos/rasgos obtenidas con
el mismo método (coeficientes heterorasgo-monométodo) o
 las correlaciones entre las medidas de diferentes constructos con diferentes
métodos (coeficientes heterorasgo-heterométodo).
Si las medidas de distintos rasgos obtenidas por el mismo método muestran una baja
correlación en comparación con la que muestran las medidas del mismo rasgo con
diferentes métodos podemos confirmar que obtenemos validez discriminante.
Indica que los rasgos son independientes entre sí, e independientes al sistema de
medición.

Calidad. UNED.
 Las matrices multirrasgo-multimétodo son una evidencia empírica sobre la validez de constructo
desde una perspectiva externa.
Se habla de evidencia de validez externa, cuando se obtienen:

 correlaciones altas del mismo constructo (rasgo) tomadas con distintos métodos (validez
convergente) y
 bajas correlaciones entre distintos rasgos medidos con el mismo método (validez divergente).
7.2.2. Otras perspectivas del concepto Validez:

Los estándares de la APA (1999) presentan una teoría unificada de la validez. Que reafirma la
posición centrall de la validez, ya que integra tanto aspectos cuantitativos como cualitativos.
 La definición que se aporta es: “Validez es un concepto unitario. Grado en que todas las evidencias
acumuladas apoyan la proyectada interpretación de las puntuaciones del test implicadas en el proceso
propuesto [...] Validez se refiere al grado en que evidencia y teoría soportan las interpretaciones de las
puntuaciones del test implicadas en los usos propuestos del mismo [...]El proceso de validación
implica acumular evidencias que proporcionen una base científica sólida para las interpretaciones que
se proponen: evaluar las interpretaciones de las puntuaciones del test requeridas para los usos
propuestos, no el test mismo”. Tomado de Fernández-Ballesteros y Calero (2011)
 Descripción de conceptos importantes surgidos desde esta nueva perspectiva:

A. Validez consecuencial:
Messick (1998) define la validez consecuencial como “los efectos colaterales no anticipados de los
usos legítimos de los test, especialmente si se pueden relacionar los efectos adversos imprevistos con
fuentes de invalidez del test tales como la baja representación del constructo o la dificultad no
relacionada con el constructo”.
Se trata de considerar qué efectos (positivos o negativos) puede tener el uso de una técnica
sobre un sujeto evaluado (Fernández-Ballesteros y Calero, 2011)
El análisis de las consecuencias del uso de los test y los juicios de valor inherentes a las
interpretaciones que se hacen a partir de ellos, ha generado gran debate sobre la pertinencia o no de
incluir el análisis de las consecuencias dentro del procedimiento de validación (hay autores que están
de acuerdo, y otros en contra).
B. Validez Social:
De entre las evidencias referidas a las consecuencias de la administración de los test, está la q
proporciona la validez social.
 El concepto aparece inicialmente vinculado a la evaluación e interpretación de sujetos con retraso,
 Se debería considerar como un requisito de las técnicas psicométricas para establecer los criterios
normativos o estándares de comparación de los individuos, en la pertinencia ética y económica de
los procedimientos utilizados, y en la valoración de los tratamientos en cuanto a la repercusión
social que para el paciente y su entorno tengan los efectos conseguidos.
 Kazdin y Wolf, proponen dos métodos para evaluar la validez social:
a) Valoración subjetiva de la aceptabilidad social y de la importancia de las metas,
procedimientos y/o resultados obtenidos
b) Valoración cuantitativa de los resultados mediante comparaciones normativas.

Calidad. UNED.
 Foster y Mashi (1999): la validez social es un constructo multidimensional constituido por dos
subconstructos generales: aceptabilidad y relevancia.
C. Utilidad:
 En relación con los instrumentos de evaluación, el concepto de utilidad hacer referencia a tres
aspectos:
a) La sensibilidad de una técnica para detectar variables de tratamiento
b) Su eficacia para identificar comportamientos objetivo del tratamiento
c) El grado en que la utilización de una técnica contribuye a la mejora de los resultados del
tratamiento.
 Fernandez-Ballesteros y Calero (2011) la utilidad:
 es + una característica del proceso de evaluación (que de las técnicas que se utilizan) y
 hace referencia a que en el proceso de evaluación se deben tomar las decisiones más útiles.
 Las últimas aportaciones del la APA demuestran que la evaluación psicológica es al menos tan
útil como la médica en las siguientes áreas:
1) Descripción de sintomatología clínica y diagnóstico diferencial
2) Predicción del comportamiento
3) Predicción de resultados médicos
4) Predicción del uso de sistemas de salud
5) Predicción de resultados de las psicoterapias
6) Predicción de resultados en salud mental.
el trabajo El grupo de Meyer realiza un meta-análisis en el que analizan más de 125 trabajos
sobre la validez de los test y 800 muestras en las que se examina la evaluación multi-método, y
llegan a las siguientes conclusiones:
1) La validez de los test psicológicos es alta y convincente.
2) La validez de los test psicológicos es comparable a la de los test médicos.
3) Distintos métodos de evaluación proporcionan fuentes de información única.
4) Los clínicos que sólo se basan en entrevistas suelen obtener un conocimiento incompleto
de los pacientes.
Conclusión: es recomendable el uso de baterías de evaluación psicológica multi-método.
D. Validez Incremental:
 Con relación a la evaluación multimétodo (+ no es siempre mejor) la simple combinación de
medidas no debe ser asumida por defecto, debe ser demostrada empíricamente para cada
objetivo de la evaluación.
 Cuando se desea usar diferentes fuentes se debe contemplar desde el punto de vista de su coste y
grado de especificidad, y también desde la perspectiva de la validez incremental (grado en el
incluir medidas e informantes a lo largo del proceso de evaluación mejora la toma de decisiones y
el poder predictivo).
 La validez incremental de las medidas se puede analizar sobre varias dimensiones: sensibilidad
al cambio, eficacia diagnóstica, validez de contenido, validez criterial, diseño de tratamiento y
resultado y validez convergente.

Calidad. UNED.
 El Psychological Assessment se publico en 2003, una sección especial que incluía trabajos sobre
la combinación de técnicas en relación con la validez incremental, entre sus aportaciones
destacan: 
 Cuando se considera la psicopatología de adultos y el estudio de la personalidad, las técnicas
proyectivas no parecen añadir validez incremental, ni a otras técnicas usadas ni al juicio
clínico. Sin embargo, el uso del Test de Rorscharch conjuntamente con el MMPI-2
aumenta la predicción clínica en el diagnóstico de las conductas antisociales y de las
alteraciones de pensamiento. 
 Combinar entrevistas clínicas estructuradas con instrumentos específicos, que evalúan una
alteración, aumentan la validez incremental. 
 El uso de inventarios o cuestionarios estandarizados, como primera aproximación a la
evaluación de los problemas de personalidad, seguido de una entrevista
pormenorizada sobre los problemas identificados en el cuestionario previamente
administrado, tiene el riesgo de producir un mayor número de falsos negativos. 
 Tras la aplicación de entrevistas administradas sólo al cliente, la administración de entrevistas
a familiares, añade información significativa. 
 La evaluación de la personalidad, tanto mediante instrumentos centrados en la psicopatología
como los centrados en los rasgos o dimensiones no patológicas, aumentan la validez del
juicio clínico. 
 El uso de múltiples métodos en la evaluación infantil se justifica + por criterios
racionales que empíricos. Ocurre parecido en relación con el uso de numerosas fuentes:
muestran q la validez incremental depende de la medida específica, la edad del niño, el rol del
informante, y la cuestión a evaluar.
 Una evaluación centrada en múltiples constructos aumenta la predicción y validez de la
misma.
 Las combinaciones madre-padre o niño-padre son las que mejor predicen
problemas conductuales en los niños derivadas de la aceptación parental percibida.
7.2.3. La validez de los test referidos al criterio: sensibilidad y especificidad:

 El objetivo de los Test Referidos a Criterio es clasificar a los sujetos a partir de las puntuaciones
que se obtienen en el test.
 se clasifican según un punto de corte en “aptos/no aptos” o “trastorno/no trastorno”. De esta
manera, el análisis de la validez de estos instrumentos debería centrarse en la adecuación de las
decisiones de la clasificación.
 Las evidencias de validez se obtienen mediante índices de acuerdo entre las clasificaciones
realizadas por el test y las de un criterio de clasificación externo ya validado.
 Entre los índices más utilizados están:
a) El índice de sensibilidad o sensibilidad de la prueba (SE): proporción de sujetos que realmente
tienen el trastorno y han sido correctamente identificados por el test.
 la sensibilidad es, la capacidad del test para detectar “trastorno” en el sujeto. También se conoce
como “fracción de verdaderos positivos (FVP)”.
b) El índice de especificidad o especificidad de la prueba (SP): proporción de sujetos que no
tienen trastorno y han sido identificados correctamente por el test.
 la especificidad es la capacidad para detectar a los sujetos “sin trastorno”. También se conoce
como “fracción de verdaderos negativos (FVN)”.

Calidad. UNED.
7.2.4. La validez desde la Teoría de la Generalizabilidad:

Este enfoque se refiere a 4 cuestiones específicas para determinar la validez de una prueba:
1) Generalizabilidad de los elementos:
 Se refiere al hecho de:
 hasta qué punto los elementos de un test son representativos del amplio universo de
elementos implicados en el mismo ámbito de contenido, y/o
 hasta qué punto un elemento del test se puede generalizar a otros. En este caso, el evaluador
deberá tener en cuenta si los elementos de los cuales se derivan los datos son
representativos del ámbito total sobre el que vamos a generalizar éstos.
 Se relaciona con el concepto de validez de contenido, en la TCT (Tª Clásica de los Test).
2) Generalizabilidad de las situaciones: se plantea la cuestión de la validez ecológica al
preguntarse:
 hasta qué punto los datos recogidos en un test son generalizables a otras situaciones,
 el evaluador deberá comprobar la concordancia entre las medidas procedentes del laboratorio
y las medidas de situaciones naturales, y si es prioritario usar estas últimas en la evaluación.
3) Generalizabilidad de los métodos: en qué medida los datos procedentes de un método de
evaluación son generalizables a otros que evalúan el mismo contenido,
 El evaluador deberá examinar las puntuaciones obtenidas en distintos métodos que evalúan
iguales o distintas dimensiones, y llegar a conclusiones sobre la bondad de los datos obtenidos.
 Hace referencia a la validez convergente y concurrente de la TCT.
4) Generalizabilidad de las dimensiones: se plantea la cuestión de en qué medida las propiedades
o estimaciones de unas variables son generalizables a otras.
 Se relaciona con la validez de constructo desde la TCT.
7.3. Exactitud:
 Desde una perspectiva conductual, era difícil asumir los principios psicométricos de la Teoría
Clásica de Test (TCT) para elaborar instrumentos de evaluación. Así, dentro de la evaluación
conductual, se desarrollaron métodos al margen de los estándares oficiales, y se empezaron a
proponer conceptos alternativos como el de exactitud.
 Al evaluador conductual le interesa obtener información sobre una o más cantidades de alguna
dimensión de la conducta y, para ello, se deben desarrollar formas de generar esta información y de
evaluarla en función de la exactitud con la que se presenta.
Cone (1988) señala que los aspectos que se deben determinar: a) si la conducta ocurre o no, b) si
ocurre de forma repetida c) si ocurre en más de una situación d) si se puede medir de más de una
forma, e) si se relaciona sistemáticamente con la ocurrencia de otra u otras conductas.
 Un instrumento de evaluación conductual es apto para evaluar conductas concretas, cuando
demuestra previamente que refleja de manera precisa dichas características.
 Para establecer la exactitud de un instrumento de evaluación conductual es necesario especificar
claramente los procedimientos o reglas de utilización del instrumento, y disponer de un índice con el
que puedan compararse los datos de la prueba.
 El término de exactitud NO es equivalente, ni al de fiabilidad, ni al de validez desde la TCT.
 Se refiere al grado en que una medida representa fielmente las características topográficas
objetivas de la conducta, mientras el término fiabilidad se refiere al grado de consistencia con el
que observaciones repetidas del mismo fenómeno nos proporcionan una información equivalente. Así,
 un instrumento exacto tendrá que ser fiable, pero no al contrario, (por ej., dos observadores
pueden estar de acuerdo entre sí, pero los dos pueden haber pasado por alto características
Calidad. UNED.
topográficas objetivas de la conducta, mientras que no es posible que hayan controlado esas
características objetivas y que no estén de acuerdo entre sí).
 En lo q concierne a la validez, Cone indica q una medida puede ser válida pero no exacta, ya que:
 la exactitud se refiere a una verdadera medida independiente, mientras que
 la validez conlleva la ausencia de tales valores, por lo que éstos deben ser estimados mediante
criterios de validación.
8. GARANTÍAS ÉTICAS EN EL USO DE LOS INSTRUMENTOS DE EVALUACIÓN PSICOLÓGICA.

El punto número 8 (incluida tabla 4.3), referido principales criterios éticos referidos al uso y aplicación de los instrumentos de
evaluación constituye materia de sólo lectura que no es necesario estudiar. El apartado 8.1, donde se realizan una serie de
consideraciones sobre la evaluación en grupos diversos o multiculturales, si es necesario memorizarlo.

8.1. Consideraciones sobre la Evaluación en grupos diversos o Multiculturales:
La rápida difusión (en la actualidad) de los contactos transculturales, incrementa la posibilidad de aplicar
pruebas e instrumentos a sujetos de culturas diferentes.
Desde la década de los 80 se ha producido una proliferación de manuales, guías, revistas, artículos y
otras publicaciones relacionadas con la capacitación y la conducta apropiada de los evaluadores
al examinar a los miembros de otras culturas.
 Abordan distintas cuestiones, como la evaluación de estudiantes, examen a niños, pero la mayoría
se centran en el problema general de la evaluación multicultural.
 Entre los trabajos + conocidos está Las Guidelines on Multicultural Education, Traming,
Research, Practice and Organizational Change for Psychologists (APA, 2002) donde se recoge
que entre las competencias del psicólogo actual, deben incluirse la sensibilidad y conocimiento
multicultural.
Existen muchas críticas por el hecho de que la mayoría de las técnicas de evaluación están fuertemente
sesgadas en favor de la cultura occidental.
 El grado en que los test son válidos al evaluar poblaciones diferentes es importante en una
sociedad cada vez+ multiétnica.
 Cada instrumento psicológico mide una muestra de conducta y las “pruebas” deben ser capaces
de detectar la influencia de la cultura, en la medida en que afecta al comportamiento (Anastasi y
Urbina, 1998).
En EEUU (a través de las Guías) se anima a los psicólogos a:

 Ser culturalmente sensibles y que conozcan las técnicas de evaluación cuya fiabilidad, validez y
equivalencia de medida se hayan investigado a través de muestras culturalmente diversas.
 Que no utilicen instrumentos que NO se hayan adaptado a la población objeto de evaluación.
 Que realicen estudios piloto y entrevistas para determinar la validez cultural de sus
instrumentos.
 Que además de que la traducción sea correcta, que busquen la equivalencia conceptual y funcional
de los constructos evaluados, es decir,
Rogler (1999), que los psicólogos deben determinar si los constructos evaluados por los
instrumentos tienen el mismo significado y función en distintas culturas.

Bloque II. Capítulo 4. Instrumentos de Evaluación y Garantías de Calidad. María José Ramos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bloque II. Capítulo 4. Instrumentos de Evaluación y Garantías de Calidad. María José Ramos

Cargado por

Copyright:

Formatos disponibles

Bloque II. Capítulo 4.

INSTRUMENTOS de Evaluación y GARANTÍAS de

 Los instrumentos de Evaluación Psicológica:

 ¿Qué técnica de Evaluación Psicológica es la mejor?

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 1

 Aplicar técnicas como las psicométricas o de Observación sistemática:

Esto requiere q el evaluador aprenda a:

2. LAS TÉCNICAS DE EVALUACIÓN PSICOLÓGICA.

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 2

C. Las Técnicas psicométricas:

Test del Dibujo de 2 Figuras Humanas (T2F; Maganto y Garaigordobil, 2009):

Test de los Cuentos de Hadas (FTT: Coalacoglou, 1995):

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 3

El Listado de Adjetivos para la Evaluación del auto-concepto (LAEA) de Garaigodobil

También se pueden llamar “autoinformes” a técnicas como la entrevista, los autorregistros de

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 4

Y el denominador común de todos los ámbitos (áreas) o contextos de aplicación donde se ha

3. ¿QUÉ ASPECTOS GENERALES SE DEBEN TENER EN CUENTA PARA ELEGIR UN INSTRUMENTO

La formación, conocimientos, práctica y experiencia son imprescindibles para la aplicación de instrumentos

4. ¿CÓMO APLICAR CORRECTAMENTE LOS INSTRUMENTOS DE EVALUACIÓN PSICOLÓGICA?

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 5

4.1. Fuentes de Error de los Instrumentos de Evaluación Psicológica:

El cuerpo, palabra y mente en calma, facilitan nuestra labor profesional.

5. ¿QUÉ CONOCIMIENTOS SE DEBEN TENER PARA CORREGIR E INTERPRETAR UN

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 7

 Desde el modelo de Eysenck se evalúan 2 grandes Factores bipolares (Extraversión-

 Para evaluar el Desarrollo o la Inteligencia debemos:

 Considerar q los distintos constructos NO se pueden entender por separado.

Para una correcta y + amplia interpretación de la prueba es necesario:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 8

5.3. Conocer lo que mide un test, la población y el contexto de aplicación:

En cuanto a saber lo que mide un test:

Ejemplo.- Queremos evaluar a un niño de entre 2:6 años y 3:11.

En cuanto a la población y el contexto de aplicación de los instrumentos de evaluación:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 9

5.4. Conocer la forma de puntuación, corrección e interpretación de un test:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 10

6. LAS PUNTUACIONES EN LOS INSTRUMENTOS DE EVALUACIÓN PSICOLÓGICA.

6.1. Interpretación de las puntuaciones en los test psicológicos:

6.1.1. Criterios de rendimiento:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 11

Las pruebas referidas a criterio:

6.1.2. Interpretación en función de baremos:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 12

El Wechsler, en el manual del WISC-R considera a estos conceptos obsoletos, xq no permiten la

 CI de desviación: es una puntuación estándar (puntuación Z) transformada de modo que el

 Edad equivalente: q se halla comparando sus puntuaciones directas y evaluando sus

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 13

Dentro de este contexto describimos:

B. Puntuaciones centiles o percentiles:

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 14

 Esta puntuación significa lo mismo en cualquier distribución, también en diferentes grupos y

 Principal problema de las puntuaciones típicas (estándares y normalizadas) para su interpretación

7. CRITERIOS DE CALIDAD PSICOMÉTRICOS DE LOS INSTRUMENTOS DE EVALUACIÓN

La Evaluación Basada en la Evidencia (EBA) consiste en el uso de la investigación y las teorías

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 15

Una aproximación de la evaluación basada en la evidencia supone obtener criterios de precisión y

 La fiabilidad de un instrumento se ve influenciada por los errores de medida no sistemáticos. Hay

Muñiz, 1996. El cálculo de la fiabilidad de un test supone determinar la cantidad de errores

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 16

Dt es la unidad de desviación típica del test

Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 17

B. Estabilidad (o consistencia) temporal o coeficiente test-retest:

Utilizar un procedimiento u otro para el cálculo de la fiabilidad de un instrumento, es responsabilidad del