Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. INTRUDUCCIÓN.
Existen diferentes nomenglaturas para nombrarlos: técnica, prueba, test,… Existiendo diferencias
entre ellas.
Las técnicas pueden ser procedimientos cuantificables y Tipificados, o NO serlo.
Las técnicas psicométricas son procedimientos cuantificados y tipificados, que disponen
de:
Normas para aplicarlos,
Baremos para su interpretación y permiten comparar a una persona con su grupo
de referencia.
Pruebas (otra forma de denominar a los instrumentos de evaluación, con independencia de
que estén o NO estandarizados).
Ha sido habitual utilizarla como sinónimo de test, si bien difiere xque:
Las pruebas de evaluación psicológica pueden ser tanto procedimientos tipificados
como No tipificados.
Los test siempre deben estar tipificados.
Las diferentes técnicas psicológicas se han ido generando desde los distintos modelos teóricos.
Estas técnicas se basan en:
Los planteamientos teóricos de cada modelo.
Los tipos y niveles de inferencia de las variables o dimensiones que evalúan, y
Los métodos aplicados para construirlas.
Los Modelos: Dinámico (q evalúa el mundo inconsciente del individuo) y Constructivista
(centrado en las construcciones subjetivas de las personas):
Utilizan técnicas proyectivas y subjetivas.
Se sirven de instrumentos que NO suelen estar tipificados.
Los Modelos del Atributo o Cognitivo-Conductual:
Utilizan técnicas psicométricas que disponen de baremos para situar a cada persona en
relación al grupo de referencia al que pertenece y con el que se compara (evalúa aspectos
cuantificables).
Para la selección de las diferentes técnicas (entrevista, observación, psicométricas…) hay que tener en
cuenta:
1. Los objetivos de la Evaluación (diagnóstico, orientación, selección o intervención psicológica).
2. Los contextos en los que se vaya a realizar su aplicación, y
3. Finalmente las Fases del Proceso de Evaluación Psicológica.
A. La Entrevista:
Técnica utilizada a lo largo de todo el “Proceso”.
El tipo de entrevista es diferente:
Según el contexto al q se aplique (clínico, educativo, recursos humanos, forense…)
dependiendo del objetivo q se proponga (diagnóstico, orientación, selección o intervención)
En las distintas fases del proceso de evaluación.
Así, la entrevista inicial en cualquiera de los ámbitos tiene una duración u contenidos distintos
de la utilizada para aplicar las pruebas de evaluación, en la entrega de resultados, durante la
intervención o durante el seguimiento del un caso.
B. La Observación:
Técnica de evaluación que:
Establece diferentes tipos de registros según se quiera realizar una Auto o una Hetero-
observación.
En las primeras fases del proceso de evaluación: se aplica de forma + asistemática.
Se aplica con mayor grado de sistematicidad en fases + avanzadas del proceso.
D. Técnicas Proyectivas:
Se les añade el término “test”: Test de Rorschach, Test del dibujo de la Familia, Test de
Apercepción Temática (TAT)…, aunque
En realidad NO son test si no están estandarizados y no disponen de baremos
psicométricamente establecidos.
No obstante algunas, aún siendo proyectivas, sí disponen de estándares. Ejemplos en las q las
pruebas permiten realizar una interpretación cuantitativa y también cualitativa con criterios
bien establecidos:
E. Técnicas Subjetivas:
Evalúan significados personales sobre la persona y su mundo valiéndose del uso de categorías del
lenguaje para realizar atribución y/o auto-atribución subjetiva de significado.
Se han desarrollado pruebas con mayor o menor grado de estructuración de los datos:
listados de adjetivos, la técnica Q, la técnica de rejilla, el diferencial semántico, o los métodos
hermenéuticos y narrativos.
Incluso se han creado programas informatizados para su corrección e interpretación (no solo
cualitativo) sino también cuantitativa.
(Aunque en su mayoría no pueden considerarse test xque no disponen de baremos), existen
algunas pruebas subjetivas que sí se consideran test psicométricos:
Están enmarcados dentro de la categoría de “listados de adjetivos” que disponen de:
Normas de Corrección y aplicación.
Apropiadas cualidades psicométricas y de baremos para poder interpretar las puntuaciones.
Por ejemplo, las pruebas como:
La escala de Satisfacción Familiar por Adjetivos (ESFA) de Barraca y López-Yarto (1997,
2017),
El Inventario de Adjetivos para la Evaluación de los Trastornos de Personalidad (IA-TP)
de Tous, Pont y Muiños (2005-2009).
F. Técnicas Objetivas:
Utilizan aparatos que permiten registrar y analizar variables cognitivas, motoras y
psicofisiológicas sin que el sujeto pueda controlarlas, ni el evaluador pueda intervenir en los
resultados.
En el caso de considerar utilizarlas en el proceso de Evaluación (dada la complejidad de aplicación
a todos los niveles),
Se aplicarían en fases + avanzadas ya que son + objetivas.
Los instrumentos de evaluación psicológica son distintos en función de los modelos de evaluación
de los que deriven. En general:
Los psicólogos formados en corrientes + humanistas o constructivistas: usan técnicas subjetivas.
Desde la vertiente psicodinámica: aplican técnicas proyectivas.
Los conductistas y cognitivo-conductuales aplican mayoritariamente técnicas psicométricas y
objetivas.
Estas diferencias van siendo cada vez menos radicales, pues desde una perspectiva ecléctica
(*tomar conceptos o puntos de vista compatibles de las diferentes escuelas y mezclarlos para formar
una síntesis propia y coherente):
La combinación de distintos tipos de técnicas (o instrumentos) sirve para ofrecer una visión +
holística y completa de la persona evaluada, ya que integra:
lo que responde la persona en un test,
y además se conoce el significado personal de sí misma y de su entorno,
o de su estructura de personalidad menos consciente.
Cada técnica no está exenta de críticas o de sesgos, por lo cual es importante que los evaluadores se
formen y adquieran competencias adecuadas para la correcta evaluación. En este sentido diremos que:
El “instrumento” de evaluación + importante es “el propio evaluador o psicólogo”, ya que
evaluar es una responsabilidad con uno mismo y con los demás.
Los instrumentos de evaluación psicológica disponen de Manuales que incluyen información sobre:
Las Normas de Aplicación y sobre la realización de las buenas prácticas para garantizar la
validez de su administración y la correcta obtención de los resultados.
Aspectos relacionados con las personas a quienes se les aplicarán (los test). Así explican la
importancia de:
a) Establecer un buen clima durante la aplicación, así como las mejores condiciones ambientales de
luz, temperatura, silencio y evitar interrupciones.
b) Explicar el objetivo de la evaluación y garantizar la confidencialidad de los resultados: se indica
que sólo se transmiten a la persona evaluada y/o a quienes se otorgue permiso.
c) Motivar a las personas para que pongan interés al realizar las pruebas y muestren veracidad en
sus respuestas.
d) En los casos de pruebas con tiempo limitado para responder, se debe indicar que se esfuercen
al máximo, pero sin que repercuta en q se sientan ansiosos.
e) Considerar la edad de la persona.
Cuando se trate de niños: utilizar silla y mesa cómodas (que sentados puedan llegar con los
pies al suelo, y que la mesa les permita ver bien el material presentado, o escribir y dibujar
cómodamente).
Conviene disponer siempre de juegos (x si se precisan un tiempo).
f) Si la persona evaluada tiene alguna deficiencia sensorial o discapacidad: el evaluador debe
adaptarse a sus necesidades específicas.
g) Los materiales han de prepararse con anterioridad (antes de comenzar la evaluación) colocándolos
estratégicamente en la mesa para que el evaluado no vea el cuadernillo de anotación, ni donde se
indican las respuestas correctas de cada ítem.
En general, para evitar las fuentes de error del evaluador y del evaluado:
El evaluador:
Siempre ha de leer y estudiar el manual de la prueba que quiera aplicar,
Preparar bien el lugar de aplicación, los materiales necesarios, y
Seguir siempre las indicaciones exactas del manual (así siempre dará las mismas instrucciones
a todos lo evaluados).
Garantizar (junto a la correcta aplicación) que el sujeto comprenda lo que se le pide.
De esta forma se evita que el evaluador (x ejemplo) utilice otros modos de preguntas que no consten
en los manuales, y se evita en el evaluado la deseabilidad social en sus respuestas (entre otras).
Seleccionar bien las pruebas en cada sesión: empezar aplicando las + fáciles o
divertidas (motiva a q acuda el próximo día).
En cuanto al evaluador (además de saber aplicar una prueba, corregirla e interpretarla) es
importante que se preste atención a sí mismo, a cómo se está trabajando, al estado físico y
emocional propio. Por lo q se recomienda dedicar unos minutos al descanso entre cada
evaluación.
Mostrar una actitud serena, empática y calmada beneficiará todo el proceso de
Evaluación Psicológica; para ello es necesario:
preparar previamente la sala y los materiales, y además
prepararse a uno mismo para estar centrado y atento.
El hecho de que el psicólogo se muestre tranquilo, y no muestre nerviosismo ante los sujetos
que evalúa: repercute positivamente en las respuestas y en los resultados, evitando sesgos.
Es necesario, una buena formación para aprender a corregir e interpretar las pruebas de evaluación. Para
ello debemos conocer:
1º, las variables que evalúa un instrumento y su interrelación con otros constructos.
Los modelos que han guiado la construcción del instrumento seleccionado, sus contenidos.
Lo que mide un test, la población a la q va dirigido, su forma de aplicación y el contexto.
Las puntuaciones y corrección, y los criterios de calidad de los instrumentos de evaluación.
5.1. Conocer las variables q evalúa un instrumento y su interrelación con otros constructos:
En la asignatura de “Evaluación Psicológica” se ponen en marcha los aprendizajes de todas las materias
del Plan de Estudios sobre Psicología (q están interrelacionados entre sí). Ya que,
Para poder evaluar cualquier constructo (o variable) hay que conocer las principales características de
dicha variable. Por ejemplo,
Para elegir un instrumento que mida la depresión: necesitamos saber los signos y síntomas q la
caracterizan.
Si evaluamos la Personalidad: necesitamos conocer los aspectos descriptivos y clínicos de la
misma y lo que significan las diferentes dimensiones de la personalidad que se evalúan desde los
distintos modelos.
En ambos casos, necesitamos conocer el significado de cada variable evaluada para poder
realizar una interpretación y explicación sobre los sujetos evaluados.
Anastasi y Urbina (1998) indican que NO se pueden estudiar las aptitudes de forma independiente de las
variables afectivas.
5.2. Conocer los modelos que han guiado la construcción de los instrumentos:
Conocer las bases conceptuales que han guiado la construcción del test, en relación a:
la dimensión (o constructo) que mide y
los aspectos psicométricos de su construcción.
Por ejemplo siguiendo con el ejemplo de los Test del Desarrollo y de la Inteligencia:
Muchos test han sido creados o adaptados desde el modelo CHC de Cattell-Hoin-Carroll.
La Información sobre los teóricos de la pruebas facilita su interpretación al conocer (en este caso
concreto) la estructura jerárquica subyacente del modelo.
Por otro lado, es importante informarse a través de los Manuales sobre las bases psicométricas
que han guiado la creación o revisión de los test.
Conocer estos aspectos, permite interpretar mejor las puntuaciones q se obtienen en cada instrumento,
lo cual ayuda a realizar una interpretación de los resultados correcta y fiable.
Una vez que entendamos el modelo teórico sobre la construcción de las pruebas, comprenderemos
mejor la información q nos ofrece cada una de ellas.
Toda esta información (y +) está contenida en los manuales de pruebas clasificadas en el nivel de
formación “c”, los cuales (a veces) incluyen 2 manuales:
1. Un manual de aplicación y Corrección, y
2. El Manual técnico: donde se detallan aspectos de lo que mide cada índice y sobre la comparación
de las puntuaciones para realizar una correcta interpretación.
Pruebas como el BAT-7 (evalúa ente los 12 y 60 años de edad) es muy adecuado en el ámbito
laboral (aunque también se emplea en el educativo), ya que mide la capacidad General (o factor “g”).
Se utiliza para procesos de selección de personal junto a otros test de personalidad o entrevistas
estructurales.
El test de MATRICES se utiliza para evaluar personas con problemas de lenguaje o que no
dominan el español:
Que con el mínimo contenido verbal posible evalúa la Inteligencia general (o factor “g”), a través de
estímulos NO verbales:
Permite evaluar la capacidad para resolver problemas complejos y razonar con contenido
abstracto, aspectos necesarios para el aprendizaje y rendimiento escolar o laboral relacionadas
con el factor Gf (o de inteligencia fluida)
No mide la Gc (Inteligencia cristalizada).
Los test clasificados en un nivel “c” (por ejemplo el BAS-II) o incluso en el “b” (ej. El BAT-7)
requieren una formación específica, entrenamiento, ensayos y supervisión de psicólogos expertos
en la misma.
5.5. Conocer las puntuaciones y los criterios de calidad de los instrumentos de evaluación:
Otro criterio para seleccionar un instrumento de evaluación es conocer las puntuaciones que se pueden
obtener, así como sus criterios de calidad o propiedades psicométricas.
Las puntuaciones y criterios de calidad se describen en los manuales de los “test
psicométricos”.
Son difíciles de aplicar en otras técnicas como por ej. las proyectivas (xq poseen
características diferentes), pero se les puede hacer un análisis de consistencia interna y de
validez interjueces y/o conurrente junto a otros tipos de técnicas de evaluación (ej.
Psicométricas)
Se han establecido normas o estandarización de las formas de aplicar dichos test y recoger
las respuestas.
La aplicación conjunta de técnicas psicométricas y proyectivas pueden ofrecer una riqueza
extraordinaria a la hora de la evaluación psicológica. Pero para ello es necesario conocerlas en
profundidad.
En la infancia, el dibujo es una forma de expresión de cómo el niño capta su realidad, su familia, sus
miedos... Así pues, se utilizan técnicas proyectivas como:
El test de la figura humana q evalúa el desarrollo madurativo y emocional del niño y se ha
introducido en escalas como las de McCarthy
El Test del Dibujo de dos figuras humanas (T2F), que dispone de normas estandarizadas de
aplicación, corrección e interpretación y ha demostrado, a través de estudios de fiabilidad y
validez, la capacidad diagnóstica de las mismas.
Algunos test de inteligencia basados en los modelos de Teoría de Respuesta al Ítem (como el BAS-II),:
además de puntuaciones directas, incluyen Puntuaciones de Aptitud (PA) que indican el nivel puro
de rendimiento en el test.
Así,las puntuaciones directas (q no pueden ser comparadas entre sí ni sirven para consultar las
tablas de baremos) deben convertirse en Puntuaciones de Aptitud que:
se basan en la dificultad de los ítems intentados y en el número de respuestas correctas y
se obtienen a partir del modelo de Rasch.
No constituyen puntuaciones normativas y las cifras que se emplean son arbitrarias
(representan una escala común sobre la que expresar el rendimiento del niño a partir de los ítems
que se le han aplicado).
Para poder interpretar la puntuación directa en el test (o la puntuación de aptitud, si la tiene) debemos
referirla, o a los contenidos incluidos en el test, o al rendimiento de las restantes personas que
comparten el grupo normativo.
Así, se distinguen dos fuentes de información en las que los test se apoyan para dar significado a
la puntuación obtenida por el sujeto:
1. Los criterios de rendimiento (en el caso de los Test Referidos al Criterio)
2. Los baremos (en los Test Referidos a la Norma).
Algunas veces, existe una relación establecida entre los ítems del test y los estándares de
rendimiento en el mismo, con lo cual se dispone de unos criterios de rendimiento.
la puntuación obtenida por un individuo en el test se evalúa mediante la interpretación referida a
un criterio.
Este tipo de puntuación nos informa acerca del dominio que tiene el sujeto en una habilidad
particular.
Los baremos: son tablas que recogen los resultados de asignar un valor numérico a cada
puntuación directa obtenida por un individuo;
Este valor permite comparar individuos entre sí, o con su grupo de referencia,ya que
informa sobre la posición que ocupa la puntuación del individuo en relación con el resto del
grupo.
Para interpretar una puntuación referida a la norma: se transforma la puntuación directa en otra
puntuación que indique la posición que ocupa (respecto al grupo de referencia o normativo).
El proceso de baremación de un test: consiste en calcular una/s escala/s de valores que nos permiten
clasificar las puntuaciones obtenidas por un sujeto de acuerdo con algunas de sus características.
Formas de baremar un test: Baremos cronológicos, Puntuaciones centiles o percentiles, Baremos típicos.
A. Baremos cronológicos:
Se utilizan en poblaciones infantiles y cuando se aplican test de inteligencia general.
Ejemplos: (aunque Edad mental y cronológica están obsoletas y se han sustituido por CI de
desviación).
Edad Mental (EM): puntuación media que obtiene en una prueba el conjunto de la población de
esta det. edad. El problema es que un año de edad mental no significa lo mismo a lo largo del
desarrollo, ya que la distancia que va de un año al siguiente disminuye con la edad.
Cociente Intelectual (CI): cociente entre la edad mental y la edad cronológica multiplicada por 100,
elimina el problema sobre la EM (mencionado) al dividir la edad mental por la edad cronológica.
Ej.: Aplicamos un test de inteligencia de dificultad progresiva a diferentes grupos de niños de entre 4 y
16 años y las puntuaciones medias de cada grupo de edad son:
Edad 4 5 6 7 8 9 10 11 12 13 14 15 16
Puntuación media 16 18 19 21 24 25 28 32 34 37 39 40 41
A partir de los resultados se establece una correspondencia entre las edades y las
puntuaciones medias y obtenemos la EM: Así, si un niño obtiene en el test una puntuación
directa de 28, le asignamos una EM de 10 años (con independencia de su edad cronológica
real) ya que esa puntuación es la media que obtienen los niños de 10 años en el test.
También podemos calcular el CI dividiendo la edad mental entre la edad cronológica del sujeto
y multiplicándolo por 100, por ejemplo, si un niño de 10 años obtiene una puntuación directa de
34 puntos, diremos que su EM es de 12 años y su CI es 120. CI=(12/10)*100=120
o Si la EM=EC (es decir, coinciden exactamente), entonces
CI es igual a 100: Indica que este sujeto obtiene exactamente la puntuación media
de su grupo de edad.
o Si el CI > 100: el sujeto tiene una inteligencia superior al promedio de su edad.
o Si el CI < 100, el sujeto tiene una inteligencia inferior a la media de su edad.
Algunos test actuales utilizan un nuevo concepto de CI que deriva de la comparación del
rendimiento del sujeto con el rendimiento promedio de un grupo de referencia (basado en la
edad):
Cuando necesitamos conocer qué es lo que se espera q el niño haga en las diferentes etapas de
su desarrollo mental (y aunque se haya abandonado el concepto de Edad Mental) podemos obtener
esta información a través de :
Aunque los percentiles son fáciles de interpretar, NO explican las diferencias entre percentiles, ya
que son sólo medidas de orden, ni tampoco permiten comparar los percentiles obtenidos por un
mismo sujeto en diferentes instrumentos de evaluación.
Los centiles son cuantiles q dividen la distribución en 100 partes. Pero hay otros cuantiles:
Mediana: divide la distribución en 2 partes (mediana= centil 50).
Deciles: dividen la distribución en 10 partes (decil 1= centil 10,..., decil 10=centil 100)
Cuartiles: dividen la distribución en 4 partes (cuartil 1= centil 25, cuartil 2=centil 50, cuartil 3=centil
75, cuartil 4=centil 100).
C. Baremos típicos:
Una puntuación típica estándar (Zi):
es la diferencia entre la puntuación directa obtenida por el sujeto en el test y la media del grupo
de referencia, dividida por la desviación típica de ese mismo grupo en el test.
Indica el número de desviaciones típicas a la que se encuentra la puntuación de un sujeto
respecto a la media del grupo normativo.
Tienen de media 0 y desviación típica 1,y pueden ser positivas o negativas y contener decimales.
Una puntuación típica=1,5 indica que la puntuación directa del sujeto está 1,5 por encima de la
media del grupo;
Una puntuación típica= -1,5, se encuentra una desviación típica y media por debajo de la media del
grupo.
Las escalas típicas derivadas de uso más frecuente en los baremos de los test son:
a) Puntuaciones T: representan una escala con media 50 y desviación típica 10
b) Puntuaciones S: suponen una escala con media 50 y desviación típica 20
c) Decatipos (DE): representan una escala con media 5.5 y desviación típica 2
d) Eneatipos (EN): representan una escala con media 5 y desviación típica 2
e) Escalas de CI: representan una escala con media 100 y desviación típica 15
f) Puntuaciones Escalares (Pe): suponen una escala con media 10 y desviación típica 3.
Uno de los aspectos más importantes en la evaluación psicológica es la selección de los instrumentos o
técnicas adecuados.
La APA, AREA, NCME, etc. han establecido los estándares científicos requeridos para
considerar una medida psicológica adecuada.
La Comisión Internacional de Test (ITC) proporciona los criterios exigidos para la traducción y
adaptación de test creados en países diferentes a los de la población evaluada, las normas de uso de
los test, y el uso de instrumentos informatizados de evaluación.
Para que un instrumento sea psicométricamente sólido debe estar estandarizado y tener evidencias
adecuadas de fiabilidad y validez.
7.1. Fiabilidad:
La APA describe la fiabilidad como la “exactitud (consistencia y estabilidad) de la medición de un
test (la precisión con la que mide la prueba”). Así,
La falta de fiabilidad conlleva inconsistencia e imprecisión, y ambas se relacionan con el error de
medida.
o El cálculo de la fiabilidad nos informa de la cuantía del error de medida, por lo que a menor error,
mayor fiabilidad tendrá el test.
El error es cualquier efecto irrelevante para los fines o resultados de la medición que influye sobre la
falta de fiabilidad de la misma. Puede ser de dos tipos:
a) Error sistemático (o constante): se produce cuando las mediciones que se obtienen con un
instrumento de evaluación son sistemáticamente mayores o menores que lo que realmente debe ser.
b) Error no sistemático (o causal): se produce cuando las medidas son alternativamente mayores o
menores de lo que realmente deben ser.
Estos errores tienen que ver con la salud, fatiga, motivación, tensión emocional, fluctuaciones de
la memoria, condiciones externas de luz, humedad, etc.
Hay varios enfoques teóricos con el objetivo de cuantificar la magnitud de esos errores (que varían en
los aspectos que se consideran importantes y en el procedimiento para cuantificarlo):
7.1.1. Fiabilidad desde la Teoría Clásica de Test:
Desde la Teoría Clásica de los Test se considera que la puntuación que obtiene un sujeto en un test o
puntuación observada (Xi) se compone de una puntuación verdadera o real (Vi) + algún error no
sistemático de medida (Ei).
La calificación real del sujeto sería el promedio de las calificaciones que se obtendrían si una
persona realizara la prueba una cantidad infinita de veces.
Los indicadores de fiabilidad más frecuentes desde los modelos clásicos son: la consistencia interna,
la consistencia temporal o estabilidad test-retest, y acuerdo entre evaluadores o fiabilidad
interjueces.
A. Consistencia Interna:
Grado en que los diferentes ítems de una escala miden de manera consistente el mismo
constructo subyacente.
Constituye el método más extendido para el cálculo de la fiabilidad.
Normalmente se analiza por medio de coeficientes de correlación que reflejan las relaciones entre las
puntuaciones en los ítems de un test obtenidas en una única aplicación.
o El coeficiente más utilizado para el cálculo de la fiabilidad es el Coeficiente Alfa de Cronbach:
Expresa la fiabilidad del test en función del número de ítems y de la proporción de la
varianza total del test debida a la covariación de los ítems.
Cuanto más covaríen los ítems entre sí, mayor será la fiabilidad del test. Los valores de
este coeficiente oscilan entre 0 y 1. Cuanto más cerca se encuentre de 1 mayor será la
consistencia interna de los ítems.
o El método de las dos mitades es una variante en el cálculo de la consistencia interna y
consiste en calcular la correlación entre las dos mitades en las que se ha dividido el test original.
Inconveniente: se obtiene el coeficiente de fiabilidad de lo que constituiría la mitad del test. Por lo
tanto, como corrección se utiliza la fórmula de Speraman-Broun; también se pueden utilizar las de
Flanagan, Guttman o de Rulon.
El Error Típico de Medida (ETM) proporciona una estimación de la cantidad de error que contiene
la puntuación obtenida.
El error de medida se suele expresar en términos de unidades de desviaciones típicas; es decir el
error típico de medida es = a una desviación típica en la distribución de los errores de medida.
C. Fiabilidad interjueces:
Se trata de determinar si dos o más resultados obtenidos por dos o más evaluadores distintos, o
por el mismo evaluador en momentos diferentes, son coincidentes.
Se calcula a través de un índice de concordancia entre evaluadores, siendo el más utilizado el índice
Kappa.
La función de la información es distinta para cada nivel del rasgo latente, por lo que la fiabilidad
es distinta a lo largo del continuo de habilidad. Motivo por el que se debe abandonar el concepto
global de test fiables en su conjunto para todos los sujetos, y pasar a la idea de que “el test es
preciso según el intervalo del continuo de aptitud que estemos evaluando”.
7.2. Validez:
Hace referencia al grado de adecuación de las inferencias realizadas a partir de las puntuaciones de
los test de manera que estas sean apropiadas, significativas y útiles (tradicionalmente, grado en que
un instrumento mide lo que pretende medir).
Según los Standards for Educational and Psychological Testing (SEPT), el proceso de validación
es la obtención de evidencias empíricas que argumenten la interpretación del test y de su uso.
Las distintas evidencias de validez no representan distintos tipos de validez, sino distintas
aproximaciones a la validez entendida como un concepto unitario.
Es una propiedad del significado de las puntuaciones y de la interpretación que se realiza de las
mismas (y no una propiedad del instrumento).
Puede verse afectada por:
errores no sistemáticos: de construcción, de administración y de calificación de las pruebas, (como
en el caso de la fiabilidad )
por errores sistemáticos : ya q es difícil valorar un rasgo aislado , un constructo determinado, sin
la influencia de otros. Ej. si queremos construir un test para medir razonamiento es difícil que no se
vea afectado por la influencia de la atención o memoria.
o el error sistemático de medición surge cuando, sin que el autor lo sepa, la prueba mide de
manera consistente alguna otra variable que no es el rasgo para el que se creó.
Por ello, una prueba puede ser fiable sin ser válida, pero no puede ser válida sin ser fiable.
Existen diversos índices que permiten cuantificar el grado de congruencia en las respuestas de
los jueces sobre la asignación de los ítems a cada dimensión y su nivel de representatividad y utilidad.
El índice propuesto por Rovinelli y Hamblentone es uno de los + usados: se le pide al juez que
valore en una escala de tres puntos (-1, 0, 1) el grado en el que el ítem está relacionado con la
dimensión que pretende medir y así, evaluar el grado de validez de contenido de cada ítem.
Cuando un mismo ítem ha sido valorado con 1 por todos los jueces se obtiene un índice de
congruencia 1, (el ítem ha sido emparejado a la misma dimensión por todos los jueces).
Existen tres tipos de diseños para la obtención de evidencias de validez de criterio. Que se
diferencian en el modo en que han sido recogidas las puntuaciones del test y del criterio:
a) Estudio de validación predictiva: Estudia la correlación entre las puntuaciones obtenidas en el test
con las puntuaciones de algún criterio que serán recogidas en un tiempo futuro (el criterio se administra
en un momento posterior al test).
El objetivo es determinar la adecuación del test para predecir las puntuaciones futuras en el
criterio (ejemplo de validación de criterio: observar si las puntuaciones obtenidas en un examen
de ingreso (test) predicen las calificaciones universitarias (criterio). En la selección de personal se
utilizan instrumentos que pretenden predecir el rendimiento futuro de los candidatos al puesto de
trabajo basándose en las respuestas obtenidas.
b) Estudio de validación concurrente: se administran de forma simultánea el test y la medida del
criterio.
Se utiliza para validar un test nuevo por comparación con otro ya validado previamente.
c) Estudio de validación retrospectiva: el criterio se mide antes de aplicar el test. Se utiliza para
dilucidar mediante alguna prueba algún aspecto del pasado que ya no es accesible.
Suen (1990), la validez de contenido y la de criterio se pueden ver como aspectos concretos de la
validez de constructo.
Un prerrequisito de la validez de constructo es la relevancia y representatividad del test (con
respecto al universo de elementos que sirven para medirlo).
Y a su vez, la validez de criterio contribuye con evidencias empíricas sobre el significado de un
test en la medida en que se relaciona con otras variables.
Validez factorial:
Análisis factorial exploratorio-confirmatorio: es una técnica de análisis multivariado que permite
obtener evidencias sobre la dimensionalidad subyacente de los instrumentos de medida o validez
factorial.
Conceptualmente y metodológicamente presenta dos tipos o modalidades diferentes q se
corresponden con dos grandes aproximaciones para definir constructos:
1. Análisis Factorial Exploratorio (AFE), q se corresponde con la aproximación “inductiva” o
exploratoria.
Las matrices multirrasgo-multimétodo son una evidencia empírica sobre la validez de constructo
desde una perspectiva externa.
El análisis de las consecuencias del uso de los test y los juicios de valor inherentes a las
interpretaciones que se hacen a partir de ellos, ha generado gran debate sobre la pertinencia o no de
incluir el análisis de las consecuencias dentro del procedimiento de validación (hay autores que están
de acuerdo, y otros en contra).
B. Validez Social:
De entre las evidencias referidas a las consecuencias de la administración de los test, está la q
proporciona la validez social.
El concepto aparece inicialmente vinculado a la evaluación e interpretación de sujetos con retraso,
Se debería considerar como un requisito de las técnicas psicométricas para establecer los criterios
normativos o estándares de comparación de los individuos, en la pertinencia ética y económica de
los procedimientos utilizados, y en la valoración de los tratamientos en cuanto a la repercusión
social que para el paciente y su entorno tengan los efectos conseguidos.
Kazdin y Wolf, proponen dos métodos para evaluar la validez social:
a) Valoración subjetiva de la aceptabilidad social y de la importancia de las metas,
procedimientos y/o resultados obtenidos
b) Valoración cuantitativa de los resultados mediante comparaciones normativas.
Foster y Mashi (1999): la validez social es un constructo multidimensional constituido por dos
subconstructos generales: aceptabilidad y relevancia.
C. Utilidad:
En relación con los instrumentos de evaluación, el concepto de utilidad hacer referencia a tres
aspectos:
a) La sensibilidad de una técnica para detectar variables de tratamiento
b) Su eficacia para identificar comportamientos objetivo del tratamiento
c) El grado en que la utilización de una técnica contribuye a la mejora de los resultados del
tratamiento.
Fernandez-Ballesteros y Calero (2011) la utilidad:
es + una característica del proceso de evaluación (que de las técnicas que se utilizan) y
hace referencia a que en el proceso de evaluación se deben tomar las decisiones más útiles.
Las últimas aportaciones del la APA demuestran que la evaluación psicológica es al menos tan
útil como la médica en las siguientes áreas:
1) Descripción de sintomatología clínica y diagnóstico diferencial
2) Predicción del comportamiento
3) Predicción de resultados médicos
4) Predicción del uso de sistemas de salud
5) Predicción de resultados de las psicoterapias
6) Predicción de resultados en salud mental.
el trabajo El grupo de Meyer realiza un meta-análisis en el que analizan más de 125 trabajos
sobre la validez de los test y 800 muestras en las que se examina la evaluación multi-método, y
llegan a las siguientes conclusiones:
1) La validez de los test psicológicos es alta y convincente.
2) La validez de los test psicológicos es comparable a la de los test médicos.
3) Distintos métodos de evaluación proporcionan fuentes de información única.
4) Los clínicos que sólo se basan en entrevistas suelen obtener un conocimiento incompleto
de los pacientes.
D. Validez Incremental:
Con relación a la evaluación multimétodo (+ no es siempre mejor) la simple combinación de
medidas no debe ser asumida por defecto, debe ser demostrada empíricamente para cada
objetivo de la evaluación.
Cuando se desea usar diferentes fuentes se debe contemplar desde el punto de vista de su coste y
grado de especificidad, y también desde la perspectiva de la validez incremental (grado en el
incluir medidas e informantes a lo largo del proceso de evaluación mejora la toma de decisiones y
el poder predictivo).
La validez incremental de las medidas se puede analizar sobre varias dimensiones: sensibilidad
al cambio, eficacia diagnóstica, validez de contenido, validez criterial, diseño de tratamiento y
resultado y validez convergente.
El Psychological Assessment se publico en 2003, una sección especial que incluía trabajos sobre
la combinación de técnicas en relación con la validez incremental, entre sus aportaciones
destacan:
Cuando se considera la psicopatología de adultos y el estudio de la personalidad, las técnicas
proyectivas no parecen añadir validez incremental, ni a otras técnicas usadas ni al juicio
clínico. Sin embargo, el uso del Test de Rorscharch conjuntamente con el MMPI-2
aumenta la predicción clínica en el diagnóstico de las conductas antisociales y de las
alteraciones de pensamiento.
Combinar entrevistas clínicas estructuradas con instrumentos específicos, que evalúan una
alteración, aumentan la validez incremental.
El uso de inventarios o cuestionarios estandarizados, como primera aproximación a la
evaluación de los problemas de personalidad, seguido de una entrevista
pormenorizada sobre los problemas identificados en el cuestionario previamente
administrado, tiene el riesgo de producir un mayor número de falsos negativos.
Tras la aplicación de entrevistas administradas sólo al cliente, la administración de entrevistas
a familiares, añade información significativa.
La evaluación de la personalidad, tanto mediante instrumentos centrados en la psicopatología
como los centrados en los rasgos o dimensiones no patológicas, aumentan la validez del
juicio clínico.
El uso de múltiples métodos en la evaluación infantil se justifica + por criterios
racionales que empíricos. Ocurre parecido en relación con el uso de numerosas fuentes:
muestran q la validez incremental depende de la medida específica, la edad del niño, el rol del
informante, y la cuestión a evaluar.
Una evaluación centrada en múltiples constructos aumenta la predicción y validez de la
misma.
Las combinaciones madre-padre o niño-padre son las que mejor predicen
problemas conductuales en los niños derivadas de la aceptación parental percibida.
7.3. Exactitud:
Desde una perspectiva conductual, era difícil asumir los principios psicométricos de la Teoría
Clásica de Test (TCT) para elaborar instrumentos de evaluación. Así, dentro de la evaluación
conductual, se desarrollaron métodos al margen de los estándares oficiales, y se empezaron a
proponer conceptos alternativos como el de exactitud.
Al evaluador conductual le interesa obtener información sobre una o más cantidades de alguna
dimensión de la conducta y, para ello, se deben desarrollar formas de generar esta información y de
evaluarla en función de la exactitud con la que se presenta.
Cone (1988) señala que los aspectos que se deben determinar: a) si la conducta ocurre o no, b) si
ocurre de forma repetida c) si ocurre en más de una situación d) si se puede medir de más de una
forma, e) si se relaciona sistemáticamente con la ocurrencia de otra u otras conductas.
Un instrumento de evaluación conductual es apto para evaluar conductas concretas, cuando
demuestra previamente que refleja de manera precisa dichas características.
Para establecer la exactitud de un instrumento de evaluación conductual es necesario especificar
claramente los procedimientos o reglas de utilización del instrumento, y disponer de un índice con el
que puedan compararse los datos de la prueba.
El término de exactitud NO es equivalente, ni al de fiabilidad, ni al de validez desde la TCT.
Se refiere al grado en que una medida representa fielmente las características topográficas
objetivas de la conducta, mientras el término fiabilidad se refiere al grado de consistencia con el
que observaciones repetidas del mismo fenómeno nos proporcionan una información equivalente. Así,
un instrumento exacto tendrá que ser fiable, pero no al contrario, (por ej., dos observadores
pueden estar de acuerdo entre sí, pero los dos pueden haber pasado por alto características
Resumen del Manual de Evaluación Psicológica. María José Ramos. Página 26
Bloque II. Capítulo 4. INSTRUMENTOS de Evaluación y GARANTÍAS de
Calidad. UNED.
topográficas objetivas de la conducta, mientras que no es posible que hayan controlado esas
características objetivas y que no estén de acuerdo entre sí).
En lo q concierne a la validez, Cone indica q una medida puede ser válida pero no exacta, ya que:
la exactitud se refiere a una verdadera medida independiente, mientras que
la validez conlleva la ausencia de tales valores, por lo que éstos deben ser estimados mediante
criterios de validación.
Desde la década de los 80 se ha producido una proliferación de manuales, guías, revistas, artículos y
otras publicaciones relacionadas con la capacitación y la conducta apropiada de los evaluadores
al examinar a los miembros de otras culturas.
Abordan distintas cuestiones, como la evaluación de estudiantes, examen a niños, pero la mayoría
se centran en el problema general de la evaluación multicultural.
Entre los trabajos + conocidos está Las Guidelines on Multicultural Education, Traming,
Research, Practice and Organizational Change for Psychologists (APA, 2002) donde se recoge
que entre las competencias del psicólogo actual, deben incluirse la sensibilidad y conocimiento
multicultural.
Existen muchas críticas por el hecho de que la mayoría de las técnicas de evaluación están fuertemente
sesgadas en favor de la cultura occidental.
El grado en que los test son válidos al evaluar poblaciones diferentes es importante en una
sociedad cada vez+ multiétnica.
Cada instrumento psicológico mide una muestra de conducta y las “pruebas” deben ser capaces
de detectar la influencia de la cultura, en la medida en que afecta al comportamiento (Anastasi y
Urbina, 1998).