Construcción de Instrumentos Psicológicos

UNIVERSIDAD DE HUÁNUCO
FACULTAD DE CIENCIAS DE LA SALUD

PROGRAMA ACADÉMICO DE PSICOLOGÍA
“Psicología, la fuerza que mueve al mundo y lo cambia”
Módulo de Construcción de Instrumentos Psicológicos “B”
Gregorio Nilo Arratea Castro

Psicólogo
Maestro en Intervención Psicológica e Investigación
Docente del curso
C.Ps.P. N° 4817
Huánuco - Perú
2020-1
CONTENIDO
UNIDAD I: DISEÑO Y ELABORACIÓN DE INSTRUMENTOS PSICOLÓGICOS

1. FASES EN LA CONSTRUCCIÓN Y ELABORACIÓN DE UN INSTRUMENTO
PSICOLÓGICO .......................................................................................................... 5
1.1. Definiciones: análisis del rasgo a evaluar ....................................................... 5
1.2. Planificación: elaboración de los ítems ............................................................ 6
1.3. Análisis de ítems .............................................................................................. 6
1.4. Determinación de la confiabilidad .................................................................... 7
1.5. Determinación y control de la validez............................................................... 7
11.6. Tipificación de los resultados ......................................................................... 7
1.7. Normas de aplicación....................................................................................... 7
2. REGLAS PARA ELABORAR ÍTEMS ...................................................................... 8
2.1. Revisión del test por expertos .......................................................................... 8
2.2. Análisis y selección de ítems ........................................................................... 9
UNIDAD II: DESARROLLO HISTÓRICO Y FUNDAMENTOS TEÓRICOS QUE DAN

ORIGEN A LA APARICIÓN DE LOS INSTRUMENTOS PSICOLÓGICOS
3. ORÍGENES Y DESARROLLO DE LOS INSTRUMENTOS DE EVALUACIÓN
PSICOLÓGICA ......................................................................................................... 13
3.1. Momentos que marcan el auge de los instrumentos de evaluación psicológica
.............................................................................................................................. 16
4. INSTRUMENTOS PSICOMÉTRICOS .................................................................. 17
5. EL MODELO PSICOMÉTRICO O DE LOS ATRIBUTOS ..................................... 18
6. TÉCNICAS PSICOMÉTRICAS ............................................................................. 20
7 TÉCNICAS PROYECTIVAS .................................................................................. 21
8. CRÍTICAS A ESTE TIPO DE PRUEBAS PSICOLÓGICAS .................................. 23
UNIDAD III: BARRERAS E IMPLICANCIAS DE LOS INSTRUMENTOS

PSICOLÓGICOS
9. LIMITACIONES DE LAS PRUEBAS PSICOLÓGICAS......................................... 25
10. ADAPTACIÓN DE LOS TEST A OTRAS CULTURAS ....................................... 26
10.1. ¿Por qué adaptar los test? ........................................................................... 26
10.2. Fuentes de sesgo ........................................................................................ 27
10.3. La influencia del lenguaje............................................................................. 29
10.4. Métodos de adaptación ................................................................................ 29
11. IMPLICANCIAS ÉTICAS .................................................................................... 33
UNIDAD IV: CONFIABILIDAD, VALIDEZ Y BAREMACIÓN DE INSTRUMENTOS

PSICOLÓGICOS
12. VALIDEZ DEL TEST .......................................................................................... 37
12.1. Validez de contenido .................................................................................... 37
12.2. Validez de constructo ................................................................................... 38
12.2.1. Estrategias para la validez de constructo .............................................. 39
12.2.2. Validez de constructo factorial ............................................................... 41
13. FIABILIDAD DEL TEST ...................................................................................... 42
13.1. Fiabilidad como estabilidad temporal ........................................................... 42
13.2. Fiabilidad como consistencia interna ........................................................... 44
13.3. Método de dos mitades ................................................................................ 44
13.4. Coeficiente alfa de cronbach ........................................................................ 45
13.5. Fiabilidad como correlación entre formas paralelas ..................................... 47
14. BAREMACIÓN DEL TEST ................................................................................. 48
14.1. Baremos cronológicos.................................................................................. 48
14.2. Centiles o percentiles ................................................................................... 49
ANEXOS
CONSTRUCCIÓN DE INSTRUMENTOS PSICOLÓGICOS
UNIDAD I: DISEÑO Y ELABORACIÓN DE INSTRUMENTOS PSICOLÓGICOS
Diseñar y elaborar un instrumento psicológico implica un conjunto de

procedimientos de planificación, diseño, control, normalización y estandarización
de pruebas o test psicológicos.
La construcción de un test psicológico puede enmarcarse en la teoría clásica o
realizarse de acuerdo a la teoría de respuesta al ítem (también llamada «teoría
probabilística»).
Si se concibe el test como instrumento medición ajustado a criterios científicos,
su construcción es un proceso complejo, que consta de varias fases o pasos en
los que se aplican pruebas o procedimientos estadísticos.
Las fases se realizan sucesivamente, de modo que cada una se basa en los
resultados obtenidos en la fase anterior.
1. FASES EN LA CONSTRUCCIÓN Y ELABORACIÓN DE UN INSTRUMENTO

PSICOLÓGICO
Existen diversas posibilidades de definir la secuencia de tareas, pero por lo

general se partirá de una teoría ya existente (por ejemplo, la teoría de la
inteligencia, la teoría psicoanalítica de las pulsiones), a la luz de cuyos
postulados se generan las preguntas, ítems o tareas del test.
Estos ítems, con la ayuda de diversos procedimientos y pruebas estadísticas,
serán estudiados estableciendo su valor discriminatorio, su confiabilidad, su
validez, etc.
Con frecuencia se realiza una agrupación hipotética (en clases) de las
características que se medirán y luego a través de procedimientos estadísticos
(por ejemplo el análisis factorial) se explora la intensidad o la frecuencia de
presentación de un rasgo estudiado en su clase.
Sin embargo, independientemente de los métodos específicos, es posible
diferenciar de manera gruesa las siguientes etapas en la construcción de un test:
1.1. Definiciones: análisis del rasgo a evaluar

Se trata de establecer el constructo no observable que se pretende medir con el
test y los factores que podrían definirlo (por ejemplo, el constructo
«personalidad» y los rasgos estructurales que la definirían; o la «inteligencia» y
las funciones cognitivas que la denotan).
En esta fase se trata de delimitar los alcances de lo que se quiere medir, definir
operacionalmente el concepto, aislarlo de otros constructos aledaños, etc.
Mg. Gregorio Nilo Arratea Castro 5

Se supone que la calidad del análisis y delimitación clara del constructo

determina en gran medida el éxito de la aplicación posterior y la consistencia
interna y externa (en términos de fiabilidad y validez) del test que se construye.
1.2. Planificación: elaboración de los ítems

Se trata aquí de diseñar el test, determinando su estructura general y definiendo
el tipo de tareas o ítems a las que se someterá a la persona (o grupo de
personas, puesto que es importante recordar que el objeto de un test no siempre
es un individuo: puede ser un grupo social, una institución, un equipo de trabajo,
una organización laboral) que será probada.
En esta fase se formulan las posibles preguntas o instrucciones para cada una
de las tareas del test.
El resultado de esta fase es un prototipo de test, es decir una versión provisional
de la construcción propuesta, es deseable que esta primera versión del test
conste de un número elevado de ítems sobre los que posteriormente hacer la
selección final. Anstey (1976) recomienda que se elabore una base que al menos
triplique el número de ítems de que constará el test definitivo.
1.3. Análisis de ítems

En esta etapa se establecen los criterios de adecuación de los ítems, los que
más tarde serán nuevamente controlados en la fase de validación.
Principalmente se trata aquí de explorar el grado de dificultad de las tareas o
ítems que van a conformar el test y de determinar la capacidad que estos
muestran para discriminar la variable que se estudia.
Existen dos tipos de análisis posibles:
Análisis subjetivo: Realizado por un conjunto de expertos en la materia que el
test va a evaluar, se trata de un proceso de eliminación de todos aquellos ítems
que sean juzgados inconvenientes con base a una serie de criterios aparentes.
Así, se descartarán mediante este proceso aquellos ítems que reflejen
ambigüedad, constituyan una repetición innecesaria, guarden poca relación con
el constructo a evaluar o una tengan una complejidad sintáctica excesiva.
Análisis objetivo: Se realiza a partir del análisis estadístico de los ítems, los
criterios de selección varían en función de los supuestos del modelo a utilizar en
su construcción.
Si la prueba se construye con base en la teoría clásica de los test, los criterios
de selección a tener en cuenta serán los índices de homogeneidad, validez y
dificultad del ítem; su poder discriminativo; y el coeficiente de fiabilidad del test.

Si por el contrario, la prueba se construye bajo los supuestos de la teoría de

respuesta al ítem, los criterios de selección, según Hambleton y Swaminathan
(1985) serán la dificultad y discriminación del ítem.
1.4. Determinación de la confiabilidad

El coeficiente de confiabilidad (o fiabilidad) deberá establecer si la característica
estudiada se puede medir con el test de manera estable.
Un test es confiable si mide siempre de igual manera (o de manera estable) la
característica o constructo no observable que pretende medir. Dicho de otro
modo, el test- restest debe arrojar resultados iguales o su diferencia debe ser lo
suficientemente mínima como para desestimarse.
1.5. Determinación y control de la validez

Se trata de establecer y controlar si el test mide realmente aquella característica
que pretende medir.
La prueba de esto se consigue aplicando el test a una muestra, de donde se
obtendrán los datos normalizados (la distribución de las medidas en la muestra).
Esta muestra, para que el test se considere normalizado, tendrá que ser
seleccionada desde el universo donde luego se pretende aplicar el test.
11.6. Tipificación de los resultados

Este proceso facilita la interpretación correcta de los datos obtenidos a partir del
test, consiste en tipificar los datos, es decir, realizar una transformación de las
puntuaciones directas (también llamadas "empíricas" u "observadas") para
posibilitar su comparación con las puntuaciones de su población de origen.
1.7. Normas de aplicación

En esta fase final, se debe redactar una serie de instrucciones que posibiliten
una correcta administración del test, deben especificarse claramente las
instrucciones que se va a proporcionar a los sujetos que vayan a participar en la
prueba, poniendo especial énfasis en que sean lo más homogéneas posibles, de
manera que se asegure que todos los participantes en la prueba recibirán
exactamente las mismas instrucciones. De esta forma se reduce en gran medida
la presencia de sesgos que podrían afectar al resultado final.

2. REGLAS PARA ELABORAR ÍTEMS
Según lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la

redacción de ítems de prueba; estas incluyen recomendaciones tales como:
• Redactar ítems congruentes con el objetivo de medición y evitar los ítems
demasiado largos (de más de 20 vocablos), las oraciones complejas con
ambigüedades de sentido,
• Las frases con dobles negaciones, el uso de expresiones extremas
(nunca, siempre, todos)
• Utilizar el lenguaje más apropiado al nivel de maduración y educativo de
la población (Osterlind, 1990). Para Nunnally (1991)
Los dos errores más comunes en la redacción de ítems son:
• ambigüedad (preguntas difusas que admiten varias respuestas) y
• trivialidad (centrarse en aspectos poco importantes del rasgo o dominio
en cuestión)
Existen tres tipos:
1. los ítems de opción múltiple,
2. los ítems de relación y
3. los ítems de verdadero/falso.
Un reactivo de opción múltiple consta de tres elementos un enunciado o base
del ítem, una alternativa u opción correcta o clave y varias alternativas u opciones
incorrectas llamadas distractores.
2.1. Revisión del test por expertos

Tal como lo explican Tornimbeni et al. (2004), la mayoría de los autores
recomiendan que los items preliminares de un test sean revisados por expertos
en construcción de pruebas, en el dominio o rasgo a medir y en el nivel de
comprensión de la población a la cual se apunta con la prueba.
Las tres características que los expertos deben evaluar en cada ítem son:
a) claridad semántica y corrección gramatical
b) adecuación de su dificultad al nivel educativo y evolutivo de las personas
c) congruencia con el rasgo o dominio medido
Este último ítem es el principal parámetro y se refiere al grado de consistencia
que debe existir entre un ítem particular y las metas esenciales de la prueba dado
que esto será un factor posterior de confiabilidad y validez (Oesterlind, 1990).

A los jueces se les pide que evalúen la calidad y consistencia de los ítems y se
descartan aquellos con puntuaciones medias más bajas y con escaso grado de
acuerdo, respectivamente.
Se recomienda que los ítems seleccionados sean aquellos en que, al menos, un
60% de los jueces coinciden (Herrera Rojas, 1993)
Es útil también incluir preguntas que demanden información cualitativa sobre los
ítems lo que puede facilitar un mejoramiento en el fracaso de algunos de ellos.
2.2. Análisis y selección de ítems

Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios
procedimientos de análisis de los ítems de una prueba preliminar, todos ellos se
ocupan esencialmente de:
a) la distribución de los puntajes de cada ítem y
b) la relación estadística entre el ítem y la prueba total.
Tal como lo plantean los autores mencionados, el primer paso para obtener
información psicométrica sobre los ítems de pruebas homogéneas consiste en
administrar los elementos preliminares a una muestra amplia (superior a 300
sujetos) que sea representativa de la población que se quiere evaluar en la
prueba final.
Para descartar los ítems que no funcionan bien debe contarse con una cantidad
de sujetos por lo menos cinco veces superior al número inicial de reactivos y
aproximadamente el doble de ítem de los que aparecerán en la versión definitiva
de la medida.
La determinación del número muestral necesario para realizar análisis de ítem y
los estudios de validez y confiabilidad de un test es un punto conflictivo debido a
las dificultades existentes para seleccionar participantes en determinados
contextos de aplicación de la psicología o con determinadas poblaciones.
El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a 400
sujetos para estudios correlaciónales, pero este número no es condición
suficiente de buenos índices psicométricos (por ejemplo, un alfa superior a .80).
Existen otros factores intervinientes como el entrenamiento de los evaluadores
o la heterogeneidad de la muestra que pueden incrementar los valores de
confiabilidad y validez y compensar tamaños maestrales inferiores al estándar
mencionado (Pajares, Hartley y Valiente, 2001).
El procedimiento más empleado en el análisis inicial de reactivos es la
correlación de cada uno de ellos con el puntaje total de la prueba.
Si el test consta de diversas subescalas, cada ítem debe correlacionarse con el
puntaje total de esa parte, no con el puntaje total de la prueba.

El estadístico usual es el producto momento de Pearson (r) o correlación punto

biserial si se trata de ítem dicotómicos (si/no, verdadero/falso).
Los ítems con correlaciones no significativas o bajas (inferiores a .30) se eliminan
o se revisan y se conservan los menos ambiguos, ni fáciles ni dificultosos y más
relacionados con el constructo (Nunnally y Bernstein, 1995).
Cuando hay ítems con varias alternativas de respuesta es aconsejable obtener
las correlaciones de cada una de las alternativas con el puntaje de la prueba
total, sobre todo en aquellos de correlación baja o negativa.
Los mejores distractores serán aquellos que obtengan correlaciones negativas
con los puntajes de la prueba, es decir, que sean seleccionados por quienes
tienen puntajes bajos en la prueba (Herrera Rojas, 1993).
En las pruebas de habilidades (ítems dicotómicos) es importante conocer el
índice de dificultad de cada ítem, o sea el porcentaje de personas que responden
acertadamente al reactivo analizado.
El índice de dificultad de los reactivos tiene un rango de 0 a 1 y se simboliza
como p. Un reactivo cuyo p es 0 está indicando que ningún sujeto contestó
correctamente y un reactivo con p igual a 1 es aquel que todos los sujetos
respondieron correctamente.
El valor óptimo de p para un reactivo depende de varios factores, tales como los
objetivos de la prueba y la cantidad de alternativas de respuesta.
Si el propósito del test es identificar sólo un porcentaje reducido de los mejores
postulantes para un empleo, por ejemplo, entonces los ítems de la prueba
deberían ser lo suficientemente difíciles y tener un valor medio-bajo de p.
Para pruebas convencionales de habilidades se recomiendan valores p entre .20
y .80 (Aiken, 2003) La proporción de acierto de un ítem es un estimador
adecuado de la dificultad de un ítem.
Sin embargo, esta información hay que complementarla con la distribución de
frecuencias en todas las opciones de respuesta (en elecciones múltiples) y las
estimaciones de proporción para diferentes rangos de puntuación en la prueba
total.
En escalas con formatos tipo Likert, los reactivos donde la mayoría de los
evaluados responde con las máximas o mínimas categorías (p.ej. 1 o 10) indican
que tales ítems carecen de suficiente dificultad (atractivo) o son excesivamente
difíciles para los evaluados.
Con la misma lógica deben eliminarse los reactivos donde la mayoría de los
sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de
prueba no discriminan entre los evaluados (Bandura, 2001)

Las pruebas referidas a criterios, como explica Martínez Arias (1995) se evalúan
y seleccionan los ítems de una forma particular, diferente a las pruebas referidas
a normas.
El análisis se realiza comparando los resultados de un grupo antes de aplicar un
programa de aprendizaje y después del mismo, o comparando dos grupos
similares, uno de ellos, que recibió capacitación y el otro no.
Al calcular el índice de dificultad los resultados esperados son, ítems con alta
dificultad para los grupos que no han pasado por el proceso de aprendizaje, y
baja dificultad para los que han sido sometidos al proceso de instrucción.
En cuanto al índice de discriminación, obtenido por la comparación entre grupos,
se espera máxima discriminación entre los grupos y mínima entre los individuos
de un mismo grupo.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido
resultados estadísticos sobre el comportamiento de cada ítem se podrán tomar
decisiones sobre cuáles de ellos deben integrar la forma final del test y hacer
estimaciones de su confiabilidad y validez mediante algunos de los
procedimientos ya conocidos.
La lógica de este proceso de análisis es obtener pruebas lo más homogéneas
posibles, es decir, donde todos los reactivos se relacionen con un núcleo común
de medición que es el constructo o dominio, información que se obtiene
aplicando a los reactivos de una escala el coeficiente alfa de Cronbach, por
ejemplo. El conjunto de ítems seleccionados después de examinar la correlación
ítem-total de cada uno, es analizado con este procedimiento de homogeneidad
(alfa o KR-20) y debemos asegurarnos valores de.80 o superiores.
Los ítems con correlaciones bajas con el puntaje total se pueden remover para
incrementar el valor del alfa.
Si bien un coeficiente alfa elevado es una condición necesaria de
unidimensionalidad esta propiedad solo es garantizada por el análisis factorial
(Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala
homogénea y el primer paso en un conjunto inicial de ítem heterogéneo (sin un
explícito marco teórico previo) es el análisis factorial (Martínez Arias, 1995).


UNIDAD II: DESARROLLO HISTÓRICO Y FUNDAMENTOS TEÓRICOS QUE DAN

ORIGEN A LA APARICIÓN DE LOS INSTRUMENTOS PSICOLÓGICOS
Los instrumentos de evaluación psicológica son las técnicas mediante las cuales
se recogen los datos referentes a las características psicológicas de las personas
estudiadas. Son muchos los instrumentos que sirven para este fin y variadas son
también las formas que adquieren los test, su modo de presentación, el material
con que están hechos, el objetivo que persiguen, etc., es tan amplia la cantidad
de instrumentos que existen que se encuentran clasificados en diversas
categorías, y todos ellos constituyen el arsenal tecnológico y metodológico con
que cuenta nuestra ciencia para realizar sus mediciones; estos instrumentos
constituyen la base sobre la cual descansan los fundamentos de la exploración
y el análisis del comportamiento del hombre, concebidos de tal forma desde que
surge la necesidad de evaluar las diferencias humanas.
Los instrumentos psicológicos son construidos en base a teorías psicológicas
que intentan explicar el comportamiento humano. Los resultados de los mismos
se integran al proceso evaluativo y a la toma de decisiones en relación a la
persona en estudio; de forma tal, que la aplicación de los instrumentos de medida
se constituye en la fase más importante del proceso de evaluación psicológica;
igual ocurre en cualquier otro campo de la actividad humana, donde el uso
correcto o incorrecto de los instrumento de medida determinan la calidad de la
información que se obtiene, y por ende de las conclusiones finales a las que se
arriban partiendo de dichos datos.
3. ORÍGENES Y DESARROLLO DE LOS INSTRUMENTOS DE EVALUACIÓN

PSICOLÓGICA
Para hablar del origen y desarrollo histórico de los instrumentos de evaluación

psicológica tenemos que remontarnos a la época en que se constituye la
Psicología como ciencia independiente; este hecho está muy ligado al nombre
de Wilhelm Wundt (1832-1920), psicólogo alemán, al que algunos autores
consideran el padre de la Psicología. Wundt, a finales del siglo XIX crea el primer
laboratorio de psicología experimental (1879); en ese laboratorio estudia las
cualidades y los procesos psíquicos de forma aislada, mediante técnicas de
laboratorio. Sin embargo, en ese mismo tiempo, y también anterior a Wundt,
existían otras ideas acerca del estudio de los fenómenos psíquicos, pero desde
una óptica diferente a lo que planteaba el psicólogo alemán; esas otras ideas
referían que si bien todas las personas son muy parecidas en cuanto a sus
procesos psíquicos - memoria, atención, inteligencia, emociones, etc. también
son diferentes en relación a esos mismos procesos psicológicos en los cuales
son semejantes. Un grupo de psicólogos se interesó en el estudio de los
procesos psicológicos como lo hiciera Wundt, y otros se inclinaron por el estudio

de las diferencias observadas en esos mismos procesos psíquicos, de unas

personas a otras. Es precisamente esta idea sobre las diferencias entre las
personas, y el cómo medir dichas diferencias lo que da origen al surgimiento de
los instrumentos de evaluación psicológica.
Acerca de esta idea sobre las diferencias entre las personas hay material escrito,
mucho tiempo anterior a Wundt. Citamos, por ejemplo, entre los trabajos de
mayor importancia que antecedieron al estudio científico de las diferencias en
evaluación psicológica Examen de ingenios para las ciencias, de Juan Huarte de
San Juan, en España, 1575. Este examen establece la diferencia entre las
personas en cuanto a talentos, lo que permite clasificar a cada sujeto en una
categoría básica para predecir su comportamiento y capacidad para el
aprendizaje y de ese modo adecuar las características de las personas a las
distintas clases de ocupación. Como se aprecia, tales ideas han estado
presentes desde tiempos muy antiguos, pero la evaluación psicológica no se
constituye en saber y disciplina independiente hasta el siglo pasado.
Fernández Ballesteros (1993), al hablar de la historia del Psicodiagnóstico,
diferencia las fuentes del mismo de su constitución como disciplina científica.
Distingue la prehistoria de la historia, de acuerdo a determinados ejes de
referencia: en la primera sobresalen los grandes paradigmas del conocimiento
humano (mítico, racional-especulativo y científico), y en la segunda, los grandes
modelos psicológicos (experimental, correlacional y aplicado).
El período místico trata de la astrología y el horóscopo como la etapa más
antigua de la evaluación psicológica; a este período le sigue el racional-
especulativo, en el cual los esfuerzos para describir y determinar la conducta en
las personas se basan en la fisiognomía, estas ideas aparecen en personas tan
lejanas en el tiempo como Hipócrates (a. de C) y otros tan cercanos a nuestros
días como son los trabajos tipológicos de Kretschmer, 1923; Sheldon, 1940;
Thomas, 1970 y otros autores.
Al hablar de la constitución de la evaluación psicológica como disciplina científica
hemos de citar a Francis Galton, McKeen Cattell y Alfred Binet. Con los aportes
que realizan estos investigadores parecen quedar establecidas las bases
conceptuales, metodológicas y tecnológicas del psicodiagnóstico.
Los comienzos de la evaluación científica de las diferencias humanas se deben
en parte a los esfuerzos de Galton (1822-1911), quien funda en Londres, en
1884, un Laboratorio Antropométrico, donde realiza mediciones a las personas
sobre su estatura, peso, capacidad auditiva, agudeza visual, capacidad sensorial
discriminativa y otra serie de evaluaciones sensoriales, perceptivas y motoras,
su mayor aportación fue la sistematización de la recogida de datos y su
tratamiento estadístico. De esta forma, introduce las bases de la evaluación
cuantitativa de las diferencias humanas y da inicio al estudio psicológico de las
diferencias individuales frente a la psicología experimental de finales del siglo
XIX; algunos autores consideran esto como el punto de partida de los test

mentales. A Galton se le considera el fundador de la Psicología diferencial

mientras que otros autores otorgan este merito a W. Stern, quien en 1900 publicó
un trabajo "Sobre la psicología de las diferencias individuales".
M. Cattell, psicólogo estadounidense, 1861-1934, es otro de los grandes de la
evaluación psicológica: introduce el concepto de tests mental en 1890; publicó
varias pruebas sobre ejecuciones específicas de los sujetos a nivel sensorial,
perceptivo y motor, destacándose en el estudio diferencial de los tiempos de
reacción; rechaza la introspección como método de estudio y se pronuncia por
la necesidad de que las medidas obtenidas en los tests sean objetivas, con ese
fin plantea el uso de baterías de pruebas para la evaluación psicológica, en el
año 1896, introduciendo de este modo el concepto de batería de pruebas.
Las principales aportaciones de este autor son: el concepto de test mental como
instrumento de medida de determinadas características psicológicas; la creación
de técnicas de evaluación de funciones sensoriales, perceptivas y motoras,
agrupadas en dos baterías de pruebas, siendo el primer autor que utiliza el
término "batería de pruebas"; y su énfasis en la utilización de medidas objetivas
en los test mentales.
El trabajo de Alfred Binet, 1857-1911, en Francia, marca un avance cualitativo
importante en el estudio de las diferencias individuales, este autor propone un
nuevo enfoque en la evaluación psicológica. Su objetivo no son las diferencias
de las funciones sensoriales, perceptivas y motoras planteadas por Galton y
Cattell; su interés en las diferencias individuales se dirige a la evaluación de las
funciones psíquicas superiores.
Para lograr ese objetivo de evaluar las funciones psíquicas propone el método
de los tests mentales, y preocupado por la objetividad de estos instrumentos,
plantea:
➢ Que dichas pruebas deben ser sencillas,
➢ que en su aplicación se invierta poco tiempo,
➢ que sean independientes del examinador
➢ y que los resultados obtenidos puedan ser contrastados por otros
observadores.
En el trabajo que realiza con niños, en cuanto al estudio diferencial del niño
normal y el retrasado mental considera tres métodos: el examen médico, el
examen escolar que realiza el maestro y el diagnóstico psicológico que evalúa
los procesos mentales superiores del sujeto mediante su ejecución en una
prueba, dando lugar así, junto a su colega Theodore Simon, al primer test de
inteligencia, en 1905.
De este modo, Binet introduce el primer concepto claro de diagnóstico
psicológico. Introdujo el concepto de edad mental, al considerar que la
inteligencia se incrementaba con el desarrollo y el concepto de retraso mental
también se encuentra muy relacionado con sus trabajos.

Binet y su escala han sido tan determinantes para el psicodiagnóstico, que se ha

llegado a afirmar que la publicación de la escala Binet-Simon marcó el paso
definitivo de la evaluación psicológica como disciplina científica.
La trascendencia de Binet para la evaluación psicológica llega a nuestros días;
su escala de inteligencia fue adaptada en 1916 a la población norteamericana y
desde entonces se conoce como el Test de Stanford - Binet, el cual ha sido
revisado en varias ocasiones para su ajuste adaptativo y más tarde, revisiones
de la prueba efectuada en 1960 y en 1973, dieron lugar a un nuevo instrumento
que ha adoptado el nombre de Terman Merrill.
Estos tres autores son los iniciadores de la constitución de nuestra disciplina, y
comparten ese merito con otros científicos, como por ejemplo los primeros
psicólogos matemáticos Pearson y Spearman, que en la última década del siglo
XIX dan lugar a importantes técnicas estadísticas que son la base matemática
necesaria para los estudios de grupo propios de la Psicología diferencial, a través
de los cuales serán construidos los tests psicológicos.
Otra figura importante es Lightner Witmer (1867-1956), es el iniciador de la
aplicación clínica de la evaluación psicológica, él crea la primera clínica
psicológica dirigida al diagnóstico y tratamiento de problemas académicos y de
conducta de los niños. Es uno de los fundadores de la disciplina de evaluación
psicológica como método científico. Su trabajo no se limitaba al uso de los tests,
utilizaba otras técnicas entre ellas se destaca el método de la observación.
La comprensión y apreciación de las aportaciones de estos pioneros de la
disciplina sigue siendo incluso hoy motivo de revisión y estudio, pues permite
adentrarse en las bases de la propia disciplina.
La constitución de la evaluación psicológica como disciplina abarca un período
aproximado de 1890 a 1910, período en el cual se perfila el concepto de
Evaluación Psicológica como una disciplina de la Psicología Científica, dedicada
a la exploración y al análisis de la individualidad, a través de la medición de
aptitudes y características de la personalidad, para lo cual utiliza instrumentos
de medida que adoptan el nombre de "Test mentales".
3.1. Momentos que marcan el auge de los instrumentos de evaluación

psicológica
Posterior a Binet y en la primera mitad del siglo XX, hubo un gran desarrollo en
la creación de instrumentos de evaluación psicológica siguiendo la línea
psicométrica; acontecimientos internacionales propician este incremento:
La I Guerra Mundial (1914-1918) favorece el auge en la creación de instrumentos
de evaluación psicológica. Se solicita a los psicólogos la necesidad de clasificar
a los soldados sobre la base de dos aspectos de utilidad a los fines de la
contienda:

1. El ordenamiento de los hombres basado en la capacidad intelectual, lo

que motivó el desarrollo de los tests de inteligencia: el Alfa y el Beta.
2. La tipificación de los soldados en cuanto a la posibilidad de que pudieran
sufrir crisis nerviosas, esta necesidad dio lugar a que el psicólogo
estadounidense Robert Woodworth elaborara la "Hoja Personal de
Datos", que es considerada, por algunos autores, como el antecedente de
los modernos tests de personalidad.
La II Guerra Mundial (1939-1945) realiza a los psicólogos las mismas
encomiendas, lo cual posibilita la aparición de nuevos instrumentos.
Entre la I y II Guerra Mundial, etapa donde se mantienen las hostilidades entre
los países participantes en la guerra, también se desarrollan un amplio número
de test psicológicos con el modelo psicométrico, como por ejemplo el Wais en
1930 y Las Matrices Progresivas de Raven en 1936.
Los instrumentos psicométricos no son los únicos que surgen en la primera mitad
del siglo XX. Desde una perspectiva diferente y a partir de la obra de Freud, La
interpretación de los sueños, publicada en 1900, aparecen algunas técnicas para
el estudio de la personalidad que se les denomina técnicas proyectivas. Algunos
ejemplos de técnicas proyectivas:
− 1906: Test de asociación de palabras de C. Jung
− 1921: El Rorschach de Hermann Rorschach
− 1926: Test del dibujo de la figura humana de Goodenough.
− 1938: TAT de Murray
− 1944: El Test de tolerancia a la frustración, de Rosenzweig
En general, se puede decir que en la primera mitad del siglo XX se originan y
consolidan los modelos psicométrico y proyectivo en su concepción teórica y
tiene lugar un aumento considerable la producción de instrumentos y técnicas de
evaluación psicológica.
4. INSTRUMENTOS PSICOMÉTRICOS
Hemos utilizado el término de instrumentos psicométricos en el proceso de

evaluación psicológica.
Los términos psico y metría, significa: medida de los fenómenos psíquicos. Por
tanto, los tests psicométricos intentan medir habilidades cognitivas o rasgos de
personalidad, en las personas estudiadas.
Los tests psicométricos son instrumentos estructurados, es decir, en ellos la
persona tiene que escoger, entre alternativas de respuestas posibles, aquella
que considera se ajusta mejor en su caso particular. Por ejemplo:

1. En el Test de Matrices Progresivas de Raven, se le presenta a la persona

un cuadro al que le falta una parte, la persona debe escoger la parte que
falta entre 6 u 8 alternativas posibles.
2. En el test 16 PF de Cattell, se le presenta al sujeto una serie de preguntas
y la persona tiene que elegir, ante cada pregunta, una de las 3 alternativas
de respuestas posibles, aquella que se ajusta mejor en su caso particular.
El uso de estas técnicas psicométricas, vincula a la evaluación psicológica con
otra disciplina del campo de la Psicología Científica, la cual se ocupa de la
construcción y elaboración de los instrumentos de medida: la Psicometría.
La Psicometría garantiza que los instrumentos de medida sean debidamente
estandarizados y posean la validez requerida que haga posible dichas medidas
y posibiliten la diferenciación de unas personas en relación a otras en
determinada población.
Las técnicas psicométricas quedan englobadas dentro del proceso de evaluación
psicológica; el proceso evaluativo utiliza las pruebas psicométricas como
instrumentos de medida con el objetivo de alcanzar una información más amplia
del sujeto, que le permita al investigador, crear hipótesis de trabajo, que orienten
su proceder evaluativo y diagnóstico.
5. EL MODELO PSICOMÉTRICO O DE LOS ATRIBUTOS
El modelo psicométrico para la evaluación psicológica, como hemos visto, surge

por la influencia de la psicología diferencial dada la necesidad de realizar el
trabajo de diagnóstico o diferenciación de unas personas con relación a otras.
Es decir, la valoración de las diferencias individuales se obtiene mediante la
ejecución, por parte de los sujetos, en diferentes test o instrumentos de
evaluación. De este modo, se identifican rasgos o dimensiones que tienen que
ver con las funciones intelectuales o con características de la personalidad del
sujeto estudiado. Una vez definidos estos rasgos adquieren valor explicativo
para fundamentar el estudio realizado. Estos tipos de instrumentos tienen en su
base los aportes de Galton, Cattell y Binet referidos previamente.
El fundamento teórico que explica el modelo psicométrico considera, que la
conducta está determinada por atributos intrapsíquicos estables, por lo que la
tarea evaluadora consiste en la búsqueda de las manifestaciones externas de la
conducta, que nos sirven de indicadores del estado interno de dichos atributos
no evaluables directamente. La relación entre los atributos internos y las
manifestaciones externas (que son las respuestas a los tests) están basadas en
las técnicas correlacionales que aporta la estadística; una vez conocida esa
relación, y dado que los atributos internos son estables, se puede predecir cómo
será el comportamiento futuro de una persona. A esos atributos internos, en
función de los cuales se explica la conducta, se les denomina rasgos. Los rasgos

son constructos hipotéticos, teóricos, inferidos de la observación de la

covariación de conductas simples.
Expliquemos estos fundamentos teóricos con lo que nosotros hacemos
habitualmente: todos tenemos la tendencia a evaluar a las personas en base a
determinados rasgos o aptitudes que observamos en ellas. Por ejemplo,
decimos, Pedro es muy inteligente, y Juan es menos inteligente que Pedro. La
manifestación externa de la conducta nos dice que Juan es inteligente pero que
Pedro lo es mucho más (fíjense que estamos atribuyendo atributos estables en
Juan y Pedro utilizando la manifestación externa de la conducta).
También podemos decir, Pedro no ha desarrollado aún toda su capacidad para
las matemáticas, es decir sabemos que Pedro tiene habilidad para las
matemáticas pero también pensamos, en base a la observación, que tiene
mayores potencialidades para las matemáticas que aún no ha desarrollado; por
lo tanto, creemos que Pedro debe estudiar Matemáticas, pero Juan no debe
estudiar matemáticas (en este caso estamos considerando, a partir de la
manifestación externa del comportamiento de Pedro, cómo se encuentra el
atributo o los atributos internos que posibilitan su habilidad para las matemáticas.
Y también estamos infiriendo el estado de esa capacidad interna, no observable,
en Juan) De tal forma, hemos realizado una "clasificación" y "predicción" a punto
de partida de la conducta externa observada.
El modelo psicométrico parte de criterios similares, pero utilizando la
"objetividad" de instrumentos de medida. Los seguidores de este modelo
consideran que la personalidad está formada por rasgos o aptitudes que son
estables en el individuo y conforman su estructura básica de personalidad, por
lo tanto, ellos plantean: si se tiene un instrumento de medida que permita conocer
la magnitud "objetiva" del rasgo que presenta cada persona en su conducta
externa, se puede predecir la conducta futura en la persona evaluada. Las
técnicas psicométricas son esos instrumentos que posibilitan evaluar en qué
medida un rasgo interno, está presente en cada persona; es decir, en todo
momento Pedro tendrá igual capacidad para las matemáticas, por ejemplo. El
criterio de la estabilidad de los rasgos, es lo que permite predecir la conducta
una vez que se ha medido el rasgo.
Los resultados obtenidos en los tests de inteligencia y aptitudes pueden ser
buenos predictores de la ejecución futura del individuo en otros contextos, como
se ha probado repetidamente, por ejemplo, en el campo del rendimiento
académico; pero la tarea evaluadora con estas técnicas se queda en el objetivo
"clasificatorio y predictivo".
De tal forma se concluye en este modelo:
• que las manifestaciones externas en los tests sirven de indicadores del
estado interno de los atributos o rasgos no evaluables directamente; y
que, dada la estabilidad de los atributos internos, los resultados de los

tests sirven para clasificar a las personas en relación al rasgo estudiado,

y para predecir su comportamiento futuro.
• que el criterio de atributos intrapsíquicos estables es producto de la
elaboración de constructos hipotéticos, teóricos, inferidos de la
observación de conductas simples.
Este modelo presenta una serie de limitaciones que veremos más adelante. El
modelo psicométrico presenta dos vertientes en su desarrollo, los tests de
inteligencia y aptitudes, y los cuestionarios de personalidad. La medición de las
distintas variables, en cualquiera de estas dos vertientes, descansa sobre el
mismo fundamento cuyas características hemos señalado y que consiste en
evaluar a los sujetos por una serie de variables (rasgos o aptitudes) que se
consideran estables en el individuo, por lo que se puede predecir su conducta
una vez que hemos medido esos rasgos.
El tipo de análisis de la personalidad que se hace desde el modelo psicométrico
pretende ser objetivo y molecular, siendo la "objetividad" el aspecto más
resaltado por los seguidores de este modelo. La objetividad se busca con el
apoyo de las matemáticas, específicamente en la psicometría, enfatizando los
aspectos cuantitativos de la evaluación. Realmente, los desarrollos realizados
en metodología de la evaluación por este enfoque han sido significativos y
definidores de la tarea diagnóstica. Los conceptos de fiabilidad y validez han sido
y son criterios clave para juzgar a las pruebas psicológicas.
6. TÉCNICAS PSICOMÉTRICAS
Los tests psicométricos son instrumentos estructurados en los cuales la persona

evaluada tiene que escoger, entre alternativas de respuestas, aquella que
considera se ajusta mejor en su caso particular. Comentamos diversas
características de este modelo, como son:
➢ Los tests psicométricos se basan en el principio de medir la ejecución de
las personas en los mismos y comparar sus resultados con los obtenidos
por otros sujetos pertenecientes al grupo normativo o de referencia. Grupo
normativo que está constituido por personas del mismo sexo y/o edad
cronológica y/o nivel socioeconómico y/u otro tipo de variables, para
obtener conclusiones respecto a las habilidades cognitivas de los sujetos
estudiados.
➢ En este modelo la conducta se entiende determinada por atributos
intrapsíquicos estables, por lo que la tarea evaluadora consiste en la
búsqueda de las manifestaciones externas (que son las respuestas dadas
en los tests). Estas manifestaciones sirven de indicadores de los
trastornos internos no evaluables directamente. Las relaciones entre los
atributos internos y las manifestaciones externas están basadas en las
técnicas correlacionales.

➢ Los atributos internos, en función de los cuales se explica la conducta, se

les denomina rasgos. Los rasgos son constructos hipotéticos, teóricos,
inferidos de la observación de la covariación de conductas simples.
➢ Las técnicas psicométricas, por tanto, son instrumentos de evaluación de
rasgos o aptitudes, que en una u otra magnitud conforman la estructura
básica de la personalidad en cualquier ser humano. En su concepción
está el criterio de la estabilidad de esos rasgos en las personas, lo que
permite predecir su conducta una vez que se han medido.
➢ Este modelo no tiene en cuenta el contexto en el que está inmersa la
persona que contesta el test.
7 TÉCNICAS PROYECTIVAS
Las técnicas proyectivas deben su nombre al término proyección, introducido por

Freud en 1894 y que, nuevamente, elabora en 1896 en su obra Las
Neuropsicosis de Defensa, obra donde se acuña el concepto de proyección
como mecanismo de defensa.
Desde entonces se define este concepto como el mecanismo a través del cual
se atribuye a otros (personas u objetos) sentimientos y emociones internas,
reprimidas, que de ser conscientizadas crearía angustia, por lo que se extroyecta
hacia otra persona, quedando liberado el sujeto del estado de tensión que tales
emociones le producirían.
Más tarde, en su obra Tótem y Tabú, Freud amplia nuevamente su concepto de
proyección, a condiciones no patológicas. En esta oportunidad considera la
proyección como un mecanismo por el cual percepciones internas, provocadas
por procesos ideacionales y emocionales conscientes, son proyectadas en el
mundo exterior.
A pesar del nuevo sentido que adquiere el término proyección, el concepto sigue
siendo utilizado por muchos autores como mecanismo de defensa para liberar
angustia, adjudicando a otras personas, aspectos indeseables de uno mismo.
A pesar de la fecha en que Freud introduce el término proyección, no es hasta
1939 en que las técnicas que hoy día son denominadas como proyectivas
reciben ese nombre. El psicólogo norteamericano L. K. Frank (1939) es quien
elige el término de técnicas proyectivas para aquellas pruebas cuyo estímulo es
ambiguo o de poca estructuración y da libertad de respuesta al sujeto sin que la
persona sea del todo consciente del objetivo que se persigue con dicha
evaluación; lo que permite, de este modo, que a través de la respuesta, se
pongan de manifiesto, o se proyecten al exterior, los estilos básicos de
personalidad del sujeto y los estados transitorios por los que atraviesa. Es
importante resaltar que Frank utiliza el término "proyección" en el sentido amplio
del concepto dado por Freud.

Para la fecha en que Frank denomina a este tipo de pruebas como proyectivas
ya eran conocidas algunas técnicas cuyas características se ajustaban a dicha
descripción, como son:
• Técnica de asociación de palabras de Jung, que aparece en 1905.
• Test de las manchas de tinta de Hemann Rorschach, en 1921.
• Test de apercepción temática, el conocido TAT de Murria, de 1938.
Rapaport (1959) afirma que cuando se utiliza el concepto de proyección,
hablando de tests proyectivos, se habla en realidad de exteriorización y no de
mecanismo de defensa, expresa que lo que se entiende por proyección es lo que
Frank formuló al decir: "Cada individuo tiene un mundo privado que está
estructurado de acuerdo con los principios organizativos de su personalidad y
los tests proyectivos estudian estos principios organizativos, induciendo al sujeto
a ponerlos de manifiesto utilizando un material no estructurado, que el sujeto
incorpora a su mundo privado".
Las técnicas proyectivas parten del presupuesto de que:
• Existe una estructura básica y estable de personalidad. Tal estructura está
integrada por ciertas dimensiones o rasgos que se encuentran
organizados en forma idiosincrásica. Las respuestas de los sujetos a
estas técnicas permiten explorar esa estructura.
• Facilitan alcanzar distintos niveles de profundidad en el análisis de la
estructura de la personalidad.
• Permiten establecer una relación entre el producto de la ejecución en las
pruebas y lo inobservable de la estructura de la personalidad. El análisis
de la estructura de la personalidad obtenida de esta forma permitirá la
predicción del comportamiento.
• Toda respuesta ante el material proyectivo no es casual, sino que es
significativa y será entendida como un signo de la personalidad del sujeto.
• Cuanto más ambiguos sean los estímulos de una técnica proyectiva, tanto
más reflejarán las respuestas del sujeto, la personalidad del mismo.
• El análisis al que son sometidas las respuestas de los sujetos a las
técnicas proyectivas tiene que ser fundamentalmente cualitativo y global.
Las técnicas proyectivas tienen algunos problemas sin resolver como:
• La ausencia de un marco teórico homogéneo. El psicoanálisis ha sido el
marco teórico de mayor influencia en el uso de estas técnicas.
• Ausencia de tipificación de las consignas de aplicación, de los
procedimientos de calificación, corrección e interpretación.
• Necesidad de formación intensa y extensa para trabajar el proceso de
interpretación de las mismas.
Jamás los tests proyectivos pueden ser utilizados como medios únicos para el
diagnóstico. La información que ofrecen estas técnicas son hipótesis de trabajo
que deben ser corroboradas por otros tests cuantificables como son las pruebas

de inteligencia y de personalidad y, por supuesto, por la entrevista al paciente y

personas cercanas a él. Un rasgo de personalidad obtenido en cualquier test
será tenido en cuenta si tiene consistencia estadística, es decir si se halla
presente en varios tests.
Las técnicas proyectivas se clasifican en:
Estructurales: son aquellas técnicas que presentan al sujeto un material visual,
de escasa estructuración y él debe estructurar, ese material, diciendo "qué es lo
que ve" por ejemplo el Rorschach.
Temáticas: son técnicas que presentan, al sujeto, el material visual con distintos
grados de estructuración de contenido humano o parahumano y el sujeto debe
narrar una historia estructurando de ese modo el contenido de dicho material.
Ejemplo de técnica temática es el TAT de Murray.
Constructivas: son técnicas en que se entrega al sujeto material de construcción,
él debe organizarlo y construir algo de acuerdo a la consigna dada, ejemplo el
Test de la Casa Aberastury.
Expresivas: técnicas en las cuales se da al sujeto la consigna verbal o escrita de
dibujar una/s figura/s. Ejemplo son el test de la figura humana, y el test de la
familia.
Asociativas: técnicas en que se da al sujeto una consigna, verbal o escrita. El
sujeto debe expresar, de forma verbal o escrita, sus asociaciones frente a
palabras, frases o cuentos, ejemplo de ello son las frases incompletas de Rotter.
8. CRÍTICAS A ESTE TIPO DE PRUEBAS PSICOLÓGICAS
Reforzamos la idea acerca de que debemos ser conscientes de las posibilidades

y limitaciones de los instrumentos de evaluación psicológica, y recordamos lo
dicho por Anastasi: "hemos de limitarnos a contestar las preguntas que los tests
pueden contestar, y no abusar de su uso".
Uno de los problemas más señalados en el uso de test psicométricos es la
influencia que ejercen sobre los resultados de la evaluación, la situación
ambiental, en general, que rodea al sujeto, incluyendo al examinador en
particular (Anastasi, 1970). Tres son estos efectos:
Los efectos de la situación: se refiere a la contaminación de los datos obtenidos
en una evaluación debido a acontecimientos temporales que suceden en torno
al tiempo del examen, como pueden ser la influencia de factores familiares o
ambientales o profesionales o de otro tipo, lo que hace que la ejecución del
individuo se vea influenciada transitoriamente; pero el evaluador lo puede
interpretar como una característica permanente en esa persona.

Las aptitudes de las personas no son la única causa que contribuye a diferenciar
la ejecución en las pruebas. La ejecución de los individuos está muy relacionada
con el contexto, pudiendo ser las diferentes interacciones que tienen los sujetos
con el ambiente, antes del examen, la causa de las diferencias en la ejecución.
Este tema es parte de la polémica generalidad-especificidad de la conducta que
se estudia mediante este tipo de instrumentos.
Los efectos del examinador: se refieren a la influencia del examinador y a la
interacción entre el examinador y el examinado, como causa que afecta la
ejecución del sujeto en la prueba, y por ende a los datos recogidos.
Los efectos de la situación y del examinador son variables que reducen la
fiabilidad y validez de las evaluaciones.
Las "distorsiones" o "tendencias" o "estilos de respuesta" influencian la ejecución
de los sujetos en los tests; estas variables son muy diversas, destacando: la
simulación, la deseabilidad social y las tendencias de respuesta:
La simulación, es el intento de falsear las respuestas intencionadamente,
tenemos ejemplos cotidianos, como es la simulación de varias alteraciones
comportamentales para obtener la baja laboral. Aunque se han construido
escalas dirigidas a detectar la sinceridad en algunos cuestionarios de
personalidad, el evaluador debe preocuparse de contrastar por otras fuentes, lo
más objetivas posibles, los datos obtenidos mediante los tests de personalidad.
La deseabilidad social es la tendencia a responder de acuerdo con estándares
sociales aceptables en la comunidad.
Las tendencias de respuesta son las influencias que ejerce el tipo de alternativa
de respuesta ofrecido por la prueba sobre la respuesta del individuo.

UNIDAD III: BARRERAS E IMPLICANCIAS DE LOS INSTRUMENTOS

PSICOLÓGICOS
9. LIMITACIONES DE LAS PRUEBAS PSICOLÓGICAS
Es importante mencionar algunas limitaciones cuando se usan pruebas

psicológicas. La primera, es que ninguna prueba psicológica es elemento
suficiente e indispensable para establecer un diagnóstico definitivo. Es decir, es
muy arriesgado que con una sola prueba el clínico pueda emitir un diagnóstico y
hacer un juicio a cabalidad sobre lo que le acontece al paciente.
Por lo general, es indispensable una batería de pruebas, la observación y la
información que surge de la entrevista clínica y otros elementos provenientes de
todo el proceso desde el punto de vista médico, físico, psicológico, social y
contextual.
Aiken (2006) afirma que las pruebas más utilizadas por los psicólogos clínicos
son, en este orden, las escalas de inteligencia de Wechsler (en todas sus
versiones), el inventario multifásico de la personalidad de Minnesota, la prueba
de Bender y las pruebas proyectivas para niños de figura humana; y para adultos,
las pruebas de la percepción temática y la de manchas de tinta de Rorschach.
Sin embargo, cabe resaltar que las pruebas neuropsicológicas cobran cada día
más auge y son utilizadas más ampliamente en la valoración de una serie de
condiciones como la demencia, los trastornos de aprendizaje, el abuso de
sustancias y otras condiciones.
El segundo aspecto importante de considerar es que las pruebas necesitan de
gente bien preparada, tanto para aplicarlas como para calificarlas, sobre todo
para interpretarlas en donde los juicios son mucho más complejos y elaborados.
Igualmente, cabe advertir que las diversas pruebas tienen utilidades y poderes
muy diferentes en la práctica clínica; por ejemplo, las pruebas de inteligencia se
deben aplicar para el diagnóstico de discapacidad intelectual; mientras que para
esta condición las pruebas de personalidad, de conductas delictivas antisociales,
las pruebas proyectivas o de percepción temática, tendrán un valor relativamente
pobre. Es decir, las pruebas psicológicas pueden jerarquizarse, ordenarse y
juzgarse en función de los propósitos de la evaluación.
Lo anterior también muestra el carácter instrumental de las pruebas psicológicas,
es decir, no hay pruebas buenas y malas; sino pruebas que son relevantes o no
al obtener información específica de la condición del paciente.
En el ámbito clínico las pruebas sirven sobre todo para tres funciones diferentes
del proceso clínico: la primera es la detección o identificación de un paciente,
una persona con riesgo de una enfermedad; la segunda es proveer evidencia
para el diagnóstico de la condición mórbida; y la tercera es para evaluar los
progresos, si los hay, de la intervención.

10. ADAPTACIÓN DE LOS TEST A OTRAS CULTURAS
10.1. ¿Por qué adaptar los test?

El uso de un test en un contexto cultural diferente al original genera diversas
dificultades. El idioma, la familiaridad con los estímulos del test (ítems-preguntas)
y las diferentes características de las muestras de estandarización son ejemplos
de fuentes de posibles sesgos en la medición transcultural de constructos
psicológicos.
Existe sesgo en la medición cuando las diferencias individuales en las
puntuaciones de un test no reflejan las diferencias reales en un rasgo o habilidad.
Tomemos como ejemplo una hipotética investigación en la cual se midiese la
capacidad de denominar objetos o animales. Si entre los ítems estuviera
incluidas las figuras de un canguro y un koala es probable que una muestra de
estuantes australianos obtenga puntuaciones superiores a las de una muestra
de estudiantes nigerianos e incluso a la de muchos de nosotros.
Estos datos no estarían demostrando una mayor capacidad de denominación de
los estudiantes australianos, sino que sugerirían que el indicar empleado en la
medición esta sesgado. Es decir, existe un elemento diferente (la familiaridad
con el estímulo presentado) de la capacidad que influye en el desempeño en la
prueba. Por ende, no se estaría midiendo la habilidad de forma equivalente en
ambos casos, a pesar de estar utilizando la misma prueba.
La equivalencia puede definir por lo tanto de manera opuesta al sesgo, es decir,
se manifiesta cuando las puntuaciones de un test reflejan diferencias entre las
personas evaluadas que existe verdaderamente en el rasgo en cuestión.
La existencia de sesgo en un test puede conducir a obtener resultados
gravemente erróneos. En una prueba utilizada en psicología clínica, por ejemplo,
se podría inferir la presencia de un trastorno de personalidad cuando el rasgo o
comportamiento así diagnosticado es normal en la cultura del individuo
examinado.
Además de la obvia necesidad de contar con instrumentos adecuados para la
práctica psicológica, la adaptación de test a diferentes culturas obedece a otras
razones, de índole científicas y prácticas, entre las primeras, es importante tener
en cuenta que la mayoría de las teorías psicológicas contemporáneas han sido
desarrolladas en el marco de la cultura occidental, más precisamente en
universidades norteamericanas. Asimismo, el proceso de validación de dichas
teorías se realiza preferentemente en investigaciones que utilizan muestras de
jóvenes universitarios de blanca. En la actualidad se reconoce la necesidad de
demostrar la “universidad” de las teorías, si determinado constructo psicológico
existe en otras culturas es necesario contar con tesis equivalentes, es decir, que
midan el mismo constructo en las diferentes culturas donde va a ser utilizado.

Las razones prácticas se relacionan con la dinámica de la globalización y los

fenómenos migratorios, principalmente dentro de los países más desarrollados.
Las personas que son evaluadas en un proceso de selección de persona, por
ejemplo, provienen de diferentes partes del mundo y, para que esa evaluación
sea justa, es necesario contar con instrumentos adecuados (equivalentes o sin
sesgo). Lo mismo ocurre en los casos en los que se administra test a individuos
pertenecientes a minorías étnicas de un país.
Mirar anexo A
10.2. Fuentes de sesgo

Van de Vijver y Tanzer (1997) identificaron diferentes fuentes de sesgo que se
describen a continuación.
A) Sesgo de Constructo
Este sesgo se presenta cuando el constructo medido no es idéntico en diferentes
grupos culturales. Comportamientos morales que en algunas sociedades pueden
ser normales en otras pueden constituir un verdadero rasgo de rigidez y
asemejarse a una conducta obsesivo compulsiva. McCrae, Yik, Trapnell, Bond y
Paulhus (1998) encontraron, por ejemplo, importantes diferencias entre los
perfiles de personalidad de estudiantes canadienses y estudiantes chinos
utilizando versiones equivalentes del NEO PI-R. Los estudiantes chinos
obtuvieron puntajes significativamente menores en algunas facetas de la escala
Extraversión de este último test.
B) Sesgo Metodológico
Este tipo de sesgo reconoce tres formas:
I. Es sesgo de muestra, que ocurre cuando las muestras son incompatibles
entre sí. La cantidad de años de escolaridad que poseen los individuos de
una muestra constituye una variable determinante si se trata de un test de
ejecución máxima (Heaton, Grant y Matthews, 1991). Los tests de
razonamiento lógico o matemático, por ejemplo, presentan una dificultad
considerablemente mayor para las personas con baja escolaridad. El nivel
sociocultural, la motivación, el sexo y la edad de los sujetos son otras de
las variables que pueden hacer incomparables a dos muestras.
Fernandéz y Marcopulos (2004) compararon los estudios normativos de un test
de atención en diez países y advirtieron que una de las principales dificultades
para comparar los puntajes residía en las diferencias entre las muestras. Así,
observaron que la edad media de los ancianos de la muestra neozelandesa
estaba 1,6 desviaciones estándar por encima de la muestra danesa. Sin

embargo, en la muestra danesa el 80% de los individuos tenía siete a menos

años de educación mientras que la muestra neozelandesa tenía un promedio de
diez años de educación. De este modo, no era posible comparar los puntajes de
ambas muestras puesto que el nivel educativo era muy diferente. Por
consiguiente, las diferencias observadas no reflejaban diferencias en la habilidad
atencional sino en el nivel educativo de los grupos.
II. El sesgo en el instrumento puede provenir de las características del test.
La familiaridad que los sujetos tengan con los ítems presentados es un
aspecto de gran importancia. Algunos estímulos tales como objetos,
dibujos, figuras u otros elementos utilizados en |algunas culturas no
existen en otras o son irrelevantes. El ítem de ejemplo es el subtest de
Ordenamiento del WISC-III (Wechsler, 1994) que muestra a una mujer
frente a una máquina expendedora de latas de gaseosa tiene muy poco
valor en culturas árabes o zonas rurales de nuestro país. Lo cual hace
incomprensible dicha lamina para muchos individuos.
El idioma es otra fuente de sesgo del instrumento. La traducción es un problema
considerable y requiere una metodología especifica que se explicara más
adelante. Los problemas suelen ser mayores cuando, por ejemplo, los idiomas
son tan distintos como el inglés y el árabe, en los cuales la lectura se realiza de
izquierda a derecha y de derecha a izquierda, respectivamente.
Los materiales o estímulos de respuesta constituyen otra fuente posible de sesgo
del instrumento. Las láminas del Test de Matrices Progresivas de Raven (1993),
que implican completar una secuencia lógica seleccionando una figura entre un
grupo de alternativas, incluye la figura faltante al final de la segunda fila con lo
que se asume una lectura de izquierda a derecha. Este hecho fue observado y
constituye una severa desventaja para los individuos árabes, quienes
involuntariamente van a intentar resolver la prueba de derecha a izquierda.
III. Finalmente, la última variedad de sesgo metodológico es el de
administración. Esta categoría incluye los problemas de comunicación, es
decir, dificultades para que el entrevistado entienda las instrucciones del
entrevistador (psicólogo) ya sea por el tipo de palabras utilizadas, la forma
de suministrar las instrucciones o un inadecuado manejo del idioma por
parte del examinador o del examinado. También comprende los cambios
introducidos en el modo de administración de la prueba puesto que,
frecuentemente, los manuales del test incluyen instrucciones que no son
adecuadas para la población evaluada. Los administradores del test,
entonces optan por “adaptar” esas instrucciones según su criterio
personal, lo cual puede conducir a severas distorsiones en la
interpretación de los resultados obtenidos.

C) Sesgo de Ítem
El sesgo del ítem se genera cuando éste último posee diferentes significados en
las culturas consideradas. Ciertos grupos culturales pueden obtener puntajes
significativamente distintos en un ítem determinado a pesar de obtener un
puntaje total similar en el test. La deseabilidad social o la relevancia cultural,
entre otros factores, pueden producir el sesgo de ítem.
Tanzer (1995), por ejemplo, demostró que, aunque la estructura factorial de un
test de autoconcepto académico era semejante en muestras de estudiantes
australianos y singapurenses, existían diferencias entre ambos colectivos
cuando se compraban los puntajes obtenidos en algunos ítems específicos.
10.3. La influencia del lenguaje

El lenguaje es otro factor que afecta el desempeño en la evaluación transcultural
que utiliza tests psicológicos. Lau y Hoosain (1999) demostraron que los
individuos que hablan chino rinden más que los sujetos que hablan japonés en
una prueba de cálculo mental. Estos últimos, a su vez, superaron en su
desempeño a las personas anglo parientes. Los autores pudieron demostrar que
estas diferencias estaban relacionadas con la duración de los dígitos cuando son
pronunciados, lo que a su vez está vinculado con la memoria de trabajo.
Esta investigación demostró claramente como el idioma puede producir
diferencias en el rendimiento en un test determinado, por consiguiente, advierte
sobre la inconveniencia de utilizar baremos extranjeros. En este caso específico,
si los investigadores japoneses o chinos hubieran utilizado baremos elaborados
en Inglaterra para evaluar el rendimiento de un individuo en un test de cálculo
mental, es probable que los examinados hubiesen calificado dentro de rangos
normales cuando en realidad algunos podrían tener déficit.
10.4. Métodos de adaptación

Actualmente se reconoce que la adaptación de un Test es un proceso mucho
más complejo que la mera traducción de ese test en un idioma diferente. Una
adaptación implica considerar no sólo las palabras utilizadas al traducir la prueba
sino también las variables culturales involucradas. La traducción del inglés al
español del siguiente ítem del NEO PIR “I wouldn´t enjoy vacationing in Las
Vegas “por “No disfrutaría tomando vacaciones en Las Vegas” es correcta. Sin
embargo, este ítem probablemente tenga un significado distinto ara muchas
personas en Argentina que para los estadounidenses y, probablemente, el
significado sea mucho más diferente en culturas no occidentales. Así una
correcta traducción no asegura un significado unívoco.
Van de Vijver y Leung (1997) establecieron tres niveles de adaptación de las
pruebas psicológicas. El primero corresponde al de la aplicación, este es, la

simple y llana traducción de un test de un idioma a otro Este método asume la

equivalencia de constructo. Desafortunadamente, es el método más común y
más utilizado en todo el mundo. Como se indicará anteriormente la sola
traducción de una prueba no nos indica ningún nivel de equivalencia entre ambas
versiones de la misma.
La segunda alternativa es la adaptación. En este caso a la traducción se agrega
la transformación, adición o substracción de algunos ítems de la escala original.
Como se explicó, algunos ítems pueden cambiar su significado a través de las
culturas y, por lo tanto, necesitan modificaciones o ser eliminados. Así mismo los
ítems que no existen en la versión original del test pueden representar mejor al
constructo en la población en la cual se administrará la nueva versión. Baldo
(2000) al realizar una baremización del WISC III en Córdoba encontró que el
nivel de dificultad original de los ítems pertenecientes a los subtests
Comprensión, Vocabulario e Información no eran aplicables a la población
argentina, por lo que propuso un nuevo ordenamiento de los ítems. Este es un
ejemplo de adaptación sin adición o substracción de ítems.
Finalmente, la opción ensamble puede emerger al momento de adaptar un
instrumento de evaluación psicológica. En este caso el instrumento original ha
sido modificado tan profundamente que prácticamente se ha transformado en un
nuevo instrumento original con los nuevos elementos. Esto ocurre cuando
muchos de los ítems del test original son evidentemente inadecuados para
representar el constructo a medir. Esto sucede en tests de denominación
confrontacional, utilizados en neuropsicología, donde se utilizan láminas con
dibujos de objetos que el evaluado debe nombrar. Estos objetos tienen distinta
frecuencia de observación en la vida diaria de un sujeto y por ello van a variar
considerablemente de una cultura a otra. Es el caso de la adaptación Argentina
del Test de Denominación de Boston (Allegri et. Al 1997). En la versión original
la figura de una bellota está ubicada en el lugar número 32 mientras que en la
versión argentina tal lámina se encuentra sobre el final en el número.
El ensamble también se da cuando el constructo no está representado de forma
adecuada por la versión original en la cultura a la que se quiere adaptar la
prueba. Los abordajes indigenistas de la medición de la personalidad, por
ejemplo, han promovido el diseño de tests distintos para abarcar aspectos de la
personalidad no contemplados en las teorías occidentales. Tal es el caso del
Inventario Chino de Evaluación de la Personalidad, que contiene dimensiones
indigenistas de la personalidad tales como “armonía”.
Técnicas de traducción de un test

El proceso de traducción es complejo e implica más que la traducción lineal de
las palabras escritas a un nuevo lenguaje. Existen dos métodos comunes: la
traducción directa o forward translation y la traducción inversa o backward

translation. En el método de traducción directa un traductor, o preferentemente,

un grupo de traductores, traducen el test desde el idioma original al nuevo
idioma. Luego, otro grupo de traductores, juzga la equivalencia entre las dos
versiones. De este modo pueden realizarse las correcciones pertinentes en las
dificultades o errores identificados por los traductores. En el caso de la traducción
inversa, él más utilizado de los métodos, un grupo de traductores realiza una
traducción desde el idioma original al nuevo idioma; luego un segundo grupo de
traductores toma el test traducido (en el nuevo idioma) y vuelve a traducirlo al
idioma original. Seguidamente se realizan las comparaciones entre la versión
original y la versión retraducida al idioma original para determinar su
equivalencia. Ambos métodos poseen diversas ventajas y desventajas, se
ejemplifica la metodología utilizada para la traducción de instrumentos con el
caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.
Diseños experimentales para verificar la equivalencia de tests e ítems

Una vez que se ha traducido convenientemente una prueba es necesario realizar
un estudio para establecer si esta traducción en la prueba es equivalente a la
original. Para ello habrá de implementarse un diseño experimental y un análisis
de datos obtenidos a través de ese diseño. Hambleton (200) señala que existen
básicamente 3 métodos.
a) Administración de la prueba en el idioma original y de la prueba traducida
a sujetos bilingües: En este caso se le administrara ambas versiones de
la prueba (la original y su traducción al nuevo idioma) a sujetos que hablan
ambos idiomas. Si, por ejemplo, deseamos traducir el test de Inteligencia
de Wechsler para Adultos, Versión III desde el inglés al español,
administraremos la versión en inglés y la versión en español a los
evaluados que hablen ambos idiomas. Este método según Hambleton,
posee ventajas y desventajas. Entre las primeras se pueden mencionar
que pueden controlarse las diferencias de las características de los
participantes en el test (por ejemplo, su habilidad) ya que ambas pruebas
son administradas a la misma persona. Entre las desventajas, este autor
que este diseño está basado en la premisa de que los sujetos son
igualmente competentes en ambos idiomas, lo cual es difícil de sostener.
Es probable, entonces, que puedan observarse diferencias entre ambas
versiones debido a una menor capacidad de algunas personas para
entender los ítems en alguno de los dos idiomas. La segunda gran
desventaja de este diseño es que no puede asegurarse que los bilingües
posean el mismo nivel de competencia que la población general. Por el
hecho de conocer otro idioma es probable que se trate de personas con
una mayor capacidad intelectual o mejor educación. Hambleton, también
señala una variación de este método que conserva las misma ventajas y
desventajas pero que es más fácil de implementar. La misma consiste en

administrar al azar una (no ambas) de las versiones del test (en español
o en inglés) a los participantes bilingües.
b) Administración de la versión original y su traducción inversa a
monolingües en el idioma original: Siguiendo nuestro ejemplo anterior,
planteado por las autoras (Tornimbeni et. Al. 2004) se le administraría la
versión original del WAIS – III y la versión obtenida de la traducción
inversa a sujetos cuyo idioma natal es el inglés. La equivalencia de los
ítems se determina comparando el desempeño de cada sujeto en cada
ítem de ambas versiones. Nuevamente, la ventaja está en el control de
las diferencias en las características de los participantes. La primer gran
desventaja está en que este diseño no permite obtener datos con la
versión en el idioma meta (target) del test (español en el ejemplo). De esta
manera no es posible obtener puntajes de sujetos que hablen el idioma al
que se intenta traducir el test. La segunda gran desventaja de este diseño
reside en el hecho de la posible falta de independencia entre los puntajes
obtenidos ya que es probable que exista un efecto de aprendizaje luego
de la administración de la primera versión de la prueba, especialmente si
la primera es la original. La administración al azar de una de las versiones
en el primer lugar puede reducir la importancia del efecto de aprendizaje.
c) Administración de la versión original a monolingües que hablan el idioma
original y de la versión traducida a monolingües que hablan el idioma al
que ha sido traducida la prueba: Siguiendo con el ejemplo enunciado por
Tornimbeni et. Al (2004), se administraría la versión en inglés del WAIS –
III a evaluados cuyo idioma natal es el español. Una posible dificultad
reside en asumir que los sujetos de ambas muestras poseen una habilidad
comparable. sin embargo, Hambleton sugiere que tal obstáculo puede
superarse si los análisis son desarrollados con la Teoría De Respuesta al
Ítem, en la cual se asume que utilizando distintos conjuntos de ítem
pueden obtenerse las mismas estimaciones de aptitud. Igualmente,
administrando esos ítems a distintas muestras de examinados las
estimaciones de parámetros obtenidas serán iguales.
Una vez obtenidos los datos por medio de los diseños revisados existen varias
posibilidades estadísticas para su análisis. Básicamente el análisis estará
destinado a identificar la existencia de Funcionamiento Diferencial de items (FDI)
es decir, ítem que se comportan en forma diferente a través de las diversas
muestras transculturales.Por ejemplo, en las investigaciones citada de Tanzer (
1995) en donde el investigador le administro dos cuestionarios sobre
autoconcepto académico de lectura y matemáticas. En los resultados pudo
observarse que a pesar de que la prueba mostraba la misma estructura factorial
para ambos grupos culturales, cuando las escalas de los ítems de competencia/
facilidad se trabajaban en forma individual podían observarse grandes
diferencias entre ambos grupos culturales. El autor especulo con que tal
diferencia se debía a un factor cultural de modestia, la cual es una virtud

deseable dentro de la cultura de Singapur, fuertemente influenciada por la cultura

china. Así, los singaporeanos eran más renuentes a mostrar una actitud
autoelogio o jactancia. Esta investigación, además, de ser un ejemplo de FDI,
muestra también la insuficiencia de comparar las estructuras factoriales de las
pruebas cuando son aplicadas transculturalmente. Como puede observarse en
estos resultados, es necesario siempre realizar un análisis de (FDI) ya que a
pesar de conservar una misma estructura factorial un grupo puede mostrar
valores mucho más bajos que otro en determinados ítem.
Existen diversos métodos en los que se puede analizar el comportamiento de los
ítems. Algunos métodos dentro de la TCT tales como los métodos de suma de
chicuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland
y Thayer (1988) y que es en la actualidad él más utilizado a estos fines. El análisis
puede desarrollarse dentro de la TRI en donde el mismo se centrará en las
probabilidades que tiene una persona con un determinado nivel de habilidad de
contestar un ítem en forma correcta. El modelo de Rasch, de un solo parámetro
es el más popular.
11. IMPLICANCIAS ÉTICAS
Los principios éticos en la evaluación psicológica propuestos por la American

Psychological Association (1992) son de carácter general para cualquier
administración de un test.
1. Evaluación, diagnóstico e intervenciones en un contexto profesional
a) Los psicólogos únicamente llevan a cabo evaluaciones, diagnósticos o
intervenciones dentro del contexto de una relación profesional definida.
b) Las evaluaciones de los psicólogos, recomendaciones, informes y
diagnósticos o apreciaciones valorativas se basan en información y
técnicas (incluyendo entrevistas personales cuando sea conveniente)
suficientes para proporcionar una fundamentación adecuada de sus
hallazgos.
2. Competencia y uso apropiado de evaluaciones e intervenciones

a) Los psicólogos que elaboran, aplican, puntúan, interpretan o usan
técnicas de evaluación psicológica, entrevistas, test u otros instrumentos
lo hacen de modo que tanto el proceder como los fines perseguidos son
apropiados de acuerdo con la investigación y los datos existentes acerca
de la utilidad y pertinencia de las técnicas.
b) Los psicólogos se abstienen del uso inapropiado de técnicas de
evaluación, intervenciones, resultados e interpretaciones, y toman
medidas razonables para evitar que otros usen inadecuadamente la

información proporcionada por estas técnicas. Esto incluye el abstenerse

de facilitar las puntuaciones de los test u otros datos a personas, ajenas
a los pacientes o clientes, no cualificadas para utilizar dicha información.
3. Construcción de test
Los psicólogos que construyen y realizan investigación con test y otras técnicas
de evaluación utilizan procedimientos científicos y conocimientos profesionales
actualizados para el diseño de los test, estandarización, validación, reducción o
eliminación del sesgo, y recomendaciones de uso.
4. Uso de la evaluación en general y con poblaciones especiales

a) Los psicólogos que llevan a cabo intervenciones o aplican, puntúan,
interpretan o utilizan técnicas de evaluación conocen la fiabilidad, validez,
los estudios sobre la estandarización y los resultados, aplicaciones
adecuadas y usos de las, técnicas que manejan.
b) Los psicólogos son conscientes de los límites de la certidumbre con la que
pueden hacerse los diagnósticos, juicios y predicciones acerca de las
personas.
c) Los psicólogos intentan identificar las situaciones en las cuales
determinadas intervenciones, técnicas de evaluación o normativas
pueden no ser aplicables o pueden requerir un ajuste en la aplicación o
interpretación, debido a características de la persona tales como el
género, edad, raza, etnia, nacionalidad, religión, orientación sexual,
discapacidad, idioma o estatus socioeconómico.
5. Interpretación de los resultados de la evaluación

Al interpretar los resultados de la evaluación, incluidas las interpretaciones
automatizados, los psicólogos tienen en cuenta los distintos aspectos del test y
características de la persona evaluada que pueden afectar a los juicios del
psicólogo o reducir la precisión de sus interpretaciones. Han de indicar cualquier
reserva significativa que tengan acerca de la precisión o limitaciones de sus
interpretaciones.
6. Personas no calificadas
Los psicólogos no promueven el uso de técnicas de evaluación psicológica por
parte de personas no calificadas.

7. Test obsoletos y resultados desfasados de los test

a) Los psicólogos no basan sus evaluaciones, decisiones sobre la intervención
o recomendaciones en datos o resultados de los test que están desfasados en
relación con los objetivos perseguidos en la actualidad.
b) Del mismo modo, los psicólogos no basan sus decisiones o recomendaciones
en medidas y test obsoletos, inapropiados para los objetivos actuales.
8. Servicios de calificación e interpretación

a) Los psicólogos que ofrecen procedimientos de calificación o evaluación a
otros profesionales describen con precisión la finalidad, normas, validez,
fiabilidad y aplicaciones de los procedimientos, así como cualquier
cualificación especial aplicable a su uso.
b) Los psicólogos eligen los servicios de calificación e interpretación
(incluidos los servicios automatizados) basándose en los datos sobre la
validez del programa y procedimientos, así corno en otras
consideraciones pertinentes.
c) Los psicólogos mantienen la responsabilidad de la aplicación adecuada,
la interpretación y el uso de los instrumentos de evaluación, tanto si son
ellos mismos los que puntúan e interpretan los test como si utilizan
servicios automatizados u otros para hacerlo.
9. Explicación de los resultados de la evaluación

A menos que se informe claramente con antelación a la persona evaluada que
la evaluación excluye cualquier tipo de explicación de los resultados (como
ocurre con algunas situaciones de consejo organizacional o ciertas evaluaciones
de preempleo, seguridad o del ámbito jurídico), los psicólogos han de garantizar
que se proporcione una explicación de los resultados,
Así deberá, utilizar un lenguaje que pueda entender la persona evaluada u otra
persona legalmente autorizada por el cliente.
Independientemente de que la puntuación e interpretación sean hechas por el
propio psicólogo por ayudantes o por medio de servicios automatizados u otros
servicios externos, los psicólogos toman las medidas necesarias para asegurar
que se proporcionan explicaciones apropiadas de los resultados.

10. Mantenimiento de la seguridad de los test

Los psicólogos se esfuerzan para mantener la integridad y seguridad de los test
y otras técnicas de evaluación, de acuerdo con la ley y las obligaciones
contractuales, y de tal modo que les permitan cumplir con los requerimientos del
código de ética del profesional psicólogo.

UNIDAD IV: CONFIABILIDAD, VALIDEZ Y BAREMACIÓN DE INSTRUMENTOS

PSICOLÓGICOS
12. VALIDEZ DEL TEST
Una cosa es que el test mida de manera precisa o estable (esta cualidad se
refiere a su fiabilidad), y otra diferente es la cuestión de qué es lo que
auténticamente está evaluando. En el ámbito psicosocial, los diferentes
constructos resultan difícilmente operativizables de manera indiscutible, y a
veces se producen dudas razonables sobre qué mide un determinado test. Una
prueba de inteligencia general tendrá un elevado grado de validez si asigna
puntuaciones altas a las personas muy inteligentes, puntuaciones medias a las
personas medianamente inteligentes y puntuaciones bajas a las personas de
poca inteligencia. Un cuestionario para evaluar el nivel de autoestima tendrá un
elevado nivel de validez si se demuestra que mide de forma exhaustiva todos los
componentes en que puede manifestarse la autoestima.
La validación es un proceso continuo, que incluye procedimientos diferentes para
comprobar si el cuestionario mide realmente lo que dice medir. Dicho de otro
modo, tiene que ver con el tipo de conclusiones o inferencias que pueden
realizarse a partir de las puntuaciones obtenidas en el test. Las inferencias
pueden ser de muy diverso tipo: ¿qué rasgo estamos midiendo realmente? ¿Qué
podemos predecir sobre el comportamiento de un sujeto que obtiene una
determinada puntuación en el test? ¿Qué consecuencias de diverso tipo tiene
esa puntuación, en contextos de evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso unitario
que tiene como objetivo aportar pruebas sobre las inferencias que podemos
realizar con un test, tradicionalmente se han diferenciado varios procedimientos
de validación, alguno de los cuales incluye varios métodos diferentes de
comprobación. Los fundamentales procedimientos son denominados como
validez de contenido, de constructo y referida al criterio.
Ver anexo C:
12.1. Validez de contenido

Sobre todo, en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de
aptitudes, etc.…) y en pruebas de conocimientos (cuestionarios para evaluar el
rendimiento en una materia escolar o en una especialidad temática concreta),
tiene sentido justificar que el conjunto de ítems que forman el test conforma una
muestra representativa del universo de contenidos que interesa evaluar. Un test
de conocimientos de Química en 8º de EGB, por ejemplo, debería incluir
cuestiones representativas de los diferentes núcleos de contenidos que

oficialmente deben impartirse en ese nivel de estudios. Sería una prueba poco
válida si incluye demasiadas cuestiones de unos temas y muy pocas de otros.
Para justificar, aunque sólo sea racionalmente, que un test posee validez de
contenido, debe quedar bien definido el universo o dominio conductual de
referencia: especificar claramente cuáles son los contenidos de Química que
debe conocer un alumno de 4º de ESO, cuáles son los componentes que interesa
considerar en un cuestionario de cultura general, qué tipo de conocimientos y
destrezas son las pertinentes para medir el nivel básico de inglés, etc. En
definitiva, nos referimos a explicitar claramente los objetivos de la evaluación y
la importancia que se quiere dar a cada uno, lo que determinará la cantidad de
cuestiones a incluir referidas a cada uno de esos objetivos. En definitiva, la
validez de contenido es un tema particular del de muestreo: si deseamos realizar
inferencias sobre el rendimiento de las personas en una población de contenidos
determinada, el test debe incluir una muestra representativa de dichos
contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien pueden
utilizarse jueces expertos en el tema para valorar la congruencia entre los
diversos items y los diversos objetivos. Existen procedimientos cuantitativos
diversos para que cada experto valore el grado en que un ítem sirve para evaluar
el objetivo al que corresponde. El procedimiento cuantitativo más sencillo sería
el siguiente:
− Especificar los diversos objetivos (v.gr. áreas diferentes de contenidos)
que se pretenden evaluar.
− Elaborar varios ítems para cada objetivo.
− Seleccionar una muestra de expertos en el contenido del test.
− Pedirles que, según su opinión, asignen cada ítem al objetivo que
pretende medir.
− Seleccionar los ítems en los que los expertos manifiestan mayor
acuerdo en sus clasificaciones.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en
llamar "validez aparente", que se refiere al grado en que un test da la impresión
a los evaluados de que mide lo que se pretende. En situaciones aplicadas, es
importante que las personas perciban que los ítems del test tienen que ver con
la finalidad que se persigue con el proceso de evaluación.
12.2. Validez de constructo

Un constructo es un concepto elaborado por los teóricos de la Psicología para
explicar el comportamiento humano. Inteligencia fluida, extroversión,
autoconcepto, asertividad, motivación intrínseca... son constructos que forman
parte de teorías psicológicas y que precisan de indicadores observables para su
estudio. En muchas ocasiones, estos indicadores son los ítems de un test, y debe

comprobarse empíricamente que resultan adecuados para reflejar el constructor

de referencia
12.2.1. Estrategias para la validez de constructo

La validez de constructo incluye la planificación y ejecución de determinados
estudios de investigación orientados a comprobar empíricamente que un test
mide realmente el constructo o rasgo que pretendemos.
Aunque los métodos a emplear son sin duda variados, así como las técnicas
estadísticas para analizar los datos, podemos encontrar un común denominador
a todos ellos, que se sintetiza en las siguientes fases:
1. Formular hipótesis relevantes (extraídas de deducciones teóricas o del
sentido común) en las que aparezca el constructo que pretendemos
evaluar con el test. En definitiva, una hipótesis de trabajo consiste en
poner en relación dos o más variables. Pues bien, una de esas variables
a ser el constructo que pretendemos medir con el test.
2. Efectuar en la práctica mediciones oportunas de las variables o
constructos involucrados en las hipótesis. La medición del constructo de
interés se realizará con la prueba diseñada a tal efecto, que es la que
pretendemos validar.
3. Determinar si se verifican o no las hipótesis planteadas. En el caso de que
así sea, queda confirmado mediante una investigación que el test mide el
constructor de interés ya que, de lo contrario, no habría razones lógicas
para que se cumplieran las hipótesis formuladas. Si las hipótesis no se
confirman no significa en principio que el test no es válido, ya que puede
ser debido a que las hipótesis no estaban planteadas de manera
adecuada, lo cual exigiría una revisión de la teoría subyacente.
Imaginemos, por ejemplo, que un investigador está interesado en validar una
prueba de motivación intrínseca-extrínseca que ha construido. Desde la teoría
motivacional de partida se puede deducir que las personas motivadas
intrínsecamente (por el mero placer que les supone la ejecución de determinadas
tareas) deberían rendir mejor en actividades escolares que las personas
motivadas por razones extrínsecas (deseos de alcanzar determinada nota o
determinado refuerzo externo). Para validar su prueba, el investigador tiene que
demostrar empíricamente que mide auténticamente el constructo motivacional
que se pretende, y podría proceder de la siguiente manera:
a. Aplicar el test a un grupo amplio de alumnos del nivel escolar
apropiado.
b. Recoger información de cada alumno sobre su nivel intelectual, su
calificación académica media en el último curso y las horas que
dedica al estudio.

c. Formar dos grupos diferentes (A y B), de tal manera que ambos

tengan un mismo nivel intelectual medio y que ocupen un número
similar de horas en el estudio, pero que el grupo A tenga niveles
altos de motivación intrínseca y el B niveles altos de motivación
extrínseca.
d. Comparar el rendimiento académico de los dos grupos. Si la
hipótesis de partida fuera cierta, el grupo A debería rendir
significativamente más que el grupo B, con lo cual se aportaría
información sobre la validez del test. Desde luego, si el test no
midiera motivación, sería improbable que se verificase la hipótesis
de trabajo.
Pueden ser muy variados los métodos a seguir que, cumpliendo el proceso de
ejecución planteado anteriormente, sirvan para poner a prueba la validez de
constructo de un test. En cada caso habrá que seguir el que más convenga para
contrastar las hipótesis de partida, pero algunos métodos suelen ser más
frecuentes. Entre ellos destacamos:
− Obtener las relaciones entre las puntuaciones en el test y en otras
variables que deberían relacionarse con el constructo de interés. Si el
modelo teórico está bien fundamentado, debe establecer relaciones entre
el constructo de interés y otros diferentes, y por tanto debe ser posible
establecer diseños de investigación para contrastar las previsiones
teóricas. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala
de susceptibilidad al castigo (que mide el grado de evitación de
situaciones reales aversivas) debe proporcionar puntuaciones
relacionadas directamente con neuroticismo e inversamente con
estabilidad emocional.
− Evaluar mediante el test a grupos que se supone deben ser diferentes en
el constructo, para comprobar si realmente es así. Resulta un enfoque
eminentemente diferencial: si el test es válido, debería reflejar las
diferencias entre grupos que se predicen desde la teoría psicológica. Por
ejemplo, si un test de inteligencia general para edades infantiles es válido,
debería reflejar el mayor rendimiento de los niños de más edad.
− Utilizar una estrategia experimental para comprobar si el test resulta
sensible para detectar los efectos previsibles debidos a la manipulación
o selección de los niveles en una o más variables independientes. El
ejemplo expuesto anteriormente sobre motivación y rendimiento puede
servir para entender esta estrategia.
− Aplicar la técnica multivariada del Análisis Factorial (exploratorio o
confirmatorio) sobre la matriz de correlaciones entre items, para descubrir
estadísticamente las variables o dimensiones subyacentes (factores) a la
covariación entre los elementos.

12.2.2. Validez de constructo factorial

Este último método, denominado validez de constructo factorial, requiere alguna
precisión que puede ser pertinente por fundamentarse en una técnica estadística
relativamente sofisticada y, sobre todo, porque su utilización práctica es muy
extensa.
El análisis factorial es una técnica estadística multivariante que sirve para
estudiar las dimensiones que subyacen a las relaciones entre varias variables.
Normalmente toma como datos de partida la matriz de correlaciones entre las n
variables que interesa analizar. Como información final, proporciona una matriz
de tamaño n × p, denominada matriz factorial rotada. Esta matriz contiene las
saturaciones de cada variable en cada una de las “p” dimensiones extraídas, y
que son las correlaciones de Pearson entre cada variable y cada dimensión.
El análisis factorial se realiza con dos objetivos:
1. Determinar cuál es el número de dimensiones o factores que mide un test
y descubrir cuál es el significado de cada una;
2. Obtener la puntuación de cada sujeto en cada dimensión.
Normalmente, el número de dimensiones que mide un test es mucho menor que
el de ítems. Para descubrir su significado y darles sentido es necesario fijarse en
las variables que saturan de forma elevada en cada dimensión. Cuando el
investigador se enfrenta con la tarea de dar significado a una dimensión, debe
realizar un proceso inferencial para encontrar el nexo de unión entre las variables
que manifiestan correlaciones elevadas en la dimensión. Además, los diferentes
factores (dimensiones) extraídos no tienen la misma importancia. Cada uno
explica una determinada cantidad de la varianza total de los ítems, que se
expresa porcentualmente, y que indica la importancia de esa dimensión para dar
cuenta de la covariación entre las variables. Si un factor explica un porcentaje
elevado de la varianza total, eso es síntoma de que las saturaciones de las
variables en dicho factor son altas, lo que significa que es una dimensión
importante a la hora de describir las relaciones entre las variables originales.

13. FIABILIDAD DEL TEST
Se entiende por fiabilidad el grado de estabilidad, precisión o consistencia que

manifiesta el test como instrumento de medición de un rasgo determinado. Si un
herrero mide varias veces con una cinta métrica la longitud de una barra de
hierro, siempre obtendrá la misma medición, debido a que tanto la cinta métrica
como la barra permanecen invariantes. Ahora bien, cuando empleamos un test
para medir un rasgo psicosocial determinado, puede ocurrir que ni uno ni otro
permanezcan invariantes de una situación a otra; análogamente, sería como
disponer de una cinta métrica elástica y de una barra de hierro sometida a
diferentes temperaturas (y, por lo tanto, más o menos dilatada). Es labor de la
psicometría establecer en cada caso el grado de estabilidad del instrumento de
medición.
Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento
de la fiabilidad como correlación entre formas paralelas, se han establecido en
términos paramétricos; es decir, suponiendo conocidos los datos de la población
de referencia. Lo real es que en la práctica vamos a disponer de datos obtenidos
en una muestra o grupo normativo concreto. Esto significa que, de modo directo,
únicamente vamos a disponer de las puntuaciones empíricas de dicha muestra,
a partir de las cuales podemos obtener los estadísticos que sean oportunos.
Tradicionalmente, la fiabilidad de un test puede entenderse de tres maneras
diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.
b) Haciendo referencia al grado en que diferentes partes del test miden un
rasgo de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
13.1. Fiabilidad como estabilidad temporal

Si disponemos de las puntuaciones de N personas en un test y, después de
transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo
test, cabe suponer que, siendo el test altamente fiable, deberíamos obtener una
correlación de Pearson elevada entre ambas mediciones. Dicha correlación
entre la evaluación test y la evaluación retest (rxx) se denomina coeficiente de
fiabilidad test-retest, e indicará tanta mayor estabilidad temporal de la prueba
cuanto más cercano a uno sea.
Este modo de operar se desprende directamente del modelo lineal clásico, según
el cual se define la fiabilidad como la correlación entre las puntuaciones
empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo
entre dos tests que cuando en realidad es uno aplicado dos veces.
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un cuestionario
de hábitos de estudio. Transcurridos dos meses, se vuelve a aplicar el mismo

test a las mismas personas bajo las mismas condiciones. Sus puntuaciones
directas en las dos aplicaciones fueron las siguientes:
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los

datos de las dos últimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los
niveles de rasgo (hábitos de estudio) de las personas no han variado a lo largo
de los dos meses transcurridos entre las dos aplicaciones, podemos decir que el
test proporciona bastantes garantías respecto a la precisión con la que mide,
dado que una persona concreta obtiene puntuaciones muy parecidas (o
similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior,
podemos interpretar que el 87 % de la varianza empírica se debe a la variabilidad
de las personas a nivel de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es
un rasgo estable (pruebas de inteligencia general, aptitudes, rasgos de
personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la
inestabilidad debida al rasgo de la causada por el instrumento de medición. Es
aconsejable dejar periodos largos entre la evaluación test y la retest cuando los
ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los
sujetos podrían emitir pautas de respuesta similares en las dos aplicaciones del
test únicamente por efectos del recuerdo y del deseo de responder de manera
congruente, con lo que rxx se incrementaría debido a factores ajenos a la
fiabilidad de la prueba. Debe tenerse en cuenta, sin embargo, que cuanto mayor
es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la
posibilidad de que las puntuaciones de los sujetos oscilen diferencialmente
debido a factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto
en el decremento de la correlación entre las puntuaciones del test y del retest.

13.2. Fiabilidad como consistencia interna

La precisión o fiabilidad de un test se puede entender también como el grado en
que diferentes subconjuntos de items miden un rasgo o comportamiento
homogéneo; es decir, el grado en que covarían, correlacionan o son consistentes
entre sí diferentes partes del cuestionario.
Lo más usual es obtener la consistencia entre dos mitades del test (método de
dos mitades) o entre tantas partes como elementos tenga la prueba (consistencia
interna).
13.3. Método de dos mitades

Este procedimiento consiste en dividir el test en dos mitades equivalentes
(normalmente una con los elementos pares y otra con los impares). Para cada
sujeto se obtiene la puntuación directa en ambas mitades. Disponemos entonces
de dos variables (P e I), cuya correlación de Pearson (rPI) indica su grado de
relación.
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo
comprobarlo estadísticamente), la correlación entre ambas sería una medida de
la fiabilidad de cada una de ellas. Ahora bien, cuando hemos deducido la fórmula
general de Spearman-Brown hemos visto que los tests más largos (con más
items) suelen ser más fiables, por lo que rPI estará subestimando el coeficiente
de fiabilidad del test total en la medida que P e I son variables extraídas de la
mitad de ítems que tiene el test. Para superar este problema, y así obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de
Spearman-Brown, considerando ahora que estamos trabajando con datos
muestrales, y haciendo n = 2 ya que el test completo tiene el doble de items que
cualquiera de sus mitades:
A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad,

entendido como la expresión de la consistencia entre dos mitades, es mayor que
la correlación de Pearson entre ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una
muestra de 10 personas que responden a un cuestionario de 6 ítems valorados
de forma dicotómica:

De
nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos
mitades del test no son muy consistentes entre sí. Únicamente un 51 % de la
varianza de las puntuaciones empíricas se debe a la varianza de las
puntuaciones verdaderas. No podríamos afirmar con suficiente certeza que
ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia.
Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de
tal forma que se comienza a responder los ítems más fáciles hasta llegar a los
situados al final del test, que son los más difíciles. Si realizásemos la partición
en dos mitades atendiendo a su disposición en la prueba (la primera mitad
formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.
13.4. Coeficiente alfa de cronbach

Ver anexo C
Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son
paralelos. En la práctica, es muy difícil que esto se produzca, pero, sin embargo,
tiene sentido su aplicación para establecer el grado en que los diferentes ítems
están midiendo una única dimensión o rasgo. Podemos observar en la última

expresión que α depende del grado de covariación de los ítems: tendrá un valor
alto (cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si covarían
de forma escasa). Matemáticamente, α puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como
ocurre en la práctica totalidad de los tests, los ítems no son paralelos. Suele
considerarse una "estimación por defecto" del coeficiente de fiabilidad, lo que
significa que es igual al coeficiente (si los ítems son paralelos) o menor (cuando
no lo son). Debe interpretarse como un indicador del grado de covariación entre
los ítems, y es aconsejable complementarlo con otras técnicas estadísticas (por
ejemplo, Análisis Factorial) antes de interpretarlo como una medida de
unidimensionalidad.
Ejemplo:
En este caso, el coeficiente α obtenido representa un valor medio, que nos indica
que no existe un elevado grado de covariación entre los ítems. No podemos
afirmar con rotundidad que este test mide un rasgo unitario.
El coeficiente α puede obtenerse también entre diferentes grupos de ítems
(subtests). En ese caso, k será el número de subtests y ΣS2j la suma de las
varianzas de los subtests. Un coeficiente α bajo indicará que los diferentes
subtests miden rasgos o constructos diferentes.

13.5. Fiabilidad como correlación entre formas paralelas

A veces, por razones de índole práctica o investigadora, se diseña un test y una
segunda versión del mismo, denominada forma paralela, que intenta evaluar o
medir lo mismo que el test original, pero con diferentes ítems. Como ya hemos
explicado, dos versiones o formas se consideran paralelas si, aplicadas a una
misma muestra de personas, obtienen medias y varianzas probabilísticamente
similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma
muestra en dos formas paralelas se considera el coeficiente de fiabilidad de
cualquiera de ellas, e indicará el grado en que pueden considerarse
equivalentes.
Ejemplo:
No es común diseñar una forma paralela de un test para obtener datos sobre su
fiabilidad. Cuando se diseñan (tarea por otra parte difícil) es porque van a
utilizarse en determinados trabajos que requieren 2 aplicaciones sucesivas de
un test que se puede recordar con facilidad.
Por ejemplo, para evaluar la eficacia de ciertos programas cortos de
enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del
entrenamiento pruebas equivalentes, aunque con contenidos diferentes (formas
paralelas) para evitar los efectos del recuerdo.

14. BAREMACIÓN DEL TEST
La puntuación directa de una persona en un test no es directamente interpretable

si no la referimos a los contenidos incluidos en el test o al rendimiento de las
restantes personas que comparten el grupo normativo. Nosotros centramos en
este segundo sentido el tema de la interpretación de una puntuación directa en
un cuestionario, para lo cual es necesario tratar el tema de la obtención de
baremos para comparar esta puntuación con las que obtienen las personas que
han formado el grupo normativo. De una u otra forma, los baremos consisten en
asignar a cada posible puntuación directa un valor numérico (en una determinada
escala) que informa sobre la posición que ocupa la puntuación directa (y por
tanto la persona que la obtiene) en relación con los que obtienen las personas
que integran el grupo normativo donde se bareman las pruebas.
Entre las múltiples formas de baremar un test, destacamos las siguientes:
− Baremos cronológicos: Edad Mental y Cociente Intelectual.
− Centiles o percentiles.
Lo más usual en las pruebas comercializadas es encontrarse baremos
realizados en escala de centiles ó estaninos.
14.1. Baremos cronológicos

Para rasgos psicológicos que evolucionan con la edad (sobre todo de tipo
intelectual) tiene sentido comparar la puntuación de un sujeto con las que
obtienen los de su misma edad y los de edades diferentes. Esto se puede realizar
mediante dos tipos diferentes de baremos: las Edades Mentales (EM) y los
Cocientes Intelectuales (CI). Supongamos que aplicamos un test de Inteligencia
de dificultad progresiva a diferentes grupos de edad (niños entre 5 y 14 años), y
que obtenemos las puntuaciones medias de cada grupo de edad en la prueba,
siendo las que siguen:
Hemos realizado una correspondencia entre las edades y puntuaciones medias

que nos va permitir obtener la EM de cualquier niño al que apliquemos el test.
Por ejemplo, si un niño obtiene el test una puntuación directa de 14 puntos, le
asignamos una EM de 9 años, independientemente de su edad cronológica real,
ya que esa puntuación es la media que obtienen los niños de 9 años.
El Cociente Intelectual (CI) se denomina así (y no coeficiente, como es usual
escuchar en determinados ámbitos) porque es el resultado de dividir la edad

mental (EM) entre la edad cronológica (EC) del sujeto; para evitar decimales el
resultado se multiplica por 100, de tal manera que se puede obtener a partir de
la fórmula:
Por ejemplo, en el ejemplo anterior, si un niño de 10 años obtiene una puntuación

directa de 18 puntos, diremos que su EM es de 11 años, y que su CI es:
Podemos observar que, si la EM de un sujeto coincide exactamente con su EC,

el CI es igual a 100, e indicará que este sujeto obtiene exactamente la puntuación
media de su grupo de edad. Si el CI supera el valor de 100 significará que el
sujeto tiene una Inteligencia superior al promedio de su edad, mientras que, si
su CI es inferior a 100, significa que el sujeto tiene una inteligencia inferior a la
media de su grupo de edad. Usualmente, Cocientes Intelectuales inferiores a 70
indican problemas importantes (deficiencias) de tipo cognitivo, mientras que
Cocientes Intelectuales superiores a 140 indican excepcionalidad intelectual.
14.2. Centiles o percentiles

Los centiles, como recordaremos, representan medidas de posición en una
distribución de frecuencias. Los baremos centiles consisten en asignar a cada
posible puntuación directa un valor (en una escala de 1 a 100) que se denomina
centil (o percentil) y que indican el porcentaje de sujetos del grupo normativo que
obtienen puntuaciones iguales o inferiores a las correspondientes directas. Así,
si un sujeto obtiene en un cuestionario de autoritarismo una puntuación de 20
puntos, poco sabemos sobre su nivel de autoritarismo, pero si sabemos que a
esa puntuación le corresponde el centil 95, ya conocemos que este sujeto supera
en ese rasgo al 95% de los sujetos utilizados para baremar el test; si el grupo
normativo fuese una muestra representativa de la población general, podríamos
inferir que esta persona supera en autoritarismo al 95% de las personas, y que
sólo un 5% de personas son más autoritarias que él.
El modo de cálculo del centil asociado a una puntuación se resume en los
siguientes pasos:
1. Disponer en una columna, ordenadas de mayor a menor o de menor a
mayor, las posibles puntuaciones directas (Xi) que se puedan obtener en
el test.

2. Asignar a cada puntuación su frecuencia (fi), es decir, el nº de sujetos del

grupo normativo que la han obtenido.
3. Disponer una tercera columna de frecuencias acumuladas (Fi).
4. Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el centil
asignado a la puntuación directa Xi, Fi la frecuencia acumulada
correspondiente a Xi y N el número total de sujetos que forman el grupo
normativo.
Ejemplo: Supongamos que aplicamos un cuestionario de conocimientos en el
manejo de ordenadores a un grupo de 200 universitarios y que las puntuaciones
directas obtenidas (X) y los sujetos que obtuvieron cada una de ellas (f) son las
siguientes:
A partir de estos datos, los centiles correspondientes a cada puntuación directa,

se obtienen de la siguiente forma:
Así, si un sujeto obtiene una puntuación directa de 20 puntos en el cuestionario,

diremos que supera en conocimientos informáticos al 9,5% de los sujetos
universitarios, mientras que más del 90% de los alumnos universitarios tienen
mayor conocimiento en el manejo de ordenadores que la persona evaluada.

ANEXOS
Anexo A: Pruebas adaptadas al Perú
▪ Escala de inteligencias múltiples (MINDS)
Anexo B: Validación por juicio de expertos
▪ Solicitud de validación
▪ Validación de instrumento
▪ Matriz de variable
Anexo C: Alfa de cronbach
▪ SPSS: Análisis de Fiabilidad

CONSTRUCCIÓN DE INSTRUMENTOS PSICOLÓGICOS ANEXO A
Mg. Gregorio Nilo Arratea Castro



CONSTRUCCIÓN DE INSTRUMENTOS PSICOLÓGICOS ANEXO B

VALIDACIÓN DE INSTRUMENTO DE RECOLECCIÓN DE DATOS
Evaluador (a): ……………………...……………………………….…………………………

Profesión: …………………………………………… N° colegiatura: ………………...……
Institución donde trabaja: …………………………………………………………………….
Cargo que desempeña: ………………………………………………………………………
Autor: ………………………………………………………………………………….…….....
Nombre del Instrumento: …………………………………………………………………….
N° INDICADORES CRITERIOS PUNTUACION

1 Claridad Esta formulado con leguaje apropiado 4 3 2 1
2 Consistencia Basado en aspectos teóricos científicos 4 3 2 1
3 Objetividad Esta expresado en conductas observables 4 3 2 1
4 Actualidad Adecuado al avance de la ciencia 4 3 2 1
4 Organicidad Existe organización lógica 4 3 2 1
5 Suficiencia Comprende los aspectos en calidad y cantidad 4 3 2 1
Adecuado para valorar lo que el investigador desea
6 Intencionalidad 4 3 2 1
estudiar
7 Consistencia Basado en aspectos teóricos científicos 4 3 2 1
8 Coherencia Existe relación lógica entre el problema y los objetivos 4 3 2 1
9 Metodología Responde al propósito de la investigación 4 3 2 1
10 Pertinencia Es útil y adecuado para la investigación 4 3 2 1
4 Excelente (76% – 100%) 30-40

3 Bueno (51% - 75%) 22-32
2 Regular (26% - 50%) 11-21
1 Deficiente (01% - 25%) 00-10
RESULTADO: Aplicable ( ) Aplicable después de corregir ( ) No aplicable ( )
Lugar y Fecha: ______________________________
__________________________
FIRMA/SELLO
DEL EVALUADOR

MATRIZ DE VALIDACIÓN
CRITERIOS DE
DIMENSIÓN
EVALUACIÓN
INDICADOR ÍTEMS RELACIÓN

ENTRE FORMULACIÓN
INDICADOR DE LOS ÍTEMS
E ITEM
1 SI NO A B C
INDICADOR 1
2 SI NO A B C
D1
3 SI NO A B C
INDICADOR 2
4 SI NO A B C
5 SI NO A B C
INDICADOR 3
6 SI NO A B C
D2
7 SI NO A B C
INDICADOR 4
8 SI NO A B C
9 SI NO A B C
10 SI NO A B C
D3
*
11 SI NO A B C
* SI NO A B C

Construcción de Instrumentos Psicológicos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Construcción de Instrumentos Psicológicos

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE HUÁNUCO

FACULTAD DE CIENCIAS DE LA SALUD

Módulo de Construcción de Instrumentos Psicológicos “B”

Gregorio Nilo Arratea Castro

UNIDAD I: DISEÑO Y ELABORACIÓN DE INSTRUMENTOS PSICOLÓGICOS

UNIDAD II: DESARROLLO HISTÓRICO Y FUNDAMENTOS TEÓRICOS QUE DAN

UNIDAD III: BARRERAS E IMPLICANCIAS DE LOS INSTRUMENTOS

UNIDAD IV: CONFIABILIDAD, VALIDEZ Y BAREMACIÓN DE INSTRUMENTOS

UNIDAD I: DISEÑO Y ELABORACIÓN DE INSTRUMENTOS PSICOLÓGICOS

Diseñar y elaborar un instrumento psicológico implica un conjunto de

1. FASES EN LA CONSTRUCCIÓN Y ELABORACIÓN DE UN INSTRUMENTO

Existen diversas posibilidades de definir la secuencia de tareas, pero por lo

1.1. Definiciones: análisis del rasgo a evaluar

Mg. Gregorio Nilo Arratea Castro 5

Se supone que la calidad del análisis y delimitación clara del constructo

1.2. Planificación: elaboración de los ítems

1.3. Análisis de ítems

Mg. Gregorio Nilo Arratea Castro 6

Si por el contrario, la prueba se construye bajo los supuestos de la teoría de

1.4. Determinación de la confiabilidad

1.5. Determinación y control de la validez

11.6. Tipificación de los resultados

1.7. Normas de aplicación

Mg. Gregorio Nilo Arratea Castro 7

2. REGLAS PARA ELABORAR ÍTEMS

Según lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la

2.1. Revisión del test por expertos

Mg. Gregorio Nilo Arratea Castro 8

2.2. Análisis y selección de ítems

Mg. Gregorio Nilo Arratea Castro 9

El estadístico usual es el producto momento de Pearson (r) o correlación punto

Mg. Gregorio Nilo Arratea Castro 10

Mg. Gregorio Nilo Arratea Castro 11

Mg. Gregorio Nilo Arratea Castro 12

UNIDAD II: DESARROLLO HISTÓRICO Y FUNDAMENTOS TEÓRICOS QUE DAN

3. ORÍGENES Y DESARROLLO DE LOS INSTRUMENTOS DE EVALUACIÓN

Para hablar del origen y desarrollo histórico de los instrumentos de evaluación

Mg. Gregorio Nilo Arratea Castro 13

de las diferencias observadas en esos mismos procesos psíquicos, de unas

Mg. Gregorio Nilo Arratea Castro 14

mentales. A Galton se le considera el fundador de la Psicología diferencial

Mg. Gregorio Nilo Arratea Castro 15

Binet y su escala han sido tan determinantes para el psicodiagnóstico, que se ha

3.1. Momentos que marcan el auge de los instrumentos de evaluación

Mg. Gregorio Nilo Arratea Castro 16

1. El ordenamiento de los hombres basado en la capacidad intelectual, lo

Hemos utilizado el término de instrumentos psicométricos en el proceso de

Mg. Gregorio Nilo Arratea Castro 17

1. En el Test de Matrices Progresivas de Raven, se le presenta a la persona

5. EL MODELO PSICOMÉTRICO O DE LOS ATRIBUTOS

El modelo psicométrico para la evaluación psicológica, como hemos visto, surge

Mg. Gregorio Nilo Arratea Castro 18

son constructos hipotéticos, teóricos, inferidos de la observación de la

Mg. Gregorio Nilo Arratea Castro 19

tests sirven para clasificar a las personas en relación al rasgo estudiado,

Los tests psicométricos son instrumentos estructurados en los cuales la persona

Mg. Gregorio Nilo Arratea Castro 20

➢ Los atributos internos, en función de los cuales se explica la conducta, se

Las técnicas proyectivas deben su nombre al término proyección, introducido por

Mg. Gregorio Nilo Arratea Castro 21

Mg. Gregorio Nilo Arratea Castro 22

de inteligencia y de personalidad y, por supuesto, por la entrevista al paciente y

8. CRÍTICAS A ESTE TIPO DE PRUEBAS PSICOLÓGICAS