Está en la página 1de 273

Leonardo Medrano y Edgardo Pérez

Alberto Luis Fernández; María Marta Morales; María


Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia
Griffoulière, Luis Pedro Morera; Lucas Lapuente; Carlos Spontón;
Estanislao Castellano; Ezequiel Flores Kanter; Mauricio Zalazar y
Javier Sánchez Rosas

Manual de Psicometría y
Evaluación Psicológica
Título: Manual de Psicometría y Evaluación Psicológica
Compiladores: Leonardo Medrano y Edgardo Pérez
Autores: Leonardo Medrano y Edgardo Pérez; Alberto Luis Fernández; María Marta Morales;
María Alejandra Pujol; Mario Trógolo; Luciana Moretti; Eugenia Griffoulière, Luis Pedro
Morera; Lucas Lapuente; Carlos Spontón; Estanislao Castellano; Ezequiel Flores Kanter;
Mauricio Zalazar y Javier Sánchez Rosas

Medrano, Leonardo A.
Manual de psicometría y evaluación psicológica / Leonardo A. Medra-
no ; Edgardo Pérez. - 2a ed ampliada. - Córdoba : Brujas, 2019.
300 p. ; 25 x 17 cm.

ISBN 978-987-760-203-6

1. Psicología. 2. Psicometría. I. Pérez, Edgardo. II. Título.


CDD 150.15195

© De todas las ediciones, los autores


© 2019 Editorial Brujas
1° Edición.
Impreso en Argentina
ISBN: 978-987-760-203-6

Queda hecho el depósito que marca la ley 11.723.


Ninguna parte de esta publicación, incluido el diseño de tapa, puede ser reproducida,
almacenada o transmitida por ningún medio, ya sea electrónico, químico, mecánico,
óptico, de grabación o por fotocopia sin autorización previa.

www.editorialbrujas.com.ar publicaciones@editorialbrujas.com.ar
Tel/fax: (0351) 4606044 / 4691616– Pasaje España 1486 Córdoba–Argentina.
|
Índice

Prefacio..................................................................................................................................9

Parte I. Psicometría: Teoría y Normas Técnicas........................................................11


Introducción a la Psicometría: el desafío de medir en psicología...................................13
Leonardo Medrano
Introducción..........................................................................................................................13
¿Qué significa medir?...........................................................................................................13
¿Es posible medir en psicología? .........................................................................................17
¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia psicológica? ..............19

Un panorama de los test psicométricos: generalidades, clasificación y tendencias


actuales.................................................................................................................................23
Edgardo Pérez y Leonardo Medrano
Introducción..........................................................................................................................23
Clasificación de los Test Psicométricos................................................................................23
Tests de respuesta típica: motivación y personalidad...........................................................30
Nuevas tendencias en evaluación psicológica: test informatizados......................................41
Fuentes para la búsqueda de información sobre Test Psicométricos....................................49

Normas Psicométricas: Evidencias de Validez ................................................................51


Leonardo Medrano y Edgardo Pérez
Introducción..........................................................................................................................51
Delimitación del concepto de Validez ..................................................................................52
A modo de síntesis................................................................................................................65

Normas Psicométricas: Confiabilidad...............................................................................67


Leonardo Medrano
Introducción..........................................................................................................................67
Errores de medición y confiabilidad: Aproximación histórica y conceptual .......................67
Dimensiones y métodos para verificar la confiabilidad........................................................71
A modo de síntesis...............................................................................................................77

Interpretación de Puntuaciones.........................................................................................79
Leonardo Medrano

5
Introducción..........................................................................................................................79
Interpretación referida a Normas..........................................................................................80
Interpretación referida a Criterios. .......................................................................................86
A modo de síntesis................................................................................................................87

Construcción y Adaptación de Test Psicométricos...........................................................89


Leonardo Medrano, Edgardo Pérez y Alberto Fernández
Introducción..........................................................................................................................89
Sesgos, Construcción y Adaptación de Test .........................................................................90
Métodos y pasos implicados en la construcción de Test.......................................................93
Métodos y pasos implicados en la Adaptación de Tests ......................................................96
A modo de síntesis................................................................................................................99

Parte II. Evaluación Psicológica mediante instrumentos psicométricos...........101


Prefacio de la Segunda Parte ..........................................................................................103

Evaluación Psicométrica en Psicología Educacional.....................................................105


Leonardo Medrano, Edgardo Pérez, Mauricio Zalazar y Javier Sánchez Rosas
Introducción........................................................................................................................105
1. Evaluación de la Motivación Académica: Aportes de la Teoría Social
Cognitiva de la Carrera.......................................................................................................105
2. Evaluación de los Intereses Vocacionales.......................................................................116
3. Evaluación de la Autorregulación del Aprendizaje.........................................................121
4. Evaluación para la Identificación del Talento ................................................................125
5. Evaluación de las Emociones Académicas.....................................................................137
6. Evaluación de la Calidad Instruccional Docente............................................................141
Comentarios Finales............................................................................................................144

Evaluación Psicométrica en Psicología Clínica y de la Salud.......................................147


Leonardo Medrano, Luciana Moretti, Eugenia Griffoulière,
Lucas Lapuente y Ezequiel Flores Kanter............................................................................. 147
Introducción........................................................................................................................147
El uso de test psicométricos en el Proceso de Evaluación Clínica ....................................148
Pruebas para la Detección de Trastornos Mentales ............................................................149
Pruebas para el Diagnóstico y evaluación de la Severidad de
Trastornos Mentales............................................................................................................154
Evaluación de los Factores de Mantenimiento: Regulación Emocional e Intolerancia a la
Frustración..........................................................................................................................168
Evaluación del Bienestar subjetivo: delimitación conceptual
e instrumentos para su medición.........................................................................................177
Consideraciones Finales......................................................................................................181

6
Evaluación Psicométrica en Psicología Organizacional................................................183
Mario Trógolo, Carlos Spontón, Estanislao Castellano,
María Alejandra Pujol y Leonardo Medrano
Introducción........................................................................................................................183
El uso de Pruebas Psicométricas en la Psicología Organizacional.....................................184
Evaluación del Bienestar en el Trabajo...............................................................................185
Evaluación con fines de Selección......................................................................................191
Consideraciones Finales......................................................................................................201

Pruebas Psicométricas en la Evaluación Neuropsicológica .........................................203


Alberto Luis Fernández
Introducción........................................................................................................................203
Neuropsicología: ¿Qué es y para qué sirve?.......................................................................203
Elementos de la Evaluación Neuropsicológica ..................................................................205
Ventajas y Limitaciones de la Psicometría en Neuropsicología.........................................209
Funciones Cognitivas habitualmente evaluadas por
Test Neuropsicológicos.......................................................................................................211
Funciones ejecutivas...........................................................................................................215
Conceptualización...............................................................................................................216
Consideraciones Finales......................................................................................................217

Evaluación Psicométrica en Áreas Emergentes.............................................................219


Mario Trógolo, Maria Marta Morales y Leonardo Medrano
Introducción........................................................................................................................219
Introducción a la Psicología del Tránsito............................................................................219
Métodos y técnicas de evaluación en Psicología del Tránsito............................................220
Comentarios finales.............................................................................................................227
Introducción a la Evaluación Psicométrica en Psicología del Deporte: Reseña Teórica y
Modelos Teóricos................................................................................................................228

Organización y Redacción de Informes Psicométricos .................................................235


Leonardo Medrano y Lucas Lapuente
Introducción........................................................................................................................235
¿Qué es un informe psicométrico?......................................................................................236
¿Cómo organizar un informe Psicométrico? ......................................................................237
¿Cómo redactar un informe Psicométrico?.........................................................................238
Modelo y ejemplo de Informe Psicométrico.......................................................................240
Resumen y conclusiones.....................................................................................................247
Consideraciones Finales......................................................................................................248

7
Apéndice I: ¿Cómo leer artículos de Investigación en Psicometría?
Pautas para una lectura crítica .......................................................................................251
Leonardo Medrano................................................................................................................ 251
Introducción........................................................................................................................251
Secciones de un Artículo Científico....................................................................................252
Guía para la Lectura Crítica de Artículos Instrumentales...................................................255
Consideraciones Finales......................................................................................................259

Apéndice II: Revisión de Conceptos y Procedimientos Estadísticos............................261


Leonardo Medrano y Edgardo Pérez
Conceptos y procedimientos estadísticos básicos ..............................................................261
Conceptos y procedimientos estadísticos avanzados..........................................................268

Apéndice III: El uso de Biomarcadores como complemento de la Evaluación


Psicológica..........................................................................................................................277
Luis Pedro Morera y Leonardo Medrano ............................................................................ 277
Introducción........................................................................................................................277
¿Qué es un marcador biológico? ........................................................................................278
¿Cómo elegir los biomarcadores a cuantificar?..................................................................279
¿Qué otros biomarcadores podríamos medir?....................................................................280
Técnicas, muestras y algo más............................................................................................280
Referencias .........................................................................................................................282
|
Prefacio

La medición es el núcleo de la ciencia y sus aplicaciones. Su importancia


es tanto científica como profesional, ya que la posibilidad de examinar teorías
e hipótesis depende de que podamos medir las variables en estudio. Por otra
parte, la posibilidad de tomar decisiones bien fundamentadas en los diferentes
ámbitos de ejercicio profesional, requiere de mediciones adecuadas de los atri-
butos psicológicos. Cómo obtener mediciones utilizando test psicológicos,
evaluar la calidad de esas medidas y su aplicabilidad, constituyen el objetivo
central de la Psicometría.
Los test psicométricos son un instrumento de gran importancia tanto
para el desarrollo de la teoría psicológica, como para la solución de problemas
prácticos en situaciones de selección y evaluación. Debido a la importancia
que tienen los test psicológicos tanto a nivel científico como profesional, es
fundamental que los usuarios de estas pruebas conozcan cómo se obtienen sus
puntuaciones, que información proporcionan, cuales son los requisitos que
deben cumplir para ser considerados como instrumentos científicos, y funda-
mentalmente, cuales son los límites y alcances de las técnicas psicométricas.
A lo largo del presente libro se desarrollarán las bases conceptuales de la
teoría psicométrica, pero manteniendo una visión aplicada de estos concep-
tos, priorizando contenidos relacionados con los diferentes tests psicológicos
y sus ámbitos de aplicación profesional. Sin embargo, el énfasis en la utilidad
práctica no supone una falta de rigor o evasión de temas vinculados a la teoría
y normativa psicométrica. Lo que se pretende es mostrar la practica real de la
psicometría, favoreciendo el desarrollo de usuarios competentes y responsa-
bles que dominen los conceptos y procedimientos de las pruebas psicológicas
contemporáneas. De esta manera se apunta a que el lector conozca las norma-
tivas psicométricas que permiten realizar una evaluación ética mediante el uso
de procedimientos psicométricos válidos y confiables.
El presente material se divide en dos partes. La primera se centra en
los conceptos básicos de la teoría psicométrica y las normativas psicométricas
exigidas para una evaluación válida y confiable. La segunda se centra en el
desarrollo conceptual y aplicado de diferentes pruebas psicológicas, haciendo
foco en los procesos de administración, interpretación y elaboración de infor-
mes psicométricos. Cabe señalar que esta sección no refiere a una catalogación
de pruebas. Más que una breve reseña de diferentes pruebas, se seleccionaron
test que permitan reflejar al amplio espectro de evaluación de las técnicas
psicométricas.
Se espera que el lector adquiera con este breve manual los conocimien-
tos y competencias necesarias para comprender la utilidad y limitaciones de

9
los test psicológicos, cuente con habilidades para seleccionar una prueba y
juzgar la calidad de los test publicados, sepa administrar una prueba, inter-
pretarla y comunicar adecuadamente los resultados, permitiendo así una uti-
lización ética y responsables de los test psicológicos.

Leonardo Medrano
Edgardo Pérez

10
Parte 1
Psicometría:
Teoría y Normas Técnicas

11
|
Introducción a la Psicometría: el desafío de
medir en psicología
Leonardo Medrano

Introducción

La medición constituye un prerrequisito para toda disciplina que pre-


tenda ser científica. Ello se debe a que la posibilidad de cuantificar fenómenos
permite la utilización de métodos y herramienta más potentes de análisis. Tal
como señala Bryson “la realidad no solo es más compleja de lo que supone-
mos, sino que es más compleja de lo que podemos suponer”. En efecto, nues-
tro sistema cognitivo no está preparado para procesar grandes volúmenes de
datos, o identificar patrones subyacentes en un conjunto amplio de variables,
o incluso, mantenerse libre de sesgos durante el proceso de investigación. El
análisis matemático constituye un recurso de gran valor para el desarrollo de
teorías y el análisis de datos empíricos. Obviamente no reemplaza un riguroso
proceso de pensamiento, pero es innegable la importancia que posee para el
establecimiento de generalizaciones científicas y la evaluación de hipótesis de
investigación.
Ahora bien, ¿es posible la medición en psicología?, ¿podemos cuanti-
ficar un proceso psicológico que no observamos? ¿podemos medir variables
tan complejas como las emociones, la memoria, las actitudes o la felicidad?
En el presente capítulo se indagarán tres interrogantes centrales para abordar
la problemática de la medición en psicología: a) ¿qué significa medir?, b) ¿es
posible la medición en psicología?, y c) ¿qué es la psicometría y cuáles son sus
aportes a la ciencia psicológica?

¿Qué significa medir?

La medición constituye fundamentalmente un proceso de abstracción.


Algo semejante ocurre con el lenguaje. Cuando hablamos utilizamos una pa-
labra para representar objetos o fenómenos de la realidad. Este proceso de
abstracción nos permite operar con las palabras o símbolos sin necesidad de
manipular los objetos reales. Puedo decirle a otra persona, “si tocas el fuego
te vas a quemar”, y la otra persona entenderá la información sin necesidad
de tener que tocar el fuego para saber que lo quemará. Gracias a este proceso
de abstracción es que podemos despegarnos de las operaciones concretas y
efectuar análisis que las trasciendan. Cuando medimos realizamos un proceso

13
análogo al del lenguaje, la diferencia radica en que en vez de utilizar palabras
utilizaremos números.
De esta forma, la medición conlleva un proceso de abstracción, mediante
el cual intentamos cuantificar (usar números para representar cantidades) y/o
clasificar propiedades de la realidad. Cuenta la leyenda que el nacimiento de los
números se dio en un intento por abstraer la cantidad de ovejas que tenían los
pastores. Para chequear si todas las ovejas del rebaño habían regresado, se repre-
sentaba con una piedra a cada oveja. El pastor incluía en una bolsa tantas pie-
dras como ovejas observaba, de esta forma si al regresar había más piedras que
ovejas significaba que había extraviado alguna y debía volver para encontrarla.
Se puede decir entonces que existía un isomorfismo entre las piedras y las ovejas,
es decir, elementos distintos (piedras y ovejas) mantenían “una misma forma o
estructura”, en este caso representaban la misma cantidad.
El uso de piedras para representar cantidades y poder operar con ellas
constituye un primer intento de abstracción (de hecho, la palabra “cálculo”
proviene del latín “calculus” que significa “piedra”). Con el paso del tiempo,
en vez de utilizar piedras, se utilizaron símbolos para representar cantidades,
dando nacimiento a los números. Esta vez el isomorfismo es entre la realidad
y un símbolo numérico (figura 1).

Figura 1. Ejemplo de medición:


Figura 1. Ejemplo traducir
de medición: lalainformación
traducir que
información que contiene
contiene el sistema
el sistema empírico en
empírico en
un sistema
un sistema numéricomanteniendo
numérico manteniendo un un
isomorfismo
isomorfismo

Para Stevens (1949)


Para Stevens medir
(1949) medirconsiste
consiste enen asignar
asignar números
números en de
en función función
ciertas de cier-
reglas. Según este autor, puede diferenciarse un sistema
tas reglas. Según este autor, puede diferenciarse un sistema relacional relacional empírico (X),empírico
un sistema relacional numérico (R), y un isomorfismo de X en R. El sistema rela-
(X), un sistema relacional
cional empírico numérico
hace referencia (R), ydeunobjetos
al conjunto isomorfismo
que muestran deelXatributo
en R. El siste-
ma relacional empírico
de interés, hace referencia
y las relaciones al conjunto
entre los mismos. de elobjetos
Mientras que sistema que muestran el
relacional
atributo numérico
de interés, y las
refiere relaciones
al conjunto entre los
de números y susmismos.
relaciones.Mientras que el sistema
Medir básicamente
relacionalimplica
numéricousar números paraalrepresentar
refiere conjunto las relaciones
de números observadas
y susentrerelaciones.
los objetos Medir
manteniendo un isomorfismo entre ambos sistemas.
Se admite la existencia de diferentes niveles de medición dependiendo del
14 tipo de isomorfismo que se pretenda mantener entre el sistema empírico y el
numérico. Por ejemplo, podemos utilizar los números simplemente para repre-
sentar distintividad. Supongamos que estamos realizando una investigación para
básicamente implica usar números para representar las relaciones observadas
entre los objetos manteniendo un isomorfismo entre ambos sistemas.
Se admite la existencia de diferentes niveles de medición dependiendo
del tipo de isomorfismo que se pretenda mantener entre el sistema empíri-
co y el numérico. Por ejemplo, podemos utilizar los números simplemente
para representar distintividad. Supongamos que estamos realizando una in-
vestigación para evaluar “expresión de emociones”. En vez de utilizar palabras
para señalar que cada expresión corresponde con una emoción distinta (por
ejemplo, enojo, alegría, sorpresa o tristeza), podemos utilizar números para
representar que se trata de emociones distintas (por ejemplo, 1, 2, 3 y 4). En
este caso, el isomorfismo que queremos mantener entre el sistema empírico y
el numérico refiere solo a la distintividad. Por tanto, no podemos hacer juicios
de orden oqueproporcionalidad.
queremos mantener entre Simplemente
el sistema empíricoqueremos representar
y el numérico refiere solo arelaciones
la distintividad.
de equivalencia, esto Pores, tanto,
que nolospodemos
objetos hacer juicios
son de orden o proporcionali-
equivalentes en una propiedad
dad. Simplemente queremos representar relaciones de equivalencia, esto es, que
determinada, por son
los objetos lo equivalentes
cual forman en unaparte dedeterminada,
propiedad una misma por locategoría.
cual forman Este tipo
de mediciónpartesede denomina nominal,
una misma categoría. y exige
Este tipo trabajar
de medición con categorías
se denomina nominal, y exhausti-
vas (abarcar todos los objetos que incluyen) y mutuamenteincluyen)
exige trabajar con categorías exhaustivas (abarcar todos los objetos que excluyentes (un
y mutuamente excluyentes (un objeto no puede estar en más de una categoría).
objeto no Enpuede estar en más de una categoría). En esta escala
esta escala los números asignados a cada categoría no representan más que los números
asignados una
a cada categoría
etiqueta (figura 2). no representan más que una etiqueta (figura 2).

Figura 2. Ejemplo de medición nominal: el isomorfismo entre el sistema empírico y numérico


Figura 2. Ejemplo de medición nominal:
se centra elenisomorfismo
solamente entre el sistema empírico y numérico
la propiedad de distintividad.
se centra solamente en la propiedad de distintividad.
Un segundo tipo de medición se establece cuando además de representar
Un distintividad
segundo queremos
tipo derepresentar
medición se establece
la existencia cuando
de un orden entre los además
elementos. de repre-
sentar distintividad queremos representar la existencia de un orden
Es decir que los objetos incluidos en una categoría no solamente difieren de entre los
los de otra categoría, sino que además pueden ser ordenados en función de la
elementos.magnitud
Es decir que los objetos incluidos en una categoría no solamente
en que poseen un atributo. Este tipo de medición se denomina ordi-
difieren denal.los de otra
Ejemplo categoría,
de este escalamientosino
seríanque además
el nivel educativopueden
(sin nivel,ser ordenados en
primario,
función desecundario
la magnitud en queEs poseen
o universitario). importanteun atributo.
señalar Este
que en este niveltipo de medición se
de medición
denominaelperoisomorfismo se mantiene en cuanto a las propiedades de distintividad y orden,
ordinal. Ejemplo de este escalamiento serían el nivel educativo (sin
no de proporcionalidad. Esto implica que si una persona presenta un “4” de
nivel, primario, secundario
nivel educativo posee mayor o universitario). Es importante
nivel que una de “2”, señalar
pero no es adecuado que en este
señalar
nivel de medición
que “duplica” el suisomorfismo
nivel educativo.se mantiene
Tampoco podemosen señalar
cuanto queadoslaspersonas
propiedades de
distintividad y orden, pero no de proporcionalidad. Esto implica que si una
16

15
persona presenta un “4” de nivel educativo posee mayor nivel que una de
“2”, pero no es adecuado señalar que “duplica” su nivel educativo. Tampoco
podemos señalar que dos personas con un nivel primario (en este caso repre-
sentados con
conununnivel
“2”) equivalen a una con un nivel universitario (en este caso
primario (en este caso representados con un “2”) equivalen a una
representado con
con un nivelun “4”). Solamente
universitario (en este casoes lícito efectuar
representado juicios
con un “4”). del tipo
Solamente es “mayor
que…” olícito
“menor que…”
efectuar (figura
juicios del 3). que…” o “menor que…” (figura 3).
tipo “mayor

Figura 3. Ejemplo de medición ordinal: el isomorfismo entre el sistema empírico y numérico


Figura 3. Ejemplo de medición
se centra ordinal: el isomorfismo
las propiedades entre el sistema
de distintividad empírico y numérico se
y ordinalidad.
centra las propiedades de distintividad y ordinalidad.

Finalmente existen las mediciones métricas, donde el ismorfismo no se


Finalmente existen las mediciones métricas, donde el ismorfismo no se
mantienemantiene
solo para solo indicar distintividad
para indicar y ordinalidad,
distintividad y ordinalidad, sino proporcio-
sino también también propor-
cionalidad. En este
nalidad. En estenivel
nivel de medición
de medición los números
los números poseenabyacentes
poseen unidades unidades abya-
constantes, es decir que la distancia entre el “1” y el “2”, es
centes constantes, es decir que la distancia entre el “1” y el “2”, es la misma la misma distancia
que hay entre el “2” y el “3”. Esto no ocurría en las mediciones ordinales, donde
distancia seque hay
carece de unaentre
unidadel constante
“2” y elde medición
“3”. Esto no ocurría
(las distancias ennúmeros
entre los las mediciones
ordinales,nodonde se carece
son las mismas, de una
ver figura 3). Enunidad constante
las mediciones métricasde si semedición (las distan-
cuenta con una
cias entreunidad
los números
constante deno sonlolas
medida, cualmismas,
permite quever figuraestablecer
se puedan 3). Enjuicios
las mediciones
no
métricas sólo
si sesobre el orden, sino también sobre las distancias o diferencias.
cuenta con una unidad constante de medida, lo cual permite
que se puedan establecer juicios no sólo sobre el orden, sino también sobre las
distancias o diferencias.

17

Figura 3. Ejemplo
Figura de medición
4. Ejemplo de mediciónmétrica:
métrica:el
el isomorfismo
isomorfismo entreentre el sistema
el sistema empíricoempírico y numérico
y numérico
se mantiene parapara
se mantiene laslaspropiedades
propiedades dede distintividad,
distintividad, ordinalidad
ordinalidad y proporcionalidad.
y proporcionalidad.

16
Un ejemplo de este tipo de medición podría ser el consumo de alcohol.
Supongamos que queremos comparar el nivel de alcohol consumido por una
persona que ingirió un vaso de vino y otra que bebió whisky. Es posible deter-
Un ejemplo de este tipo de medición podría ser el consumo de alcohol.
Supongamos que queremos comparar el nivel de alcohol consumido por una
persona que ingirió un vaso de vino y otra que bebió whisky. Es posible de-
terminar esto ya que existe una unidad constante de medición para determinar
la graduación alcohólica de una bebida. La “graduación alcohólica” o “grado
alcohólico volumétrico” es la expresión en grados del número de volúmenes
de alcohol (etanol) contenidos en 100 volúmenes del producto. El vino por
ejemplo suele tener una graduación de 10 grados, mientras que el whisky de
50 grados. Esto significa que si dos personas toman la misma cantidad (por
ejemplo, un vaso), el que bebió whisky bebió cinco veces más de alcohol que
el que bebió vino. Este tipo de mediciones permite efectuar juicios acerca de
la proporcionalidad entre intervalos.
Como se señaló anteriormente, la posibilidad de medir y representar
propiedades de la realidad mediante un sistema de número conlleva grandes
ventajas. Gracias a este proceso de abstracción podemos efectuar operaciones y
análisis sobre el sistema numérico que nos permitan extraer nuevas conclusio-
nes sobre el mundo empírico. Por ejemplo, podemos utilizar procedimientos
estadísticos sobre el sistema numérico para identificar relaciones entre varia-
bles, identificar patrones subyacentes o efectuar predicciones sobre el sistema
empírico, por mencionar solo algunos ejemplos. No obstante, es importante
señalar que la posibilidad o no de realizar estos análisis depende del tipo de
medición que estemos usando. En efecto, no es posible hacer sumas o divisio-
nes si utilizamos mediciones de tipo ordinal o nominal. Es por ello que antes
de realizar un análisis matemático debemos contemplar cuidadosamente el
tipo de medición que estamos utilizando.

¿Es posible medir en psicología?

La medición en psicología conlleva una serie dificultades, que llevan


a que no siempre se puede establecer con claridad un isomorfismo entre el
sistema numérico y el empírico. El principal obstáculo radica en el hecho de
trabajar con constructos teóricos. Las emociones, la memoria o la felicidad,
por ejemplo, no son variables que podamos observar o manipular de forma
directa, por ende, no podemos efectuar una medición directa como podría-
mos hacer con la longitud o el peso. En psicología abundan las mediciones
indirectas ya que muchos conceptos no tienen un referente empírico inme-
diato, por lo que se deben buscar procedimientos que permitan una medición
indirecta mediante indicadores operacionales, es decir, manifestaciones exter-
nas, empíricas y observables (Nunnally, 1991).
Supongamos que queremos determinar si un paciente está deprimido.
La depresión es un rasgo inobservable que no podemos analizar mediante
una percepción directa, pero podemos llegar a inferirlo a partir de una serie

17
de indicadores observables o empíricos. Por ejemplo, podemos ver si presenta
movimientos lentos, si al hablar manifiesta sentimientos de desesperanza o
inutilidad, si menciona tener problemas para dormir, o si siente que no tiene
energía o ganas para hacer actividades.
Cuando efectuamos una medición en psicología lo hacemos asumiendo
dos grandes supuestos o axiomas. En primer lugar, asumimos que existen ras-
gos o características psicológicas reconocibles que describen aspectos impor-
tantes de los individuos. En el ejemplo anterior, asumimos que existe algo que
se llama “depresión” que describe o explica los síntomas que observamos en el
paciente. En segundo lugar, asumimos que es posible cuantificar estos rasgos.
Por ejemplo, podemos decir que se trata de una depresión leve, moderada o
severa, y otorgarle un número. Sin embargo, este proceso de medición no se
encuentra exento de dificultades.
Retomando la definición de medición de Stevens (1949): “medir consis-
te en asignar números en función de ciertas reglas”. El aspecto más importante
de la definición refiere al término “según ciertas reglas”, ya que la asignación
de los números debe establecerse de manera explícita y las reglas empleadas
para definir una medición debe estar exenta de ambigüedades. Esto reviste una
gran dificultad cuando se trabaja con variables inobservables (es decir, cons-
trucciones teóricas o “constructos”). Concretamente, pueden surgir al menos
tres problemas de medición:

1. No explicitar las reglas que utilizamos para medir un constructo. Pue-


de ocurrir que un psicoterapeuta establezca que un paciente posee
un diagnóstico de “depresión severa”, pero no explique los criterios
que utilizó para llegar a este diagnóstico. Esto genera con frecuencia
confusiones entre los profesionales, ya que para un profesional los
indicadores operacionales de la depresión pueden ser distintos a los
considerados por otro. Asimismo, puede ocurrir que un profesio-
nal otorgue mayor importancia a ciertos indicadores que a otros,
llevando a que en un caso se diagnostique “depresión severa” y en
otro “depresión leve”. Esto conlleva muchos problemas de comu-
nicación, y, en consecuencia, dificulta la posibilidad de un trabajo
grupal e interdisciplinario.
2. Utilizar reglas distintas para medir un constructo y posteriormente
compararlas. Puede ocurrir, por ejemplo, que dos investigadores rea-
lizan una investigación sobre los factores asociados a la depresión.
Pero al momento de realizar el estudio uno de ellos utiliza un méto-
do para medir la depresión, y el otro utiliza un método alternativo.
El problema que surge es determinar si las conclusiones a las que
cada investigador arriba son comparables entre sí. De hecho, es ha-
bitual encontrar pruebas psicológicas que dicen evaluar el mismo

18
constructo (por ejemplo, inteligencia) pero que utilizan metodolo-
gías radicalmente distintas. Esto genera que muchas veces hablemos
de la misma variable, cuando en realidad estamos midiendo cosas
distintas.
3. Dificultades de acuerdo o convención en relación al modo en que con-
ceptualizamos el atributo que se pretende medir. Probablemente se
trate del mayor problema de medición en psicología, ya que en esta
disciplina los constructos no pueden definirse operacionalmente de
manera aislada, sino que deben relacionarse o integrarse a una teo-
ría. Cuando pretendemos medir un constructo teórico, debemos
definir los indicadores que usaremos para efectuar tal medición.
Para ello, es esencial haber definido previamente la naturaleza del
atributo que pretendemos medir. La forma en que conceptualiza-
mos un atributo determina que indicadores operacionales vamos a
considerar. Por ejemplo, algunos autores señalan que la “ideación
suicida” (tener ideas recurrentes de muerte) no forma parte de la
depresión, sino que se trata de un constructo distinto que surge
como consecuencia de la desesperanza. Sin embargo, otros autores
lo incluyen como un síntoma de la depresión, conceptualizando
que se trata de un comportamiento propio del mismo trastorno. Por
ende, en un caso se utilizará la ideación suicida como un indicador
de depresión, mientras que en el otro no. Este es un problema que
se repite con prácticamente todos los constructos que se trabajan
en psicología (personalidad, inteligencia, trastornos mentales, y un
largo etcétera). Cada vez que se pretenda medir una misma varia-
ble psicológica nos encontraremos con varios modelos teóricos que
plantean diferentes conceptualizaciones de la misma, y, en conse-
cuencia, contemplan diferentes indicadores operacionales.

Debido a las dificultades que conlleva efectuar una medición de los


constructos psicológicos es que existe la psicometría, una de las áreas funda-
mentales de la psicología, que se ocupa de los procedimientos de medición del
comportamiento humano, incluyendo a los denominados tests psicométricos.

¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia


psicológica?

En 1879, Sir Francis Galton introdujo el concepto de “psicometría”,


que en griego significa “medir el alma” (Hogan, 2004). En términos amplios
la psicometría es el área de la psicología que se ocupa de los procedimientos
medición del comportamiento humano, e incluye dos ramas: a) la teoría de la
medición, que involucra fundamentalmente el uso de la estadística aplicada a

19
la construcción y análisis de instrumentos de medición, y b) las técnicas psi-
cométricas, es decir, la utilización de pruebas o test con el objetivo de medir
o evaluar constructos psicológicos con fines profesionales o de investigación.
La delimitación de tests psicológicos no es sencilla, y a lo largo de la historia
su definición ha ido cambiando. Actualmente la definición más aceptada es la
propuesta por la American Psychological Association (en adelante APA, 1999)
quien conceptualiza a los tests como “un procedimiento por medio del cual una
muestra de comportamiento de un dominio especificado, es obtenida y posteriormen-
te calificada, empleando un proceso estandarizado”. A continuación, desglosare-
mos esta definición para lograr una mayor comprensión de la misma.
Cuando intentamos medir un constructo existe una amplia cantidad de
indicadores operacionales que pueden reflejar dicho dominio. Supongamos
por ejemplo que queremos medir la “responsabilidad”, la cantidad de com-
portamientos que indican la existencia de ese rasgo psicológico es innumera-
ble (llegar temprano a clase, hacer las actividades que plantea el profesor, leer
mientos que indican la existencia de ese rasgo psicológico es innumerable (llegar
los contenidos del programa, concluir las actividades planificadas, cumplir las
temprano a clase, hacer las actividades que plantea el profesor, leer los contenidos
obligaciones, ser ordenado
del programa, concluir las yactividades
muchosplanificadas,
otros comportamientos). Difícilmente
cumplir las obligaciones, ser
un testordenado
pueda evaluar todos los comportamientos que se encuentren
y muchos otros comportamientos). Difícilmente un test pueda evaluar involucra-
dos entodos
ese dominio o constructo
los comportamientos que seteórico. Es por
encuentren ello queentrabajamos
involucrados ese dominio con o una
muestraconstructo teórico. Es por
de comportamiento deello
un que trabajamos
dominio con4).
(figura unaDe muestra de comporta-
la misma manera que
miento con
trabajamos de ununa
dominio (figura de
muestra 4). De la mismapara
personas manera que trabajamos
hacer con una sobre
generalizaciones
muestra de personas para hacer generalizaciones sobre una población, en este
una población, en este caso los elementos en vez de ser personas son compor-
caso los elementos en vez de ser personas son comportamientos representativos
tamientos
de unrepresentativos
dominio o constructo.de un dominio o constructo.
Una vez obtenida la muestra
Una vez obtenida la muestra de de comportamiento,
comportamiento, la “calificamos
la “calificamos utilizando uti-
lizandounun proceso
proceso estandarizado”.
estandarizado”. Estoque
Esto significa significa
utilizamosqueunautilizamos
misma consignauna ymisma
consignaescala de respuesta
y escala para calificar
de respuesta parala muestra
calificarde la
comportamientos. Por ejemplo,
muestra de comportamientos.
indicar en
Por ejemplo, qué medida
indicar cada medida
en qué una de lascadaconductas
una del
de test
las refleja características
conductas del testde refleja
tu personalidad usando una escala que va desde el “1” (“muy en desacuerdo con
características de tu personalidad usando una escala que va desde el “1” (“muy
esta descripción de mí mismo”) hasta el “5” (“muy de acuerdo con esta descrip-
en desacuerdo
ción de mí con esta descripción de mí mismo”) hasta el “5” (“muy de
mismo”).
acuerdo con esta descripción de mí mismo”).

Figura Figura
4. Representación deldel
5. Representación proceso subyacente
proceso subyacente en test
en un un psicométrico.
test psicométrico.

20 Una vez puntuados los comportamientos seleccionados calculamos un


puntaje total mediante la suma de los puntajes obtenidos en cada ítem. Si la
muestra de comportamientos es representativa del dominio, los resultados obte-
Una vez puntuados los comportamientos seleccionados calculamos un
puntaje total mediante la suma de los puntajes obtenidos en cada ítem. Si la
muestra de comportamientos es representativa del dominio, los resultados
obtenidos en el test permitirán inferir la posesión o magnitud del dominio (fi-
gura 4). De esta forma, si frente a los 4 ítems de la figura 5, una persona posee
un puntaje de 30 puntos y otra de 15, ello implica que la primera presenta en
mayor medida el rasgo evaluado (en este caso responsabilidad).
Tal como se mencionó anteriormente este tipo de mediciones conlleva
una serie de limitaciones. En primer lugar, se trata de mediciones de carácter
ordinal, por lo cual no pueden realizarse afirmaciones sobre las proporciones o
distancias entre las puntuaciones (en el ejemplo anterior no podemos afirmar
que una persona sea el doble de responsable porque una obtuvo 30 y otra 15).
En este tipo de mediciones solo podemos hacer juicios de orden, limitándo-
nos a señalar la existencia de mayor o menor posesión del atributo medido.

Figura 5. Ejemplos de consigna y escala de respuesta para ítems de responsabilidad.

Por otro lado, debemos recordar que un mismo constructo o dominio


teórico puede ser definido de distintas formas, por lo cual puede no existir
consenso en relación a los indicadores operacionales que deben considerarse
para medir el constructo de interés. Cada medición que realicemos depende-
rá de un marco teórico de referencia, por lo que pueden co-existir en la litera-
tura científica una multiplicidad de abordajes para medir una misma variable.
Aún con estas deficiencias, el nivel de precisión alcanzado por los test
psicométricos exhibe algunas ventajas respecto a la observación natural o al
uso de entrevistas abiertas. Entre las principales ventajas se encuentra la obje-
tividad, ya que los test psicométricos permiten disminuir las conjeturas de la

21
observación subjetiva y aumentar las posibilidades de replicabilidad por parte
de otros profesionales o investigadores. Otra ventaja es la comunicabilidad,
dado que al disponer de medidas estandarizadas se facilita la comunicación
y la precisión de los datos. El reporte de puntuaciones de test brinda mayor
detalle que los juicios personales. La eficiencia de los test es una ventaja que
no debe pasarse por alto. Si bien el desarrollo de un buen instrumento es-
tandarizado demanda mucho tiempo y esfuerzo, las evaluaciones mediante
pruebas estandarizadas son más económicas en tiempo y dinero que las eva-
luaciones subjetivas. Finalmente, la principal ventaja de los test radica en la
posibilidad de matematizar constructos psicológicos. La posibilidad de abstraer
y representar mediante símbolos numéricos, permite realizar análisis lógico-
matemáticos sobre los valores numéricos y obtener nueva información sobre
los datos observados.

22
|
Un panorama de los test psicométricos:
generalidades, clasificación y tendencias
actuales
Edgardo Pérez y Leonardo Medrano

Introducción

Las ventajas que conlleva la medición mediante test psicométricos ha gene-


rado un amplio uso de los mismos a nivel mundial tanto con fines profesionales
como de investigación. Según Hogan (2004) existen cuatro usos principales de
las pruebas psicométricas. En primera instancia se destaca un uso clínico, donde
el terapeuta utiliza pruebas para complementar el proceso de evaluación diag-
nóstica, identificar la naturaleza y gravedad de trastornos psicológicos, evaluar
el progreso terapéutico o determinar la eficacia de un tratamiento. Un segundo
uso importante de los test se observa en centros educativos, donde habitualmente
se aplican pruebas para evaluar el proceso de aprendizaje, detectar alumnos con
dificultades de aprendizaje o problemas socioemocionales, analizar factores mo-
tivacionales que puedan influir en el desempeño o realizar pronósticos sobre el
comportamiento académico. Otro uso habitual de las pruebas es en el contexto
de evaluación laboral u organizacional. En este contexto se utilizan pruebas para
seleccionar a los individuos más calificados para un puesto, gestionar los recur-
sos humanos, evaluar el clima de una organización, analizar los niveles de estrés
y bienestar laboral, entre otras acciones. Finalmente, el cuarto uso de las pruebas
psicológicas es en contextos de investigación, donde se utilizan pruebas para
operacionalizar variables psicológicas, caracterizar muestras o incluso investigar
sobre las mismas pruebas.
El uso de los test es tan amplio y diverso que puede resultar complejo
ingresar al mundo de las pruebas psicológicas. Este capítulo tiene por obje-
tivo ofrecer un panorama de los test psicométricos. Para ello se expondrá en
primera instancia una clasificación de los test psicométricos. En el proceso de
describir tales categorías se mencionan ejemplos de pruebas de uso generali-
zado, haciendo especial hincapié en pruebas desarrolladas en el contexto lo-
cal. Posteriormente, se exponen tendencias actuales en materia de evaluación
psicométrica, enfatizando el uso de pruebas informatizadas. Finalmente, se
incluye un apartado sobre fuentes de información sobre test psicométricos.

Clasificación de los Test Psicométricos

Es común encontrar en la literatura psicométrica diversas taxonomías


que utilizan criterios disímiles de agrupación con el objetivo de clasificar los
tests psicológicos. Por ejemplo: a) individuales o grupales, según se adminis-
23
tren a una persona por vez o a un grupo de individuos simultáneamente; b)
de ejecución, lápiz y papel, visuales, auditivos, o computarizados, de acuerdo al
formato y materiales de presentación de los tests; o, c) basados en la teoría
clásica o de respuesta al ítem, conforme al modelo teórico de construcción. Sin
embargo, consideramos que la clasificación planteada por Cronbach (1998)
es la más adecuada. Según este autor los test psicológicos pueden clasificarse
en dos categorías (figura 1): a) de ejecución máxima, los cuales se caracterizan
por ser pruebas en donde se exige al examinado el mayor rendimiento posible,
y b) de comportamiento típico, en donde se evalúa el comportamiento habitual
de las personas, sin requerir respuestas correctas.

Test de ejecución máxima: evaluación de la inteligencia,


aptitudes, habilidades y procesos neuropsicológicos
La característica principal de los tests de ejecución máxima es que se les
solicita a los examinados que responda de la forma más correcta que pueda
frente a tareas problemáticas que debe resolver (Cronbach, 1998). En estos
tests se miden diferencias individuales en el nivel de ejecución máximo de di-
ferentes tareas (Nunnally, 1991). Esto significa que las aptitudes o habilidades
se relacionan con la ejecución respecto a criterios específicos de éxito (tales
como respuestas correctas a problemas matemáticos, por ejemplo).
Bajo el concepto genérico de tests de ejecución máxima se incluyen
variables tales como las aptitudes, las habilidades y la inteligencia. Debe acla-
rarse que la delimitación de estos conceptos es uno de los problemas más con-
trovertidos de la psicología, al igual que el dilema subyacente de la determi-
nación genética o cultural del comportamiento. Para Juan-Espinosa (1997),
la habilidad desarrollada representa el logro en algún dominio (escritura, por
ejemplo) y la inteligencia una condición necesaria para ese logro. De acuerdo
con este autor, la inteligencia general y las aptitudes específicas dependen de
características ligadas a la constitución cerebral y disposiciones genéti­cas de
las personas y son más resistentes al entrenamiento que las variables medidas
por los tests de logro o habilidades desarrolladas. No obstante, por lo general,
en los tests de inteligencia o aptitudes se incluyen algunos ítems que parecen
medir habilidades desarrolladas más que aptitudes.

Evaluación de la inteligencia, aptitudes y habilidades


Según, Juan-Espinosa (1997) la inteligencia refiere a un sistema com-
plejo compuesto por numerosos procesos cognitivos relativamente indepen-
dientes pero que pueden operar conjuntamente. Este operar conjunto de
procesos indepen­dientes contribuye a la aparición de un factor general de
inteligencia (Jensen, 1998). La postulación de un factor cognitivo general (g)
que permite resolver problemas novedosos de cualquier naturaleza se opone a
la concepción de aptitudes relativamente independientes, también tradicional

24
en la psicología. La existencia de un factor general de inteligencia es apoyada
por investigaciones psicométricas y de la genética del comportamiento (Plo-
min, DeFries, McClearn y McGuffin, 2002), pero esto no implica negar la
existencia de aptitudes más específicas. En general se asocia este factor g a la
velocidad de procesamiento cognitivo o tiempo de inspección cuyas bases
biológicas no están aun bien determinadas, aunque se ha encontrado alguna
evidencia preliminar en relación con los niveles de glucosa en sangre, la velo-
cidad de conductancia eléctrica, y el volumen cerebral y neuronal.
El neurocientífico Howard Gardner (1994; 1999) efectuó una crítica
radical al modelo de inteligencia general con su teoría de las Inteligencias
Múltiples (multiple intelligences, MI). Para Gardner, los tests miden prefe-
rentemente aptitudes relacionadas con los requerimientos académicos de la
cultura occidental y por eso sólo reconocen dos o tres dimensiones de la inte-
ligencia (lingüística y lógico-matemática, por ejemplo). Su teoría, basada pri-
mordialmente en criterios neuropsicológicos, propone ocho potenciales biop-
sicológicos de procesamiento de información (“inteligencias”) que permiten
resolver problemas o crear productos valorados por una cultura. Estas inteli-
gencias son: Linguistica, Lógico-Matemática, Espacial, Cinestésico-Corporal,
Musical, Interpersonal, Intrapersonal y Naturalista (figura 1). La teoría MI,
de fuerte atractivo, constituye una fuente riquísima de hipótesis que no po-
seen una corroboración empírica exhaustiva ni técnicas validadas de medición
objetiva de sus constructos (Hood y Jonson, 2002). En efecto, los tests dise-
ñados para medir aspectos relacionados con las inteligencias múltiples, tales
como MIDAS (Shearer, 1999) o IAMI (Pérez, 2001), evalúan las habilidades
autopercibidas o la autoeficacia (concepto desarrollado más adelante) y no in-
cluyen problemas a resolver relacionados con las dimensiones de inteligencia
propuestas por Gardner (1999).

Figura 1. Modelo de Inteligencias Múltiples

25
También existen desarrollos teóricos contemporáneos que representan
una solución de compromiso entre ambas posturas, admitiendo la existencia
de un factor g pero también de aptitudes generales y habilidades específicas
relativamente independientes. Una de estas teorías es la de Cattell-Horn-Ca-
rroll (Carroll, 1993; McGrew, Flanagan, Keith y Vanderwood, 1997), que
propone un modelo de tres estratos (figura 2): la inteligencia general en el es-
trato superior (g), un estrato medio de aproximadamente diez aptitudes cog-
nitivas (procesamiento visual, por ejemplo) y un estrato con numerosas ha-
bilidades más específicas (destrezas manuales, por ejemplo). Un instrumento
contemporáneo basado explícitamente en la teoría CHC es la batería WJ-III
de aptitudes cognitivas (Woodcock, McGrew y Mather, 2001). Las nueve ap-
titudes medidas por este test son: rapidez en el procesamiento, procesamien-
to visual, procesamiento auditivo, memoria a corto plazo, memoria a largo
plazo, comprensión-conocimiento, razonamiento fluido, lectura-escritura y
aptitud cuantitativa. Existen versiones de la batería WJ-III en varios idiomas
(incluida una versión en español) y con un rango de aplicación de 2 a 90 años.
Este tests es extensa, de aplicación individual y posee excelentes propiedades
psicométricas de estandarización, confiabilidad y validez.

Identificados tentativamente como


g Aptitudes
Generales del II Estrato

Gf Gc Gsm Gv Ga Glr Gs Gt Gnw Gq Gkn Gh Gk Go Gp Gps

Aptitudes Generales del II Estrato


Gf Razonamiento fluido Gkn Conocimiento General
Gc Comprensión - Conocimiento Gh Habilidad Tactil
Gsm Memoria a corto plazo Gk Habilidad Cinestésica
Gv Procesamiento Visual Go Habilidad Olfatoria
Ga Procesamiento Auditivo Gp Habilidad Psicomotora
Glr Almacenamiento y Memoria a largo plazo Gps Velocidad Psicomotora
Gs Velocidad de Procesamiento
Gt Velocidad de Reacción y Decisión
Gnw Lectura y Escritura
Gq Conocimiento Cuantitativo

Figura 2. Modelo
Figura Integrado
2. Modelo IntegradoCHC
CHC(extraído
(extraídode
de Pérez
Pérez yyMedrano,
Medrano, 2013)
2013)

Una Unade las escalas


de las escalasmás
másutilizadas parala laevaluación
utilizadas para evaluación de lade la inteligencia
inteligencia en
en nuestro
nuestromedio
medio eses lalaelaborada
elaborada porpor el norteamericano
el norteamericano David Wechsler
David Wechsler en 1939, en
1939,concon varias
varias actualizaciones
actualizaciones posteriores
posteriores (WISC-V(WISC-V
y el WAIS-IV).y elLas
WAIS-IV).
escalas We- Las
escalaschsler
Wechsler comprenden
comprenden subtestsy verbales
subtests verbales de ejecución.y deLosejecución.
ítems de losLossubtests
ítems de
los subtests
verbalesverbales
plantean plantean
problemasproblemas
del tipo de del
¿Quétipo de ¿Qué
significa significa
arrogante?, arrogante?,
o Menciona
un planeta de nuestro sistema solar que no sea la Tierra; los subtests no verbales
consisten, por ejemplo, en ensamblar objetos a la manera de un rompecabezas
26
(figura 3).
o Menciona un planeta de nuestro sistema solar que no sea la Tierra; los subtests
no verbales consisten, por ejemplo, en ensamblar objetos a la manera de un
rompecabezas (figura 3).

Figura 3. Imágenes de sub-pruebas del WISC-III

Algunos análisis psicométricos contemporáneos de las escalas Wechs-


ler identificaron cuatro factores de inteligencia subyacentes (organización
perceptual, memoria de trabajo, comprensión verbal y velocidad de procesa-
miento). En la versión del WISC-IV las puntuaciones se interpretan en fun-
ción de esos cuatro factores y no en la forma tradicional de inteligencia verbal
y de ejecución. En las versiones actuales de las escalas Wechsler los ítems están
ordenados según los parámetros de dificultad y discrimación de la teoría de
respuesta al ítem. La tabla 1 presenta un listado de los subtests de estas escalas
y su relación con los cuatro factores subyacentes a las puntuaciones

27
Tabla 1 Relaciones entre los subtests de las escalas Wechsler y los cuatro factores de segun-
do orden
Comprensión Memoria Organización Velocidad de
Subtest
verbal de trabajo perceptual Procesamiento
Subtest verbales
Vocabulario x
Semejanzas x
Aritmética x
Retención de dígitos x
Información x
Sucesión de letras y
x
números
Subtest de ejecución
Figuras incompletas x
Dígitos y símbolos
x
claves
Diseño con cubos x
Matrices x
Búsqueda de
x
Símbolos

La Orientación de Carrera y la Selección de Personal son áreas de traba-


jo del psicólogo donde resulta de significativa importancia evaluar aptitudes
cognitivas. En estos ámbitos son muy empleadas pruebas como el Test de
Aptitudes Diferenciales (DAT-5) (Bennet, Seashore y Wesman, 2000), instru-
mento compuesto por ocho subtests que permiten obtener puntuaciones en
competencias requeridas para el éxito académico u ocupacional (aptitud ver-
bal, numérica, espacial, abstracta, mecánica, administrativa, lenguaje y orto-
grafía). Se ha criticado a este tipo de tests su falta de poder predictivo diferen-
cial, puesto que los mejores predictores resultan ser los puntajes combinados
de sus subtests verbales y numéricos, algo equivalente a un test de inteligencia
aunque innecesariamente más extenso; así como la confusión conceptual de
incluir aptitudes (como las administrativas) que en realidad son un compues-
to de factores cognitivos y de personalidad (Kline, 2000). No obstante, para
fines de orientación o selección suministran información más específica que
los tests de inteligencia general, y tal vez esto en esto radique su popularidad
entre los orientadores.
En nuestro país, Cortada de Kohan (1998) elaboró un test de aptitud
verbal denominado Buenos Aires. El test consta de 98 ítems, una mitad de
ellos sinónimos y la otra mitad definiciones, todos de opción múltiple con 4
alternativas de las cuales una es la correcta. El tiempo de aplicación es libre
pero suelen ser suficientes 25 minutos para terminar la prueba, que puede ser
aplicada tanto en forma individual como colectiva. El test posee baremos para
Argentina, Ecuador, Colombia y España. Se han realizado los estudios esta-
dísticos convencionales (confiabilidad, validez, análisis de ítems) pero además
se han obtenido para todos los ítems los parámetros de dificultad y discrimi-

28
nación según la teoría de respuesta al ítem, algo muy novedoso en nuestro
país. El test puede ser aplicado a jóvenes y adultos desde los 16 años, y con
al menos tres años cursados de educación secundaria. También se dispone de
una forma abreviada del test que mantiene las condiciones de confiabilidad y
validez de la forma completa y que puede aplicarse con un tiempo límite de
8 minutos.

Evaluación Neuropsicológica
Otra área relevante para la utilización de tests de ejecución máxima es
la neuropsicología, que estudia las relaciones entre el cerebro y la conducta
(Kolb y Wishaw, 1986). El desarrollo de la neuropsicología ha estado deter-
minado por la necesidad de investigar y encontrar herramientas que permitie-
ran el diagnóstico y el tratamiento de los déficits en el rendimiento cognitivo
(memoria, lenguaje, atención, funciones visoespaciales, funciones ejecutivas)
después de la ocurrencia de una lesión cerebral. Frecuentemente, estas lesiones
resultan en trastornos cognitivos que afectan el desempeño de una persona en
las actividades de la vida diaria, especialmente en la esfera laboral. Por ello,
luego de una lesión cerebral es imperioso determinar la cantidad y calidad de
daño cognitivo que puede haber sufrido una persona.
La evaluación neuropsicológica (EN) es la herramienta que posibilita
este diagnóstico. Lezak (1995) identifica cuatro aplicaciones esenciales de la
EN: evaluación propiamente dicha; cuidado del paciente y planificación del
tratamiento; rehabilitación y evaluación del tratamiento; e investigación. En
el manual de Lezak, el texto de actualidad en donde se ha realizado la mayor
recopilación y descripción de tests neuropsicológicos existentes, se mencionan
más de 500 pruebas de este tipo.
Las áreas cognitivas evaluadas por los tests neuropsicológicos son de
una enorme variedad. Así podemos citar: memoria, atención, discriminación
visual, gnosias visuales, gnosias auditivas, discriminación de color, funciones
ejecutivas (planeamiento, verificación), lenguaje (expresión, comprensión,
denominación), praxias (constructivas, de miembros), entre otras. Algunos
de los tests más conocidos en este ámbito son: el Test de la Función Men-
tal Mínima (Mini-mental State Examination) (Folstein, Folstein y McHugh,
1975), utilizado como una prueba de inspección rápida (dura aproximada-
mente 5 minutos) del estado cognitivo general de una persona; el Test de
Stroop (1935), una prueba de atención que requiere determinar el color en
el que están escritos nombres de colores impresos en colores incongruentes
con la palabra (por ejemplo, la palabra “rojo” escrita en tinta verde); el Test de
Clasificación de Cartas de Wisconsin (Heaton, Chelune, Talley, Kay y Cur-
tiss, 1991), una prueba de flexibilidad cognitiva; y la Figura Compleja de
Rey (Rey, 1941), un test de memoria visual y praxias constructivas. Se ha

29
demostrado acabadamente la importancia, utilidad y justificación de esta área
de medición, cuyo logro más reciente es la posibilidad de identificar precoz-
mente déficits cognitivos, tales como la demencia.
Otro dominio íntimamente relacionado con la prevención e interven-
ción es el desarrollo infantil. Los tests de evaluación del desarrollo infantil
miden las áreas motora, afectiva, cognitiva, y del lenguaje, facilitando la de-
tección precoz de posibles anomalías. La población meta de estos instrumen-
tos es la que posee entre 0 y 5 años; incluyendo por lo tanto la evaluación del
neonato (los primeros 30 días de la vida extrauterina); el lactante (desde los
30 días hasta los 24 meses de edad) y el pre-escolar (desde los dos a los cinco
años). Estas pruebas requieren un buen entrenamiento del evaluador en el
manejo y observación de niños pequeños, y sólidos conocimientos teóricos
que permitan otorgar a las conductas observadas la debida importancia en un
contexto de diagnóstico. Debe destacarse que en ningún caso los test de desa-
rrollo reemplazan el examen neurológico del niño, sino que se complementan
mutuamente.
En general, las pruebas de evaluación del desarrollo poseen menos con-
fiabilidad y validez que otros tests de ejecución máxima, debido quizá a la
pobre capacidad de concentración de los niños pequeños y a la rápida madu-
ración cognitiva que caracteriza a este período de la vida (Aiken, 2003). No
obstante, estos tests son útiles para el diagnóstico precoz del retraso mental,
los trastornos cerebrales orgánicos y los trastornos del aprendizaje (dislexia y
discalculia, por ejemplo). Entre los principales instrumentos que se utilizan
en nuestro país podemos destacar las escalas de Gesell y Amatruda (1971),
construidas para diagnosticar si los niños alcanzan parámetros adecuados de
desarrollo. A lo largo de un extenso programa de investigación relacionado
con estas últimas escalas se obtuvieron datos normativos sobre el desarrollo
de las habilidades motrices, lingüísticas y personales-sociales, así como del
comportamiento adaptativo, en niños de 0 a 6 años. Las puntuaciones de
las escalas de desarrollo de Gesell, determinadas por la presencia o ausen-
cia de conductas específicas características de los niños a determinada edad,
se expresan en términos de la edad de desarrollo (ED). Un desarrollo más
contemporáneo y de mucha aceptación internacional es la Escala Bayley del
Desarrollo Infantil, creada en 1933, y cuya última revisión data de 1993. Las
tres secciones de la escala Bayley (escala motora, social y comportamental) se
consideran complementarias y ofrecen una contribución diferente a la evalua-
ción clínica (Bayley, 1993).

Tests de respuesta típica: motivación y personalidad

En este tipo de tests ninguna respuesta puede ser calificada como co-
rrecta o incorrecta. Aquí se evalúa el comportamiento típico de los individuos,

30
recurriendo a distintas afirmaciones ante las cuales el examinado debe indicar
su nivel de acuerdo o agrado, por ejemplo (Cronbach, 1998). Como expresa-
mos anteriormente, estos tests utilizan preferentemente un formato likert de
respuesta a sus ítems. Los tests de respuesta típica comprenden las medidas
de rasgos de personalidad, intereses y actitudes, así como otros constructos
afectivos y motivacionales relacionados, tales como las actitudes, los rasgos de
personalidad, los intereses profesionales y las creencias de autoeficacia.

Evaluación de los Rasgos de Personalidad.


Aun cuando el término personalidad es empleado con diferentes acep-
ciones y carece de un sentido unívoco, la mayor parte de las definiciones
coinciden en que hace referencia las tendencias afectivas básicas de una per-
sona. Estas disposiciones le confieren relativa estabilidad al comportamiento,
más allá de las lógicas variaciones que resultan de la adaptación a diferentes
contextos y situaciones.
Según Nunnally (1991) el estudio total de la personalidad se centra en
dos grandes problemas: 1) cuales son los rasgos dominantes de una persona en
un momento determinado de su historia personal; 2) que factores determinan
ese patrón de personalidad.
La medición de la personalidad tiene que ver principalmente con el
primer punto, siendo el propósito de la medición describir a los individuos en
base a sus rasgos (características, atributos) de personalidad predominantes.
El segundo punto se relaciona con la herencia y la experiencia, ya que para
explicar el desarrollo de la personalidad de un individuo se debe recurrir a la
genética del comportamiento y/o la teoría del aprendizaje.
En algunas de las teorías contemporáneas, tales como la teoría de los
cinco grandes factores (Costa y Mc Crae, 1999), los rasgos de la personali-
dad se entienden como hereditarios en gran proporción y, por consiguiente,
bastante asimilables al concepto de temperamento o naturaleza emocional de
las personas (Carver y Scheier,1996). Algunas de las orientaciones tempera-
mentales básicas, tales como emocionalidad positiva (asimilable a Extraversión
y Amabilidad) y negativa (asimilable a Neuroticismo), ya pueden distinguirse
en la primera infancia (Tellegen, 1988). La investigación actual en genética del
comportamiento (Plomin etl al., 2002) apoya este condicionamiento heredita-
rio de la reactividad emocional de las personas, aunque admite que el entorno
familiar también explica parte de la variabilidad de esa variable. Recientemente
se ha sugerido que el incremento en la actividad social, el ejercicio físico y las
técnicas de relajación pueden modificar algunas tendencias emocionales básicas
de las personas (Lent, 2004).
Al igual que en las habilidades, la medición de los rasgos de personali-
dad se interesa en forma primordial por las diferencias individuales. Los ras-
gos de personalidad no se relacionan con “qué tan bien” puede hacer algo una

31
persona, como en el caso de las habilidades, sino que se vinculan con la con-
ducta típica de las personas en la vida cotidiana, por ejemplo, el nivel típico
de ansiedad o de amabilidad que posee una persona. Existe un buen número
de estrategias diferentes para medir los rasgos de personalidad, aunque en los
últimos años se utilizan preferentemente los inventarios autodescriptivos o de
autoinforme (Casullo et al., 1994). Ejemplos de ítems típicos de este tipo de
inventarios puede ser:
–– Me agradan las reuniones sociales
–– Pongo atención a los detalles
–– Intento no llamar la atención
–– Evito mis obligaciones

Las opciones de respuesta a ítems como el anterior en este tipo de in­


ventarios pueden ir desde un formato dicotómico (“si-no” o “verdadero ‑
falso”) a uno tipo likert con varias alternativas. Actualmente se recomienda
incluir varias alternativas de respuestas con la finalidad de mejorar la variabi-
lidad de las respuestas y, por consiguiente, la confiabilidad y validez de estos
tests (Pajares, Hartley y Valiante, 2001). Los inventarios de rasgos de perso-
nalidad se utilizan en ámbitos tan diversos como la clínica psicoló­gica, la psi-
cología ocupacional y la investigación. Uno de los principales inconvenientes
de los autoinformes es la posibilidad de que los sujetos falseen sus respuestas
para dar una impresión socialmente aceptable (Anastasi y Urbina, 1998). No
obstante, en la actualidad muchos de estos instrumentos poseen procedimien-
tos de control de la validez de las respuestas que atenúan (no eliminan) este
inconveniente (Pérez, 2000; Goldberg, 1999)
Pueden distinguirse dos tipos de inventarios de personalidad, los que eva-
lúan rasgos psicopatológicos y los que miden rasgos de la personalidad normal.
Entre los primeros, de uso preferentemente clínico, uno de los más utilizados
es el Inventario Multifásico de Personalidad de Minnesota (MMPI) creado en
1940, y con varias versiones y actualizaciones posteriores. El MMPI fue elabo-
rado con el fin de diagnosticar trastornos psicológicos de las personas, y su área
de principal aplicación es la psicología clínica. El inventario posee 550 ítems, en
forma de enunciados afirmativos, debiendo el sujeto clasificarlos en una de tres
categorías: “verdadero”, “falso”, y “no lo sé”. Los ítems del MMPI incluyen una
amplia variedad de contenidos, comprendiendo áreas como actitudes sexuales,
educación, ocupación, familia, salud, síntomas psicosomáticos, manifestaciones
neuróticas y psicóticas de la conducta, etc. En su versión original permite obte-
ner puntuaciones en diferentes escalas clínicas relacionadas con distintas catego-
rías de la psicopatología. El MMPI-2 (Butcher, Dahlstrom, Graham, Telegen,
y Kaemmer, 1989) es una versión revisada y actualizada que incluye nuevos
ítems, escalas adicionales y baremos actualizados.
Otros inventarios de personalidad para uso clínico miden sólo un tras-

32
torno psicológico, y así pueden mencionarse el Inventario de Depresión de
Beck (BDI-II; Beck, Steer y Brown, 1996) o el Inventario de Ansiedad Ras-
go-Estado (STAI; Spielberberg, 1983), el Inventario de Expresión de la Ira
(STAXI; Spielberger, 1988), el inventario de Situaciones y Respuestas de An-
siedad (ISRA; Miguel-Tobal y Cano-Vindel, 1986), entre otros numerosos
ejemplos.
Entre los inventarios autodescriptivos usados para evaluar rasgos de per-
sonalidad en personas sin trastornos psicológicos severos los más populares
son el Inventario de Personalidad 16PF-5 (Russell y Karol, 2000), el Cues-
tionario de Personalidad EPQ (Eynseck y Eynseck, 1997), y los Inventarios
NEO de Costa y Mc Crae (1999).
La teoría de los cinco grandes factores (Norman, 1963; Costa y Mc
Crae, 1999) es, en la actualidad, predominante en la construcción de los in-
ventarios de personalidad elaborados para medir predisposiciones no pato-
lógicas. Esta teoría postula cinco dimensiones afectivas básicas en las cuales
diferimos los seres humanos: Estabilidad Emocional o Neuroticismo, Extra-
versión, Apertura, Responsabilidad y Amabilidad, todas influidas por la he-
rencia. El volumen de investigación acerca de este modelo es abrumador y
parece sugerir mayor consenso entre los investigadores que el obtenido en el
terreno de la inteligencia. No obstante, existen en la literatura contemporá-
nea algunas voces disidentes que prefieren modelos explicativos alternativos,
tales como la teoría PEN de Eynseck (1981), proponiendo tres factores (Neu-
roticismo, Impulsividad o Psicoticismo, Extraversión). Pueden establecerse
relaciones entre ambas teorías, puesto que dos constructos son perfectamente
asimilables: Extraversión y Neuroticismo, y el tercer factor de la teoría PEN,
Impulsividad, se relaciona con Responsabilidad de manera inversa. Los facto-
res Amabilidad y Apertura de Costa y McCrae (1999) son consideradas como
facetas (rasgos más específicos) en la teoría de Eynseck (1981).
El NEO-PI-R (Costa y Mc Crae, 1999) es uno de los instrumentos más
relevantes que se han desarrollado para medir los cinco grandes factores y las
30 facetas específicas que permiten una mayor discriminación en la medición
de la personalidad. El NEO-PI-R se emplea en diferentes áreas de la psicolo-
gía aplicada (en especial en el ámbito laboral) y ha sido adaptado en España
por editorial TEA. También existe una versión abreviada de este inventario, el
NEO-FFI, que mide solamente los cinco factores principales, sin las respec-
tivas facetas.
En general, los inventarios de personalidad son más utilizados en psicolo-
gía clínica con fines de diagnóstico de trastornos psicológicos. Los inventarios
que miden rasgos de personalidad “normales”, tales como el inventario NEO
en sus diferentes versiones (Costa y Mc Crae, 1999) y el inventario 16PF-5
(Russell y Karol, 2000), se emplean crecientemente en Psicología Ocupacio-
nal y Educacional, aunque también en contextos clínicos en especial para

33
diseñar programas de intervención preventivos, relacionados con el manejo
de la afectividad y las relaciones interpersonales. Varias investigaciones han
demostrado que los factores Responsabilidad y Apertura, en particular, son
predictivos del rendimiento académico y ocupacional (Tokar, Fisher y Subich,
1998). Por su parte, Extraversión y Neuroticismo son factores asociados con
la satisfacción en el empleo y el bienestar psicológico general (Lent, 2004).

Evaluación de las Actitudes.


Las actitudes se refieren a predisposiciones aprendidas para responder
positiva o negativamente ante objetos sociales particulares, es decir, tipos de
personas, instituciones sociales o situaciones, entre otros (Aiken, 2003). Para
Padua (1979) las actitudes son tendencias individuales a reaccionar, positiva
o negativamente, a un valor social. Desde el punto de vista conceptual son
difíciles de diferenciar de los intereses (Anastasi y Urbina, 1998). Al respecto
piénsese en cómo podrían diferenciarse una escala de intereses por el cálculo y
otra de actitudes ante la matemática, por ejemplo. Probablemente la diferen-
cia esencial entre estos dos constructos radique en el área de aplicación de la
psicología donde son más empleados. En efecto, los inventarios de intereses
miden sistemas de preferencias (y rechazos) por áreas de conocimiento o tra-
bajo y son utilizados casi exclusivamente por los orientadores vocacionales; las
escalas de actitudes, en cambio, miden por lo general sistemas de preferencias
(y rechazos) por creencias e ideologías y por consiguiente son más empleadas
en la Psicología Social o Política.
Las escalas de actitudes surgieron como una preocupación de los inves-
tigadores frente a la problemática de la aceptación social de grupos (y creen-
cias) diferentes (Anastasi y Urbina, 1998). La primera escala de actitud fue la
escala de distancia social (Bogardus, 1925) donde los examinados clasificaban
varios grupos raciales y religiosos en orden de aceptación, y fue notable la pro-
ducción de escalas de actitudes en la segunda posguerra mundial, tales como
la famosa escala para medir el autoritarismo (Adorno, Frenkel-Brunswik, Le-
vinson y Sanford, 1950).
La medición de actitudes, además de tener múltiples aplicaciones, tam-
bién posee distintas variantes, aunque en la actualidad predominan las escalas
tipo likert. Las escalas likert se caracterizan por afirmaciones que deben res-
ponderse empleando una escala de 5 a 7 alternativas que indican el acuerdo
del examinado con cada afirmación o ítem. Si bien, tradicionalmente, la cons-
trucción de escalas de actitud se caracterizó por procedimientos diferenciales,
en la literatura actual los procedimientos para este tipo de tests siguen los li-
neamientos generales que expondremos en el capítulo de construcción de tests
de este libro. La construcción de escalas de actitudes consiste, inicialmente, en
elaborar un conjunto de ítems relativos a la dimensión que se pretende medir

34
y asignar números a las diversas alternativas de respuesta a esos ítems. Esos
valores numéricos reflejan la intensidad de la actitud, positiva o negativa, que
posee un sujeto frente a un objeto determinado. Los procedimientos de de-
terminación de la confiabilidad y validez de las escalas de actitudes tampoco
difieren de los utilizados en los otros tipos de tests.
Aiken (2003) construyó una escala likert de actitud ante la matemática,
luego adaptada por Murat (1984) para nuestro medio. Una escala frecuente-
mente citada en la investigación contemporánea es la de roles sexuales de Bem
(1974) que mide actitudes ante la masculinidad y la feminidad. Cada ítem
describe algunas características personales típicas de los géneros, y la persona
respondiente debe indicar su grado de acuerdo empleando una escala likert
de siete puntos (muy de acuerdo, bastante de acuerdo, algo de acuerdo, ni
acuerdo ni desacuerdo, algo en desacuerdo, bastante en desacuerdo y muy en
desacuerdo).
En nuestro medio, Tornimbeni y González (1997) elaboraron una es-
cala de actitud hacia la investigación, para ser aplicada en el marco de una in-
vestigación que se realizó encuestando a estudiantes y docentes de las carreras
de psicología de universidades nacionales de Argentina. Uno de los ítems de
esta escala es:
–– Recién al finalizar mi carrera voy a pensar en la posibilidad de con-
vertirme en investigador.
El formato de respuesta de esta escala posee 5 alternativas: muy de acuer-
do, acuerdo, ni acuerdo-ni desacuerdo, desacuerdo, y muy en desacuerdo.

Evaluación de la autoeficacia
La Teoría Social Cognitiva ha destacado el papel de la autoeficacia per-
cibida entre las variables motivacionales y afectivas. Bandura (1997) define la
autoeficacia como creencias en las propias capacidades para ejecutar determina-
dos cursos de acción. Para este eminente teórico, las creencias de las personas
acerca de sí mismas son elementos claves para la determinación de compor-
tamiento. Las creencias de autoeficacia son un elemento de gran influencia y
juegan un rol determinante en las elecciones efectuadas por las personas, el
esfuerzo que ellas invierten, la perseverancia para alcanzar metas y el grado de
ansiedad y confianza que experimentan frente a las tareas de la vida.
La autoeficacia se relaciona fuertemente con los intereses vocacionales
pero se trata de una relación asimétrica, puesto que tal como se ha com-
probado en numerosas investigaciones, las personas tienden a interesarse por
aquéllas actividades en las cuales se sienten capaces de poder realizarlas (Lent,
Brown y Hackett, 1994). La autoeficacia también se relaciona con las apti-
tudes, puesto que las personas se sienten más seguras de emprender aquéllas
actividades en las que han experimentado éxito. No obstante, personas con

35
igual nivel de habilidad pueden experimentar diferente seguridad para em-
prender determinados cursos de acción, por lo cual la autoeficacia permite
mejorar la predicción del rendimiento que realizaríamos si sólo nos guiáramos
por el nivel de habilidad real. Esto es así porque el desarrollo de creencias de
autoeficacia no sólo depende del éxito previo sino de otras fuentes, tales como
el aprendizaje vicario y la persuasión social.
La teoría Social-Cognitiva del desarrollo de carrera (Lent, Brown y
Hackett, 1994) propone un modelo explicativo de las interrelaciones entre
rasgos de personalidad, intereses, habilidades y autoeficacia que contribuye a
esclarecer el significado diferencial de estos constructos (figura 4).

Figura 4. Modelos explicativos de Intereses y Elección Vocacional de la teoría Social Cognitiva


de la Carrera (extraído de Medrano, 2017).

Figura 4. Modelos explicativos de Intereses y Elección Vocacional de la teoría Social Cognitiva


de la Carrera (continuaciòn).

36
En las figuras anteriores pueden observarse las relaciones entre rasgos
de personalidad (más básicos y ligados a lo genético), las aptitudes (también
hereditarias en gran parte y una de las fuentes de la autoeficacia al facilitar las
experiencias de logro en un dominio), la autoeficacia (más ligada al aprendiza-
je, relacionada con el constructo anterior pero también influida por experien-
cias de aprendizaje adicionales tales como la persuasión social y el aprendizaje
vicario), y los intereses vocacionales (aprendidos en gran parte y relacionados
directamente con la autoeficacia y las expectativas de resultados, e indirecta-
mente con las experiencias de aprendizaje y la personalidad).
Bandura (2001) elaboró una monografía para orientar la construcción y
análisis psicométrico de este tipo de escalas, que es de consulta indispensable
para investigadores interesados en la medición de la autoeficacia. El lector
interesado puede acceder al artículo completo titulado Guía para la construc-
ción de escalas de Autoeficacia, ingresando a: www.revistaevaluar.com.ar. Este
es el sitio web de la revista científica Evaluar, publicada por el Laboratorio de
Evaluación Psicológica y Educativa (LEPE).
En nuestro medio Pérez (2001) construyó un Inventario de Autoefi-
cacia para Inteligencias Múltiples (IAMI), con fines de orientación vocacio-
nal, que evalúa la confianza que los adolescentes poseen en características
asociadas con las inteligencias múltiples propuestas por Gardner (1999). El
IAMI incluye 8 escalas obtenidas por análisis factorial y 64 ítems (“Resolver
problemas numéricos”, por ejemplo). El usuario de la prueba debe responder
utilizando un formato de 10 alternativas, desde (1) “no puedo realizar esa
actividad” a (10) “totalmente seguro de poder realizar exitosamente esa acti-
vidad”. Este inventario está incluido en el Sistema de Orientación Vocacional
Informatizado (Fogliatto y Pérez, 2003) y se ha obtenido evidencia favorable
de su confiabilidad y validez respecto a criterios de rendimiento académico y
metas de elección de carrera.

Evaluación de los intereses vocacionales.


Los intereses vocacionales han sido definidos como perfiles de agrados y
aversiones respecto a actividades relacionadas con carreras y ocupaciones (Lent,
Brown y Hackett, 1994). La problemática de los intereses ha sido exhaustivamen-
te examinada por los investigadores del comportamiento vocacional. Se estima
que un conocimiento adecuado de esta dimensión de la motivación permite pre-
decir el monto de satisfacción que una persona experimentará en el desempeño
de una ocupación. Los intereses se relacionan también significativamente con la
estabilidad y compromiso de los individuos en sus carreras y ocupaciones. Otros
investigadores han comparado el peso relativo de los intereses vocacionales en
relación con otras variables psicológicas (habilidades, rasgos de personalidad), ve-
rificando que los intereses reciben gran consideración por parte de la persona en
situaciones de elección de carrera (Holland, 1997).

37
Los inventarios de intereses son los instrumentos más populares en
evaluación del comportamiento vocacional, según se desprende de encuestas
realizadas en Estados Unidos, donde instrumentos como el Strong Campbell
Interest Inventory (Campbell y Hansen, 1981) son empleados por casi el
90 % de los orientadores (Hood y Johnson, 2002). Han sido caracterizados
como una serie de ítems en los que se solicita a los individuos indicar sus pre-
ferencias vocacionales y una puntuación final que representa un perfil o pauta
de intereses (Cronbach, 1998).
Se coincide en señalar que deben aplicarse para seleccionar metas voca-
cionales, confirmar elecciones previas, descubrir campos de actividad laboral,
incrementar el autoconocimiento y encontrar ocupaciones que proporcionen
satisfacción (Cronbach, 1998; Hood y Jonhson, 2002). Es claro que los in-
ventarios de intereses poco nos dicen respecto al éxito académico u ocupacio-
nal que podrá alcanzar una persona, pero nos ayudan a identificar carreras u
ocupaciones donde puede encontrar satisfacción.
Debe evitarse la práctica profesional de usar los inventarios de intereses
para orientar de manera específica a los estudiantes, puesto que éstos necesitan
considerar, en el proceso de toma de decisiones de carrera, variables igualmente
relevantes y, además, reunir experiencia exploratoria sobre carreras y ocupacio-
nes (Hood y Johnson, 2002). En general, se recomienda confiar en los resulta-
dos de estos instrumentos a partir de los 15-17 años, aproximadamente, puesto
que se ha verificado que las puntuaciones de medidas de intereses son realmente
estables a partir de esa edad.
El paradigma más influyente en el dominio de la medición de los intereses
vocacionales es el formulado por Holland (1997). La teoría de Holland ha sido
descrita como un modelo de congruencia entre los intereses y habilidades de
una persona por un lado y los factores inherentes a su ambiente por otro. Según
este modelo, existen seis tipos de personalidad: Realista, Investigador, Artista,
Social, Emprendedor y Convencional (RIASEC), los que a su vez determinan
patrones análogos de intereses y habilidades (figura 5).
El desarrollo de estos tipos depende de una compleja serie de aconteci-
mientos familiares, orientaciones personales iniciales, preferencias ocupacio-
nales e interacciones con contextos ambientales específicos. Los ambientes en
los que viven y trabajan las personas pueden también caracterizarse de acuer-
do a su semejanza con seis modelos que se corresponden con los seis tipos de
personalidad anteriormente mencionados.

38
Figura 5. Modelo RIASEC de Holland

Los inventarios de intereses vocacionales más populares son el Self-Di-


rected Search de Holland (1994), el Inventario de Strong-Campbell (Cam-
pbell y Hansen, 1981) y el Registro de Preferencias Kuder y Zitowsky (1991).
Más allá de sus diferencias (Kuder obtuvo sus escalas por análisis factorial y
emplea ítems de elección forzosa, Strong posee claves ocupacionales formadas
por la comparación de personas satisfechas en una ocupación con respuestas
representativas de todas las personas de la muestra de estandarización), to-
dos han adoptado el modelo RIASEC para interpretar alternativamente los
resultados lo cual permite una convergencia conceptual impensable en otros
dominios de la psicología. Una iniciativa interesante es el Inventario Visual de
Intereses Profesionales (Tetreau y Trahan, 1986), desarrollado por investiga-
dores canadienses y basado también en el modelo de Holland, pero que utiliza
80 fotografías en color ilustrando actividades laborales en lugar de ítems ver-
bales, con el fin de atenuar los problemas de sesgo cultural.
Si bien se cuenta con gran variedad de tests de intereses vocacionales,
existen dificultades considerables cuando pruebas elaboradas en otros con-
textos sociales se emplean de modo transcultural. Uno de los obstáculos más
significativos en la traducción y adaptación de tests verbales son los problemas
de lenguaje. En efecto, las traducciones libres pueden traicionar las intencio-
nes originales del autor y las literales, por los problemas de equivalencia se-
mántica y la diferente frecuencia de uso de las palabras en lenguas diversas, no
alcanzar a expresar precisamente los significados de los ítems en sus versiones
originales.

39
También debe considerarse el papel de los factores culturales que pue-
den falsear de algún modo los resultados de tests cuando éstos se emplean en
otros medios. Es frecuente encontrar en los inventarios de intereses, ítems que
mencionan actividades que en sus culturas de origen poseen una popularidad
que no tienen en otros contextos; jugar béisbol, por ejemplo, tiene diferente
significación en USA que en otros países donde es un deporte poco practi-
cado. Algunos ítems mencionan títulos ocupacionales que son familiares en
el lugar de elaboración del inventario y, en cambio, resultan extraños para
habitantes de otras regiones (Fogliatto, 1991).
Estos problemas indican con claridad los riesgos de emplear de modo
acrítico inventarios de intereses construidos en otros contextos sociocultura-
les. Fogliatto (1991) planteó la necesidad prioritaria de construir un cuestio-
nario de intereses de características locales y más adecuadas a las preferencias,
actividades educacionales, laborales, así como lenguaje habitual de los jóvenes
de nuestro medio. El Cuestionario de Intereses Profesionales Revisado (CIP-
R, tabla 2) es un módulo del Sistema de Orientación Vocacional Informatiza-
do (SOVI 3; Fogliatto y Pérez, 2003), que incluye también al IAMI, así como
un banco de información académica sobre carreras.

Tabla 2. Muestra de ítems del Cuestionario de Intereses Profesionales Revisado (CIP-R)

El CIP-R comprende 15 escalas (Cálculo, Asistencial, Musical, Artísti-


ca, entre otras) y 114 ítems que describen actividades académicas o laborales
y ante las cuales el usuario debe responder empleando una escala de tres pun-
tos: agrado, indiferencia o desagrado. La persona debe responder mediante
tres alternativas de respuesta: Agrado, Indiferencia o Desagrado a cada uno
de los ítems, por ejemplo “Construir puentes”. Esta versión revisada ha sido
adaptada para suministrar orientación no solamente a estudiantes que deben

40
elegir una carrera al finalizar su educación secundaria, sino también a los ado-
lescentes que están terminando su educación básica y deben escoger una espe-
cialidad del nivel medio (Polimodal). El CIP-R posee buenas propiedades de
confiabilidad y validez de criterio respecto a metas de elección de carrera. Un
aspecto criticable de este inventario es que su construcción ha sido empírica
(no orientada por un modelo teórico explícito de los intereses vocacionales)
y, por consiguiente, es dificultoso relacionar sus escalas con los constructos
de teorías bien establecidas, tales como el modelo RIASEC (Holland, 1997)
comentado anteriormente.

Nuevas tendencias en evaluación psicológica: test informatizados

En los últimos 30 años se ha observado un crecimiento exponencial en


el uso de la tecnología, observándose un considerable avance en la versatilidad
y disponibilidad de aplicaciones informatizadas en diversas áreas de la psico-
logía. La rápida evolución de la tecnología computacional ha jugado un rol
crítico en el desarrollo de instrumentos de evaluación psicológica (Zenisky y
Sireci, 2002). Dicho impacto se torna especialmente evidente en la expansión
de los tests informatizados, los cuales brindan una amplia gama de innova-
ciones en el modo de presentar los ítems, estimar los puntajes de la prueba y
realizar informes de los resultados obtenidos (Leeson, 2006).
En este punto cabe señalar que el mero uso de la computadora en algún
momento del proceso de administración no convierte al instrumento en un
test informatizado. En efecto, los tests o sistemas de evaluación informati-
zados deben cumplir dos requisitos para ser considerados como tal: 1) sus
ítems son presentados y respondidos mediante el uso de una computadora
que también se emplea para estimar el rasgo o rendimiento del examinado; y
2) se han evaluado las propiedades psicométricas del instrumento, de hecho,
informatizar test aporta numerosas ventajas frente a la clásica versión lápiz y
papel, pero no garantiza la bondad psicométrica del instrumento (Olea, Pon-
soda y Prieto, 1999).
En general puede hablarse de cuatro niveles o generaciones de test in-
formatizados (Muñiz y Hamblenton, 1999). La primera incluye los tests con-
vencionales informatizados que refiere a la aplicación habitual de los test con-
vencionales pero utilizando un teclado y monitor. Este modo de evaluación
proporcionó una serie de ventajas, destacándose la presentación controlada y
precisa de los ítems y la corrección automatizada de las respuestas. Un segun-
do nivel de informatización consiste en la elaboración de informes diagnósti-
cos por computadora. De esta manera se programa a la computadora para que
en función de ciertos puntajes o perfiles emita un informe correspondiente,
liberando al psicólogo de tareas tediosas y proporcionando un complemento
instrumental para el diagnóstico psicológico y educativo. Los restantes dos

41
niveles de informatización se desarrollaron gracias a los aportes de la Teoría
de Respuesta al Ítem (TRI), que permitió la creación de los tests adaptativos
informatizados y la construcción automatizada de tests. La idea fundamental
de ambos avances es la de generar pruebas adaptadas al nivel de cada parti-
cipante. De esta forma luego de generarse un banco de ítems y evaluar sus
propiedades psicométricas, la computadora selecciona aquellos que muestren
mayor ajuste al nivel de competencia de la persona evaluada, logrando un au-
mento en la precisión de las medidas y un ahorro en el tiempo de aplicación.
Desde sus inicios, las cuatro generaciones de tests informatizados han
sido utilizadas con diversos y variados propósitos, debido principalmente a la
mayor eficiencia que presentan respecto a las versiones lápiz y papel. Cabe des-
tacar que al informatizar cuestionarios en versión papel y organizarlos dentro
de un sistema de evaluación se introducen una serie de cambios beneficiosos.
Principalmente un mayor control y precisión para la administración de ítems,
mayor eficiencia para la corrección y almacenamiento de respuestas y final-
mente una elaboración rápida y eficaz de informes psicológicos (Drasgow y
Olson-Buchanan, 1999; Sands, Waters y McBride, 1997). Asimismo, los test
informatizados ofrecen menores posibilidades de error en la carga de datos,
los recursos de multimedia hacen más vistosos e interesantes los contenidos
del test para los examinados y permite al profesional ahorrar tiempo evitando
actividades rutinarias de carga y análisis de datos. Tomando esto en conside-
ración no es de extrañar la gran cantidad de estudios actuales desarrollados
con el objetivo de informatizar test en versión lápiz y papel. Esta tendencia
resulta particularmente provechosa en el ámbito de la psicología educacional
donde se deben efectuar evaluaciones a una gran cantidad de participantes y
con cierta frecuencia.
Los test informatizados permiten otra importante ventaja: la adminis-
tración a través de internet. Las ventajas y desventajas de ésta modalidad de ad-
ministración han sido intensamente analizadas en los últimos años. Tal como
sugiere Bagby et al., (2014) dentro de las ventajas se encuentra el bajo costo
de administración, la posibilidad de administrar la prueba desde un lugar re-
moto, incluir dentro de la muestra a personas que no puedan aproximarse al
lugar de evaluación, la velocidad en la recolección de datos con muestras de
gran tamaño, la reducción del tiempo en la corrección de la prueba, e incluso
mayores facilidades para el desarrollo de estudios transculturales.
Los tests informatizados se transformaron en el método de medición
psicológica más recomendado en situaciones estructuradas, ya que garanti-
zan una mayor precisión en la corrección de las pruebas y proporcionan un
feedback inmediato a los examinados mediante el uso de representaciones
gráficas o reportes impresos (Burke y Normand, 1987). En la actualidad se
observa un uso importante de sistemas informatizados de evaluación en el
ámbito laboral (Woicik, Stewart, Pihl y Conrod, 2009), sanitario (Thornton

42
III y Gibbons, 2009), clínico y neuropsicológico (Butcher, Perry y Hahn,
2004). Sin embargo, el uso de sistemas informatizados ha sido especialmente
influyente en el ámbito educativo (Marks y Burden, 2005).
A pesar del enorme potencial de los test informatizados debe consi-
derarse que aparecen nuevos problemas y situaciones que pueden alterar la
confiabilidad y validez de las mediciones con respecto a los test convencio-
nales. De hecho algunos factores como la familiaridad con las computadoras
(McDonald, 2002), la resolución y tamaño del monitor (Ziefle, 1998), las ca-
racterísticas de la fuente de letra utilizada (Bernard, Mills, Peterson y Storrer,
2001), la manipulación del teclado (Choi y Tinkler, 2002), la presentación
de los ítems (Dimock y Cormier, 1991) y la posibilidad de revisar las respues-
tas (Vispoel, 2000), pueden afectar el desempeño y las respuestas brindadas
por los examinados. Por otra parte la evaluación informatizada on line puede
generar dificultades adicionales sobre todo en personas que experimentan an-
siedad ante la tecnología, o bien que desconocen el uso de internet (Bagby et
al., 2014). Por otra parte, la distancia que se genera entre los examinados y el
evaluador dificulta que éste pueda prestar ayuda si aparece alguna dificultad o
error durante el proceso de evaluación. Asimismo, la Comisión Internacional
de Test (International Test Commission, ITC, 2005) destaca la necesidad de
contemplar el aumento de riesgos que surgen con la administración por inter-
net, ya que se dificulta controlar la autenticidad de los examinados y garanti-
zar el correcto resguardo de los ítems y datos del test (seguridad informática).
Frente a ello la literatura especializada enfatiza que los investigadores no
pueden asumir la equivalencia de la versión informatizada online y la versión
tradicional de lápiz y papel. Los cambios en el formato de evaluación pueden
afectar las propiedades psicométricas de los instrumentos y sesgar los puntajes
que se obtienen en las pruebas. Por ello, antes de utilizar un sistema informa-
tizado de evaluación deben contemplarse una serie de directrices y normativas
técnicas. Lamentablemente se observa en muchos casos un uso inadecuado de
los test informatizados. De hecho, la existencia de herramientas on line tales
como SurveyMonkey, Google Doc, u On Line Encuesta, facilita el proceso de
informatizar pruebas de lápiz y papel, llevando en muchos casos a un proceso
de evaluación informatizada que no garantiza la validez y confiabilidad de las
puntuaciones obtenidas. De esta forma puede afirmarse que, junto al creci-
miento de las versiones informatizadas de test, se observa un aumento en el
mal uso de las mismas.
A continuación, se exponen una serie de directrices y recomendaciones
a tener en cuenta para el desarrollo y la utilización de test informatizados. Para
ello se realizará una síntesis de las directrices definidas por la Internacional
Test Commission (2005), American Educational Research (AERA), Ameri-
can Psychological Associatton (APA) y la National Council on Measurement
in Education (NCME; 2014). Por otra parte, y a los fines de lograr una mayor

43
claridad en la exposición de las mismas, se tomará como ejemplo el Sistema
Informatizado de Evaluación de la Satisfacción Académica (SESA-U), un siste-
ma desarrollado en nuestro contexto con el objetivo de identificar estudiantes
con riesgo de experimentar bajos niveles de satisfacción durante su primer
año en la universidad (Medrano, Peréz y Liporace, 2014).
Directrices para el desarrollo y utilización de Test Informatizados:
Recomendaciones de la ITC

Aunque los lineamientos psicométricos generales de la evaluación psi-


cológica son aplicables a los test informatizados, existen ciertas directrices
que deben ser tenidas en consideración al realizar evaluaciones asistidas por
computadoras (Lozzia et al., 2009). La Comisión Internacional de Test (In-
ternational Test Commission, ITC, 2005) sugiere considerar cuatro aspectos
centrales relacionados con el uso de test informatizados: tecnología, calidad,
control y seguridad. Básicamente la ITC señala que al desarrollar un test in-
formatizado se debe atender a: 1) los aspectos técnicos mínimos requeridos
para que los examinados puedan responder al sistema, 2) garantizar que el
sistema funcione adecuadamente y libro de errores de programación a lo largo
de todo el proceso de evaluación, 3) controlar la autenticidad de los exami-
nados y su práctica previa y, finalmente, 4) resguardar tanto los materiales del
test como los datos de los evaluados.

Tecnología: “Prestar la debida atención a los requerimientos tecnológicos de


la prueba”
Este punto es suma importancia sobre todo en evaluaciones que se rea-
licen de manera on line. Básicamente refiere a que el test informatizado exija
requerimientos mínimos a nivel de sistema, permitiendo maximizar su acce-
sibilidad y consistencia en la apariencia de la prueba. De esta forma se reco-
mienda evitar el uso de funciones interactivas o gráficos complejos, o utilizar-
los solamente cuando su no inclusión atente con la validez de instrumento.
Asimismo, se recomienda tomar en consideración las diferentes velocidades
de conexión a internet.
Cabe destacar que si bien la preocupación inicial de la ITC (2015) se
centró en los requerimientos técnicos mínimos para poder responder al test,
en la actualidad la mayor parte de las computadoras disponibles en el merca-
do cumplen con dichos requerimientos. El problema actualmente gira en tor-
no a garantizar que el test mantenga su apariencia y funcionalidad accediendo
desde una computadora, Tablet o celular. En este sentido se ha corroborado
que la resolución y tamaño del monitor (Ziefle, 1998), las características de
la fuente de letra utilizada (Bernard, Mills, Peterson y Storrer, 2001), la ma-
nipulación del teclado (Choi y Tinkler, 2002), la presentación de los ítems

44
(Dimock y Cormier, 1991) pueden alterar la confiabilidad y validez de las
puntuaciones. Por tanto, este aspecto debe ser contemplado tanto por los
constructores como por los usuarios del test.
Siguiendo estas directrices el SESA-U se desarrolló utilizando una plata-
forma simple y sin requerimientos técnicos sofisticados que pudieran afectar
la accesibilidad al sistema (figura 6). Cabe señalar que al incluir pocos elemen-
tos gráficos se evitan demoras excesivas en usuarios que tuvieran conexiones
lentas.

Figura 6. Apariencia del SESA-U

Otro aspecto de importancia es el de garantizar que el sistema sea lo


suficientemente robusto o capaz de hacer frente a posibles fallos y errores por
parte del usuario. Por ejemplo, el SESA ha sido configurado para que conside-
re como equivalentes las letras mayúsculas y minúsculas, así como los puntos
y las comas, entre otros caracteres. También se programó al SESA-U para
que en caso de fallas en la conexión de internet se almacenen las respuestas
brindadas hasta el momento de la desconexión, permitiendo así al examina-
do la posibilidad de volver a ingresar al sistema y terminar de completar sus
respuestas.

Calidad: “Garantizar adecuado funcionamiento y uso del sistema de


evaluación”
Según la ITC (2005) se deben desarrollar acciones tendientes a dismi-
nuir las posibilidades de fallos en el sistema durante la evaluación y procurar
una asistencia adecuada en caso de que el examinado lo requiera. El SESA-U
por ejemplo, fue equipado para brindar mensajes que proporcionen a los exa-
minados una guía para facilitar el adecuado uso del sistema. De esta manera
aparecen mensajes de error cuando el examinado realiza un uso inadecuado,
o bien mensajes de éxito para indicar un uso correcto (figura 2). De esta for-

45
ma se busca proporcionar orientación a los usuarios sobre cómo proceder en
caso de que surjan problemas que interfieran con el proceso de evaluación.
Asimismo, el SESA-U incluye un servicio de correo electrónico desde el cual
se brinda soporte técnico u orientación en el caso de que aparezcan errores o
fallas no contempladas.
La poca experiencia en la utilización de computadoras puede afectar el
desempeño de los examinados cuando utilizan instrumentos informatizados
de evaluación (Olea y Hontangas, 1999). Para eliminar el efecto diferencial
que puede provocar la falta de familiaridad con el uso de test informatiza-
dos la ITC (2005) recomienda el entrenamiento previo de los usuarios. En
función de ello se recomienda brindar la posibilidad de realizar una práctica
previa, ya que esto puede disminuir los niveles de ansiedad, aumentar la con-
fianza de los examinados en el uso del test y, por lo tanto, disminuir posibles
sesgos que atenten contra la validez y confiabilidad de los resultados (Muñiz
y Hamblenton, 1999).
Por ejemplo, el SESA-U cuenta con un módulo de entrenamiento. De
esta manera al realizar un click sobre “Ayuda - ¿Cómo utilizar el SESA-U?” se
abre un cuadro de dialogo que proporciona una descripción paso a paso sobre
cómo registrarse en el sistema, cerrar la sesión de evaluación o realizar los test
del SESA-U. Asimismo, los usuarios pueden descargar un breve video que
ilustra la manera en que se opera el sistema (figura 7). También es útil proveer
a los usuarios un “test de prueba”, de esta manera puede familiarizarse con
la modalidad de evaluación informatizada y adquiriera cierta práctica previa
antes de proceder con la administración del test (figura 8).

Figura 7. Módulo de entrenamiento SESA-U: descripción por pasos mediante imágenes o


mediante video

46
Figura 8. Módulo de entrenamiento SESA-U: test de prueba.

Control: “Proveer adecuados niveles de control”


Según la ITC (2005) existen diferentes niveles de control: 1) modo abier-
to, es decir, sin supervisión humana directa, 2) modo controlado, la prueba solo
se facilita a usuarios conocidos, 3) modo supervisado, los usuarios deben po-
seer una contraseña para usar el sistema y el mismo provee información para
confirmar que la prueba fue administrada y 4) modo gestionado, es el nivel de
supervisión más alto e involucra la supervisión y control humano directo. Los
responsables de desarrollar y publicar la prueba deben notificar a los usuarios
cual es el nivel de control alcanzado.
El SESA-U, por ejemplo, es un sistema que permite un control de tipo
supervisado ya que los usuarios deben registrarse en el sistema para efectuar
la evaluación. Además, el SESA-U proporciona un registro de las fechas y
cantidad de intentos de cada usuario lo cual proporciona información de im-
portancia para determinar si algún examinado ha respondido en más de una
ocasión a los cuestionarios del SESA-U. Este sistema de registro permite mo-
nitorear la autenticidad de los examinados y controlar la práctica previa de los
mismos tal como sugieren las directrices de la ITC (2005).

Seguridad: “Tomar medidas apropiadas para salvaguardar la seguridad del


material y la privacidad de las respuestas”
Sobre todo, cuando la evaluación es on line deben establecerse pro-
cedimientos oportunos para asegurar la confidencialidad de la información,
resguardar los materiales del test y garantizar la privacidad de los examinados
(ITC, 2005). Por ejemplo, en el SESA-U los usuarios deben registrarse en el
sistema y generar una contraseña personal. Esta contraseña impide que otras

47
personas puedan acceder a las respuestas brindadas por el examinado garanti-
zando así la confidencialidad de los datos recabados.
Por otra parte, para resguardar la seguridad del material del test (ítems
por ejemplo), los usuarios solo pueden ingresar al sistema con una contrase-
ña provista por los administradores. Dicha contraseña se modifica periódi-
camente y evita que los cuestionarios del SESA-U se encuentren disponibles
para personas ajenas al proceso de evaluación. Sumado a ello, el SESA-U está
configurado para que los administradores puedan habilitar los cuestionarios
por un tiempo predeterminado, evitando que los ítems se encuentren dis-
ponibles en internet full time. En conjunto estos procedimientos de control
apuntan a impedir el acceso ilegítimo al sistema y controlan la posibilidad
de que los cuestionarios y respuestas de los participantes sean descargadas o
copiadas por personas ajenas al proceso de evaluación SESA-U (figura 9).

Figura 9. Módulo para configurar la contraseña de acceso al SESA-U y el tiempo de disponi-


bilidad de los cuestionarios (disponible solo para los administradores).

Sin lugar a dudas, los test informatizados poseen amplias ventajas por
sobre las versiones tradicionales de papel, tales como una mayor eficiencia

48
para la corrección y almacenamiento de respuestas, menores costos, elabo-
ración rápida y eficaz de informes psicológicos, por mencionar solo algunas.
Sin embargo, todas las ventajas de la evaluación informatizada se tornan irre-
levantes sino se garantiza el cumplimiento de las directrices mencionadas. La
simplicidad con la que hoy puede informatizarse una prueba puede llevar a
un mal uso de las mismas.
No cumplir con las directrices revisadas lleva a que no se pueda garan-
tizar una evaluación responsable y ética. Basta considerar la violación algunas
de las pautas mínimas para el uso de test propuestas por ADEIP (200), como
por ejemplo: 1) no se puede garantizar la seguridad e integridad del material,
2) no se puede garantizar que todos los evaluados comprendan las instruccio-
nes de la prueba, 3) no se garantiza que las condiciones de evaluación permi-
tan el rendimiento óptimo de los evaluados, o 4) no se logra establecer una
relación positiva entre el evaluador y el examinado.
Un uso responsable y ético de los test informatizados necesariamente
implica el cumplimiento de las directrices de tecnología, calidad, control y
seguridad. Asimismo, deben garantizarse el cumplimiento de las normas psi-
cométricas exigidas para los test tradicionales y mantener los resguardos nece-
sarios en relación al control del contexto y la comunicación de resultados. Si
bien puede afirmarse que las ventajas del uso de test informatizados son supe-
riores a sus desventajas, es fundamentar reflexionar sobre estos aspectos para
garantizar un uso ético y responsable de estas potentes técnicas de evaluación.

Fuentes para la búsqueda de información sobre Test Psicométricos

Uno de los problemas más comunes en el mundo de la psicometría con-


siste en hallar información sobre las pruebas psicológicas. Entre los problemas
más habituales se encuentra: a) conocer cuales son las pruebas disponibles
para evaluar un atributo psicológico de interés, y b) obtener informacion so-
bre las características de esas pruebas. En esta sección se exponen algunas
fuentes que pueden resultar provechosa para búsqueda de información sobre
test psicométricos.

Revistas Científicas
Muchas publicaciones científicas periódicas incluyen dentro de sus nú-
meros artículos sobre test psicométricos. Más aún, algunas revistas científicas
se especializan en este tipo de trabajos, publicando solamente artículos rela-
cionados con la psicometría y la evaluación psicológica. Algunas de las pu-
blicaciones más recomendadas son: Psychological Assessment, Journal of Perso-
nality Assessment, Educational and Psychological Measurement y Psychometrika,
por mencionar algunas de las revistas internacionales más prestigiosas. Tam-
bién existen revistas en español de muy buena calidad, como, por ejemplo,

49
Psicothema, Anales de Psicología, Ansiedad y Estrés, Revista Iberoamericana de
Evaluación y Diagnóstico Psicológico, Evaluar y la Revista Argentina de Ciencias
del Comportamiento.

Catálogos de Editoriales
La principal fuente de información para los usuarios de pruebas suelen
ser los catálogos de las editoriales. Para acceder a ellos solo debe solicitarse
un ejemplar a la editorial o acceder a ellos a través de la web. Las editoriales
suelen publicar un catálogo cada año. Entre los catálogos más importantes
de pruebas en español se encuentran los publicados por Paidós (http://www.
paidosdep.com.ar/html/tests.php), y por la editorial española TEA (http://
web.teaediciones.com/Catalogos-TEA-Ediciones-2018.aspx).

Listados electrónicos
Existen listados electrónicos a los que se puede acceder a través de in-
ternet. Estos listados proveen información exhaustiva sobre una amplia can-
tidad de pruebas. Entre los listados más importantes a nivel mundial se des-
tacan el Test Locator Service (permite realizar búsqueda de instrumentos por
área temática), la ETS Test collection (permite realizar búsqueda a través del
TestLink, figura 10), el Mental Measurement Yearbook (porporciona revisiones
de pruebas), y el HaPI (una base de datos que cuenta con descripciones de
casi 15.000 pruebas). Por otra parte, la American Psychological Association
(APA) ha elaborado un compendio de test (PsycTest) el cual puede consultar-
se por la web (www.apa./pubs/databases/psyctest/index.aspx).

Figura 10. Captura de pantalla de un listado electrónico de pruebas.

50
|
Normas Psicométricas: Evidencias de Validez
Leonardo Medrano y Edgardo Pérez

Introducción

En el capítulo 1 definimos a los tests como un procedimiento por me-


dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. Tal como señalamos el razo-
namiento implícito es que, si la muestra de comportamientos seleccionados
(ítems) son representativos del dominio que se pretende medir, entonces el
puntaje obtenido por un sujeto en el test puede generalizarse a todo el domi-
nio (figura 1).

Figura 1. Representación del proceso subyacente en un test psicométrico.

Ahora bien, la pregunta que debemos hacernos es ¿qué garantías tene-


mos de que la muestra de comportamientos que seleccionamos es representativa
del dominio que pretendemos medir? De hecho, es difícil determinar las ca-
racterísticas de una muestra de elementos de un test para que sea representati-
va, en cuanto a extensión y variedad de contenidos, del dominio o constructo
que la prueba intenta medir.
Puede ocurrir, por ejemplo, que al construir un test el investigador se-
leccione conductas que no son propias del dominio delimitado (figura 2).
Supongamos que se intenta desarrollar una prueba para evaluar el nivel de
extraversión, es decir, en qué medida una persona es sociable, le gusta asistir a
fiestas, hacer bromas, conversar con otras personas, entre otras características.

51
Puede ocurrir que el investigador cometa el error de elegir comportamientos
que no son representativos del constructo, como, por ejemplo: “me gusta
escuchar música y bailar” o “cuando salgo me gusta tomar alcohol”. Si bien
estos comportamientos pueden estar asociados con la extraversión (es pro-
bable que a una persona extravertida le guste la música o tomar alcohol), no
son representativos del dominio de interés. En consecuencia, el puntaje que
se obtiene del test no representa adecuadamente el constructo que se está mi-
diendo, y, por ende, cometeríamos un error al generalizar los puntajes de la
prueba a todo el dominio.

Figura 2. Representación de errores en la selección de elementos que compo-


nen la muestra de comportamientos del dominio que se intenta medir.

Cuando los ítems que componen una prueba no representan adecuada-


mente el dominio que se intenta medir decimos que las puntuaciones obte-
nidas no son válidas. El concepto de validez es el más importante en la teoría
de los tests, y en términos generales hace referencia a que “el test mide lo que
pretende medir”.

Delimitación del concepto de Validez

La definición habitual de validez es “el grado en que una prueba mide


lo que pretende medir” (Hogan, 2004). De esta manera puede afirmarse que
las puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba (figura 1). Sin

52
embargo, pueden ocurrir diferentes errores en la selección de los elementos
de la prueba que lleven a que la muestra de comportamientos no represente
adecuadamente el constructo que se pretende medir, es decir, no se obtengan
puntuaciones válidas.
Por ejemplo, puede ocurrir que el investigador seleccione comporta-
mientos que no son representativos del dominio (figura 2). La inclusión de
ítems que no reflejan el constructo lleva a que las puntuaciones de la prueba
se vean contaminadas con ítems sobre constructos que no se pretenden medir,
y por ende no se realicen inferencias adecuadas sobre el dominio de interés.
Seleccionar ítems que no provienen del constructo se denomina inclusión de
varianza irrelevante del constructo, ya que la variabilidad del puntaje total de
la prueba se ve influenciada por respuestas sobre procesos ajenos al verdadero
propósito de la medición. Otro error habitual es el de seleccionar comporta-
mientos que no cubran la totalidad del constructo (figura 3), generando una
sub-representación del constructo.

Figura 3. Ejemplo de sub-representación del constructo que se pretende medir.

Como señala la APA (1999) la sub-representación del constructo alude


a que la prueba no capta aspectos de importancia del dominio que se pretende
medir. Retomando el ejemplo anterior, puede ocurrir que al construir una
prueba para evaluar extraversión solo incluyamos comportamientos referidos
a las “habilidades conversacionales”, sin incluir otros comportamientos típi-
cos de la extraversión como, por ejemplo, tener muchos amigos, ser asertivos,
buscar emociones positivas, evitar estar solos o ser despreocupados. Este tipo
de errores afecta la validez de las puntuaciones del test.
Antes de continuar con el desarrollo del capítulo es importante realizar
dos aclaraciones. La primera es que resulta impreciso referirse a la validez

53
de una prueba, ya que la validez es una propiedad de sus puntuaciones (APA,
1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re-
sultar o no válidas dependiendo del propósito con que se utilicen. No basta
con preguntarse ¿es el IAMI es una prueba válida?, sino que es necesario for-
mularse cuestionamientos tales como ¿es válido utilizar las puntuaciones del
IAMI para examinar el perfil de autoeficacia para inteligencias múltiples? ¿las
puntuaciones del IAMI permiten pronosticar la elección de carrera de estu-
diantes del último año del secundario? En segundo lugar, es importante des-
tacar que la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun-
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Esta concepción de validez se refleja en las Normas para Tests Psicoló-
gicos y Educativos (APA, 1999), donde se define a la validez como la adecua-
ción, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests. De esta manera, la validez sería un concepto unitario
y refiere al grado en que la evidencia empírica apoya estas inferencias. La
APA (1999) propone cinco evidencias de validez: 1) evidencias basadas en el
contenido del test, 2) evidencias basadas en la estructura interna del test, 3)
evidencias basadas en el proceso de respuestas, 4) evidencias basadas en las
relaciones que las puntuaciones del test presentan con variables externas, y 5)
evidencias relacionadas con las consecuencias de su aplicación. A continua-
ción, se desarrollan cada una de estas evidencias, detallando el procedimiento
involucrado, los coeficientes estadísticos que se utilizan y brindando ejemplos
aplicados de cada una de ellas.

Evidencias de validez: descripción de procedimientos, estadísticos asociados


y ejemplos de aplicación.

Evidencia basada en el contenido del test


Este tipo de evidencia se obtiene demostrando que el contenido del test
(es decir, los ítems) son una muestra representativa del constructo o dominio
que se pretende medir. Tal como señalamos, la existencia de varianza irrele-
vante en las puntuaciones puede llevar que las inferencias que hacemos sobre
el dominio no sean correctas. Debemos brindar evidencias que garanticen
que la muestra de comportamientos que seleccionamos representan adecua-
damente el dominio de interés.
El procedimiento más utilizado para recabar este tipo de evidencia se
centra en el juicio de expertos. Básicamente consiste en identificar expertos en
el dominio que pretendemos medir y solicitar que cada uno de ellos evalúe de
forma independiente (es decir, sin conocer el análisis que realizarán los otros
jueces), el grado en que el contenido del test es relevante y representativo del

54
dominio. Posteriormente, mediante un procedimiento estadístico se analiza
el acuerdo de los jueces y se determina cuáles son los ítems que representan
adecuadamente el constructo y cuáles no.
Por ejemplo, un equipo de investigación dirigido por Moretti desarrolló
un test con el objetivo de evaluar pensamientos negativos asociados a los exámenes
(Maurino, Vicente, Medrano y Moretti, 2017). Este constructo refiere a pensa-
mientos que se dan de forma automática, con contenidos negativos, que gene-
ran preocupaciones excesivas, dificultad para pensar en forma clara y disminu-
ción de la confianza. Para elaborar un test que midiera este dominio realizaron
entrevistas a alumnos analizando que tipos de pensamientos solían tener antes
de un examen. A continuación, seleccionaron una muestra de pensamientos y
redactaron ítems preliminares. Posteriormente identificaron jueces expertos en
el tema y les solicitaron que realizaran una evaluación de los ítems considerando
su pertinencia para representar al constructo. Además, se les pidió que evaluaran
la calidad de los reactivos utilizando una escala numérica comprendida entre
1 y 5 (el puntaje de 5 es el más alto e indica una alta calidad mientras que el
puntaje de 1 representa una baja calidad). Finalmente, se les solicitó que ana-
lizaran aspectos formales vinculados a la redacción de los mismos (sintácticos,
por ejemplo). En la tabla 1, se expone un ejemplo de la guía que se proporcionó
a cada uno de los jueces que participó de la revisión de los ítems.

Tabla 1 Ejemplo de guía para revisión de ítems por parte de expertos


Aspectos
Calidad
Ítems Pertinencia formales o Observaciones
del Ítem
sintácticos
“Es muy SI 5 Adecuado --
difícil, no voy
a lograrlo”
“Me voy a SI 4 Adecuado --
quedar en
blanco”
“Seguro que SI 4 Inadecuado La palabra “libre” puede
me quedo interpretarse de diferentes formas.
libre” Sería más adecuado decir “seguro
que desapruebo el examen”
“Soy un NO 1 Tal como está redactado el ítem
fracasado” pareciera que refleja aspectos
vinculados a la autoestima, y no a
un pensamiento negativo ante un
examen.
“Seguro me SI 4 Adecuado --
toman lo que
no sé”

Una vez recabada la información de cuatro jueces independientes se


calculó la V de Aiken para evaluar el nivel de acuerdo entre los jueces. Dicho
coeficiente puede variar entre “0” y “1”, debiendo alcanzar al menos un valor

55
crítico V = .50 para ser considerado aceptable (Aiken, 1985). Sin embargo,
estudios más recientes sugieren considerar valores V superiores a .70 (Soto y
Segovia, 2009). En el ejemplo seleccionado se estableció como criterio que
solo se incluirían en el test aquellos ítems que hayan obtenido valores V su-
periores a .70. Los ítems con puntajes inferiores fueron eliminados o refor-
mulados, con el fin de garantizar que el contenido de los ítems represente
adecuadamente el constructo que se pretende medir.

Evidencia basada en la estructura interna del test


Para muchos especialistas esta es la evidencia más importante que se
debe aportar para garantizar la validez de las puntuaciones de una prueba. El
análisis de estructura interna consiste en determinar si los ítems se agrupan en
las dimensiones teóricas propuestas. El procedimiento utilizado para obtener
esta evidencia es el análisis factorial, una técnica estadística multivariada que
permite analizar las inter-relaciones entre un grupo de variables observables
(ítems) e identificar factores comunes subyacentes.

Figura 4. Representación del factor latente común entre dos variables observables.

La lógica del análisis factorial proviene de un concepto desarrollado por


Galton. Según este autor, el hecho de que dos variables se encuentran relacio-
nadas entre sí se debe a que ambas poseen algo en común y algo que las dife-
rencia. Ese factor común fue denominado por Galton como “rasgo latente”.
De esta forma, si un conjunto de variables se encuentran relacionadas entre sí,
significa que poseen un factor o rasgo latente en común que explica en parte
la varianza de las variables (figura 4).
El análisis factorial permite agrupar las variables o ítems que se corre-
lacionan fuertemente entre sí, y cuyas correlaciones con las variables de otros
agrupamientos es menor. De esta forma es posible identificar la existencia de
factores subyacentes en un conjunto de variables (figura 5). Por este motivo es

56
que el análisis factorial constituye una técnica útil para aportar evidencias de
que “se mide lo que se pretende medir”.

Figura 5. Agrupamiento de los ítems según factores subyacentes identificados mediante


análisis factorial.

En otras palabras, la evidencia de estructura interna (también deno-


minada validez de constructo) consiste en verificar estadísticamente que los
ítems se agrupan tal como teóricamente se había predicho (Carretero-Dios y
Pérez, 2005). Por ejemplo, supongamos que estamos desarrollando un instru-
mento para medir Inteligencias Múltiples. El modelo teórico de las Inteligen-
cias Múltiples señala que existen ocho tipos de inteligencia. Si los ítems de mi
prueba son una muestra representativa del constructo que se pretende medir,
al realizar un análisis factorial de los ítems éstos deberían agruparse en ocho
factores. En caso de realizar un análisis factorial y observar que los ítems se
agrupan en dimensiones distintas a las que teóricamente deberían agruparse,
entonces la muestra de comportamientos que conforman la prueba no refle-
jan adecuadamente el constructo que pretendo medir. Por el contrario, si los
ítems se agrupan en las ocho dimensiones que se proponen teóricamente, se
obtienen evidencias favorables de validez.
Tomemos otro ejemplo a partir de un estudio realizado para adaptar la
Escala de Afecto Positivo y Negativo (PANAS; Moriondo, De Palma, Medrano
y Murillo, 2012). Tradicionalmente se ha conceptualizado a las emociones po-
sitivas y negativas como dos polos de la misma variable (es importante señalar
que cuando hablamos de positivo o negativo solo hacemos referencia a su valor
hedónico, es decir, si son agradables o desagradables; no debe confundirse esta
57
denominación con buenas o malas ya que las emociones desagradables también
son necesarias para un buen funcionamiento psicosocial). De esta forma existi-
ría un polo compuesto por emociones tales como la alegría, entusiasmo e interés
(afecto positivo), y otro polo compuesto por emociones tales como la tristeza,
el miedo o la ira (afecto negativo). Sin embargo, la evidencia proveniente de es-
tudios empíricos
el miedo y neurocientíficos
o la ira (afecto negativo). sugieren que más
Sin embargo, que tratarse
la evidencia de unadeúnica
proveniente es-
dimensión,
tudios empíricos y neurocientíficos sugieren que más que tratarse de una única y
se trata de dos factores distintos. Es decir, que el afecto positivo
el negativo serían
dimensión, dos factores
se trata independientes
de dos factores entre
distintos. Es sí, que
decir, por elloafecto
cual disminuir los
positivo y el
niveles de emociones
negativo serían dosnegativas no implica queentre
factores independientes aumenten lascual
sí, por lo emociones
disminuirpositi-
los
vas. niveles
Se trataría por lo tanto
de emociones de un no
negativas modelo bidimensional,
implica que aumentenylas noemociones
sólo de dos polos
positi-
vas. misma
de una Se trataría por lo tanto
dimensión de un modelo
(modelo bidimensional,
unidimensional). Por ylonotanto,
sólo de dosPANAS
si el polos
de una misma
efectivamente dimensión
evalúa afecto (modelo
positivo unidimensional).
y negativo desdePor unlomodelo
tanto, sibidimensio-
el PANAS
efectivamente evalúa afecto positivo y negativo desde un modelo bidimensional,
nal, entonces al realizar un análisis factorial, los ítems deberían agruparse en dos
entonces
factores y noalenrealizar un análisis
uno solo. factorial, obtenidos
Los resultados los ítems deberían
en este agruparse en dos6)
trabajo (figura
factores y no en uno solo. Los resultados obtenidos en este trabajo (figura 6)
corroboraron que a partir del patrón de covariación existente entre los ítems, se
corroboraron que a partir del patrón de covariación existente entre los ítems, se
identifican dos factores
identifican dos subyacentes.
factores subyacentes.

Tabla 1 Saturación factorial de los reactivos del PANAS (matriz rotada)


Factor
Ítems del PRANAS 1 2
Interesado 0.43
Afligido 0.59
Excitado 0.35
Disgustado 0.52
Fuerte 0.49
Culpable 0.63
Asustado 0.71
Hostil 0.48
Entusiasmado 0.47
Orgulloso
Irritable 0.53
Alerta 0.43
Avergonzado 0.56
Inspirado 0.53
Nervioso 0.65
Decidido 0.64
Atento 0.58
Intranquilo 0.58
Activo 0.56
Temeroso 0.72
Nota. Solo se presentan las saturaciones factoriales superiores a 0.3
Figura Figura
6. Resultados del análisis
6. Resultados factorial
del análisis deldel
factorial PANAS
PANAS(extraído
(extraídodedeMoriondo,
Moriondo,De
DePalma,
Palma, Me-
drano
Medrano y Murillo, 2012).
y Murillo, 2012).

58 63
Al inspeccionar las cargas factoriales de cada ítem se aprecia que por
un lado se encuentran las emociones positivas, y en un factor distinto se en-
cuentran las emociones negativas. Dado que los ítems se agruparon en las
dimensiones predichas a nivel teórico, entonces se obtienen evidencias sobre
la validez de la medición.

Evidencia basada en el proceso de respuesta


Este tipo de evidencia es poco utilizada en comparación a las anteriores.
Básicamente consiste en analizar la congruencia entre el constructo medido y
la naturaleza del rendimiento o respuesta emitida por los examinados (APA,
1999). El proceso para la obtención de este tipo de evidencia implica el uso
de entrevistas en profundidad con los examinados y cualquier procedimiento
que permita el análisis de las respuestas individuales a los ítems de un test. El
objetivo es examinar las estrategias de respuesta de las personas y analizar su
congruencia con el constructo que se pretende medir. El estudio de los pro-
cesos involucrados en las respuestas de los examinados, permitiría esclarecer
si factores irrelevantes o accesorias están influyendo en las respuestas de los
participantes, y, por ende, afectando la validez de las puntuaciones para refle-
jar el constructo en estudio.
En un estudio realizado por Maffei, Sponton, Sponton, Castellano y
Medrano (2012), por ejemplo, se efectuaron entrevistas en profundidad para
analizar el proceso de respuesta implicado en un instrumento que evalúa au-
toeficacia profesional. Este constructo refiere a las creencias que poseen los
trabajadores en sus propias capacidades para llevar a cabo, de manera exitosa
actividades asociadas a su profesión. Se ha observado que dichas creencias ac-
túan frente a los estresores laborales disminuyendo o aumentando el malestar
psicológico. En general los trabajadores con mayores creencias de autoeficacia
son menos vulnerables al estrés crónico. Según Bandura (2001), la fuente
de mayor importancia en la elaboración de los juicios de autoeficacia son las
experiencias de ejecución previa, de esta manera las personas tienden a sen-
tirse más capaces cuando cuentan con experiencias previas de éxito. Por ello
al momento de responder a un ítem de este instrumento (por ejemplo “seré
capaz de resolver problemas difíciles en mi trabajo si lo intento”) se esperaría
que el examinado recurra a información disponible en su memoria episódica
para analizar experiencias previas de éxito o fracaso vinculadas a este tipo de
situaciones. Este proceso se evaluó en las entrevistas en profundidad. Con-
cretamente se solicitó a 15 trabajadores que respondieran a los ítems y que
explicitaran el proceso mental involucrado en la respuesta. Algunas de las
afirmaciones obtenidas fueron:

“me empiezo a acordar de otras veces que tuve un problema parecido y si pude resol-
verlo… en general los resuelvo bien por eso puse un puntaje alto”

59
“para responder a esta pregunta me pongo recordar lo que me dice mi supervisor, por
ahí me corrige mucho y creo que eso hace que no tenga tanta confianza”
“Yo me fijo en lo que dicen mis clientes, si ellos están satisfechos eso significa que hice
un buen trabajo y que soy bueno en lo que hago”.
“Tengo mucha experiencia en este trabajo, hace más de 20 años que trabajo en esto y
he aprendido mucho... por eso creo que soy bastante bueno”

Como puede observarse, existe una congruencia entre el proceso men-


tal implicado en las respuestas y el constructo que se pretende medir, ya que
como postula la teoría, los juicios de autoeficacia se elaborarían en gran me-
dida de un análisis que hace el sujeto de sus experiencias previas de éxito o
fracaso. Esto constituiría, por lo tanto, otra evidencia de que el test mide lo
que pretende medir.

Evidencias basadas en las relaciones que las puntuaciones del test presentan
con variables externas
El análisis de las relaciones de las puntuaciones del test con variables
externas constituye otra fuente importante de evidencia. Dentro de esta cate-
goría suelen diferenciarse tres procedimientos: a) evidencias de relación test-
criterio, b) evidencias convergente-discriminante, y c) grupos contrastados (o
también denominada grupos conocidos).
La evidencia basada en las relaciones “test-criterio” consiste en correla-
cionar las puntuaciones de la prueba con un criterio externo, es decir, una
medida directa e independiente que el test intenta predecir. Por ejemplo, una
medida criterio para una prueba que evalúa aptitudes o inteligencia podría
ser el rendimiento académico obtenido por el alumno al final del cursado, o
para una prueba que evalúa depresión el diagnóstico que efectúa un terapeuta
mediante una entrevista estructurada. De la misma forma, una medida crite-
rio para una prueba que evalúa motivación laboral puede ser el rendimiento
que reporta el supervisor del examinado. Es decir, que las medidas “criterio”
hacen referencia a una variable que puede medirse de manera independiente
al test y que teóricamente se encuentra relacionada con el constructo de inte-
rés. De esta forma, si se corrobora que el test se relaciona con un criterio (con
el que teóricamente debería estar relacionado), entonces estamos obteniendo
evidencias de que el test mide lo que dice que mide.
Dentro de este tipo de evidencias se pueden diferenciar dos procedi-
mientos, uno de tipo predictivo y otro concurrente. La diferencia entre ambos
procedimientos radica sobre todo en el tiempo que transcurre entre la admi-
nistración del test y la medición del criterio. Cuando se utiliza un abordaje
predictivo (también denominado validez predictiva) se espera que la prueba

60
pronostique el valor que tendrá la medida criterio en el futuro. Por lo tanto,
debe transcurrir un tiempo entre ambas mediciones. Por el contrario, cuando
se realiza un estudio de tipo concurrente (también denominado validez concu-
rrente) se analiza la concordancia entre las puntuaciones obtenidas en la prue-
ba y la condición actual del examinado en otra variable o criterio. Es decir que
la medición se realiza de forma simultánea. Tal como señala Hogan (2004)
la diferencia radica entonces en el tiempo en que se mide la variable criterio.
Un ejemplo de validez predictiva se puede observar en una investiga-
ción realizada por Medrano, Moretti, Ortiz y Pereno (2014), en donde se
recaban evidencias de validez para un Cuestionario de regulación emocional.
Este constructo refiere a toda estrategia (voluntaria o involuntario) que con-
tribuye a mantener, aumentar o disminuir un estado afectivo en curso. Así,
la rumiación (pensar excesivamente sobre un evento displacentero) o la ca-
tastrofización (tener pensamientos que enfatizan o agradan las consecuencias
negativas de un evento) son estrategias automáticas que pueden aumentar
los niveles de ansiedad de una persona. En contrapartida, estrategias como
la reinterpretación positiva (pensamientos que otorgan un significado posi-
tivo al evento displacentero) o poner en perspectiva (relativizar la gravedad
de un evento comparándolo con otros o analizando su impacto a lo largo
del tiempo), pueden generar una disminución de un estado emocional desa-
gradable. Para recabar evidencias de validez predictiva se administró el test y
varias semanas después se evaluó el nivel de ansiedad que los alumnos presen-
taban en un examen. Si la prueba efectivamente mide lo que dice que mide,
entonces debería poder pronosticarse los niveles de ansiedad a partir de las
puntuaciones de la prueba. Los resultados obtenidos al utilizar un coeficiente
de correlación de Pearson, corroboraron que existía una relación significativa
entre los niveles de rumiación (r =.22) y catastrofización (r =.45) con los ni-
veles de ansiedad que experimentaban los alumnos durante el examen. Como
estos resultados son coherentes con los esperados a nivel teórico, se obtienen
evidencias que indican que el test mide lo que dice que mide.
Un ejemplo de validez concurrente se observa en un estudio realizado
por Moretti, Medrano y Basler (2015) que tuvo por objetivo aportar eviden-
cias de validez para una escala de locus de control del dolor. Este constructo
hace referencia a la creencia que posee la persona acerca de la relación entre
su conducta y los niveles de intensidad del dolor. Se trata de una variable de
importancia en personas que padecen dolor crónico ya que quienes poseen
mayor locus de control interno (creencia de que el nivel de dolor se asocia a
mi propio comportamiento) suelen mostrar mayor proactividad en acciones
beneficiosas para la salud que incluyen conductas de autocuidado, manteni-
miento de habilidades de la vida cotidiana y, en consecuencia, menor inten-
sidad del dolor. Por el contrario, mayor locus de control externo (creencia
de que el nivel de dolor no se asocia con mi comportamiento) se relaciona

61
con un peor afrontamiento y malestar psicológico, aumentando los niveles
de intensidad del dolor. Para recabar evidencias de validez concurrente se ad-
ministró el cuestionario de locus de control junto a un test que evalúa inten-
sidad percibida del dolor. Los resultados obtenidos mediante el coeficiente
de correlación de Pearson indican que las personas que tenían puntuaciones
más elevadas de locus de control externo también presentaban mayor nivel
de dolor (r =.15). En consecuencia, se obtienen evidencias favorables sobre la
validez de las puntuaciones del test.
Es importante señalar que el comportamiento humano resulta dema-
siado complejo como para esperar que a partir de los resultados de una única
prueba se logre una predicción exacta de un criterio. Por ello las correlacio-
nes esperables en este tipo de estudio suelen ser moderadas, vale decir que
coeficientes de correlación significativamente distintos de cero y con valores
aproximados a .30 ya son aceptables. Actualmente la mayoría de las investi-
gaciones realizadas para verificar la utilidad predictiva de las puntuaciones de
un test utilizan un enfoque multivariado puesto que permite esclarecer las
interrelaciones entre un conjunto de predictores y un criterio, y no solamente
las relaciones entre una única variable predictora y un criterio. Mediante mé-
todos multivariados como el análisis de regresión múltiple podemos estimar
cuánto se incrementa la precisión de las predicciones cuando un test se incluye
en una batería de tests en comparación con las ocasiones en que no se incluye
(Aiken, 2003). Este tipo de evidencia de validez se denomina incremental,
pero debido a su complejidad no será trabajada en el presente capítulo.
Un segundo tipo de procedimiento habitualmente utilizado para reca-
bar evidencias mediante variables externas es la evidencia convergente-discrimi-
nante. Esta evidencia consiste en correlacionar las puntuaciones del test que
se pretende validar con las obtenidas en otros test que evalúan constructos
semejantes (validez convergente) o diferentes (validez discriminante o diver-
gente). Se espera así que la prueba presente correlaciones más altas con el test
que mide un constructo semejante, que con aquellos que miden un construc-
to diferente.
En un estudio desarrollado por Medrano y Trógolo (2014), por ejem-
plo, se correlacionaron las puntuaciones obtenidas en un cuestionario de difi-
cultades en la regulación emocional con una prueba que evalúa extraversión y
otra que evalúa neuroticismo.

62
Figura 7. Extracto del artículo de Medrano y Trógolo (2014) sobre evidencias de validez con-
vergente-discriminante.

Si las puntuaciones del test realmente evalúan dificultades para regular


emociones, entonces las puntuaciones deberían presentar una correlación po-
sitiva con los niveles de neuroticismo (tendencia a la inestabilidad emocional
y a presentar estados emocionales displacenteros) y una correlación negativa
con los niveles de extraversión (tendencia a la sociabilidad, despreocupación
y búsqueda de emociones positivas). Los resultados (figura 7) son coheren-
tes con los esperados a nivel teórico, obteniéndose evidencias favorables de
validez.
Un último tipo de procedimiento utilizado para recabar evidencias me-
diante variables externas es la evidencia mediante grupos contrastados o también
denominada de grupos conocidos (“know-group validity”). En este caso el
criterio consiste en la pertenencia un determinado grupo. Este tipo de evi-
dencia tiene sentido cuando existen argumentos teóricos como para suponer
que las puntuaciones de una prueba deberían variar entre dos o más grupos.
Es decir, donde el investigador ya conoce que entre dos grupos determinados
cabría esperar una diferencia de puntuaciones. El procedimiento consiste en
administrar la prueba en ambos grupos y luego comparar sus puntuaciones
mediante un procedimiento estadístico (t de Student o Análisis de Varianza,
por ejemplo). En caso de corroborarse la existencia de una diferencia esta-
dísticamente significativa en las puntuaciones de dichos grupos (y con una
magnitud atendible), se obtienen evidencias de que la prueba mide lo que
dice que mide.

63
Figura 8. Extracto del artículo de García-Bastista et al. (2017) sobre evidencias de validez
mediante grupos contrastados.

En un estudio desarrollado por García-Bastista et al. (2017) se compa-


raron las puntuaciones obtenidas en el STAI (una prueba que evalúa la ansie-
dad rasgo-estado) entre una muestra de población general y otra de población
hospitalaria, esperando observar mayores niveles de ansiedad en ésta última.
Los resultados obtenidos (figura 8) fueron coherentes con los esperados a ni-
vel teórico, obteniendo evidencias favorables de validez.

Evidencia de las consecuencias de la aplicación de tests


Esta última fuente de evidencia es bastante controvertida. Según la APA
(1999) no basta con afirmar que la prueba es válida, sino que también debe
efectuarse un análisis sobre las consecuencias sobre el uso y las interpretacio-
nes que se realizarán a partir de la prueba. Según Hogan (2004), el interro-
gante central en este tipo de evidencia seria: ¿Cuáles son las consecuencias,
resultados o repercusiones que puede tener el uso de este instrumento?
Por ejemplo, cuando se desarrolló el SESA-U (expuesto en el capítulo
2 del libro) los autores indicaron que: “el SESA-U constituye un sistema de
evaluación válido y confiable para la población de ingresantes universitarios.
Sumado a ello, al ser un sistema informatizado permite una evaluación más
eficiente del colectivo de ingresantes, facilita una administración rápida y ac-
cesible incluso en estudiantes que cursan a distancia, genera informes diag-
nósticos de forma automática y permite trabajar con grandes colectivos de
alumnos. Asimismo, el SESA-U sirve como punto de partida para diagramar
intervenciones apropiadas a las demandas de cada ingresante en particular”.
Si los autores desean proporcionar evidencias basadas en las consecuencias de
la aplicación del instrumento, deberían desarrollar nuevos estudios tendientes
a demostrar que efectivamente el SESA-U constituye una evaluación más efi-

64
ciente o que proporciona información para brindar intervenciones a ingresan-
tes universitarios. Si se obtienen resultados que sustentan dichas afirmaciones
(por ejemplo, se corrobora que se logra una intervención más eficaz sobre
los alumnos al utilizar el test), entonces se obtienen evidencias favorables de
validez.
Este tipo de evidencia no se encuentra exenta de críticas, dado que mu-
chos autores sostienen que las consecuencias de las aplicaciones de una prueba
no afectan directamente la validez de sus puntuaciones. Por lo cual, la validez
de las consecuencias no sería un concepto psicométrico legítimo. No obs-
tante, otros autores sostienen que se trata de una evolución del concepto de
validez. En todo caso lo que queda claro es que la polémica sobre la validez de
las consecuencias continuará durante algún tiempo (Hogan, 2004).

A modo de síntesis

En términos generales la validez hace referencia al “grado en que una


prueba mide lo que pretende medir”. De esta manera puede afirmarse que las
puntuaciones de un test evidencian propiedades de validez cuando el test
evalúa una muestra representativa de comportamientos del constructo que se
pretende medir, justificando adecuadamente las inferencias realizadas sobre el
dominio en función de los resultados obtenidos en la prueba. Sin embargo, es
importante aclarar que la validez es una propiedad de sus puntuaciones (APA,
1999). Es decir, las puntuaciones que se obtienen de una prueba pueden re-
sultar o no válidas dependiendo del propósito con que se utilicen. Por otra
parte, la validez es una cuestión de grado. No se valida un test en sí mismo,
sino que se brindan diferentes tipos de evidencias para indicar que las pun-
tuaciones del test reflejan adecuadamente el constructo que se intenta medir.
Cuantas más evidencias se posean, mayores garantías tendremos respecto a la
validez de las puntuaciones.
Según la APA (1999) existirían cinco evidencias de validez: 1) evidencias
basadas en el contenido del test, 2) evidencias basadas en la estructura interna
del test, 3) evidencias basadas en el proceso de respuestas, 4) evidencias ba-
sadas en las relaciones que las puntuaciones del test presentan con variables
externas, y 5) evidencias relacionadas con las consecuencias de su aplicación.
Una síntesis de dichas evidencias se expone en la tabla 2.

65
Tabla 2. Síntesis de métodos y evidencias de validez propuestas por la APA (1999)

66
|
Normas Psicométricas: Confiabilidad
Leonardo Medrano

Introducción

En el capítulo 1 definimos a los tests como un procedimiento por me-


dio del cual una muestra de comportamiento de un dominio, es obtenida y
calificada, empleando un proceso estandarizado. En el capítulo anterior des-
tacamos la necesidad de garantizar que la muestra de comportamiento selec-
cionada representa adecuadamente el dominio que se pretende medir, y, por
ende, que las puntuaciones de la prueba constituyen una medida válida del
constructo (figura 1). En este capítulo haremos hincapié en la segunda parte
de la definición de test, es decir, que la muestra de comportamiento es obteni-
da y calificada empleando un proceso estandarizado. En efecto, durante el pro-
ceso de administración, calificación e interpretación de una prueba pueden
ocurrir errores que lleven a que los puntajes del test sean inestables y sesgados
afectando la confiabilidad de la medición.

Figura 1. Representación del proceso subyacente en un test psicométrico.

Errores de medición y confiabilidad: Aproximación histórica y


conceptual

En términos generales, la confiabilidad hace referencia al grado en que


las puntuaciones de la prueba se encuentran libres de error. Aunque la validez

67
constituye la norma psicométrica más importante en la teoría de los test, es un
prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta
por ítems que reflejan adecuadamente el constructo, pero si el examinador
comete errores al administrar la prueba, o al interpretar sus puntuaciones,
entonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba. Esto puede ocurrir cuando los evaluadores utilizan
diferentes criterios para puntuar una misma prueba, por ejemplo, si uno de
los evaluadores es más “exigente” que otro respecto a las respuestas que con-
siderará correctas. También puede ocurrir que el evaluador cometa errores en
la corrección de la prueba, tales como calificar accidentalmente las respuestas
de una prueba de opción múltiple al utilizar una grilla de corrección inco-
rrecta. Otra fuente de error pueden ser las variaciones en la administración
de la prueba. Por ejemplo, si los evaluadores explican una misma consigna
de forma diferente, o cometen errores al dar las instrucciones de la prueba, o
administran la prueba en condiciones físicas inadecuadas (un lugar con poca
luz o mucho ruido, por ejemplo).
Las condiciones personales temporales del examinado también pueden
constituir una fuente de error. Supongamos que aplicamos la misma prueba
a una misma persona en diferentes ocasiones. Lo más probable es que las
puntuaciones de una ocasión a otra varíen ya que las condiciones temporales
de los examinados pueden ejercer una influencia no sistemática en sus pun-
tuaciones. Puede ocurrir por ejemplo que un día se encuentre más cansado,
o tenga hambre, o se encuentre más enojado, triste o nervioso. Es decir, el
rasgo que se pretende medir (por ejemplo, inteligencia) no ha cambiado, las
condiciones de administración y la prueba son las mismas, pero los puntajes
cambian de una ocasión a otra debido a que la condición personal temporal
ha influido en las puntuaciones.
Todas estas leves variaciones van introduciendo errores que afectan la
precisión de la medición. En este marco surgen los siguientes interrogantes ¿Es
posible lograr una medición libre de error? ¿De qué manera podemos determinar
el nivel de error de una medición y evaluar su impacto en las puntuaciones de la
prueba?
El interrogante acerca de la precisión de los instrumentos y herramien-
tas que utilizamos para aproximarnos a la realidad, constituye uno de los
problemas centrales de la filosofía de la ciencia y especialmente de la psico-
metría. El largo camino que conduce a los actuales coeficientes estadísticos de
confiabilidad (reliability en inglés), comienza en la astronomía del siglo XVII.
Los astrónomos observaban que sistemáticamente aparecían diferencias entre
las observaciones que realizaban mediante sus telescopios (Maradi, Archenti y
Piovani, 2007). En función de ello, se comenzó a hipotetizar que dichas dife-
rencias se debían a fallas en las herramientas o personas que las manejaban. Es
decir, comienza a considerarse el problema de la precisión de los instrumentos

68
y herramientas utilizadas en el ámbito científico.
El primer ensayo sobre “fallas en la observación” es un artículo del ma-
temático Thomas Simpson publicado en el año 1757. Posteriormente, a prin-
cipios del siglo XIX, el matemático Gauss recolectó una serie de registros
realizados por diferentes observatorios astronómicos europeos. Su objetivo
consistía en confrontar los resultados de observaciones repetidas del mismo
fenómeno para cuantificar la precisión de dichos instrumentos. A partir de
sus investigaciones, Gauss observó que las fallas de medición se distribuían de
una manera normal (figura 2).
Recién en el año 1904, el psicólogo Spearman propone un modelo para
abordar esta problemática. La teoría clásica de los tests (TCT) es un modelo
lineal de medición formulado por Spearman y posteriormente consolidado
por Thurstone (1935) y Gulliksen (1950). Su hipótesis fundamental es que la
puntuación observable de una persona en un test es una función de dos com-
ponentes: su puntaje verdadero y el error de medición implícito en la prueba.
El postulado esencial de la TCT se expresa como:
PO = PV + E

Donde, PO refiere al puntaje observado, PV al puntaje verdadero y E


al error de medición. Esta función lineal indica que cuanto mayor sea el va-
lor de E mayor diferencia existirá entre el puntaje observado y el verdadero.
También podemos derivar de la misma función que el error puede ser defini-
do como la diferencia entre la puntuación verdadera y la observada. Es decir
que refiere a todos aquellos factores aleatorios que llevan a que la puntuación
observada no refleje el rasgo o constructo psicológico que se pretende medir.
E = PV - PO

Según la TCT, la puntuación verdadera sería la puntuación que se ob-


tendría de la medición del rasgo o constructo psicológico sin la influencia de
error. Matemáticamnte se plantea el supuesto de que si se aplicara la prueba
infinita veces se obtendrían diferentes puntajes observados debido a los fac-
tores de error o de inestabilidad. La distribución de estos infinitos puntajes
observados serían normal (figura 2), ya que en algunos casos las fuentes de
error afectarían negativamente, y en otros casos positivamente. Teóricamente,
el puntaje verdadero sería el promedio que hipotéticamente se obtendría de
las infinitas puntuaciones observadas. Obviamente este procedimiento nunca
se realiza y no logra determinarse con certeza cuál es la puntuación verdadera.
En la práctica solo se obtiene la puntuación observada y a partir de ella de-
bemos inferir la puntuación verdadera. Sin embargo, a lo largo de la historia
se han desarrollado diferentes métodos para estimar la magnitud del error, es
decir, cuanta diferencia podría haber entre la puntuación observada y verda-
dera de una persona.

69
Figura 2. Distribución hipotética de las puntuaciones observadas (PO) en torno a la puntua-
ción verdadera.

El mismo Spearman es quien propone el primer método para medir la


confiabilidad de un test, el cual consiste en calcular un coeficiente de correla-
ción entre dos conjuntos de datos obtenidos por la aplicación repetida de una
misma prueba (Buela-Casal y Sierra, 1997). Es decir, si aplicamos un mismo
test en dos momentos diferentes y luego correlacionamos sus puntuaciones,
obtendremos un coeficiente de confiabilidad del mismo. Esta técnica es co-
nocida en la actualidad como el procedimiento test- retest. A principios de
1930, se propuso una técnica aún más sencilla. La misma consistía en aplicar
un solo test y luego dividir al mismo por la mitad para correlacionar am-
bas partes. Este procedimiento conocido como partición en mitades, sufrió
fuertes críticas por parte de numerosos psicometristas, quienes consideraban
que la división en dos partes resultaba demasiado arbitraria. De esta manera,
podrían obtenerse diferentes coeficientes de confiabilidad según el criterio
utilizado para partir en mitades la prueba (Maradi, Archenti y Piovani, 2007).
Los psicometristas norteamericanos Kuder y Richarson propusieron a
finales de la década del ´30, una técnica que superaba las limitaciones de los
coeficientes de confiabilidad formulados hasta ese momento. El coeficiente
KR 20 propuesto por estos autores calculaba la correlación entre todas las
respuestas del test, siempre y cuando éstas fueran dicotómicas. Finalmente,
esta última limitación fue superada por el coeficiente alfa (α) propuesto por
Cronbach en el año 1951, el cual no exigía las restricciones de calificación
dicotómica de los reactivos.
En el año 1999, la APA definió a la confiabilidad como el nivel de exac-
titud o precisión de una medición, es decir, en qué medida las puntuaciones

70
de un test están libres de errores de medición. En otras palabras, refiere a la
consistencia entre los puntajes de un test, obtenidos por los mismos indivi-
duos en distintas ocasiones o entre diferentes conjuntos de ítems equivalentes.
De manera semejante a como ocurre en la validez, la confiabilidad es
una cuestión de grado, y no existe un único procedimiento que permita es-
timar todos los errores de una prueba. Ello se debe a que existen diferentes
fuentes de inestabilidad o error. Por este motivo suelen considerarse diferentes
dimensiones de la confiabilidad. A continuación, se expondrán tres procedi-
mientos que se utilizan habitualmente para determinar el impacto de alguna
fuente de inestabilidad sobre las puntuaciones. Ninguno de estos procedi-
mientos permite evaluar de manera “integral” a la confiabilidad, sino que
brinda información sobre alguna de sus dimensiones. Las dimensiones reco-
nocidas por la APA (1999) son la estabilidad, consistencia interna y confiabi-
lidad inter-examinadores.

Dimensiones y métodos para verificar la confiabilidad

Estabilidad
En esta dimensión se pretende evaluar el grado en que el puntaje obser-
vado está libre de errores causados por cambios en las condiciones personales
temporales del examinado (estado de ánimo, nivel de motivación o cansancio,
por ejemplo), y por variaciones en las condiciones de administración de la
prueba (condiciones físicas de la administración, por ejemplo). Cuando las
puntuaciones de una prueba no se ven seriamente afectadas por estas fuentes
de inestabilidad decimos que las puntuaciones son estables. Los procedimien-
tos sugeridos para evaluar la estabilidad son el método test-retest, y el método
de formas equivalentes (APA, 1999).
El método consiste test-retest es el más utilizado para evaluar la estabili-
dad. Consiste en admnistrar el mismo test en dos oportunidades a la misma
muestra de sujetos, con un intervalo de tiempo intermedio. Posteriormente
se calcula la correlación entre los puntajes obtenidos en la primera y segunda
administración. Cuando se obtienen valores elevados de correlación (valores r
de Pearson en torno a .80), significa que los puntajes obtenidos en la prueba
no se alteran sustancialmente por variaciones en las condiciones personales o
por las condiciones de administración.
A modo de ejemplo, para evaluar la estabilidad del IAMI se administró
la prueba a una muestra de 119 sujetos y un mes después los mismos suje-
tos respondieron nuevamente al inventario. Los puntajes obtenidos en ambas
aplicaciones fueron correlacionados (r de Pearson). Los resultados obtenidos
(figura 3) indicaron niveles óptimos de estabilidad para alguna de sus escalas
(valores r superiores a .80) y aceptables para otras (valores r superiores a .70).

71

Figura 3. Extracto del artículo de Pérez, Beltramino y Cupani (2003) sobre la estabilidad del
IAMI.

El intervalo entre el test y el retest es un factor crítico a considerar. Si


el lapso de tiempo es muy prolongado se corre el riesgo de que las diferencias
entre las puntuaciones se deban a cambios reales en el rasgo examinados más
que a deficiencias en la confiabilidad del test. Además, debe contemplarse
el constructo que se está evaluando. Por ejemplo, si el constructo medido es
“estado de ánimo” es esperable que se observen variaciones entre las medicio-
nes debido a que se trata de una variable que fluctúa temporalmente. Por el
contrario, si trabajamos con rasgos estables (como personalidad o inteligen-
cia) los intervalos pueden ser amplios, de meses o incluso años. Asimismo,
debe considerar la población involucrada. Si el estudio se realiza con niños
pequeños, se recomienda que el intervalo sea brve ya que durante esta etapa
del desarrollo se observan cambios de gran velocidad en la mayoría de las
variables psicológicas.
Un problema que presenta el método test-retest ocurre cuando se uti-
lizan pruebas de ejecución máxima (pruebas de habilidades o neuropsicoló-
gicas, por ejemplo). Ello se debe a que la práctica previa con la prueba o el
recuerdo de los ítems, pueden afectar el rendimiento en el retest. Una alter-
nativa para controlar el efecto de la práctica y la memoria es el uso de formas
paralelas o equivalentes. Este método exige contar con dos formas o versiones
de la misma prueba que sean muy similares en cuanto a la cantidad de reac-
tivos, límites de tiempo y especificaciones de contenido, entre otros factores
(Hogan, 2004). El procedimiento es semejante al de método test-retest, pero
esta vez en vez de administrar la misma prueba en dos ocasiones se adminis-
tran diferentes formas en cada ocasión (figura 4).

72
Figura 4. Diagrama de los métodos Test-Retest y Formas Equivalentes.

El estudio realizado por Navarro et al. (2015), constituye una adecuada


ilustración del procedimiento de formas equivalentes. Estos autores se pro-
pusieron desarrollar versiones equivalentes del Fototest, una prueba neurop-
sicológica muy breve que utiliza imágenes para evaluar deterioro cognitivo o
demencia. Debido a que la aplicación repetida de la misma prueba podía in-
ducir mejorías en el rendimiento producto de la práctica previa, desarrollaron
una versión equivalente. Como puede observarse en la figura 5, los ítems de
cada versión son distintos pero equivalentes entre sí. Los autores corroboraron
la equivalencia de dichas versiones, y consecuentemente, la estabilidad de las
puntuaciones del test.

 Figura 5. Versiones equivalentes del Fototest


(extraídas de Navarro et al., 2015)

Cabe destacar que el método de formas equivalentes es más completo que


método de test-retest ya que permite evaluar la influencia de mayores fuentes de
inestabilidad. No solo contempla las variaciones en las condiciones personales
temporales del examinado o las variaciones en las condiciones de administra-

73
ción, sino que además considera variaciones en el contenido de la prueba. Es
por ello que se lo considera un método adecuado para evaluar las dimensiones
de estabilidad y consistencia interna de una prueba. A pesar de sus ventajas es un
procedimiento poco utilizado en psicometría por la sencilla razón de que son
pocas las pruebas que cuentan con versiones paralelas (Hogan, 2004).

Consistencia Interna
Esta dimensión de la confiabilidad consiste en determinar si las dife-
rentes partes del test evalúan el mismo constructo, vale decir, si son homo-
géneas. Tal como señala Hogan (2004), la homogeneidad (del griego homos,
que significa “misma” y genos, que significa “clase”) refiere al grado en que los
reactivos o ítems de una prueba son iguales en términos de lo que miden. La
fuente de inestabilidad que se intenta examinar en esta dimensión es la refe-
rida a las variaciones en el contenido de los ítems o errores en el muestreo de
ítems, y resulta especialmente relevante cuando utilizamos el puntaje total de
la prueba (es decir, la sumatoria o promedio de los ítems). Supongamos que
una prueba incluye ítems que evalúan razonablemente bien el rasgo medido,
pero también incluye ítems que por variaciones en su contenido o por un
error en el muestreo examinan otro constructo. En consecuencia, al calcular
el puntaje total del test obtendremos una medida compuesta por ítems que
examinan adecuadamente el rasgo e ítems que examinan otra cosa, generando
que la puntuación de la prueba pierda precisión. La homogeneidad de una
prueba es deseable en tanto permite una interpretación relativamente directa
del rasgo examinado (Cohen y Swerdlik, 2006).
Como señala Kline (1983), es importante que una medida sea auto-
consistente por la sencilla razón de que, si las diferentes partes que componen
una prueba no se relacionan entre sí, entonces es probable que estén midien-
do cosas distintas. El énfasis que se otorga a la consistencia interna implica
que de no ser consistente la prueba, sus puntuaciones reflejarán diferentes
constructos y por ende no serán válidas. No obstante, como veremos más
adelante, existen muchas críticas y posiciones que disienten sobre la relevancia
de esta dimensión.
Los procedimientos para evaluar la consistencia interna de un test son:
el método de formas equivalentes (descripto anteriormente), el método de par-
tición en mitades, y los métodos basados en la covariación de ítems.
El método de partición en mitades fue muy popular, pero en la actuali-
dad se encuentra prácticamente en desuso. El mismo analiza la consistencia
interna dividiendo la prueba en dos mitades comparables, y correlacionando
las puntuaciones obtenidas en ambas mitades. En caso de obtenerse correla-
ciones elevadas, se corrobora que las diferentes partes de la prueba examinan
el mismo constructo. Sin embargo, esta metodología adolece de dos grandes
limitaciones. En primer lugar, los criterios para obtener las dos mitades son

74
arbitrarios y en algunos casos la división de la prueba puede generar mitades
no comparables (por ejemplo, si se trata de una prueba de dificultad crecien-
te). Pero la segunda limitación es aún más preocupante, ya que como pueden
establecerse diferentes criterios para dividir la prueba (ítems pares vs. impares,
los primeros ítems vs. los últimos, división aleatoria, etc.), podrían existir tan-
tos coeficientes de confiabilidad como posibilidades de división de la prueba.
Esto llevaría a que una misma prueba pueda presentar múltiples índices de
consistencia interna.
Los métodos basados en la covariación de ítems son los más utilizados en
la actualidad para estimar la consistencia interna de una escala. El coeficiente
Alfa de Cronbach (para ítems politómicos) y las fórmulas Kuder-Richardson
(para ítems dicotómicos) son los procedimientos estadísticos preferidos para
examinar esta dimensión. A diferencia del método de partición en mitades
que solo correlacionaba dos partes de la prueba, analizan la intercorrelación
promedio entre todos los reactivos. Dicho de otra manera, producen una
estimación del promedio de todos los posibles coeficientes obtenidos por par-
tición en mitades (Hogan, 2004).
En la actualidad, el coeficiente alfa de Cronbach es el estadístico más
citado para obtener una estimación de la consistencia interna de los test psico-
lógicos. De hecho, se estima que el artículo de Cronbach (1951) se cita cerca
de 325 veces por año en diferentes investigaciones realizadas en el ámbito de
las ciencias sociales (Liu y Zumbo, 2007). El coeficiente alfa permite evaluar
que tan similares son el conjunto de ítems de una prueba determinada. A
diferencia del coeficiente de Pearson que fluctúa entre –1 y +1, el coeficiente
alfa varía típicamente en un rango entre 0 y 1 (Aiken, 2003). Esto quiere de-
cir que la similitud de un agrupamiento de ítems va a variar entre 0 (no hay
similitud entre los reactivos) hasta 1 (los reactivos son idénticos).
Existe cierta disparidad entre los autores respecto a los valores que debe
presentar dicho coeficiente para considerar que la escala es consistente. Por
ejemplo, Nunnally y Bernstein (1994) consideran que un valor de α =.95
debe ser la norma aceptable. Por el contrario, Manzano y Tobio (2003) seña-
lan que un valor de alfa superior a .90 s demasiado alto e indica redundancia
de reactivos. En general, se acepta que estimaciones de .80 o superiores son
consideradas entre moderadas y elevadas, mientras que puntajes cercanos a
.70 resultan aceptables (Hogan, 2004). Los mismos criterios se utilizan para
interpretar las puntuaciones del coeficiente KR-20 de Kuder-Richardson.
Un ejemplo del uso de esta metodología puede observarse en un estu-
dio de Medrano y Trógolo (2016). En dicho trabajo se analizó la consistencia
interna de una serie de escalas que componen el DERS (Difficulties in Emo-
tion Regulation Scale). Un instrumento que examina diferentes estrategias de
regulación emocional, como, por ejemplo, aceptación emocional o control de
impulsos. Los resultados obtenidos mediante el alfa de Cronbach (α) sugieren
que cada una de las escalas que componen el instrumento son consistentes

75
(figura 6), es decir, sus ítems son homogéneos en términos de lo que miden.

Figura 6. Consistencia interna de las escalas del DERS (extraído de Medrano y Trógolo, 2017).

Acuerdo entre examinadores


En esta dimensión se analiza si el puntaje observado se ve afectado por
errores asociados a la subjetividad del evaluador. En efecto, la calificación e
interpretación de las respuestas de un test deben partir de normas claras y
precisas para disminuir el componente subjetivo presente en toda evaluación.
Si las puntuaciones obtenidas en una prueba dependen de la persona que la
administra, es decir, que el examinador A obtiene una puntuación muy dife-
rente al del examinador B, utilizando la misma prueba en la misma persona,
entonces las puntuaciones del test no resultan confiables. Por el contrario, los
individuos deben obtener puntuaciones idénticas en sus ejecuciones indepen-
dientemente de quien sea su examinador. El método adecuado para evaluar
esta dimensión es el acuerdo entre jueces.
El método de acuerdo entre jueces es consiste en que una prueba a la
que se somete un grupo de examinados se califica de forma independiente
por diferentes evaluadores. Posteriormente se utiliza un coeficiente estadístico
para correlacionar las calificaciones de los evaluadores (por ejemplo, el coefi-
ciente Kappa o el coeficiente de correlación inter-clase). Los valores de dichos
coeficientes se interpretan de la misma forma que los restantes coeficientes
de confiabilidad, es decir, valores cercanos o superiores a .80 son óptimos, y
alrededor de .70 son aceptables (Hogan, 2004).
Naturalmente este procedimiento no se aplica en pruebas de auto-re-
porte o en pruebas con formato de opción múltiple. Sólo adquiere importan-
cia cuando interviene el criterio del examinador en el proceso de calificación
de la prueba. Por ejemplo, la Escala de Terapia Cognitiva (CTS) constituye una
prueba que evalúa competencias generales y específicas en terapeutas. Me-
diante esta prueba se examina la habilidad del terapeuta para conceptualizar

76
los problemas del paciente desde un marco teórico específico y aplicar técnicas
o métodos terapéuticos congruentes con los objetivos del tratamiento y las ca-
racterísticas del paciente. Para calificar la prueba el examinador debe observar
una sesión terapéutica y luego puntuar los comportamienos que se describen
en cada ítem (por ejemplo, “el terapeuta trabajó con el paciente para establecer
un plan apropiado con objetivos específicos adecuado al tiempo disponible”,
o “el terapeuta desplegó niveles óptimos de calidez, preocupación, confianza
y autenticidad”). Mientras observa dichas conductas utiliza una escala que va
desde de 0 (pobre desempeño) a 6 (excelente desempeño) para calificar el des-
empeño observado. En un estudio realizado por Medrano y Moretti (2015) se
filmaron sesiones de diferentes terapeutas y luego se solicitó a 10 evaluadores
que calificaran a los terapeutas evaluando de forma independiente los mismos
videos. Posteriormente, se efectuó una correlación inter-clase obteniéndose
resultados de .81 para la escala de competencias generales y de .83 para las de
competencias específicas. Sin embargo, algunos ítems presentaron menores
niveles de acuerdo, por lo cual fueron reformulados (figura 7).

Figura 7. Acuerdo entre examinadores para la Escala de Terapia Cognitiva (extraído de Me-
drano y Moretti, 2017).

A modo de síntesis

En términos generales, la confiabilidad hace referencia al grado en que


las puntuaciones de la prueba se encuentran libres de error. Aunque la validez
constituye la norma psicométrica más importante en la teoría de los test, es un
prerrequisito que la prueba sea confiable. Puede que la prueba esté compuesta

77
por ítems que reflejan adecuadamente el constructo, pero si el examinador
comete errores al administrar la prueba, o al interpetar sus puntuaciones, en-
tonces los puntajes del test dejan de reflejar con precisión el constructo.
Entre las fuentes más comunes de error se encuentran los errores en la
calificación de la prueba, las variaciones en las condiciones de administración de
la prueba y por condiciones personales temporales. Tal como ocurre en la validez,
la confiabilidad es una cuestión de grado, y no existe un único procedimiento
que permita estimar todos los errores de una prueba. Ello se debe a que exis-
ten diferentes fuentes de inestabilidad o error. Por este motivo suelen conside-
rarse diferentes dimensiones de la cofiabilidad. En la tabla 1 se exponen sinté-
ticamente los procedimientos recomendados por la APA (1999). Ninguno de
estos procedimientos permite evaluar de manera “integral” a la confiabilidad,
sino que brinda información sobre alguna de sus dimensiones

Tabla 1. Síntesis de los procedimientos, dimensiones de la confiabilidad.

78
|
Interpretación de Puntuaciones
Leonardo Medrano

Introducción

Los contenidos que se desarrollan en este capítulo no revisten gran


complejidad y son de fácil comprensión. Sin embargo, demandan algunos
conocimientos previos en estadística, por cual recomendamos al lector que
consulte el Apéndice II del presente libro sobre revisión de conceptos y procedi-
mientos estadísticos. Por otra parte, aunque los contenidos que se desarrollan
son simples, su entendimiento puede verse obstaculizado sino se abordan de
forma aplicada. En función de ello, invitamos al lector a completar el siguien-
te cuestionario:

Una vez que completado el cuestionario, calcule el puntaje total suman-


do los ítems. Debería obtener un valor comprendido entre 4 y 20.
Los ítems anteriores evalúan un proceso cognitivo implicado en la regu-
lación emocional. Este proceso denominado autoinculpación, refiere a pensa-
mientos que atribuyen la causa del evento negativo y la consecuente emoción
displacentera a la propia persona. Estos pensamientos son automáticos (la
propia persona no decide tenerlos de forma voluntaria) y pueden llevar a que
la emoción se mantenga en el tiempo o se vuelva más intensa. De esta manera

79
pueden contribuir a desregularnos emocionalmente, ya que prolongan de for-
ma innecesaria emociones como la tristeza o el miedo (Medrano et al., 2013).
Los ítems presentados anteriormente forman parte de un cuestionario
que permite evaluar la frecuencia con que ocurren diferentes procesos cogni-
tivos implicados en la regulación emocional (CERQ, Medrano et al., 2013),
concretamente los cuatro ítems anteriores examinan la tendencia a autoincul-
parse. Ahora bien, en función de los valores que usted obtuvo en la prueba
¿Cuál es su nivel de autoinculpación? Supongamos que obtuvo un puntaje
total de 10 o 15 puntos ¿El nivel de autoinculpación es alto o bajo? ¿Cómo
debemos interpretar estos puntajes?
La suma de las respuestas a los ítems constituye un ejemplo de puntua-
ción original o natural. Esta es el resultado más inmediato de la calificación
de una prueba. Se pueden obtener de diferentes formas, puede ser el total de
preguntas correctas, el promedio de puntuaciones de los ítems o la sumatoria
de los ítems individuales. El problema de esta puntuación es que no puede in-
terpretarse de forma directa y por ende no se le puede otorgar un significado.
Las puntuaciones naturales que obtenemos de un test no pueden inter-
pretarse directamente ya que las mediciones en psicología poseen dos limita-
ciones: 1) no poseen unidades constantes de medición (cada test emplea uni-
dades de medida diferentes), y 2) carecen de cero absoluto (el cero no puede
indicar ausencia del rasgo porque nunca se obtiene un muestreo exhaustivo o
de todos los posibles “indicadores operacionales” del rasgo).
Por este motivo es que debe apelarse al uso de diferentes estrategias para
poder interpretar los puntajes de una prueba. En el presente capítulo nos cen-
traremos en los dos métodos de interpretación más utilizados: interpretación
referida a normas e interpretación referida a criterios.

Interpretación referida a Normas

Es la estrategia más común para interpretar las puntuaciones naturales


de un test y poder otorgarles un significado. Básicamente consiste en com-
parar el puntaje obtenido por el individuo con los obtenidos por un grupo
de referencia. Volviendo al ejemplo anterior, supongamos que obtuvimos un
10. Este valor se interpretará de forma distinta si el promedio del grupo de
referencia es de 5 (lo cual significa que nuestros niveles de autoinculpación
son superiores al promedio), o si el promedio del grupo de referencia es de 30
(que implicaría niveles de autoinculpación inferiores al promedio).
Para poder realizar esta interpretación comparativa debemos conocer
cuáles son los valores obtenidos por un grupo comparativo. Para ello se tiene
que haber administrado la prueba a una muestra de gran tamaño que sea
representativa de la población. Por ejemplo, Medrano et al. (2013) adminis-
traron estos ítems de autoinculpación a una muestra de 359 estudiantes uni-

80
versitarios. El promedio obtenido fue de 12,42 (con una desviación estándar
de 3,53). Esto significa que, si obtuvimos un puntaje de 10, nuestros niveles
de autoinculpación son inferiores al promedio de estudiantes universitarios.
Sin embargo, aunque tenemos más información que antes para inter-
pretar el puntaje natural siguen persistiendo interrogantes ¿cuán alejados es-
tamos del promedio? ¿cuánta es la distancia que hay entre una persona que
obtuvo 10 y otra que obtuvo 15? En efeto puede suponerse erróneamente que
la diferencia es de 5 puntos, pero debemos recordar que no contamos con uni-
dades constantes de medición, por lo cual no podemos responder drectamen-
te a estos interrogantes. Par poder hacerlo debemos transformar los puntajes
originales en puntuaciones derivadas que nospermitan indicar la posición re-
lativa de los puntajes directos individuales en relación al grupo de referencia.
Existen dos métodos populares de trasformación: a) las puntuaciones estándar
y, b) los rangos percentilares y percentiles (Hogan, 2004).

Puntuaciones estándar
Existen una variedad de puntuaciones estándar. Todas ellas parten de la
utilización de puntajes z. Conociendo la media y desviación estándar de un
conjunto de datos podemos transformar la puntuación natural de un indivi-
duo en un puntaje z (independientemente del tipo de variable que estemos
midiendo). Para ello solo debemos aplicar la siguiente formula:
X−X
Z=
sx

Para obtener el valor z correspondiente a la puntuación original debe-


mos reemplazar los símbolos anteriores por los valores correspondiente. En
el caso del ejemplo la media ( X ) es12,42, y la desviación estándar ( s x ) es
3,53. El puntaje Z correspondiente a la puntuación original de 10 (X) sería
de -0.68.

10 –12,42 = 0,68
3,53

De la misma forma, podemos transformar en z cualquier otra puntua-


ción individual y ubicarla en la misma escala. Para un puntaje bruto de 15 la
puntuación z correspondiente sería 0.73, para una puntuación de 20 se ob-
tendría un puntaje z correspondiente a 2,14. Las puntuaciones z pueden ser
tanto negativas como positivas, y generalmente sus valores varían entre -3,00
y +3,00, pudiendo ubicarse los diferentes puntajes naturales en una nueva
escala (figura 1). Sumado a ello, al utilizar la desviación estándar como unidad

81
de medida, podemos hacer juicios sobre las proporciones ya que contamos
con una unidad constante de medición. Siguiendo con el ejemplo, podemos
afirmar que quien obtuvo 20 puntos posee más del doble de autoinculpación
que quien obtuvo 15 puntos.

Figura 1. Transformación de las puntuaciones naturales en puntajes Z.

La transformación de los puntajes originales en puntajes z consiste


en utilizar la desviación estándar como unidad de medida y la media como
origen. Esto permite contar ahora con una unidad constante de medición
(la desviación estándar) manteniendo las relaciones numéricas exactas de las
puntuaciones originales (Cortada de Kohan, 1994).
La posibilidad de poder transformar cualquier valor a un puntaje z per-
mite al investigador estandarizar los valores obtenidos con el objeto de poder
comparar observaciones de variables medidas en diferentes escalas (Everitt y
Wykes, 2001). Por ello las puntuaciones z desempeñan una función crucial
en psicometría ya que permiten transformar cualquier variable a una métrica
en común.
Imaginemos la siguiente pregunta ¿soy más pesado que neurótico? A
simple vista puede parecer una pregunta sin sentido, ya que el peso se mide
en kilogramos y el nivel de neuroticismo no. Saber que mi peso es de 80 Kg, y
que en una prueba de neroticismo obtuve 50 puntos no me permite aseverar
nada. No sería posible comparar estas variables ya que poseen distintas uni-
dades de medición. Sin embargo, podríamos hacerlo si las transformamos en
puntajes z. Para ello simplemente deberíamos conocer la media y desviación
estándar de cada variable y calcular los correspondientes puntajes z. Siguiendo
con el ejemplo imaginemos que tenemos esa información para el peso (media
= 70 Kg; desviación estándar = 10 Kg), y para la variable neuroticismo (media
= 20; desviación estándar = 15). Aplicando la formula anterior obtengo un
puntaje z para el peso igual a 1, y un puntaje z de neuroticismo igual a 2. En
función de ello puedo afirmar lícitamente que soy más neurótico que pesado.
Más aún, puede decir que soy el doble de neurótico que pesado, ya que al con-
tar con una misma unidad de medida (la desviación estándar) pueden hacer
juicio sobre las proporciones de las distancias.

82
Figura 2. Transformación de los puntajes naturales de dos variables a una métrica en común
(puntaje Z).

Las ventajas de transformar los puntajes originales a puntuaciones z es


enorme, sin embargo, su interpretación es algo compleja para un público no
especializado. Por este motivo se desarrollaron las puntuaciones estándar, que
constituyen una conversión de los puntajes z en un nuevo sistema que tiene
una media y desviación estándar elegida de forma arbitraria. Las nuevas cifras
suelen elegirse para que sean fáciles de recordar, como, por ejemplo, 50 y 10,
o 100 y 15 (Hogan, 2004).
Para transformar una puntuación natural en una puntuación estándar
se debe calcular en primer lugar su correspondiente puntuación z. Posterior-
mente, se multiplica la puntuación Z por la nueva desviación estándar, y
se le suma la nueva media. Este procedimiento se representa en la siguiente
fórmula
PE =Z(Se)+Me

Donde PE = puntaje estándar, Z = puntaje Z, Se = la nueva desviación


estándar, y Me = la nueva media

Algunas de las puntuaciones estándar más populares son las puntua-


ciones T de McCall (con media de 50 y desviación estándar de 10). Estas
puntuaciones son habitualmente utilizadas en pruebas de personalidad. Otra
transformación ampliamente utilizada son los CI de desviación, los cuales pue-
den ser considerados como los actuales coeficientes de inteligencia. Los CI
poseen una media de 100 y una desviación estándar de 15.
La mayor parte de las transformaciones estándar son transformaciones
lineales, es decir que mantienen las relaciones numéricas exactas de las pun-
tuaciones originales sin afectar su distribución original. Sin embargo, existen
también trasformaciones no lineales, que alteran la distribución original de las
puntuaciones para generar una distribución normal. Este es el caso de la pun-
tuación estándar normalizada y de las estaninas (las cuales poseen una media
de 5 y una desviación estándar de 2).
Las puntuaciones estándar constituyen un sistema métrico conveniente
para la interpretación de diferentes pruebas psicológicas, sin embargo, presen-

83
tan el inconveniente de ser difíciles de comunicar para usuarios no especiali-
zados. Decir a una persona que su nivel de autoinculpación es equivalente a
0,68 desviaciones estándar por debajo de la media puede ser poco comprensi-
ble. Por este motivo, es habitual que la mayor parte de las pruebas psicológicas
utilicen rangos percentilares y percentiles.

Rangos percentilares y percentiles


Existe una distinción técnica entre estos dos términos. El rango percen-
tilar (RP) indica el porcentaje de casos en el grupo normativo que se ubican
por debajo de una determinada puntuación natural. Por ejemplo, si en la es-
cala de autoinculpación del ejemplo la una puntuación natural de 10 equivale
a un RP de 25, esto significa que el 25% de los casos del grupo normativo
obtuvieron un puntaje natural inferior a 10. Por su parte, el percentil es el
punto en la escala por debajo del cual se ubica un porcentaje específico de
casos. En palabras de Hogan (2004), la diferencia entre el percentil y el RP es
que en el percentil se empieza con un determinado porcentaje y luego se bus-
ca la puntuación natural correspondiente a ese punto(¿Cuál es la puntuación
natural que obtuvo el 65% de la muestra?); mientras que el RP se inicia con
una puntuación natural determinada y luego halla el porcentaje de casos que
se encuentran por debajo de esa puntuación (¿Qué porcentaje de personas
obtuvieron un valor igual o inferior a 10?). En la práctica ambos términos son
utilizados de forma indistinta.
Los percentiles indican el porcentaje de personas en el grupo normativo
que se encuentran por debajo de una puntuación natural determinada. Por
ejemplo, en el estudio realizado con la escala de autoinculpación (Medrano et
al., 2013) se observó que el 5% de la muestra obtuvo un puntaje inferior a 14.
Esto significa que, si usted obtuvo un valor de 14 o superior, posee niveles de
autoinculpación superiores al 75% de los estudiantes universitarios.
El cálculo de los percentiles correspondiente a cada puntuación natural
puede obtenerse a partir de la siguiente fórmula:

Sin embargo, los manuales de las pruebas psicológicas suelen proveer un


baremo, es decir, una tabla de equivalencia desde donde puede identificarse
el percentil correspondiente para cada puntuación natural u original. De esta
manera, el usuario de la prueba no requiere calcular la fórmula, sino que se

84
limita a leer la tabla e identificar el percentil correspondiente para la puntua-
ción natural que le interesa interpretar. En la figura 3 se presenta un baremo
para la escala de autoinculpación del ejemplo. Sugerimos al lector que trate de
interpretar el puntaje natural que obtuvo utilizando este baremo.

Figura 3. Baremo de la escala de autoinculpación


(extraído de Medrano et al., 2013).

En este baremo en la columna de la derecha aparecen puntajes natura-


les, y en la columna de la izquierda los correspondientes percentiles. De esta
manera, si obtuvimos un puntaje de 10 significa que superamos solo al 25%
de las personas de la muestra. Esto significa que el 75% del grupo normativo
obtuvo mayor puntaje que nosotros. De esta forma podemos interpretar que
nuestro nivel de autoinculpación es muy bajo. Si obtuvimos entre 14 y 16
puntos, significa que nos encontramos dentro del percentil 75, por lo que
superamos al 75% del grupo normativo. Por lo cual nuestro nivel de autoin-
culpación es alto.
Los percentiles dividen al grupo normativo en 100 partes, por lo que
generalmente no se reportan todos los valores percentilares. Los valores típi-
cos que se suelen considerar son el percentil 50, 25 y 75. Estos dos últimos
percentiles suelen utilizarse para indicar la presencia significativamente eleva-
da y baja (respectivamente) de un constructo en un individuo.
La facilidad de interpretación de los percentiles los hace especialmente
atractivos, pero conllevan una gran desventaja. Se trata de una transformación
no lineal que altera la distribución original de las puntuaciones naturales. Este
problema no es grave cuando usamos una prueba con fines profesionales (por
ejemplo, para realizar un informe psicométrico), pero si es un problema serio
cuando lo utilizamos con fines de investigación ya que al alterar la distribu-
ción original de los datos no podemos calcular procedimientos estadísticos
sobre estos puntajes transformados. Técnicas como el análisis factorial o el
coeficiente de correlación pueden verse seriamente afectadas si trabajamos
sobre los valores percentilares. Por este motivo, es habitual que se utilicen los

85
percentiles con fines de comunicación profesional, y las puntuaciones están-
dar sean más comunes en contextos de investigación.

Interpretación referida a Criterios.

Supongamos que llega un paciente a nuestro consultorio y que al ana-


lizar las respuestas que nos brinda en una prueba observamos que presenta
síntomas como: estado de ánimo deprimido la mayor parte del día, disminu-
ción del interés o placer por hacer las cosas, insomnio, fatiga, sentimientos
de inutilidad y pensamientos recurrentes de muerte. ¿Es necesario comparar
su puntaje con un grupo normativo para decidir si requiere de tratamiento
psicológico? O bien imaginemos que un alumno responde correctamente el
90% de las preguntas de un examen. ¿Sería necesario calcular el percentil
correspondiente para determinar a cuantos compañeros superó y así poder
definir si sabe o no sabe los contenidos de la materia?
En este tipo de situaciones no requerimos comparar el puntaje natural
de la prueba con el de un grupo de referencia. Independientemente de cuales
hayan sido la cantidad de preguntas que respondieron correctamente el resto
de los alumnos de la clase podemos afirmar que si una persona responde el
90% de las preguntas conoce los contenidos de la materia. De la misma ma-
nera, no requerimos comparar los puntajes del paciente con otros pacientes
para afirmar que presumiblemente presenta un diagnóstico de depresión.
Una forma alternativa a la interpretación referida a normas consiste en
comparar las puntuaciones naturales con un criterio previamente especifica-
do. Por ejemplo, podemos fijar un criterio de desempeño en determinado
dominio, como puede ser responder al menos 15 preguntas de un total de 30
para aprobar un examen. Aquí el marcode referencia va a estar constituido por
la medida en la cual un sujeto cumple con este criterio especificado.
En las interpretaciones referidas a criterio en vez de comparar el pun-
taje del sujeto con un grupo de referencia, se analiza la posición absoluta del
individuo con respecto a un dominio de conductas previamente definido.
Tomemos como ejemplo la interpretación que puede realizarse del PHQ-9.
Esta prueba presenta una serie de ítems (figura 4) que reflejan los criterios
diagnósticos de depresión establecidos por el DSM-IV. Para la interpretación
de la prueba se ha propuesto u algoritmo que establece que si el examinado
puntúa 2 (más de la mitad de los días) o 3 (casi todos los días) en al menos dos
de los primeros ítems, y 2 o 3 en al menos 5 de los 9 ítems restantes, entonces
corresponde el diagnostico presumible de depresión (sin necesidad de tener
que comparar este puntaje con el de un grupo normativo).

86
Figura 4. Ítems del PHQ-9 para la evaluación de la depresión.

Este método de interpretación es más habitual en contextos donde se


trabaja con dominios claramente delimitados. Su utilización es más común
en evaluación educativa y clínica, ya que la interpretación referida a criterio
puede resultar más útil para determinar si un alumno adquirió una serie de
contenidos, evaluar si una persona requiere de tratamiento psicológico o eva-
luar los efectos de una intervención (clínica o educativa) sobre un dominio
de interés.

A modo de síntesis

Las puntuaciones naturales que obtenemos de un test no pueden inter-


pretarse directamente ya que las mediciones en psicología no poseen unidades
constantes de medición y carecen de cero absoluto. Por este motivo es que

87
debe apelarse al uso de diferentes estrategias para poder interpretar los pun-
tajes de una prueba. En el presente capítulo se analizaron los dos métodos de
interpretación más utilizados: la interpretación referida a normas, y la inter-
pretación referida a criterios.
Es importante señalar que hablar de pruebas referidas a normas o prue-
bas referidas a criterio es inapropiado (Hogan, 2004), ya que no es la prueba
sino el marco de referencia para interpretar el puntaje natural lo que refiere al
criterio o la norma. De hecho, ambos tipos de interpretación pueden utilizar-
se en una misma prueba.
La interpretación referida a normas es la estrategia más común para
interpretar las puntuaciones naturales de un test y poder otorgarles un signifi-
cado. Este método consiste en comparar el puntaje obtenido por el individuo
con los obtenidos por un grupo de referencia. Para poder hacerlo debemos
transformar los puntajes originales en puntuaciones derivadas que nos permi-
tan indicar la posición relativa de los puntajes directos individuales en rela-
ción al grupo de referencia. Existen dos métodos populares de trasformación:
las puntuaciones estándar y los rangos percentilares y percentiles.
Los percentiles son más fáciles de interpretar y comunicar, pero alteran
la distribución original de las puntuaciones naturales afectando el funciona-
miento de diversos procedimientos estadísticos. Por su parte, las puntuacio-
nes estándar respectan la distribución original de las puntuaciones naturales,
pero son más difíciles de comunicar para un público no especializado. Por este
motivo, es habitual que se utilicen los percentiles con fines de uso profesional,
y las puntuaciones estándar sean más comunes en contextos de investigación.
Las interpretaciones referidas a criterio en vez de comparar el punta-
je del sujeto con un grupo de referencia, analizan la posición absoluta del
individuo con respecto a un dominio de conductas previamente definido.
Este método de interpretación es especialmente útil para medir cambios en
los propios individuos, es decir diferencias intraindividuales observadas como
efecto de una intervención clínica o educativa. Por ello resulta una interpre-
tación más adecuada para fines de diagnóstico y evaluación de la eficacia de
intervenciones psicológicas sobre el dominio o constructo en estudio.

88
|
Construcción y Adaptación de Test Psicométricos
Leonardo Medrano, Edgardo Pérez y Alberto Fernández

Introducción

En el presente capítulo se presentan de manera resumida los pasos que


involucra un proceso de construcción y adaptación de un test psicométrico.
Asimismo, se pretende introducir al lector en una problemática a la que se
enfrentan psicometristas argentinos y latinoamericanos; la decisión de adap-
tar o construir tests. En efecto, la utilización de tests psicológicos creados en
otros contextos culturales es una práctica habitual sobre todo en regiones con
menor desarrollo científico, tales como Latinoamérica. El uso de una prue-
ba desarrollada en un contexto cultural diferente genera múltiples dificulta-
des. El idioma, la familiaridad con los estímulos, y la comparabilidad de las
muestras de estandarización son ejemplos de fuentes de posibles sesgos en la
medición transcultural de constructos psicológicos. Esto lleva a que no puede
presuponerse que las teorías e instrumentos desarrollados en una cultura sean
válidos en otra.
Un debate frecuente en la investigación psicológica es si los constructos
psicológicos se manifiestan de manera semejante en diferentes grupos cultu-
rales. Los posicionamientos más radicales en este debate pueden diferenciarse
en dos grupos, aquellos que postulan que los constructos psicológicos poseen
un comportamiento universal y niegan la existencia de diferencias culturales
(enfoque etic) o bien, aquellos que consideran que cada cultura es única y que
los constructos psicológicos deben indagarse considerando la particularidad
de cada cultura (enfoque emic). En general se acuerda en considerar que la
realización de una medición apropiada debe contemplar aspectos émicos y
éticos. No contemplar estos aspectos puede dar lugar a la aparición de sesgos
de medición. Dado que la mayoría de las teorías psicológicas actuales, han
sido desarrolladas en otros contextos culturales, sobre todo en universidades
norteamericanas, los psicometristas de países menos desarrollados se ven en la
necesidad de tener que adaptar pruebas o bien construir nuevos instrumentos
para lograr mediciones válidas y confiables para su contexto cultural.

89
Sesgos, Construcción y Adaptación de Test

Como se mencionó anteriormente, una medición apropiada de un


constructo debe contemplar aspectos émicos (aspectos o características univer-
sales) y éticos (aspectos propios y característicos de una cultura en particular). Por
ejemplo, algunos constructos en psicología poseen componentes universales
y espeíficos de cada cultura. Tal es el caso de los comportamientos socia-
les, ya que algunas conductas sociales se manifiestan de manera semejante en
diferentes culturas (por ejemplo, la expresión facial de emociones básicas),
mientras que otros comportamientos sociales son particulares de una cultura
(por ejemplo, saludar a otra persona inclinando la cabeza, dando un beso o
tomando de la mano). Una prueba que pretenda evaluar apropiadamente los
comportamientos sociales, debería presentar ítems que reflejen tanto compo-
nentes émicos, como éticos (figura 1).
No contemplar la existencia de estos componentes puede llevar a la
aparición de sesgos, esto significa que las diferencias observadas en las pun-
tuaciones de un test no reflejan las diferencias reales en un rasgo o habilidad,
por el contrario, hablamos de equivalencia cuando las puntuaciones de un test
reflejan diferencias que existen verdaderamente en el rasgo en cuestión.

Figura 1. Ejemplos de componentes émicos y éticos en un constructo psicológico

90
Tomemos como ejemplo una hipotética investigación en donde se mi-
diese la capacidad de denominar objetos o animales. Si entre los ítems estu-
vieran incluidas las figuras de un canguro y un oso koala es más probable que
una muestra de australianos obtenga puntuaciones superiores a las de una
muestra de argentinos. Estos datos no estarían demostrando una mayor capa-
cidad de denominación de los por parte de ls australianos, sino que sugerirían
que el indicador empleado en la medición está sesgado. Es decir, existe un ele-
mento diferente (la familiaridad con el estímulo presentado en este ejemplo)
a la capacidad (de denominación en este caso) que influye en el desempeño
en la prueba. Entre los sesgos más habituales se encuentran el sesgo de ítem,
el sesgo de constructo y los sesgos metodológicos (Fernández, Pérez, Alderete
y Richaud de Minci, 2015; Van de Vijver y Tanzer, 1997).
El sesgo del ítem es habitual cuando un constructo posee muchos ele-
mentos éticos y algunos componentes émicos (figura 2). Este sesgo consiste
en que la mayor parte de los elementos de la prueba son equivalentes en
ambas culturas, pero algunos ítems tienen un significado diferente. De esta
forma, ciertos grupos culturales pueden obtener puntajes significativamente
distintos en un ítem determinado a pesar de obtener un puntaje total similar
en el test.

Figura 2. Representación de sesgo de ítem.

Por ejemplo, el PANAS constituye un instrumento desarrollado para


evaluar afecto positivo y negativo indagando sobre diferentes emociones. En
general la estructura de afecto positivo involucra emociones como estar ale-
gre, interesado o activo, mientras que el afecto negativo implica emociones
como tener temor, sentirse culpable o nervioso. Esta estructura se ha replicado
en diferentes culturas. Sin embargo, en algunas culturas orientales, sentirse
avergonzado en vez de ser conceptualizado como una emoción displacentera
se asocia al afecto positivo, ya que mostrarse avergonzado se considera una

91
acción honorable. De la misma forma, en algunas culturas confucianas la
expresión de alegría se considera inadecuado ya que implica priorizar un sen-
timiento individual por sobre uno colectvo (Keller & Otto, 2009). Estos son
ejemplo de ítems que pueden tener un significado diferente según la cultura,
aunque la mayor parte de los reactivos se mantengan equivalentes.
El sesgo de constructo ocurre cuando el constructo posee muchos ele-
mentos émicos y pocos componentes éticos (figura 3). En este caso las di-
ferencias culturales no se focalizan en solo algunos comportamientos, sino
que el constructo medido difiere entre una cultura y otra. Por ejemplo, una
variable tan clásica como la inteligencia tiende a ser conceptualizada de muy
diverso modo de unas culturas a otras; mientras en Occidente suele asociarse
a eficiencia y rapidez, en algunas sociedades del Este se asocia con actitudes
reflexivas y reposadas, más que con rapidez (Lonner, 1990). En consecuencia,
difícilmente una prueba desarrollada en un contexto cultural pueda reflejar de
manera válida el constructo tal como se manifiesta en la otra cultura.

Figura 3. Representación de sesgo de constructo.

Finalmente, las diferencias culturales pueden introducir sesgos metodo-


lógicos. Este ocurre cuando los factores culturales afectan aspectos metodo-
lógicos vinculados a la ejecución de la prueba. Por ejemplo, en países árabes
la lectura se realiza de izquierda a derecha, esto puede afectar la manera en
que se completa algunas pruebas donde la disposición del texto tiene mucha
relevancia (por ejemplo, pruebas de completamiento de frases o cancelación
de letras). El idioma también puede ser fuente de sesgo metodológico, por
ejemplo, Lau y Hoosain (1999) demostraron que los individuos chino-par-
lantes rinden más que los sujetos japonés-parlantes en una prueba de cálculo
mental. Estos últimos, a su vez, superan en su desempeño a las personas an-
glo-parlantes. Los autores pudieron demostrar que estas diferencias estaban
relacionadas a la duración de los dígitos cuando son pronunciados, lo que a

92
su vez está vinculado con la memoria de trabajo. La menor duración de los
dígitos en el japonés que en el inglés les otorgaba ventaja a los japoneses y, a
su vez, la menor duración de la pronunciación de los dígitos en chino com-
parado al japonés e inglés, les daba ventaja a los chinos sobre los dos grupos
restantes. Este tipo de sesgo metodológico se suele denominar sesgo de instru-
mento, ya que afecta a la totalidad de la prueba.
La existencia de los diferentes sesgos mencionados demuestra que pue-
den cometerse graves errores cuando se traslada automáticamente un test
construido en un grupo cultural a otro. Esto lleva a que los psicometristas de
países donde la producción de test es menor, se deban enfrentar con el proble-
ma de optar por construir o adaptar una prueba. A continuación, se exponen
de manera sintética los métodos y pasos implicados en cada caso.

Métodos y pasos implicados en la construcción de Test

El procedimiento habitual en la construcción de test implica los siguien-


tes pasos: 1) delimitación del dominio del test, características de la población
a la cual va dirigido y estructura formal del test (instrucciones, contenido y
formato de respuesta a los ítems), 2) redacción de los ítems, 3) revisión de los
ítems por expertos, 4) análisis de las propiedades psicométricas (confiabilidad,
validez y establecimiento del método de interpretación), y 5) elaboración de
los materiales definitivos de prueba (manual, cuadernillo de ítems, hoja de
respuesta). El análisis de las propiedades psicométricas (punto 4) se ha desa-
rrollado a lo largo del libro, por lo que a continuación nos centraremos en las
fases restantes.

Definición del dominio


La construcción de un test requiere previamente un exhaustivo análisis
conceptual del dominio o constructo a medir. Este análisis implica la selec-
ción y revisión de las teorías más relevantes, rigurosas y contemporáneas en
relación al constructo de interés. Se deben obtener definiciones conceptuales
ajustadas del dominio que se desea medir, así como seleccionar los indicadores
operacionales adecuados para describirlos.
Lograr una adecuada definición conceptual del dominio y seleccionar
los indicadores operacionales es una tarea muy compleja. Se han desarrollado
diferentes métodos para la elaboración de pruebas. El método de contenido o
también conocido como método lógico y racional, fue uno de los primeros
en desarrollarse en psicometría. Este método no se apela a teorías previas
para la redacción de reactivos, sino que se centra en la validez aparente y el
sentido común. En ejemplo de una prueba desarrollada con este método es el
Woodworth Personal Data Sheet. Sin embargo, en la actualidad es un método
en desuso.

93
Otra metodología tradicional de corte netamente empírico son los métodos de
clave empírica. Básicamente consiste en elegir los reactivos en función de su capacidad
para discriminar entre dos grupos de referencia. No se parte de un modelo teórico
previo, sino de un pool inicial de reactivos que serán o no incluidos en la prueba en
función de su capacidad para discriminar dos grupos (normal y clínico, por ejemplo).
El MMPI-II es un ejemplo de un test desarrollado mediante este método.
Con el perfeccionamiento del análisis factorial tomaron fuerzo los métodos de
reducción de datos como estrategia para la elaboración de pruebas. Este método con-
siste en redactar ítems y examinar las correlaciones entre los reactivos e identificar
factores subyacentes mediante análisis factorial. Posteriormente se asigna un nombre
a los factores identificados que describe el significado de la dimensión subyacente. El
Cuestionario de Intereses Profesionales (CIP) constituye un ejemplo de esta metodo-
logía, ya que los factores obtenidos son empíricos, es decir, no parten de un modelo
teórico previo.
En la actualidad los métodos de corte empírico “ateóricos” se encuentran en
declive. El método más recomendado para la elaboración de pruebas consiste en par-
tir de una clara delimitación conceptual, para luego recabar evidencias empíricas que
permitan determinar su validez. Para ello resulta indispensable partir de un buen mo-
delo teórico que describa con claridad no solo el constructo, sino también sus dimen-
siones. Las estrategias de análisis, como el análisis factorial confirmatorio, permitirán
determinar si efectivamente el modelo de medición propuesto es plausible. Por ejem-
plo, el Inventario de Autoeficacia para Inteligencias Múltiples constituye un buen
ejemplo de esta metodología, ya que parte de un modelo teórico bien delimitado (la
teoría de las ocho inteligencias propuestas por Gardner, 1983), en combinación con
métodos empíricos que aportan evidencias empíricas sobre la validez del modelo.
Antes emprender la redacción de los ítems, es necesario también delimi-
tar aspectos complementarios del test, tales como: finalidad y población meta
del test (por ejemplo, un inventario de autoinforme para evaluar el autocon-
cepto en niños), modo de aplicación (individual o colectivo, por ejemplo),
formato de respuesta (dicotómica o tipo lickert, por ejemplo), y tiempo de
administración (duración del test), entre otras consideraciones preliminares
(Hogan, 2004).

Redacción de los ítems


Existen pautas convencionales para la redacción de ítems de tests. Estas
incluyen recomendaciones como redactar ítems congruentes con el objetivo
de medición, evitar ítems demasiados largos (de más de 20 vocablos), evitar
oraciones complejas con ambigüedades de sentido, evitar frases con dobles
negaciones, evitar el uso de expresiones extremas (nunca, siempre, todos), uti-
lizar el nivel de dificultad del lenguaje más apropiado al nivel de maduración
y educativo de la población meta de la medición.
Para Nunnally (1991) los dos errores más comunes en la redacción de

94
ítems son la ambigüedad (preguntas vagas que admiten varias respuestas, por
ejemplo, “que pasó con el Arte en el siglo XV?”); y la trivialidad (centrarse en
aspectos poco importantes del constructo o dominio, por ejemplo, requerir
la memorización de fechas irrelevantes). Por su parte Bandura (2001), reco-
mienda redactar ítems que consideren diferentes niveles de dificultad, sobre
todo cuando se evalúa autoeficacia o en pruebas de habilidades. Si no hay
obstáculos que superar todos los sujetos tendrán altas creencias de eficacia
en dicha actividad o responderán fácilmente al ítem. En contrapartida, ac-
tividades absurdamente difíciles generarán que las personas expresen escasas
creencia de eficacia o no puedan responder correctamente. En cualquiera de
los dos casos los ítems pierden poder discriminativo. Para evitar problemas
de este tipo resulta recomendable redactar ítems con una amplia variedad de
niveles de dificultad.
Finalmente, debe evitarse la redacción de “ítems multidimensionales”,
los cuales se caracterizan por indagar sobre más de una actividad, ej: “Cuales
son las creencias sobre tus capacidades para pintar un cuadro y cantar en un
coro”. Redacciones de este tipo impiden medir con precisión un comporta-
miento específico (Bandura, 2001). En efecto, en el ítem anterior la persona
puede sentirse confundida para responder, puesto que se siente competente
para cantar pero no para pintar, por ejemplo.

Revisión de expertos
La mayoría de los autores recomiendan que los ítems preliminares sean
revisados por expertos, tanto en construcción de pruebas, como en el domi-
nio o rasgo a medir (autoeficacia, por ejemplo), y en la población a la cual se
dirije el test (preadolescentes, por ejemplo). Los tres aspectos esenciales que
los expertos deben evaluar en cada ítem son: a) claridad semántica y correc-
ción gramatical, adecuación al nivel de comprensión de la población meta
(niños, por ejemplo), y c) congruencia con el constructo o dominio medido.
Este último es el principal parámetro y hace referencia al grado de con-
sistencia que debe existir entre un ítem particular y los constructos a medir
por el test. Los procedimientos empíricos para cuantificar el juicio de expertos
acerca de la calidad de los ítems fueron descriptos en el capítulo de validez
(apartado de evidencia relacionada con el contenido).
Además del juicio de experto siempre es conveniente administrar la ver-
sión preliminar de la prueba a una muestra piloto, es decir una muestra de
menor tamaño pero relativamente representativa de la población meta. La
posibilidad de efectuar un estudio piloto permite confirmar si los ítems son
claros y comprensibles para la población meta del test que se está desarrollan-
do. Otro de los aspectos que se suelen evaluar en las pruebas piloto son: 1)
familiaridad con el vocabulario y expresiones utilizadas en los ítems y en las
instrucciones; 2) comprensión de los ítems y de las instrucciones; 3) motiva-

95
ción que genera en los evaluados; 4) el tiempo que insume la aplicación del
instrumento, y 7) análisis de dificultades en la codificación de las respuestas
(Moretti y Medrano, 2012).

Elaboración de los materiales definitivos de prueba


Habitualmente el trabajo de construcción de un instrumento fue tan
agotador, que muchos investigadores no desarrollan esta última etapa. Sin
embargo, los psicólogos que se dedican a la construcción de pruebas tiene la
obligación de elaborar un material (un manual, por ejemplo), que propor-
cione información adecuada sobre las características técnicas del instrumen-
to y una descripción cuidadosa del mismo. Muchas pruebas se publican en
manuales comercializados a través de editoriales (las cuales suelen tener un
catálogo de diferentes pruebas psicológicas). Cuando esto ocurre la editorial
toma los derechos sobre la prueba, y como consecuencia, los ítems solo son
accesibles con la compra del material. No obstante, muchos investigadores
prefieren poner a disposición el manual y los ítems de la prueba para que otros
usuarios e investigadores puedan acceder de forma libre.

Métodos y pasos implicados en la Adaptación de Tests

Actualmente se reconoce que la adaptación de un test es un proceso mu-


cho más complejo que la mera traducción a un idioma diferente. Una adap-
tación implica considerar no sólo las palabras utilizadas al traducir la prueba
sino también las variables culturales involucradas. La adaptación de una prue-
ba no involucra solamente la traducción de los ítems, sino que conlleva una
serie de estudios tendientes a determinar la equivalencia entre las pruebas.
Concretmente los pasos involucrados en la adaptación son: 1) traducción de
la prueba, 2) estudios de equivalencia, 3) análisis de las propiedades psicomé-
tricas (confiabilidad, validez y establecimiento del método de interpretación),
y 4) elaboración de los materiales definitivos de prueba (manual, cuadernillo
de ítems, hoja de respuesta). Los pasos tres y cuatro fueron desarrollados an-
teriormente, por lo cual solo se explicarán los dos primeros pasos.

Traducción de la prueba
El proceso de traducción de una prueba es complejo e implica más que
la traducción literal de las palabras escritas a un nuevo lenguaje. Existen dos
métodos fundamentales: la traducción directa (forward translation) e inversa
(backward translation). En el método de traducción directa un traductor o,
preferentemente, un grupo de traductores, traducen el test desde el idioma
original al nuevo idioma. Luego otro grupo de traductores juzga la equivalen-
cia entre las dos versiones. De este modo pueden realizarse las correcciones

96
pertinentes a las dificultades o errores identificados. En el caso de la traduc-
ción inversa, el más utilizado de los métodos, un grupo de traductores realiza
una traducción desde el idioma original al nuevo idioma; luego un segundo
grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a
traducirlo al idioma original. Seguidamente, se realizan las comparaciones
entre la versión original y la versión retraducida al idioma original para deter-
minar su equivalencia. Ambos métodos poseen ventajas y desventajas que no
serán analizadas en este texto introductorio. El lector interesado en profundi-
zar esta problemática específica puede consultar el texto clásico de Hambleton
(1994).
Independientemente del método de traducción que utilicemos, es im-
portante señalar que las traducciones deben realizarse atendiendo a una equi-
valencia conceptual, semántica y funcional de los ítems, más que a una equi-
valencia literal (Herdman, FoxRushby y Badia, 1997; Mimura y Griffiths,
2008). Si bien existe cierto solapamiento entre estos tres tipos de equiva-
lencia, las mismas refieren a diferentes aspectos necesarios para asegurar un
adecuado funcionamiento de los ítems traducidos.
La equivalencia conceptual consiste en que el ítem original y el tra-
ducido evalúen el mismo constructo teórico. Por ello puede que algunas de
las traducciones realizadas no presenten las mismas palabras que los ítems
originales, ya que debe priorizarse una correspondencia con el constructo me-
dido y no una correspondencia literal. Por ejemplo, durante el proceso de
adaptación de una escala norteamericana sobre Apoyo Percibido se incluían
la figura de consultor o consejero académico de la universidad. Estas figuras
son inexistentes en el contexto local, por lo que al realizar la adaptación del
instrumento Medrano, Pérez y Liporace (2014) optaron por modificar dichas
palabras por figuras académicas equivalentes (por ejemplo, “get helpful assis-
tance from my advisor” fue traducida como “puedo obtener ayuda provechosa de
mis profesores”).
La equivalencia semántica hace referencia a que las palabras traduci-
das tengan el mismo significado tanto a nivel connotativo como denotativo.
Mientras que la denotación de una palabra puede ser la misma (referirse a un
mismo objeto, acción o propiedad) su connotación o significado emocional
puede ser distinto. Este tipo de equivalencia resulta especialmente importante
en las expresiones idiomáticas que no poseen una traducción directa a nuestro
idioma. En caso de que exista un significado equivalente pero no una expre-
sión idiomática del mismo, la solución es crear una expresión u oración de
significado equivalente. En caso de que no exista la expresión idiomática ni el
significado de la misma, entonces se trata de un ítem específico de la cultura
que no puede ser traducido. Por ejemplo, un ítem de una escala norteameri-
cana sobre Expectativas de Resultados decía: “... do work that can “make a di-
fference” in people’s lives”, el cual fue traducido por Medrano, Pérez y Liporace

97
(2014) como “realizar un trabajo que pueda mejorar la vida de otras personas”.
Finalmente, la equivalencia funcional se circunscribe a que las acciones
involucradas en los reactivos posean metas y dificultades semejantes en am-
bas culturas. De hecho, puede suceder que una misma acción posea metas
diferentes según la cultura (por ejemplo, ganar un buen salario), o bien que
la dificultad para realizarla varíe de una cultura a otra (acceder a un título
universitario o sobresalir en un área académica, por ejemplo). Por ejemplo,
un ítem de una escala norteamericana sobre Progreso de Metas Académicas
incluye la meta de “permanecer inscripto” en la universidad. Esta acción re-
sulta más simple en nuestro contexto dado que un alumno de la universidad
nacional puede permanecer inscripto durante años sin necesidad de aprobar
materias o rendir exámenes. En función de ello Medrano, Pérez y Liporace
(2014) optaron por traducir el ítem como “permanecer regular en el curso”,
manteniendo así un nivel semejante de dificultad.

Estudios de equivalencia
Una vez que se ha traducido adecuadamente la prueba debe establecerse
si esta la versión traducida es equivalente a la original. Existen dos estrategias
que son ampliamente utilizadas para determinar esta equivalencia. Una de
ellas es la administración del test original y traducido a individuos bilingües. En
este caso se les administra ambas versiones de un test a personas que hablen
ambos idiomas. Este método posee ventajas y limitaciones. En primer lugar
permite controlar las diferencias de los participantes en el test en el rasgo
que se está midiendo (inteligencia, por ejemplo), puesto que ambas versio-
nes del test son administradas a las mismas personas. Sin embargo, posee la
desventaja de asumir que los individuos son igualmente competentes en am-
bos idiomas, lo cual es difícil de sostener. Es probable entonces, que puedan
observarse diferencias entre los resultados de ambas versiones debido a una
menor capacidad de algunas personas para entender los ítems en alguno de
los dos idiomas. La segunda gran desventaja de este diseño es que no puede
asegurarse que los bilingües posean el mismo nivel de competencia que la po-
blación general. Por el hecho de conocer otro idioma es probable que se trate
de personas con una mayor capacidad intelectual o mejor educación.
El segundo método es la administración de la versión original del test y
su traducción inversa a monolingües en el idioma original. Supongamos que
traducimos una prueba de idioma ingles mediante tradución inversa. Enton-
ces dispobemos de dos versiones en inglés, la orginal y la re-traducida. Este
método consiste entonces en administrar ambas versiones (la versión original
y la versión obtenida por traducción inversa) a personas cuyo idioma natal es
el inglés. La equivalencia en los ítems se determina comparando el desempeño
de cada individuo en cada ítem de ambas versiones. Nuevamente, la ventaja

98
está en el control de las diferencias en las características de los participantes.
Una gran limitación es que este diseño no permite obtener datos de la versión
en el idioma meta del test (español en este ejemplo).

A modo de síntesis

La utilización de tests psicológicos creados en otros cotextos culturales


es una práctica habitual en todo el mundo. Este fenómeno es particularmente
frecuente en los países de las regiones con menor desarrollo científico, como
Latinoamérica. El uso de un determinado test en un contexto cultural dife-
rente al que fue creado genera diversas dificultades. La existencia de sesgos en
un test puede conducir a obtener resultados gravemente erróneos. En un test
utilizado con fines clínicos, por ejemplo, se puede concluir la presencia de un
rasgo de personalidad patológico cuando este rasgo es normal en la cultura del
individuo examinado.
Optar por construir o adaptar una prueba tests no posee, naturalmente,
una respuesta simple y categórica. Desde una perspectiva estrictamente psi-
cométrica ambas opciones son equivalentes en dificultad y costos. Excepto la
fase teórica inicial, las demás secuencias son requeridas tanto para la construc-
ción como para la adaptación de tests (figura 4).

Figura 4. Comparación de pasos para la construcción y adaptación de pruebas.

Probablemente la fase más compleja del proceso de construcción de un


test sea justamente la delimitación conceptual del constructo a medir. Esto
requiere contar con una teoría validada del constructo y su red de relaciones
causales, así como elaborar definiciones operacionales adecuadas de aquél.
Adaptar alguno de estos tests implica la problemática tarea de verificar la equi-
valencia de sus propiedades métricas en otras culturas, pero nos asegura una
teoría subyacente bien establecida. La postura más conveniente parece ser la

99
adaptación de tests siempre y cuando la misma involucre un riguroso proceso
de investigación que asegure la equivalencia de constructos en primer lugar
y una correcta adaptación de la escala para evitar toda fuente de sesgos. La
construcción sería una alternativa cuando la adaptación no es conveniente
debido a la existencia de un sesgo de constructo o al hecho de que las caracte-
rísticas del instrumento que se quiere adaptar haga que ese proceso sea tanto
o más laborioso que crear uno nuevo (Fernández, Pérez, Alderete y Richaud
de Minci, 2015).

100
Parte 2
Evaluación Psicológica
mediante instrumentos psicométricos

101
|
Prefacio de la Segunda Parte

Imaginemos algunas de las siguientes situaciones. Un psicólogo clínico


trata de elaborar un plan de tratamiento para un paciente, pero necesita co-
nocer cuáles son los principales problemas y síntomas que lo afectan. En una
escuela, un grupo de profesores señala que Marcelo “no se queda quieto, no
presta atención en clases y que contesta de mala manera”, el psicólogo de la
escuela quiere evaluar si el alumno tiene dificultades para concentrarse o si
estos problemas pueden ser atribuidos a dificultades motivacionales. En una
empresa un psicólogo desea evaluar el estilo de liderazgo de los gerentes y
determinar si éstos pueden estar influyendo sobre los niveles de estrés y bien-
estar de la organización. Para todas estas situaciones y muchas otras, los test
psicológicos pueden resultar una herramienta de mucha utilidad. En efecto,
se trata de un recurso de mucho provecho para enriquecer el juicio profesional
y afrontar problemáticas frecuentes de la práctica profesional.
En este volumen se describen pruebas psicométricas que se utilizan en
diferentes áreas de especialización del psicólogo. Pretende ser una guía intro-
ductoria que informe y ayude a los lectores a conocer cuáles son las pruebas
psicométricas que pueden utilizarse para evaluar diferentes constructos psico-
lógicos, los alcances de dichas pruebas y también sus limitaciones, pretendien-
do así favorecer el desarrollar de usuarios competentes de los test.
Es importante señalar que, aunque los test psicométricos son herra-
mientas de mucho provecho y utilidad, no deben utilizarse de manera aislada
o como única fuente de información. Tal como señala Goldfinger (2018), “los
test psicológicos pueden ayudar, pero también lastimar a las personas”. Para
un uso competente y ético de las pruebas psicológicas los usuarios deben co-
nocer las bases teóricas de cada prueba, saber cómo administrar e interpretar
sus puntuaciones, y examinar cuidadosamente sus propiedades psicométricas.
Además, se debe complementar la información que brindan las pruebas con
información adicional, como por ejemplo entrevistas.
Es importante recordar que las decisiones que tomemos como profesio-
nales pueden impactar de forma significativa en la vida de las personas. Por
ello debemos ser sumamente cuidadosos con los instrumentos que utilizamos,
ya que el uso de medidas poco confiables o válidas puede ser el inicio de una
cadena de errores que aumente el sufrimiento del paciente y sus familiares. Un
diagnóstico erróneo puede llevar a que se inicie un tratamiento inadecuado y
poco eficaz, o puede llevar a centrarnos sobre variables poco relevantes para
la problemática o padecimiento que intentamos trabajar. Son los usuarios de
las pruebas los responsables de seleccionar instrumentos con un adecuado
sustento teórico y psicométrico.

103
La decisión de utilizar una prueba u otra no depende solo de sus propie-
dades psicométricas. La principal limitación al momento de medir atributos
psicológicos es que éstos son difíciles de delimitar. Cada prueba o instrumen-
to psicométrico debe partir de un modelo teórico que delimite con claridad
el constructo que se pretende medir. Por ello resulta indispensable conocer el
modelo teórico subyacente a cada instrumento. La manera en que definamos
un constructo determinará la forma en que lo mediremos, por este motivo a
lo largo de los capítulos no solo se describirán pruebas que habitualmente se
utilizan en el ejercicio profesional, sino que además se desarrollará brevemen-
te el modelo teórico del cual parte cada instrumento. Es importante que el
lector valore el sustento teórico de una prueba, tanto como el estrictamente
psicométrico.
Como se mencionó en el volumen 1, el presente material se divide en
dos volúmenes. El primero se centra en los conceptos básicos de la teoría psi-
cométrica y las normativas psicométricas exigidas para una evaluación válida y
confiable. El segundo se centra en el desarrollo conceptual y aplicado de dife-
rentes pruebas psicológicas, haciendo foco en los procesos de administración,
interpretación y elaboración de informes psicométricos. Cabe señalar que esta
sección no refiere a una catalogación de pruebas. Más que una breve reseña
de diferentes pruebas se seleccionaron test que permitan reflejar al amplio
espectro de evaluación de las técnicas psicométricas.
Se espera que el lector adquiera con este breve manual los conocimien-
tos y competencias necesarias para comprender la utilidad y limitaciones de
los test psicológicos, cuente con habilidades para seleccionar una prueba y
juzgar la calidad de los test publicados, sepa administrar una prueba, inter-
pretarla y comunicar adecuadamente los resultados, permitiendo así una uti-
lización ética y responsables de los test psicológicos.

Leonardo Medrano

104
|
Evaluación Psicométrica en Psicología Educacional
Leonardo Medrano, Edgardo Pérez,
Mauricio Zalazar y Javier Sánchez Rosas

Introducción

Los psicólogos educacionales aplican sus conocimientos para abordar


una amplia variedad de problemáticas asociadas al proceso de enseñanza y
aprendizaje. Por ejemplo, como aprenden los alumnos, como pueden los pro-
fesores mejorar el proceso de aprendizaje, por qué algunos alumnos están más
motivados que otros, como se interrelaciona el currículo con las competencias
que queremos desarrollar en los estudiantes, o cómo influye el contexto social
en el aprendizaje. Sumado a ello, en la actualidad se ha ampliado el tipo de
problemáticas que el psicólogo educacional aborda, dado que también debe
atender situaciones como la violencia escolar, los problemas de convivencia,
el bienestar emocional de los estudiantes y profesores, la prevención del con-
sumo de drogas, por mencionar algunos. Todas estas problemáticas pueden
impedir que un alumno obtenga los beneficios de estudiar en la escuela o
universidad (Sternberg, 2007).
Las pruebas psicométricas se administran en el contexto educativo para
cubrir un amplio rango de propósitos. Para mostrar algunas de las maneras en
que se pueden utilizar los test psicométricos en este capítulo nos centraremos
en los siguientes tópicos: 1) evaluación de la motivación académica, 2) eva-
luación de los intereses vocacionales, 3) evaluación de la autorregulación del
aprendizaje, 4) evaluación para la identificación del talento; 5) evaluación de
las emociones académicas y 6) evaluación de la calidad instruccional.

1. Evaluación de la Motivación Académica: Aportes de la Teoría So-


cial Cognitiva de la Carrera

La motivación puede ser definida de forma general como un estado in-


terno que activa, dirige y mantiene un determinado comportamiento (Wool-
folk, 2006). En el contexto académico este constructo es de gran importancia
ya que se relaciona estrechamente con un proceso de aprendizaje exitoso y
satisfactorio. Diversas acciones implicadas en el proceso de aprendizaje, tales
como leer un libro, asistir a clases o prepararse para un examen, requieren de
motivación. Los maestros suelen percatarse rápidamente de la falta de motiva-
ción en los alumnos, sin embargo, se requiere de un modelo teórico y pruebas
específicas para determinar con precisión las causas de la desmotivación.

105
se relaciona estrechamente con un proceso de aprendizaje exitoso y satisfactorio.
Diversas acciones implicadas en el proceso de aprendizaje, tales como leer un
libro, asistir a clases o prepararse para un examen, requieren de motivación. Los
maestros suelen percatarse rápidamente de la falta de motivación en los alumnos,
sin embargo, se requiere
En las últimas de un modelo
décadas, la Teoría teórico
Socialy pruebas específicas
Cognitiva (TSC)paraha deter-
captado
minar con precisión las causas de la desmotivación.
la atención de numerosos investigadores y profesionales de la educación y la
En las últimas décadas, la Teoría Social Cognitiva (TSC) ha captado la aten-
psicología (Brunning et al., 2005). El creciente interés se debe a la re-concep-
ción de numerosos investigadores y profesionales de la educación y la psicología
tualización que esta teoría proporciona sobe los procesos de aprendizaje y el
(Brunning et al., 2005). El creciente interés se debe a la re-conceptualización que
papel otorgado al alumno en la construcción del conocimiento (Woolfolk,
esta teoría proporciona sobre los procesos de aprendizaje y el papel otorgado al
2006).
alumno Según Bandura (1987),
en la construcción las personas
del conocimiento no están2006).
(Woolfolk, determinadas por im-
Según Bandura
pulsos
(1987),internos o moldeadas
las personas automáticamente
no están determinadas por estímulos
por impulsos internos oexternos.
moldeadasPor
el automáticamente
contrario, se considera
por estímulos externos. Por el contrario, se consideraanalizarse
que el comportamiento humano debe que el
considerando
comportamiento la interacción
humano debe entre la persona
analizarse y su ambiente.
considerando la interacción entre la
Desde
persona y sulaambiente.
TSC se postula que los estudiantes no transitan su carrera
de manera Desde“cerrada”,
la TSC se sino que
postula quevarían sustancialmente
los estudiantes lassumaneras
no transitan carrera dedemane-
atrave-
sarrauna
“cerrada”, sino que varían sustancialmente las maneras de atravesar una carrera la
carrera académica. Desde esta perspectiva los trayectos que toma
vida dependen
académica. Desdedel interjuego recíproco
esta perspectiva entre los
los trayectos quefactores
toma la personales,
vida dependenla propia
del
conducta
interjuego recíproco entre los factores personales, la propia conducta y el entorno. bi-
y el entorno. La TSC plantea la existencia de una interacción
direccional donde
La TSC plantea las personas
la existencia y las
de una situaciones
interacción se determinan
bidireccional donde lasmutuamente.
personas y
Esta teoría favorece una concepción de la interacción basada
las situaciones se determinan mutuamente. Esta teoría favorece una concepción en el Modelo
de
Reciprocidad
la interacciónTriádica
basada en(figura 1). Reciprocidad Triádica (figura 1).
el Modelo

Factores Personales

Ambiente Conducta

Figura 1: Modelo de Reciprocidad Triádica (adaptado de Bandura, 1987)


Figura
Figura1:1:Modelo
Modelode
deReciprocidad Triádica(adaptado
Reciprocidad Triádica (adaptadodede Bandura,
Bandura, 1987)
1987)

150 En Enesteeste
modelo
modelodedecausalidad,
causalidad, lala conducta,
conducta, loslos factores
factorespersonales
personales y
y las
las influencias
influenciasambientales
ambientales interactúan entre sí bidireccionalmente. El com-
interactúan entre sí bidireccionalmente. El comportamiento
portamiento humano no se concibe como controlado por factores internos
humano nosino
o externos, se concibe como controlado
como dependiente porinteracción
de la factores internos
entreolos externos, sino como
tres elementos
mencionados.
dependiente de Cabe destacar entre
la interacción que ellostérmino reciprocidad,
tres elementos no significa
mencionados. que los
Cabe destacar que
treselcomponentes del modelo se influyan entre sí de la misma manera. La in-
término reciprocidad, no significa que los tres componentes del modelo se influyan
fluencia relativa de cada factor varía en función de las actividades, las personas
entre
y las sí de la misma manera. La influencia relativa de cada factor varía en función de las
circunstancias.
Para la las
actividades, TSC los factores
personas del entorno no constituyen una entidad que
y las circunstancias.
determinaPara el curso de nuestras vidas, sino que los individuos juegan un rol en
la TSC los factores del entorno no constituyen una entidad que determina el
la construcción de su propio desarrollo. Si bien los factores del entorno y las
curso de nuestras
circunstancias vidas, pueden
fortuitas sino que afectar
los individuos
el cursojuegan
de launvida,
rol enlalaforma
construcción
en quedelassu
personas aprovechan
propio desarrollo. las oportunidades
Si bien y manejan
los factores del entorno las situaciones
y las circunstancias de presión
fortuitas pueden
sonafectar
los factores que marcan la diferencia. Así la TSC aboga por una perspec-
el curso de la vida, la forma en que las personas aprovechan las oportunidades y
manejan las situaciones de presión son los factores que marcan la diferencia. Así la TSC
106
aboga por una perspectiva agentica según la cual las personas son pro-activas, regulan y
tiva agentica según la cual las personas son pro-activas, regulan y organizan su
propio comportamiento, y reflexionan sobre el mismo. Por lo tanto, las per-
sonas no son vistas como productos de las circunstancias, sino como agentes
que contribuyen a crearlas.
Para la TSC la agencia humana refiere a la capacidad para originar y
dirigir las propias acciones para la consecución de determinados propósitos
(Bandura, 2006). De manera semejante Lent (2013) lo conceptualiza como
la capacidad para afrontar y lidiar con la adversidad de manera proactiva y
dirigiendo de manera regulada e intencionada el propio esfuerzo.
La agencia humana no es sólo una idea que forma parte de la TSC, sino
que constituye una concepción sobre la naturaleza humana. El hombre no sólo
es producto de presiones ambientales, mutaciones genéticas y recombinaciones
reproductivas. La capacidad de simbolización nos permite comprender, prede-
cir y alterar los cursos de nuestras propias vidas, constituyéndose así en una ven-
taja evolutiva. Así el lenguaje, la abstracción y deliberación cognitiva permitió
suplantar la selección del entorno por la agencia humana. Los seres humanos
somos una especie agentica capaz de trascender las imposiciones del ambiente
inmediato y dirigir el curso de nuestras propias vidas (Bandura, 2006).
Esta perspectiva agentica del comportamiento humano ha enriquecido
la comprensión de problemáticas habituales en la educación. Indagar sobre
los factores de la agencia humana que fomentan el crecimiento y desarrollo
personal de los estudiantes constituye un aspecto de importancia para pro-
mover el funcionamiento óptimo y saludable. A partir de ello se desarrolló la
Teoría Social Cognitiva de la Carrera (TSCC) la cual intenta capturar la idea
de agencia humana propuesta por Bandura (1987), aplicándola específica-
mente al contexto académico (Lent, 2013). Según la TSCC (Lent y Brown,
2006) existen tres componentes principales que permiten ejercer la capacidad
agentica: las creencias de autoeficacia, las expectativas de resultado y las metas.
El impacto de la autoeficacia en el funcionamiento humano ha sido am-
pliamente corroborado (Bandura, 1997). Las creencias que posee una persona
sobre sus capacidades para lograr determinado rendimiento permiten explicar
si una persona tendrá iniciativa, perseverancia y, finalmente, si logrará la acción
que se propuso. Asimismo, las expectativas de resultados constituyen un factor
motivacional clave dado que antes de ejecutar una conducta las personas an-
ticipan cuáles serán las consecuencias de ejecutarla. De esta manera llevarán a
cabo un comportamiento sólo si anticipan resultados positivos y evitarán eje-
cutarlos sin prevén consecuencias negativas. Finalmente, las metas, vale decir,
la intención de realizar una actividad en particular o producir un determinado
resultado; permiten a las personas desarrollar una capacidad auto-evaluativa.
Es a partir del establecimiento de este criterio interno que las personas pueden
regular el propio comportamiento (Lent, Brown y Hackett, 1994).
Estas tres variables representan la idea de agencia humana y constituyen
el corazón de la TSCC. Sumado a ello, la TSCC incluye el papel de factores

107
no agenticos que también pueden afectar el transcurso de una carrera. Con-
cretamente estos factores son denominados por Lent y Brown (2006) como
Barreras y Apoyo Contextuales. Estas variables contextuales pueden facilitar u
obstaculizar el cumplimiento de los propósitos que las personas se plantean, y
pueden ser objetivas (ingreso de los padres, por ejemplo) o percibidas (dispo-
nibilidad de un modelo académico, por ejemplo).
En síntesis, para Lent y Brown (2006) el “corazón” del modelo de la TSCC
estaría dado por cuatro factores, tres factores personales agenticos (autoeficacia,
expectativas de resultados y metas) y un factor contextual no agentico (apoyo y
barreras contextuales). Estas variables aparecen sombreadas en la figura 2.
Inicialmente, la TSCC propone tres modelos construidos para explicar
el desarrollo de los intereses profesionales, l lección de carrera y el rendimien-
to académico (figura 2; Sheu et al., 2010). Cada uno de estos modelos presen-
ta los factores centraes del modelo TSCC e incorpora variables más específicas
según el tipo de comportamiento que se intenta explicar. Por ejemplo, para
explicar el rendimiento académico se incluye dentro del modelo a las aptitu-
des personales, o para explicar la elección de carrera se incluye, por ejemplo,
a los intereses profesionales (figura 2).
Dichos modelos teóricos han sido corroborados empíricamente en di-
versos trabajos (Lee, Flores, Navarro y Kanagui-Muñoz, 2015; Lent et al.,
2013; Lent, Lopez, Sheu, Lopez, 2011) y en distintas poblaciones (Cupani y
Pautassi, 2013; Cupani, de Minzi, Pérez y Pautassi, 2010; Lent, Sheu, Gloster
y Wilkins, 2010; Navarro, Flores, Lee y González, 2014), observándose en
todos los casos que las variables centrales o “corazón” del TSCC presentan un
elevado poder explicativo.

108
Figura 2. Modelos de Intereses, Elección Vocacional y Rendimiento Académico de la TSCC
(adaptado de Lent, Brown y Hacket, 1994).

Figura 2 (continuación). Modelos de Intereses, Elección Vocacional y Rendimiento Académico


de la TSCC (adaptado de Lent, Brown y Hacket, 1994).

Posteriormente, Lent (2004) propuso un cuarto modelo basado en la


TSCC con el objetivo de explicar los factores implicados en el desarrollo de
la Satisfacción Académica. Según este modelo la satisfacción académica se
vería afectada por la percepción de progreso en las metas, la autoeficacia, las
expectativas de resultado y el apoyo percibido.

Figura 3. Modelo Social Cognitivo de Satisfacción Académica y Satisfacción con la Vida (adap-
tado de Lent, 2007)
109
A continuación, se exponen diferentes instrumentos adaptados a nues-
tro contexto que permiten evaluar los tres componentes agenticos de la TSCC
(autoeficacia, expectativas de resultados y metas) y el componente no agen-
tico (apoyo social percibido). También se revisan algunos instrumentos de-
sarrollados para medir los intereses vocacionales, uno de los componentes
claves del modelo de carrera de la TSC y con implicancias para la orientación
vocacional.

Evaluación de la Autoeficacia
En términos generales las creencias de autoeficacia pueden ser enten-
didas como las creencias que las personas poseen en sus propias capacidades
para organizar y ejecutar las acciones necesarias para producir exitosamente
determinados logros (Bandura, 1997). La importancia de los juicios de au-
toeficacia se debe a que influyen en el comportamiento humano a través de
múltiples vías. Estas creencias afectan la elección y el desarrollo de nuevas
actividades, ya que las personas tienden a evitar actividades que creen que
exceden sus capacidades y realizar aquellas que consideran capaces de domi-
nar. Por otra parte, las creencias de autoeficacia determinan el esfuerzo y la
persistencia para la realización de tareas, sobre todo en situaciones adversas.
Asimismo, intervienen en la conformación de los patrones de pensamientos
de las personas y consecuentemente en sus sentimientos. Por último, influyen
en la organización de los recursos para la realización exitosa de tareas, deter-
minando así el rendimiento de las personas (Bandura, 1997).
Un aspecto que merece consideración refiere a las dimensiones de la
autoeficacia académica. Según Bandura (2001) las creencias de autoeficacia
son un constructo micro-analítico asociado a comportamientos delimitados.
Esto significa que podemos sentirnos capaces para realizar una acción (por
ejemplo, estudiar para un examen), pero no para otra (por ejemplo, hacer
preguntas al frente de mis compañeros). Diversas investigaciones han tratado
de identificar cuáles son las dimensiones más relevantes de la autoeficacia en
el contexto académico. A partir de dichos estudios se proponen tres dimensio-
nes principales (Medrano, 2011): 1) autoeficacia para el rendimiento, es decir
las creencias que poseen los estudiantes de lograr una buena calificación; 2)
autoeficacia para la autorregulación del estudio, entendida como la creencias
de poder regular las propias acciones y pensamientos necesarios para alcanzar
las metas de aprendizaje que se proponen y, finalmente; 3) autoeficacia social
académica, la cual refiere a la confianza que poseen los estudiantes para llevar
a cabo comportamientos sociales competentes en el contexto académico.
La autoeficacia para el rendimiento puede evaluarse a través de la Escla
de Autoeficacia para el Rendimiento (EAR), la cual fue desarrollada inicialmen-
te por Frank Pajares y adaptada al contexto local por Medrano (2009). Esta

110
escala mide las creencias que los estudiantes poseen acerca de su capacidad
para aprobar y obtener buenas calificaciones. Cuenta con seis ítems que eva-
lúan la creencia que poseen de aprobar una materia y obtener un promedio
final superior a 4, 5, 6, 7, 8 y 9. Para ello se utiliza una escala de 10 posiciones
(desde 1 “no puedo hacerlo” hasta 10 “estoy seguro de poder hacerlo”). Los
estudios psicométricos realizados (Medrano, 2009) señalan que el inventa-
rio presenta una estructura unidimensional y una consistencia interna óp-
tima (α=.94). A su vez, los estudios de relación test –criterio demostraron
que la EAR predice de manera satisfactoria el rendimiento académico (r=.42;
p<0.00). A continuación, se presentan una adaptación de la EAR para ingre-
santes a la universidad:

Para evaluar la autoeficacia para la autorregulación del aprendizaje se


dispone de al menos dos instrumentos adaptados al contexto local. Para es-
tudiantes universitarios se cuenta con la escala SELF-A. Se trata de un instru-
mento de autoinforme de diez ítems que evalúa la capacidad percibida de los
estudiantes para comprometerse de manera autónoma en procesos de aprendi-
zaje tales como planificación, organización y memorización (“Cuando te estás
esforzando por recordar detalles de un concepto. ¿podés encontrar el modo de
relacionarlos para poder recordarlos?”, por ejemplo). Una versión abreviada del
SELF fue adaptada por Bugliolo y Castagno (2005). Dicha versión cuenta con
estudios de traducción, análisis de estructura interna, análisis de consistencia in-
terna y evidencias de validez con variables externas con resultados satisfactorios.
En efecto el SELF-A presentó un valor α= .81 y demostró utilidad predictiva
para la vaiable rendimiento académico (r =.31; p<0.00).

111
Otro instrumento desarrollado para evaluar la autoeficacia para la auto-
rregulación es el IDAPE, el cual fue desarrollado por Pérez y Delgado (2006).
Se trata de inventario de autoinforme para evaluar autoeficacia para el estudio
para estudiantes de escuelas secundarias (a diferencia del SELF-A diseñado
para población universitaria). Este instrumento incluye ocho ítems que men-
cionan estrategias autorregulatorias de aprendizaje (“Relacionar los conceptos
nuevos que estoy estudiando con otros que ya conozco”). Los examinados
deben utilizar una escala lickert de diez posiciones, desde 1 “Nada seguro
de poder usar esta estrategia” a 10 “Totalmente seguro de poder usar esta
estrategia”, pudiendo responder con cualquier valor intermedio de la escala
para indicar su nivel de seguridad. A continuación, se presentan los ítems que
componen el IDAPE (extraído de Pérez y Delgado, 2006):

Para evaluar la Autoeficacia Social Académica, puede utilizarse una de


las subescalas de la Escala de Autoeficacia Social para Universitarios (EAS-U,
Olaz y Medrano, 2007). El EAS-U es un instrumento local de autoinforme
con estudios realizados en la población universitaria cordobesa. Evalúa las
creencias que los estudiantes poseen acerca de sus capacidades interpersonales
para afrontar demandas sociales propias del contexto académico (por ejem-
plo, realizar una exposición oral o trabajar en grupo). La escala de Autoefica-
cia Social Académica (ASA) se encuentra constituida por siete ítems (“realizar
preguntas al profesor en voz alta y delante de tus compañeros”, por ejemplo) y

112
presenta una adecuada consistencia interna (α= .84). Por otra parte, la escala
cuenta con estudios que evidenciaron su capacidad predictiva en relación al
rendimiento académico de ingresantes universitarios (r=.21; p<0.00; Medra-
no y Olaz, 2008).
Más allá de las tres dimensiones mencionadas, se han desarrollado otras
escalas de autoeficacia para evaluar el comportamiento académico. Tal es el
caso de la escala de autoeficacia para la escritura, la cual fue desarrollada por
Pajares (1996) y adaptada al contexto local por Pérez, Medrano, Mattus y Ay-
llón (2008). Comprende 10 ítems donde los adolescentes deben evaluar su se-
guridad para realizar exitosamente actividades de escritura (escribir con buena
ortografía, por ejemplo), utilizando una escala de respuesta de 1 (nada seguro
de poder realizar esa actividad adecuadamente) a 10 (totalmente seguro).

Evaluación de las Expectativas de Resultados y el Progreso en Metas


La importancia de las expectativas de resultados se debe a que las per-
sonas se guían por los resultados positivos o negativos que prevén que tendrá
una conducta o meta. Si se anticipan consecuencias positivas es más probable
que se establezca ciertas metas y luego se ejecuten, por el contrario, se evita-
rán comportamientos en lo que se anticipen consecuencias negativas. Según
Lent (2004) poseer expectativas positivas de resultados contribuye a que el
estudiante establezca metas académicas y efectúe los comportamientos nece-
sarios para el logro de las mismas, aumentando así las probabilidades de que
exista un progreso en las metas que se propone. Por otra parte, los estudiantes
que no anticipan consecuencias positivas no establecerán metas académicas y
presentarán un débil compromiso con las mismas, lo cual disminuye las posi-
bilidades de progreso académico.
Tal como sugiere Lent (2004) los estudintes satisfechos anticipan que
su experiencia en la universidad generará consecuencias positivas. Estas conse-
cuencias positivas serían tanto intrínsecas (disfrutar los estudios, por ejemplo)
como extrínsecas (obtener un buen salario cuando se reciban, por ejemplo).
Contrariamente, los estudiantes que no anticipen consecuencias positivas (no
voy a recibirme, por ejemplo) difícilmente desarrollen satisfacción o manifies-
ten persistencia en sus estudios.
Para evaluar las expectativas de resultados en el contexto académico
Lent et al. (2007) desarrollaron una escala de diez ítems que miden las expec-
tativas o consecuencias que perciben los estudiantes al momento de alcanzar
su título universitario (por ejemplo: “cuando me reciba tendré un trabajo bien
remunerado”). Este instrumento fue adaptado por Medrano, Pérez y Liporace
(2014) al contexto local. A continuación, se ejemplifican algunos de los ítems
que conforman la escala.

113
Para la TSCC las metas son claves para desarrollar una capacidad au-
to-evaluativa. Las mismas funcionarían como un estándar de referencia in-
terno que utilizan la personas para evaluar su experiencia académica. De esta
forma si percben que están logrando un progreso en sus metas se genera una
evaluación positiva de su experiencia académica, mientras que la percepción
de no progreso genera una evaluación negativa.
En este marco, Lent et al., (2007) desarrollaron una escala para evaluar
el progreso en metas académicas. Se trata de un instrumento breve que evalúa
el progreso que los estudiantes perciben en sus metas académicas. Para ello
los estudiantes deben indicar en qué medida han superado cada una de las
metas que se les plantean en los ítems (“estudiar de manera efectiva para los
exámenes”, por ejemplo). Los estudios psicométricos reportados por Lent et
al., (2007) señalan una estructura unidimensional y una adecuada consisten-
cia interna (α=.81). Resultados semejantes han sido obtenidos en la valida-
ción realizada en estudiantes argentinos (Medrano, Pérez y Liporace, 2014).
A continuación, se exponen los ítems que confirman este instrumento.

114
Evaluación del Apoyo Percibido
El modelo de TSCC puede dividirse en dos niveles teóricos comple-
mentarios entre sí. El primero involucra las variables cognitivo-personales
(autoeficacia, expectativas de resultado y metas), que permiten al individuo
el ejercicio de su agencia personal. El segundo nivel considera un conjunto
de variables contextuales que interactúan con los factores personales y que
también afectan el comportamiento académico. Éstas variables pueden ser
tanto objetivas (apoyo financiero, por ejemplo), como subjetivas (apoyo social
percibido, por ejemplo), no obstante, en la TSCC se considera que aunque
los factores objetivos pueden ejercer cierto efecto sobre el comportamiento
académico, dicho efecto depende en gran medida de la manera en que las per-
sonas interpretan y reaccionan a los mismos. Las personas no son receptores
pasivos de su pasado o de sus influencias ambientales, más bien son agentes
activos en el procesamiento de la información del entorno. Las oportunida-
des u obstáculos de un contexto se encuentran en parte determinadas por las
interpretaciones que realizan las personas. Es decir que los estudiantes pueden
perjudicarse o beneficiarse de loseventos del entorno dependiendo de cómo
procesan y perciben estos eventos (Lent, 2013).
Más allá de la existencia real de un apoyo del entorno es importante
considerar la valoración subjetiva de quien recibe el apoyo (Pedrosa, Gar-
cía-Cueto, Suárez-Alvarez y Pérez Sanchez, 2012). El apoyo percibido refiere
a si el estudiante considera que su entorno le provee los recursos necesarios

115
para afrontar las adversidades y alcanzar los logros personales u académicos
(Lent, Brown y Hackett, 2000). Para evaluar el apoyo percibido, Lent et al.
(2007) desarrollaron un instrumento de nueve ítems que analiza en qué me-
dida el contexto próximo del estudiante apoya al mismo en la consecución
de sus objetivos académicos (“mis amigos me estimulan a que continúe con mis
estudios”, por ejemplo). Los estudios psicométricos informados por Lent et al.
(2007) indican una consistencia interna satisfactoria (α=.84) y una estructura
unidimensional.

2. Evaluación de los Intereses Vocacionales

Los intereses vocacionales han sido definidos como patrones de preferen-


cias, indiferencias y aversiones respecto de actividades relacionadas con carreras
y ocupaciones (Lent, Brown y Hackett, 1994). Como se expresó previamente
los intereses son factores internos fundamentales en el modelo de desarrollo de
carrera de la TSC y han sido exhaustivamente investigados por los psicólogos
vocacionales. Se estima que el conocimiento de esta dimensión de la motivación
permite predecir razonablemente la elección de carrera y el monto de satisfacción
que una persona experimentará en el estudio de una carrera o el desempeño de
una ocupación.
En el contexto de la orientación vocacional, los inventarios de intereses
son los instrumentos más populares entre los profesionales de esta área de la psi-
cología educacional, según se desprende de numerosas encuestas realizadas en
todo el mundo (Hood y Johnson, 2002). El inventario de intereses vocacionales

116
Strong-Campbell, por ejemplo, es utilizado por casi el 90% de los orientadores en
Estados Unidos. Han sido definidos como un conjunto de ítems donde se solicita
a los individuos indicar sus preferencias vocacionales y aquéllos poseen un valor
numérico que permite obtener una puntuación final que representa un perfil o
pauta de intereses (Cronbach, 1998).
Los autores coinciden en señalar que estos instrumentos deben utilizarse
para ayudar a seleccionar metas vocacionales, confirmar elecciones previas, descu-
brir campos de actividad educacional u ocupacional, descubrir ocupaciones que
proporcionen satisfacción e incrementar el autoconocimiento. Del mismo modo,
los resultados de los tests de intereses poco nos dicen acerca del éxito académico
u ocupacional, variables más influidas por otros constructos tales como perseve-
rancia o aptitudes, por ejemplo (Cronbach, 1998; Hood y Johnson, 2002). Se-
gún Holland (1997) el individuo se pregunta esencialmente: para que carrera soy
competente? y en que carrera seré feliz?; los inventarios de intereses contribuyen
principalmente a elucidar este segundo interrogante.
Debe evitarse la práctica de usar los inventarios de intereses vocacionales
para orientar muy específicamente a los individuos, puesto que ellos necesitan
considerar en el proceso de toma de decisiones de carrera otras variables igualmen-
te relevantes (aptitudes y autoeficacia, por ejemplo) y, además, reunir exploratoria
sobre carreras y ocupaciones. En general se ha verificado que los resultados de
estos tests son estables a partir de los 15-17 años (Hood y Johnson, 2002).
El paradigma más influyente en el dominio de los intereses vocacionales
es el formulado por Holland (1997). La teoría de Holland ha sido descrita como
un modelo de congruencia entre los intereses y habilidades de una persona, por
un lado, y los factores inherentes a su ambiente, por otra parte. En esta teoría se
proponen seis tipos de personalidad (figura 4): Realista (preferencia por activida-
des que requieran destreza manual), Investigador (preferencia por el trabajo con
ideas), Artista (preferencia por actividades artísticas), Social (preferencia por el tra-
to con personas más que con cosas o ideas), Emprendedor (preferencia por tareas
de liderazgo) y Convencional (preferencia por tareas administrativas), los que a su
vez determinan patrones análogos de intereses y habilidades. El desarrollo de estos
tipos es producto de una compleja serie de acontecimientos familiares, orienta-
ciones del temperamento iníciales, preferencias ocupacionales e interacciones con
contextos ambientales específicos. Los ambientes en los que vien y trabajan las
personas también puede caracterizarse según su semejanza con seis modelos que
se corresponden con los seis tipos de personalidad que mencionamos. La con-
gruencia entre las personas y los ambientes generan satisfacción. Así por ejemplo,
una persona con una orientación de tipo Realista se sentirá satisfecha trabajando
en ambientes donde haya maquinaria (un taller mecánico, por ejemplo) y expe-
rimentará disgusto si debe desempeñarse en un ambiente artístico (un museo de
arte, por ejemplo). En general, las mujeres presentan intereses más elevados en las
categorías Social, Convencional y Artística, y los hombres en los tipos Realista e
Investigador.(Su, Rounds y Amstrong, 2009). Los estudios meta-analíticos sumi-

117
nistran apoyo a los principales postulados de la teoría aunque existe alguna con-
troversia respecto a su adecuación a minorías étnicas en USA y algunas muestras
internacionales (Rounds y Tracey, 1996).

Figura 4. Modelo RIASEC de Holland

Holland (1994) desarrolló un instrumento para evaluar los constructos de


su teoría, el Self-Directed Search (SDS). En este inventario el individuo debe
indicar su agrado por actividades (leer revistas científicas o conducir un tractor,
por ejemplo), autoevaluar sus habilidades (pintar cuadros o enseñar a niños, por
ejemplo) y señalar su agrado por empleos (gerente de hotel o cajero de banco, por
ejemplo). Una vez que la persona completa el test el puntaje final se resume en un
código de dos letras (SA, por ejemplo) y debe buscar en el folleto de empleos ocu-
paciones congruentes con ese perfil (maestro de escuela elemental, por ejemplo).
Casi todos los demás tests de intereses vocacionales populares (Strong-Campbell
Interest Inventory, por ejemplo) han adaptado el modelo RIASEC para interpre-
tar sus resultados. El SDS posee versiones computarizadas y traducidas al español
(Holland, 1994). En Argentina, Cupani y Pérez (2014) realizaron una adaptación
de una versión de dominio público de este test a la población universitaria Las
propiedades psicométricas del SDS son excelentes tanto en lo relativo a confiabi-
lidad (estabilidad y consistencia interna) como a validez (factorial, convergente,
discriminante, de criterio).Otra iniciativa interesante es el Test Visual de Intere-
ses (TVI, Tetreau y Trahan, 1983) desarrollado por investigadores canadienses y
basado en el modelo de Holland, pero que utiliza fotografías en color en lugar
118
de formulaciones verbales con el fin de evitar los sesgos del lenguaje y ganar en
atractivo para lospoca predominantemente visual.
En nuestro país, Fogliatto (1991) construyó un Cuestionario de Intereses
Profesionales (CIP) con la finalidad de evitar las dificultades considerables que se
generan cuando los instrumentos se utilizan de modo transcultural (por ejemplo,
tener ítems que mencionan actividades populares en su país de origen tales como
jugar al béisbol pero que no lo son en otras culturas o países). El CIP tiene versio-
nes revisadas, computarizadas (Fogliatto y Pérez, 2003) y por último una versión
abreviada (CIP-4, Pérez y Cupani, 2006) donde se verificó su convergencia con
la teoría RIASEC con resultados promisorios. El CIP en sus diferentes versiones
posee propiedades psicométricas aceptables en lo relativo a estabilidad, consis-
tencia interna, estructura interna, validez convergente-discriminante y de criterio
respecto a intenciones de elección de carrera.

Muestra de Ítems del CIP-4


D I A
1. Supervisar obras en construcción
2. Construir grandes obras (puentes, por ejemplo)
3. Evaluar el estado de conexiones eléctricas
4. Diseñar maquetas o modelos (de aviones, por
ejemplo)
5. Armar motores
6. Diseñar vehículos (automóviles, por ejemplo)
7. Supervisar las condiciones de trabajo en una
empresa
8. Aprender sobre comercio exterior (exportaciones
de un país, por ejemplo)
9. Organizar las relaciones públicas de una empresa
10. Analizar planes de desarrollo económico
11. Organizar las tareas administrativas de una
empresa
12. Analizar la situación financiera de una empresa
13. Resolver ecuaciones matemáticas
14. Aprender geometría
15. Aprender matemática
16. Resolver problemas matemáticos
17. Hacer cálculos numéricos
18. Enseñar matemática
19. Analizar estilos de pintura artística
20. Hacer esculturas
21. Hacer artesanías

119
El adolescente debe responder indicando su agrado, indiferencia o desagra-
do a cada uno de los 72 ítems (seis por escala) y los resultados del CIP-4 se expresa
en un perfil de intereses vocacionales comprendiendo doce dimensiones: Tecno-
logía, Empresas, Cálculo, Arte, Servicio, Música, Comunicación, Humanidades,
Idiomas, Naturaleza, Salud y Leyes.
El CIP-R (Fogliatto y Pérez, 2003) se incluye en un Sistema de Orientación
Vocacional Asistido por computadora (SOVI 3) junto al IAMI (Pérez, 2001) y
un banco de datos con información sobre carreras terciarias y universitarias. El
adolescente responde a cada uno de los módulos de exploración psicológica (in-
tereses vocacionales y autoeficacia para inteligencias múltiples) y el sistema genera
un perfil sugiriendo opciones educativas congruentes con ese perfil que pueden
revisarse en el módulo de información sobre carreras. El SOVI 3 es comercializa-
do por Editorial Paidós y puede responderse online con la licencia otorgada por
la empresa a cada usuario que este adquiere junto al manual técnico del sistema.
Como expresamos inicialmente en este apartado, la orientación vocacional
es un proceso de asistencia profesional a un individuo que debe tomar decisiones
de carrera y no se agota con la evaluación de los intereses (Pérez, Passera, Olaz y
Osuna, 2005). Todas las variables que mencionamos en la descripción de la Teoría
Social Cognitiva de Carrera (Brown, Lent y Hackett, 1994) son relevantes para
la elección de carrera, en especial la autoeficacia y las aptitudes. La situación ideal
sería cuando un estudiante posee intereses, autoeficacia y aptitudes elevadas para
las actividades inherentes a una carrera. No obstante, los intereses vocacionales
y las aptitudes presentan mayor influencia genética que la autoeficacia donde el
aprendizaje juega un rol más relevante (Plomin, DeFries, McClears y McGuffin,
2002). Por este motivo pueden diseñarse intervenciones para modificar la autoefi-
cacia utilizando las fuentes de la misma (aprendizaje vicario, por ejemplo). Si una
adolescente cree, por ejemplo, que aunque la ingeniería mecánica le interesa no
es capaz de estudiar una carrera “masculina” como esta, entrevistar a una profesio-
nal joven y exitosa de esa disciplina puede ayudarle a incrementar su autoeficacia
para emprender esa carrera (Pérez, Pássera, Olaz y Osuna, 2005). Las estrategias
de modelado pueden ser empleadas para ayudar a ciertos estudiantes (mujeres,
personas de color, por ejemplo) a considerar áreas de carreras que previamente no
habían tenido en cuenta o no habían sido alentados a considerar (Lent, 2004).
Los instrumentos adecuados para examinar las aptitudes y la autoeficacia
han sido revisados en otras secciones de este capítulo. Como también mencio-
namos anteriormente, los apoyos y barreras contextuales a la elección de carrera
son muy importantes y el orientador debe examinarlos junto al orientado en las
entrevistas que componen un proceso integral de orientación vocacional. Ayudar
a los estudiantes a prever y prepararse para probables obstáculos, tales como des-
aprobación de los pares o problemas económicos, puede disminuir las oportuni-
dades de que sean sorprendidos y conducidos por las circunstancias desfavorables.
Además de las estrategias de afrontamiento de obstáculos, el modelo SCCT debe

120
prestar consideración al aprovechamiento de los apoyos ambientales y la estructu-
ra de oportunidades. Así como los estudiantes pueden ser asistidos para enfrentar
obstáculos probables, también pueden ser ayudados a reconocer y acceder a los re-
cursos del entorno que puedan sostener su transición al trabajo. Así, por ejemplo,
los estudiantes pueden ser alentados a identificar y utilizar fuentes de búsqueda de
trabajo dentro de sus sistemas naturales de apoyo (miembros de su familia o veci-
nos, por ejemplo), o a vincularse a nuevos grupos de amigos que probablemente
apoyarán más sus metas vocacionales que sus grupos de referencia actuales. Las
intervenciones psicoeducacionales dirigidas a estos aspectos del proceso de tran-
sición al trabajo de construcción de apoyos y superación de obstáculos también
deberían concentrarse en el sentido de eficacia y afrontamiento de los estudiantes
con obstáculos ambientales como el racismo y el sexismo (Lent, 2004).
También el adolescente necesita explorar los roles ocupacionales que les
resulten atractivos antes de tomar una decisión vocacional relevante. La infor-
mación ocupacional puede obtenerse mediante videos ocupacionales, ferias de
carrera, visitas a universidades, guías del estudiante o portales de internet. En
este sentido, técnicas como Career Shadowing donde el adolescente entrevista a
un profesional y observa directamente las actividades que realiza en su puesto de
trabajo durante varias sesiones son muy útiles para aprender sobre las ocupaciones
(Herr y Cramer, 1996).
Debido a que la transición exitosa hacia el trabajo depende del recorrido de
los estudiantes por muchas tareas iniciales de desarrollo de carrera (cristalización
de los intereses, exploración de carreras, formación en habilidades de toma de
decisión, por ejemplo), los intentos para comprender y facilitar esta transición po-
drían perfectamente comenzar en la escuela elemental y media, continuando has-
ta (y después) el ingreso de los estudiantes al trabajo (Lent, 2004). Esta propuesta
se inserta en una Educación para la Carrera que puede verse como un marco
más amplio que la mera Orientación para la Elección de Carrera (Pérez, Passera,
Olaz y Osuna, 2004). Por consiguiente, intervenciones y estudios evolutivamente
apropiados, deberían ser distribuidos durante los años de escolaridad, en lugar de
concentrarse solamente en los estudiantes de los últimos años de secundario y la
adquisición de destrezas laborales.

3. Evaluación de la Autorregulación del Aprendizaje

El aprendizaje autorregulado (AA) ha demostrado ser un concepto clave


para explicar la iniciativa, perseverancia y capacidad adaptativa del estudiante
(Bembenutty, 2008; Zimmerman, 2000), aspectos esenciales que explican el
aumento en las taas de retención y éxito académico en estudiantes universi-
tarios (Sitzmann & Ely, 2011; Patterson, Waya, Ahuna, Tinnesz & Vanzi-
le-Tamsen, 2014; Dörrenbächer & Perels, 2016). Para Zimmerman (2000)
el AA se encuentra compuesto por tres fases (planificación, ejecución y moni-

121
toreo), las cuales están íntimamente relacionadas y además, se retroalimentan
cíclicamente. De este modo, un déficit en alguna de estas etapas puede afectar
el proceso de autorregulación, por ejemplo, un estudiante que posee dificul-
tades para planificar su estudio probablemente no logre una ejecución exitosa.
Asimismo, la falta de monitoreo puede llevar a que un alumno no vislumbre
que su planificación es inadecuada. Sin embargo, cada una de estas etapas
involucra un conjunto de variables (ver figura 5), las cuales produce a que el
tránsito por cada una de ellas se torne complejo, y en algunos casos, afecte el
proceso de autorregulación del aprendizaje.

Figura 5. Fases del Aprendizaje Autorregulado.

La fase de planificación refiere a los procesos y fuentes de motivación


que preceden a la actividad de aprendizaje e influyen en la preparación y
disposición de los estudiantes (Zimmerman, 2015). Según Zimmerman y
Campillo (2003) en esta etapa son cruciales dos componentes: a) el análisis
de la tarea y b) las creencias auto-motivadoras. La primera consiste en la des-
composición de la actividad a realizar en partes más pequeñas con el objetivo
de establecer una estrategia para su realización (Wine, 2001). Para ello, los
estudiantes especifican los resultados deseados (establecimientos de metas) y
seleccionan el método de aprendizaje más adecuado en función de la tarea a
desarrollar y las características del entorno (planificación estrategia).
Debido a que esta fase es de carácter anticipatorio, el componente de
creencias auto-motivadoras resulta esencial. En este punto, la Teoría Social
Cognitiva (TSC, Bandura, 1986) ha destacado que la triada de autoeficacia,
expectativas de resultado y metas desempeñan una importante contribución
en la regulación de la conducta y el posterior desempeño académico (Shell,
Colvin & Bruning, 1995; Britner & Pajares, 2001; Lent, 2004). Contar con
creencias favorables sobre las propias capacidades para resolver actividades
académicas de forma exitosa (autoeficacia académica), y anticipar consecuen-

122
cias positivas del propio comportamiento (expectativas de resultados), cons-
tituye un pre-requisito para una adecuada autorregulación. Además, la TSC
ha destacado el rol de la percepción de apoyo (Rosa & Bernardo, 2013) dado
que, si los estudiantes perciben que su entorno les provee recursos para la
consecución de objetivos, estos aumentaran su autoeficacia, desarrollando ex-
pectativas más favorables (Lent, 2004).
La fase ejecución involucra aspectos ligados al autocontrol del compor-
tamiento, y al proceso de estudio. El primero refiere a aquellas estrategias des-
tinadas a incrementar el interés y la concentración en la tarea (Zimmerman &
Moylan, 2009). En este marco, diversos autores destacan el papel del control
volitivo y la procastinación. Pintrich y De Groot (1990) mencionan la nece-
sidad de que los estudiantes mantengan conductas de persistencia y esfuerzo
ante situaciones consideradas como desafiantes (control volitivo), en contra
posición a la procastinación, entendida como una tendencia a posponer la
tarea o la toma de decisiones (van Earde, 2003). Ambas variables se explican
en parte por el déficit en la regulación de emociones, ya que la dificultad para
regular un estado emocional displacentero (interferencia emocional) puede
favorecer la aparición de conductas de procastinación. Asimismo, el lugar
de estudio ha demostrado ser otro factor de importancia debido a que un
ambiente tranquilo, ordenado y relativamente libre de distractores favorece el
control volitivo (Pintrich, Smith, Garcia, & McKeachie, 1991). En conjunto,
los factores mencionados pueden llevar a que el estudiante no cumpla con las
metas que había planificado, y en consecuencia, falle en su proceso de auto-
rregulación (Richardson, Abraham & Bond, 2012).
La manera en que los estudiantes se aproximan al material de estudio
constituye el segundo componente de esta fase. El proceso de aprendizaje
puede desarrollarse mediante estrategias profundas de estudio, que implican
un proceso activo donde se destaca la elaboración y la organización de ideas
(Elliot & McGregor, 2001; Greene et al., 2004). Mientras que las estrate-
gias superficiales de estudio se centran en la memorización y reproducción
de la información, sin lograr una elaboración propia de ideas que permita un
aprendizaje significativo (Biggs, 1987; Fredricks, Blumenfeld & Paris, 2004).
Finalmente, Zimmerman (2000) destaca que en la fase de monitoreo,
donde el estudiante evalúa su trabajo (control del estudio) y emite juicios en
base a sus propios criterios de trabajo. Fruto de dicha evaluación se generan
una serie de emociones que inciden sobre las expectativas del sujeto y su pos-
terior desempeño (Pintrich, 2000; Zimmerman, 2011). En este marco, Lent
et al. (2005) señalan que los estudiantes continuamente evalúan el avance en
sus metas de estudio (metas de progreso), siendo este un factor crítico en la
elaboración de los juicios de satisfacción académica (Lent, Taveira, Sheu &
Single, 2009). Un último factor, frecuentemente obviado en esta etapa, es la
búsqueda de ayuda. Esta conducta es de suma importancia para la autorregu-

123
lación ya que permite al alumno enfrentar con mayor eficacia sus dificultades
y aumentar su aprendizaje autónomo a futuro (Ryan & Pintrich, 1997; Ka-
rabenick, 2004).
En la literatura son numerosos los instrumentos destinados a evaluar los
aspectos motivacionales del aprendizaje, destacándose el Learning and Study
Skills Inventory (LASSI; Weinstein, Palmer, & Schulte, 1987), y el Meta-
cognitive Awareness Inventory (Schraw & Dennison, 1994), entre otros. No
obstante, el Motivated Strategies for Learning Questionnaire (MSLQ; Pin-
trich, Smith, Garcia, & McKeachie, 1991), constituye una de las medidas
más utilizadas en el ámbito educativo (Schunk, 2005; Mayer, Faber & Xu,
2007; Moos & Ringdal, 2012).
El MSLQ fue desarrollado bajo el marco de la teoría social cognitiva,
la cual destaca que la motivación del estudiante se encuentra vinculada con
la habilidad para auto-regular sus actividades de aprendizaje (Pintrich & De
Groot, 1990). Para Pintrich (2000), el aprendizaje autorregulado se caracteri-
za por ser un proceso activo, constructivo, donde los alumnos seleccionan las
metas parasu aprendizaje e intentan monitorear, regularsu cognición, motiva-
ción y conducta, los cuales se actualizan en función del contexto.
El MSLQ es un instrumento de auto-reporte, dividido en dos seccio-
nes, motivación (31 ítems), y estrategias de aprendizaje (50 ítems), donde el
estudiante debe responder mediante una escala Lickert con siete opciones de
respuesta (desde “no me describe enabsoluto” a “me describe muy bien”). La
sección de motivación se encuentra compuesta por tres aspectos, valoración,
expectativas y afecto. El primero refiere a las metas de los estudiantes y sus
creencias acerca de la importancia e interés en la tarea (por ejemplo, “lo más
satisfactorio en este curso, es tratar de entender el contenido”), por su parte,
las expectativas implican las creencias de los estudiantes respecto a sus propias
habilidades para desempeñar una tarea (“estoy seguro de que puedo dominar
las habilidades que se enseñan en esta clase”), y el afecto, alude a las reacciones
emocionales ante una actividad en particular (“cuando realizo un examen,
pienso en las consecuencias de fallar”; Pintrich & De Groot, 1990).
La escala de estrategias de aprendizaje se divide en aquellas que permiten
al estudiante aprender, recordar, comprender y analizar el material (estrategias
cognitivas y meta-cognitivas), y los recursos no intelectuales que dispone el
alumno los cuales permiten cumplimentar sus objetivos y necesidades (estra-
tegias de gestión de recursos). En cuanto a las estrategias cognitivas y meta-
cognitivas, Pintrhich et al. (1991) destacaron la importancia de los procesos
asociados al ensayo (“cuando estudio para esta clase, practico diciéndome el
material a mí mismo una y otra vez”), elaboración (“trato de relacionar las
ideas de este tema con las de otros cursos”), organización (“hago gráficos, dia-
gramas o tablas para ayudarme a organizar el material”), pensamiento crítico
(“a menudo me encuentro cuestionando cosas que escucho o leo para decidir

124
si las encuentro convincentes”), y autorregulación (“cuando leo, me hago pre-
guntas para ayudarme a enfocar mi lectura”).
Por su parte, los distintos tipos de gestión de recursos lo constituyen
el tiempo y ambiente de estudio (“por lo general estudio en un lugar donde
puedo concentrarme”), la regulación del esfuerzo (“incluso cuando los mate-
riales del curso son aburridos y poco interesantes, me las arreglo para seguir
trabajando hasta que termine”), el aprendizaje entre pares (“cuando estudio, a
menudo trato de explicar el material a un compañero de clase o a un amigo”),
y la búsqueda de ayuda (“le pido al profesor que me aclare los conceptos que
no entiendo bien”).

4. Evaluación para la Identificación del Talento

La palabra talento proviene del griego tálanton que, en un principio,


significó “balanza” y, posteriormente, un valor económico determinado. El
significado de talanton como capacidad innata comienza con la certeza que
tiene el hombre antiguo de que la riqueza no se origina sólo a partir del es-
fuerzo, sino que existe mucho en ella de don divino (Benavides, Maz, Castro
y Blanco, 2004). Mönks y Mason (2000) tratan los siguientes términos como
sinónimos: dotado (gifted), altas capacidades (highly able) y talentoso (talen-
ted). Estos mismos autores definen el talento como potencial individual para
el logro excepcional en uno o más dominios. En una definición más exhaustiva,
Passow (1993, p. 30) afirmó que: “ Los niños capaces de un alto rendimiento
incluyen aquellos que han demostrado sus logros y/o habilidades potencia-
les en cualquiera de las siguientes áreas, sea aisladamente o combinadas: 1)
habilidad intelectual general, 2) aptitudes académicas específicas, 3) pensa-
miento creativo o productivo, 4) habilidad de liderazgo, 5) artes visuales e
interpretativas, 6) habilidades psicomotoras. Se supone que la utilización de
estos criterios de identificación de los niños dotados y talentosos incluirá a un
porcentaje de entre 3 y 5% de la población escolar”.
El análisis de las definiciones anteriores, bastante paradigmáticas, per-
mite inferir que en las perspectivas actuales sobre la problemática se ha perdi-
do esa vinculación estrecha del talento con lo innato y con la inteligencia ge-
neral que predominó hasta bien avanzado el siglo pasado. Más allá de las dife-
rencias entre las diferentes teorías contemporáneas existe consenso respecto a
dos supuestos fundamentales: a) los factores no intelectuales (motivación, por
ejemplo) también desempeñan un rol importante en la etiología del talento,
y b) este último requiere de esfuerzos educativos sostenidos y especializados
para que pueda manifestarse plenamente en logros socialmente relevantes.
En su teoría del desarrollo del talento (DMGT, Gagné 2003) diferencia
los conceptos de dotado (gifted) y talentoso (talent). Para este autor la dotación
se define primordialmente por la existencia de inteligencia general y aptitudes

125
específicas por encima del promedio. De este modo, un individuo entre 10
sería ligeramente dotado (una desviación estándar por encima del promedio),
1 entre 100 moderadamente rdotado (dos desviaciones estándar por encima
del promedio) y 1 entre 1000 altamente dotado (tres desviaciones estándar
por encima del promedio), y así sucesivamente, hasta arribar a la excepcionali-
dad donde la ratio sería 1/100000. Una serie de “catalizadores” (Gagné, 2003)
co-ayudarían para la conversión del talento potencial (dones) en destrezas
altamente desarrolladas (talentos), tales como aprendizaje y práctica (ormal
o informal), factores intrapersonales (motivación, temperamento), factores
medioambientales (familia, vecindario, escuela) y sucesos fortuitos (combina-
ción particular de genes, entre otros).
Renzulli (2003) postuló en su teoría de los Tres Anillos que existen tres
factores que explican la dotación, y que ninguno de ellos de manera aislada
es condición suficiente para generarlo: aptitudes por encima del promedio,
compromiso con la tarea (motivación) y creatividad. Como puede apreciarse,
el papel de la inteligencia (y las aptitudes) continúa estimándose como im-
portante pero en esta teoría se incorporan también dos factores explicativos
no-intelectuales, o al menos parcialmente no-intelectuales: motivación (com-
promiso con la tarea) y creatividad (ver figura 6). Numerosas investigaciones
(Renzulli y Reis, 2003) contrastaron diferentes aspectos e hipótesis de esta
teoría y proporcionan apoyo general a sus postulados.

Figura 6. El modelo de los tres anillos de la superdotación

La concepción de una inteligencia general (g), subyacente a todas las


áreas del desempeño humano influyó fuertemente en la definición del talen-
to, particularmente en los inicios de esta área de la psicología educacional
(Mönks y Mason, 2000). Esta perspectiva es desafiada por autores que pos-
tulan la existencia de fortalezas y debilidades cognitivas específicas y relati-
vamente independientes, las cuales no pueden ser explicadas exclusivamente
por g. Gardner (1994, 1999) denominó “inteligencias” a estos potenciales

126
cognitivos del individuo, los cuales se originan en un complejo proceso de
interacción entre factores biológicos y culturales. En su teoría de las inteli-
gencias múltiples (MI), Gardner (1999) definió la inteligencia como poten-
cial biopsicológico para procesar información en diferentes vías; facilitando
la resolución de problemas o la creación de productos valiosos en un entorno
cultural determinado. Esas ocho se denominan: Lingüística, Musical, Lógico-
Matemática, Espacial, Corporal, Intrapersonal, Interpersonal y Naturalista.
Puesto que no hay consenso en la literatura respecto a la utilización
de los términos superdotado, dotado, altas capacidades y talentoso, y el
significado específico de cada uno de ellos, en este artículo utilizaremos estos
conceptos con el significado atribuido por el Ministerio de Educación de Es-
paña (2007) en su normativa específica, donde se expresa que: los estudiantes
superdotados son aquéllos que evidencian un rendimiento superior en casi
todas las asignaturas escolares y se destacan en varias aptitudes, y el término
talentoso debe utilizarse para aquéllos estudiantes que muestran habilidades
específicas en áreas concretas. Debido a que pocos estudiantes se destacan en
todas las áreas académicas durante todo el tiempo (Reis y Housand, 2007)
nos inclinamos preferentemente a utilizar el término talento o dotación, aun-
que respetando la terminología empleada por cada autor citado.
En este apartado se revisan sintéticamente los principales instrumentos
utilizados para identificar a los niños y adolescentes talentosos, enfatizando
aquéllos más empleados y, preferentemente, adaptados para nuestro medio.
El proceso de identificación constituye el primer paso para abordar la
atención educativa de los alumnos con talento y pretende determinar su ca-
pacidad y ritmo de aprendizaje como indicadores indispensables para poder
ofrecer respuestas que tengan en cuenta sus necesidades especiales (Rodríguez,
2004). Ritchert (1987) sintetizó algunos riesgos inherentes a este proceso,
tales como los originados en definiciones elitistas, que solo incluyen deter-
minados tipos de talento y, normalmente, excluyen a los estudiantes poco
favorecidos social o culturalmente; o en la falta de equidad educativa, la cual
ocasiona baja representación de poblaciones desfavorecidas en los programas
educativos debido a la utilización de instrumentos de medida que los pe-
nalizan. Este tipo de dificultades deberían ser contrarrestadas mediante una
concepción amplia del talento, que implique un proceso cuidadoso de iden-
tificación y facilite la elaboración de programas específicos y sistemáticos a lo
largo de la escolarización del estudiante.
Una de las estrategias de identificación más validada es la utilizada en
el SMPY (Study of Mathematical Precocius Youth), un ambicioso proyecto
iniciado en 1971 en la Universidad John Hopkins, cuyo objetivo inicial fue
identificar y suministrar recursos educativos adecuados a los jóvenes talentos
matemáticos. Este objetivo se ha ampliado y, en la actualidad, se denomina
Talent Search e incluye el diagnóstico del talento verbal y espacial así como la

127
utilización de inventarios de intereses y valores como herramientas adiciona-
les a los tests de aptitudes (Lubinski, 2003). En este programa se identifican
estudiantes muy talentosos de séptimo año y octavo año (12-13 años) uti-
lizando las escalas SAT-V (Aptitud Verbal) y SAT-M (Aptitud Matemática)
para ingresantes a la universidad (17 años). La utilización de test apropiados
para un nivel de edad superior se justifica en el hecho que los tests utilizados
en esas edades no discriminan adecuadamente en los niveles superiores del
rango de aptitudes (efecto celling).
Esos adolescentes identificados como talentosos son incluidos en clases
avanzadas de Matemática o Lengua correspondientes a los años finales del
secundario (high school). Se estima que un adolescente de 12 años que ha
obtenido una puntuación de 500 o superior en el SAT-V o SAT-M (rango de
puntajes 200-800) puede asimilar un curso completo de secundario superior
(Inglés o Matemática, por ejemplo) en tres semanas asistiendo a un programa
de verano para jóvenes talentosos.
Mediante investigación longitudinal de calidad se demostró que la ma-
yor parte de los estudiantes identificados como talentosos mediante el Talent
Search alcanzan logros académicos destacados. Un estudio de seguimiento de
una de las cohortes del programa durante 20 años demostró que el 25% de
los adolescentes con puntuaciones de 500 o superiores en el SAT obtuvo un
doctorado. Teniendo en cuenta que la tasa de doctorados en USA es del 1% el
éxito de este proceso de identificación es realmente notable (Lubinski, 2003).
El programa incluye actualmente técnicas para evaluar las aptitudes espacia-
les. En efecto, las mismas son relevantes para el arte, la ciencia y la ingeniería
pero los jóvenes que las poseen en alto grado no están adecuadamente repre-
sentados cuando se emplean solamente tests de aptitud verbal o cuantitativa
en el proceso de identificación.
Pfeiffer y Jarosewich (2003) proponen utilizar en primer lugar las es-
calas de calificación del talento por parte de docentes, que revisaremos más
adelante. Un conjunto inicial de niños es seleccionado según los puntos de
corte establecidos en los estudios normativos de cada escala; en la Gifted Ra-
ting Scales (Pfeiffer y Jarosewich, 2003), por ejemplo, una puntuación T de
60 (media 50, desviación estándar 10) indica una probabilidad moderada de
ser talentoso en alguna de las áreas medidas por este instrumento (liderazgo,
por ejemplo). Este grupo identificado es posteriormente evaluado con tests
de inteligencia y/o aptitudes utilizando los criterios previamente estableci-
dos por la investigación para cada instrumento (entre una y dos desviaciones
estándar por encima del promedio en el WISC-IV, por ejemplo). El empleo
de la puntuación total del test de inteligencia o de sus puntuaciones parciales
(comprensión verbal, por ejemplo) dependerá de la modalidad de oferta edu-
cativa para la cual se desee identificar a los estudiantes. Para un programa de
enriquecimiento en escritura creativa resultará pertinente utilizar medidas de

128
la aptitud verbal, por ejemplo (Stutler, 2011). Finalmente, puede emplearse
algún autoinforme que mida aspectos motivacionales (inventarios de inte-
reses, escalas de autoeficacia, etc.) de los estudiantes antes de su inclusión
en programas de enriquecimiento o aceleración pertinentes para sus talentos
específicos.
Existen numerosas herramientas de identificación, tanto de tipo formal
(tests y escalas) como de carácter informal (portfolio, por ejemplo). Aquí se
describen tres tipos de instrumentos formales (estandarizados) muy utiliza-
dos en el proceso de identificación del talento: tests de inteligencia y aptitu-
des, escalas de calificación del talento por parte de docentes, y autoinformes.
Brindar un panorama exhaustivo de estas categorías de pruebas psicológicas
resulta imposible en este contexto; por consiguiente, nos concentraremos en
las pruebas más utilizadas e investigadas en el área de la dotación y en algunos
instrumentos construidos o adaptados en Argentina.

Tests de Inteligencia y Aptitudes


Los tests de inteligencia y aptitudes constituyen el recurso más emplea-
do para la identificación de los niños y adolescentes talentosos, aunque no
existe consenso respecto a su real alcance. Algunos autores defienden el rol
prioritario de estos tests en la identificación del talento (Gagné, 2003; Lu-
binski, 2003) mientras otros creen que su utilidad se limita al conjunto de
destrezas requeridas para el éxito académico, tales como las inteligencias ana-
lítica (Stenberg, 1985) o lingüística y lógico-matemática (Gardner, 1994).
Existe una cantidad intimidante de pruebas que miden aptitud cognitiva ge-
neral (g), tales como el test de Matrices Progresivas de Raven, y/o aptitudes
específicas, tales como el Test de Habilidades Cognitivas (Cog-AT). En esta
revisión sintética nos focalizaremos en dos instrumentos prestigiosos y de am-
plio uso en nuestro medio: el WISC-IV (Wechsler, 2003) y el Test de Aptitu-
des Diferenciales (DAT-5; Bennet, Seashore y Wesman, 2000).
Las escalas Wechsler de inteligencia para niños (WISC-IV, Wechsler,
2003) posee 10 subtests principales, cinco complementarios y cuatro índi-
ces. Los subtests principales son Semejanzas, Vocabulario, Comprensión, Cu-
bos, Conceptos, Matrices, Dígitos, Letras y Números, Claves, y Búsqueda de
Símbolos. Los tests complementarios son Información, Adivinanzas, Figuras
Incompletas, Aritmética y Animales. Los cuatro índices obtenidos mediante
análisis factorial que reemplazan a las antiguas dimensiones Verbal y Ejecu-
ción son: Comprensión Verbal, Razonamiento Perceptivo, Memoria de Tra-
bajo y Velocidad de Procesamiento. Naturalmente, también suministra una
estimación de la inteligencia general (g).
Este test permite una evaluación integral de las capacidades cognitivas
de los niños y adolescentes entre 6 y 17 años. Es de aplicación individual

129
y su administración completa requiere una sesión de aproximadamente dos
horas de duración. Las propiedades psicométricas del test en lo referente a
confiabilidad en sus diferentes dimensiones, estructura interna y validez ex-
terna son excelentes. Es uno de los instrumentos más utilizados en el mundo
para identificar estudiantes talentosos y los índices de Comprensión Verbal y
Razonamiento Perceptivo son excelentes indicadores para esa finalidad. En la
muestra de estandarización original del WISC-IV, el grupo identificado como
dotado intelectualmente obtuvo un Puntaje Total promedio de 123.5, un
valor de 124.7 en el índice de Comprensión Verbal, y de 123.5 en el índice
de Razonamiento Perceptivo (Wechsler, 2003). La muestra control de com-
paración obtuvo puntuaciones de 106.7, 106.6 y 105.6 en el Indice General,
Comprensión Verbal y Razonamiento Perceptivo, respectivamente. La inves-
tigación ha demostrado que los subtests más útiles para identificar talento son
los de Vocabulario, Semejanzas, Comprensión, Matrices, Cubos y Conceptos
(Flanagan y Kaufman, 2004). Puede concluirse que el WISC-IV es una medi-
da excelente de inteligencia genera, aptitud verbal, memoria y aptitud espacial
pero no mide otras aptitudes específicas relevantes (de liderazgo, psicomoto-
ras o musicales, por ejemplo) y, por consiguiente, no debe utilizarse como
herramienta única de identificación del talento.
Otro test de aptitudes muy utilizado en nuestro medio (particularmen-
te en el ámbito de la orientación vocacional y selección de personal) es el Tests
de Aptitudes Diferenciales (DAT-5; Bennet, Seashore y Wesman, 2000). El
DAT-5 fue diseñado para medir las aptitudes de aprendizaje en ocho áreas:
Razonamiento Abstracto, Rapidez y Exactitud Perceptiva, Relaciones Espa-
ciales, Ortografía, Razonamiento Mecánico, Uso del Lenguaje, Razonamien-
to Verbal y Razonamiento Numérico. Las puntuaciones combinadas de Ra-
zonamiento Verbal y Numérico pueden utilizarse para generar un índice de
aptitud académica general.
El DAT-5 se presenta en dos versiones, una para adolescentes que cur-
san séptimo a noveno año (12-14 años) y otra para adolescentes que cursan
décimo a duodécimo (15-17 años). Es un test de administración colectiva y
se sugiere aplicarlo en una sesión de dos horas o dos sesiones de una hora de
duración cada una. Puede administrarse de manera completa o utilizando
solo algunos de sus subtests, según las finalidades de evaluación.
Las propiedades de confiabilidad (consistencia interna y estabilidad) y
de validez predictiva en relación a rendimiento académico (particularmente
su puntaje combinado general) son meritorias pero se ha criticado la escasa
validación de la estructura interna del test y la falta de conexión del mismo
con las teorías contemporáneas de la inteligencia y las aptitudes cognitivas
(Kline, 2000). En el ámbito del talento es un instrumento menos utilizado e
investigado que el WISC-IV. No obstante, algunas investigaciones recientes
(Lubinski, 2003) han demostrado que el puntaje combinado de Razonamien-

130
to Mecánico y Relaciones Espaciales es un excelente predictor de la aptitud
para la ciencia y la ingeniería y puede utilizarse con confianza durante la iden-
tificación de estudiantes dotados en esa área.

Escalas de Calificación del Talento


Existe consenso entre los investigadores respecto a la necesidad de em-
plear criterios múltiples para identificar la mayor cantidad posible de estudian-
tes talentosos (Renzulli & Reis, 1997; VanTassel-Baska, Johnson, & Avery,
2002). Si bien las medidas de inteligencia y aptitudes son indispensables y se
utilizan en casi todos los programas de identificación, no miden el espectro
total de talentos. La literatura sugiere que cuando se presentan criterios de
clasificación claros los educadores identifican adecuadamente a los estudian-
tes talentosos de sus cursos (Renzulli, Del Siegle, Reis, Gavin y Sytsma Reed,
2009). Centenares de miles de estudiantes son considerados anualmente para
programas educativos especiales en todo el mundo. Los niños despliegan
talentos académicos, artísticos, interpersonales, deportivos y de toda índole.
Identificar diferentes tipos de talentos es una de las tareas más desafiantes e
importantes para asegurar que todos los estudiantes talentosos reciban los
recursos y servicios educativos especiales que requieren para actualizar su po-
tencial. Es necesario contar con herramientas confiables de identificación que
complementen la evaluación realizada con los tests de inteligencia e incluyan
otras dimensiones del talento (Pfeiffer y Jarosewich, 2003).
Varios estudios examinaron las propiedades psicométricas de las escalas
de calificación del talento por parte de docentes y los resultados obtenidos
apoyan la validez y confiabilidad de este tipo de herramientas auxiliares de
identificación (Matthews, 2007). Se han desarrollado diferentes escalas de
clasificación que suministran información valiosa acerca de cada estudiante.
Recientemente iniciamos el proceso de adaptación de las escalas Gifted
Rating Scales-School Form (GRS-S; Pfeiffer y Jarosewich, 2003) a la pobla-
ción estudiantil de Argentina. La Gifted Rating Scale se utiliza para identi-
ficar estudiantes desde jardín de infantes a secundario e incluye dos formas:
escolar (GRS-S) y preescolar (GRS-P), así como seis subescalas: Habilidad
Intelectual, Habilidad Académica, Creatividad, Talento Artístico, Liderazgo
y Motivación. Estas áreas de talento han sido seleccionadas en función del
modelo Marland (Ross, 1993) del talento, adoptado por la mayoría de los
estados de los E.E.U.U. La GRS incluye 72 ítems (12 por escala) y cada edu-
cador debe clasificar a los niños de su aula como bajo el promedio, promedio
o sobre el promedio en cada ítem, comparando su desempeño en esa actividad
con los estudiantes de su mismo grado.
Los autores han utilizado procedimientos rigurosos de construcción y
validación y las escalas están bien estandarizadas. La GRS en su versión origi-

131
nal reune diferentes evidencias de validez, tales como basadas en la estructura
interna utilizando análisis factorial confirmatorio, así como convergente-dis-
criminante en relación a otros tests y escalas que miden constructos semejan-
tes (WISC-IV, SRBCSS, Torrance Tests of Creative Thinking), y relacionada
con criterio comparando el desempeño de estudiantes identificados como
dotados y no dotados en las seis escalas de la GRS-S. La confiabilidad de la
GRS-S fue examinada en las dimensiones de consistencia interna (rango del
coeficiente alfa de Cronbach entre .97 y .99), estabilidad (rango del coeficien-
te r test-retest entre .79 y .97) y confiabilidad interexaminadores (rango del
coeficiente de correlación intraclase entre .62 y .80). La estandarización de la
GRS fue realizada en una muestra de 600 niños de Estados Unidos, estrati-
ficada en lo referente a edad, etnia y nivel educativo de los padres, conside-
rando el censo nacional de U.S. Para interpretar los resultados de la GRS-S el
puntaje total de cada escala es convertido en una puntuación T con media de
50 y desviación estándar de 10. Se presentan baremos diferenciados en ocho
bandas de edad entre 6 y 13.11 años.
Este instrumento ha sido adaptado a diversas culturas y lenguajes en
el mundo (Pfeiffer y Jarosewich, 2003). En particular resulta relevante un
estudio transcultural que suministró evidencias de invarianza factorial de la
GRS-S utilizando análisis factorial confirmatorio en muestras de cinco países:
Estados Unidos, Puerto Rico, China, Corea del Sur y Turquía. Adicionalmen-
te, todas las escalas presentaron elevada consistencia interna y fuertes correla-
ciones entre sí. La validez de criterio del instrumento respecto al rendimiento
académico de los estudiantes es satisfactoria aunque el poder de predicción
diferencial de las escalas resultó escaso, lo que hace pensar en que un modelo
alternativo con un factor general (g?) de segundo orden podría contrastarse y
comparar sus índices de ajuste con el modelo original de seis factores correla-
cionados pero relativamente independientes. Este argumento también se jus-
tifica en las elevadas intercorrelaciones que presentan las diferentes subescalas.
Los resultados preliminares que obtuvimos en nuestro medio son muy seme-
jantes a los originales (Pérez et al., 2012). Otra hipótesis para explicar este
pobre poder predictivo diferencial (fundamental en el área de la identificación
del talento) serían un posible sesgo en la evaluación realizada por los docentes.
En síntesis, las escalas de calificación pueden ser de utilidad aunque en
ocasiones el entorno escolar no facilita el despliegue de los diferentes talentos
de los estudiantes y los educadores tienden a evaluar de modo muy general a
sus estudiantes, sin poder discriminar adecuadamente entre talentos académi-
cos y no académicos. Por otra parte, no resulta una tarea sencilla la observación
detallada que exigen estas escalas en las condiciones frecuentes de enseñanza
en nuestro medio (grupos muy numerosos de estudiantes, docentes mal re-
munerados, etc.). Por este motivo, deberían utilizarse como una herramienta
secundaria de identificación del talento, interpretando sus resultados como

132
un complemento de la información suministrada por los otros instrumentos
de observación (portfolios de desempeño, tests de aptitudes, autoinformes).

Autoinformes
Como hemos expresado anteriormente, existe acuerdo entre los investi-
gadores respecto a que el proceso de identificación del talento debe realizarse
utilizando diferentes estrategias de evaluación (Gagné, 2003; Lubinski, 2003,
Renzulli et al, 2009). Sin instrumentos con esas características un número
considerable de niños talentosos podrían no ser identificados (error de me-
dición tipo II), o podrían incluirse erróneamente a niños sin talentos espe-
ciales en programas educativos para superdotados (error tipo I) (Pfeiffer y
Jarosewich, 2003). Específicamente, las escalas de autoevaluación (autoinfor-
mes) de habilidades, autoeficacia y/o intereses vocacionales pueden facilitar
la identificación de estudiantes talentosos en dominios no contemplados por
los tests de aptitudes, tales como destrezas sociales, atléticas o artísticas. Los
autoinformes poseen limitaciones importantes: no permiten evaluar niños pe-
queños y, por otra parte, los examinados pueden subestimar o sobreestimar
sus competencias y/o preferencias de manera consciente o involuntaria. No
obstante, la ciencia psicológica no ha generado hasta el presente otro método
igualmente económico y confiable para evaluar los aspectos motivacionales
del talento. Como en el caso de los tests de aptitudes y las escalas de clasifi-
cación del talento, los autoinformes nunca deben ser el único elemento de
identificación, sino que deben integrarse en una batería de medidas.
Chan (2001) desarrolló el Perfil de Inteligencias Múltiples del Estu-
diante (SMIP), un autoinforme que mide habilidades autopercibidas e inte-
reses relacionados con las inteligencias múltiples y se utiliza con la finalidad
de identificar niños y adolescentes talentosos en Hong Kong. Este autor (op.
cit) informó que el SMIP posee propiedades psicométricas satisfactorias en
muestras de estudiantes identificados como talentosos, incluyendo una es-
tructura factorial clara verificada por métodos exploratorios y confirmatorios,
moderada consistencia interna (α = .64 a .76) y correlaciones significativas
con variables externas, tales como aptitudes musicales, razonamiento no ver-
bal y liderazgo.
En nuestro contexto, Pérez (2001) construyó un Inventario de Auto-
eficacia para Inteligencias Múltiples (IAMI), basándose en la teoría de las
intelgencias múltiples (Gardner, 1999) y en la teoría social-cognitiva (Bandu-
ra, 1997). El IAMI se utiliza en procesos de orientación para la elección de
carrera con adolescentes (Fogliatto y Pérez, 2003), y posee propiedades psi-
cométricas aceptables de estabilidad, consistencia interna, validez de criterio
en relación a rendimiento académico y metas de elección de carrera, y validez
factorial, en este último caso utilizando tanto métodos exploratorios como

133
confirmatorios (Pérez y Cupani, 2008; Pérez y Medrano, 2007). El IAMI en
su versión revisada (IAMI-R) ha sido adaptado a la población estudiantil de
Italia (Lodi, Pérez, Petrucelli y Medrano, 2009) y actualmente se investiga
su utilidad para la identificación de adolescentes talentosos de la población
chilena (M. C. García, comunicación personal, Septiembre 20 de 2016). En
la siguiente tabla se presentan las instrucciones de administración y algunos
ítems del instrumento.

Otras escalas de comportamiento típico empleadas en la detección del


talento son las que miden intereses. Renzulli (2003) desarrolló un inventario
que mide 10 áreas de intereses académicos y ocupacionales (Drama, Escritura
Creativa, Matemática, Administración de Negocios, Atletismo, Historia, Ser-
vicio Social, Artes Plásticas, Ciencia y Tecnología), el Interest-A-Lyzer, dispo-

134
nible en tres niveles (Primario, Elemental y Secundario). La interpretación de
los resultados del Interest-A-Lyzer permite tomar decisiones adecuadas para
el desarrollo del talento, tales como el tipo de oportunidades de aceleración o
enriquecimiento que se van a recomendar y/o suministrar a cada estudiante
talentoso.
Achter, Lubinski, Benbow y Eftekhari- Sanjani (1999) demostraron que
la utilización de inventarios de intereses vocacionales incrementa la validez de
los tests de aptitudes para identificar perfiles de talento verbal, numérico y
espacial y predecir diferentes indicadores de logro académico.
Los descubrimientos que comentamos más adelante con relación a es-
tudios de seguimiento de individuos muy destacados en sus campos de activi-
dad (Bloom, 1985) así como las teorías prominentes del desarrollo del talento
(Renzulli, 2003; Gagné, 2003) enfatizan el rol de factores de personalidad ta-
les como responsabilidad, perseverancia o compromiso con la tarea. En este
sentido los tests que miden esos rasgos de personalidad (NEO, por ejemplo)
pueden ser de ayuda en la tarea de identificación del talento. Este es un tema
que requiere investigación futura.
En este apartado revisamos sintéticamente algunos instrumentos de uso
frecuente y con propiedades psicométricas adecuadas que se emplean para
identificar estudiantes talentosos. El proceso de identificación de la dotación
y/o el talento tiene sentido cuando se poseen programas educativos adecuados
para niños y adolescentes talentosos. Por consiguiente, el psicólogo especiali-
zado en esta área de la psicología educacional deberá escoger las herramientas
adecuadas para identificar individuos que luego serán incluidos en programas
de enriquecimiento o aceleración.
El método de aceleración consiste en colocar al niño talentoso en algún
curso más avanzado, teniendo en cuenta sus capacidades y no su edad (Sán-
chez Manzano, 1997). En los Estados Unidos existen varias alternativas de
aceleración de la currícula, tales como: a) currícula compactada, que permite
saltear los contenidos y materias que los estudiantes ya dominan, b) escolari-
dad acortada, la cual permite hacer tres cursos en dos, por ejemplo, c) acele-
ración temática en una o más áreas determinadas, Matemática o Inglés, por
ejemplo, d) admisión temprana en la universidad, antes de haber concluido la
educación secundaria, entre otras.
La estrategia de enriquecimiento proporciona al estudiante talentoso
oportunidades de aprendizaje extraescolar que no están disponibles en la edu-
cación regular (Sánchez Manzano, 1997). El enriquecimiento se puede llevar
a cabo en el contexto escolar, con las adecuaciones necesarias de la currícula,
o de manera extracurricular, con programas de fines de semana o de vacacio-
nes de verano ofrecidos por las universidades, por ejemplo.
Estudios longitudinales con individuos que alcanzaron grandes logros
en sus campos de actividad (neurología, natación o intérprete musical, por

135
ejemplo) demuestran que la práctica intensiva, tiempo de aprendizaje y apo-
yo social requerido es realmente considerable y excede el marco de las tareas
escolares o los cursos de verano (Bloom, 1985). Estos hallazgos nos exigen
prudencia respecto a los resultados esperados en los programas de enrique-
cimiento y destaca el rol de los factores motivacionales y de personalidad
(perseverancia, compromiso con la tarea) y del contexto social (hogar, escuela,
expertos en el vecindario o la región) más allá de la contribución necesaria
de las aptitudes para el desarrollo del talento (Renzulli, 2003; Gagné, 2003).
Nadie se destaca en un campo de actividad humana de cualquier índole con
un semestre de cursos realizados, dentro o fuera de la escuela, por más que los
mismos sean de alta calidad.
En el contexto de Sudamérica el país más avanzado en lo referente a la
organización de recursos educativos para el joven talentoso es Chile (Benaví-
dez, Maz, Castro y Blanco, 2004). Uno de los programas pioneros comenzó
en el año 1993, en la Facultad de Matemáticas de la Pontificia Universidad
Católica, y tuvo como objetivo detectar a niños de nueve y diez años con
habilidades matemáticas elevadas, para ofrecerles una educación complemen-
taria. A los estudiantes seleccionados se les ofrecieron cursos avanzados de ma-
temáticas especialmente diseñados por especialistas en la materia, tales como
Algebra, algunos de ellos complementados con la utilización de un software
matemático (Benavídez, 2001).
Basándose en la experiencia anterior se implementó, a partir del año
2001, el Programa para Niños con Talentos Académicos (PENTA), cuyo ob-
jetivo es identificar a niños y jóvenes que posean talentos académicos sobre-
salientes, para ofrecerles un conjunto de servicios educacionales de excelencia
que sean complementarios a las experiencias de aprendizaje que les brinda el
sistema escolar regular, tales como cursos científicos, humanistas e interdisci-
plinarios. A diferencia del programa inicial para talentos matemáticos, la ofer-
ta curricular ofrecida en PENTA no se reduce a un campo de conocimiento,
sino que ayuda al alumno a desarrollar su potencial en varias áreas. La aplica-
ción sistemática de estos programas ha tenido repercusión en el ámbito edu-
cativo, generando pasantías de perfeccionamiento para docentes y seminarios
vinculados con la educación de niños con talento. Actualmente, la Pontificia
Universidad Católica de Chile ofrece un diplomado en Talento y Superdo-
tación que puede cursarse de manera semipresencial y es de duración anual.
En nuestro medio, durante dos años implementamos un programa de
enriquecimiento para niños con talento verbal, el “Taller de Escritores”, en
una escuela privada de la ciudad de Unquillo, (Pérez, Lescano y Medrano,
2012). El taller de escritores (Calkins, 1994) es un enfoque de instrucción
que enfatiza el aprendizaje del proceso de escritura (planificación, composi-
ción, revisión, publicación). Se evaluó la efectividad del programa utilizando
un diseño cuasiexperimental pre-post de grupo único con el programa de in-

136
tervención operando como variable independiente y la calidad de la escritura
como variable dependiente. Por tratarse de una muestra pequeña y haberse
empleado una medida de tipo ordinal, se utilizó la prueba no paramétrica
de Wilcoxon para medir el efecto del programa. A los fines de analizar los
resultados obtenidos en ambos estudios, uno en cada año, se utilizó el test
combinado de Stouffer (Cortada de Cohan, Macbeth y López Alonso, 2008).
Este estadístico permite evaluar conjuntamente una serie de pruebas diferen-
tes que contrastan de manera independiente la misma hipótesis, en este caso
el impacto de la intervención sobre la calidad de la escritura. El valor del test
de Stouffer fue estadísticamente significativo (Zc=2.18, p<.05), con un tama-
ño del efecto moderado (delta -.40). Estos datos sugieren que los resultados
conjuntos obtenidos por pruebas independientes apoyan la efectividad de la
intervención.
Por otra parte, el análisis de una encuesta administrada al final de la
experiencia indicó que los participantes evaluaron el taller como muy útil
(66%) o útil (34%), y que las actividades específicas percibidas como más
provechosas fueron: un experimento de imaginación guiada para escribir
poesía, mini-lecciones sobre la estructura de los géneros literarios, aprender
nuevas técnicas de escritura, compartir los textos propios con los demás parti-
cipantes y analizar las obras de autores consagrados. Una de las participantes
ganó el premio anual de poesía del colegio, con un poema trabajado en el
taller. Estos hallazgos promisorios del programa piloto deberían confirmarse
con un diseño más riguroso.

5. Evaluación de las Emociones Académicas

La ansiedad ante los exámenes (AE) fue la primera emoción en el cam-


po de las emociones académicas que recibió amplia atención de los investi-
gadores y desde el inicio el progreso de la investigación en AE estuvo estre-
chamente relacionado con los avances en el desarrollo de los instrumentos de
autoinforme. En los últimos quince años, los investigadores han comenzado
a desarrollar instrumentos que miden otras emociones (tales como enojo,
aburrimiento) o formas de regular las emociones (afrontamiento del aburri-
miento o de la ansiedad). A continuación, se describe un panorama sucinto
sobre la evaluación de las emociones de estudiantes y docentes en contextos
académicos.

Cuestionarios de Ansiedad ante los exámenes


Las escalas multi-ítem son los instrumentos para la medición de la AE
más utilizados debido a que son fáciles de administrar, evidencian buenas
propiedades psicométricas (Zeiner, 1998), y permiten medir tanto las reac-

137
ciones emocionales habituales (AE-rasgo) como las reacciones emocionales
momentáneas (AE-estado). Las escalas de AE incluyen ítems que preguntan a
los estudiantes cuán frecuentemente o intensamente experimentan estas res-
puestas de ansiedad antes o durante los exámenes.
Brown (1938), al crear el primer cuestionario de AE, construyó un cues-
tionario de 70 ítems que medían indicadores afectivos, cognitivos, fisiológicos
y conductuales de ansiedad (e.g., ¿Estás nervioso antes de la evaluación?), con
respuestas provistas en una escala de frecuencia de 5 puntos (1 = siempre a 5
= nunca). Brown no estimó la confiabilidad del instrumento pero calculó las
correlaciones ítem-total (no corregida) y encontró que 58 ítems superaron el
punto de corte que estableció para su inclusión en el cuestionario (rit> .25).
Además, encontró que los puntajes medios de ansiedad difieren entre grupos
de estudiantes, aportando evidencia adicional para la validez del instrumento.
Varios instrumentos (e.g., Mandler & Sarason, 1952) han sido desa-
rrollados bajo la concepción de que la AE es un fenómeno uni-dimensional,
homogéneo. Con el avance en la investigación, se ha confirmado que es po-
sible distinguir entre dos componentes (afectivo-fisiológicos y cognitivos) de
la AE (Liebert & Morris, 1967) e, incluso, múltiples componentes (Hodapp
& Benson, 1997) han sido propuestos para refinar la medición de la faceta
cognitiva.

Múltiples emociones académicas


Aunque durante varias décadas la investigación sobre AE ocupó larga-
mente la agenda de trabajo de los investigadores, es un hecho que los estu-
diantes experimentan una gran variedad de emociones cuando se involucran
en contextos académicos clave, tales como al asistir a clase, estudiar y realizar
exámenes. Esto incluye por ejemplo, emociones como disfrute, curiosidad, es-
peranza, orgullo, frustración, o aburrimiento. Entre los instrumentos que mi-
den múltiples emociones se pueden mencionar al Cuestionario de Emociones
de Logro (AEQ, Pekrun, Goetz, Frenzel, Barchfeld, & Perry, 2011), las Escalas
de Emociones Epistémicas (EES, Frenzel et al., 2016), y el Cuestionario de
Emociones de Logro para Docentes (AEQ-Teachers, Frenzel et al., 2016).

Emociones de logro en estudiantes


Las emociones de logro se definen como las emociones relacionadas
con es de aprendizaje y con los resultados de estas actividades en típicas si-
tuaciones académicas. El AEQ (Pekrun et al., 2011) es un instrumento que
mide ocho emociones de los estudiantes universitarios para cada una de tres
situaciones académicas de logro: asistir a clase, estudiar, y realizar exámenes
(ver Tabla 1). Variando las instrucciones, el AEQ tiene la capacidad de eva-
luar reacciones emocionales generales en situaciones académicas (emociones

138
de logro-rasgo), reacciones emocionales en una materia o dominio específico
(emociones de logro-materia/dominio), o emociones en un punto específico
de tiempo (emociones de logro estado). En cada una de las tres secciones, los
ítems están ordenados en tres bloques y evalúan las experiencias emocionales
antes, durante y después de estar en las situaciones de logro indicadas por la
sección.

Escalas
Clase Estudio Evaluación
Emociones a Ítems a Ítems a Ítems
Disfrute .85 10 .78 10 .78 10
Esperanza .79 8 .77 6 .80 8
Orgullo .82 9 .75 6 .86 10
Alivio - - - - .77 6
Enojo .86 9 .86 9 .86 10
Ansiedad .86 12 .84 11 .92 12
Desesperanza .89 11 .86 11 .87 10
Vergüenza .90 10 .90 11 .92 11
Aburrimiento .93 11 .92 11 - -
* Coeficientes alfa para la versión en inglés del AEQ.
Tabla 1. Cuestionario de Emociones de Logro (AEQ): escalas y confiabilidad*.

El AEQ evalúa cuatro emociones positivas (disfrute, esperanza, orgullo


y alivio) y cinco emociones negativas (enojo, ansiedad, desesperanza, vergüen-
za y aburrimiento), contemplando la inclusión de los componentes afecti-
vo, motivacional, cognitivo y fisiológico de las emociones. Estas emociones
fueron elegidas en base a la relevancia teórica y la frecuencia informada por
los estudiantes (Pekrun et al., 2011). Pueden agruparse de acuerdo a las dos
dimensiones de valencia (positiva vs negativa) y activación (activadora vs des-
activadora). La combinación de las dos dimensiones ofrece cuatro categorías
de emociones. El AEQ representa las emociones de cada una de estas cuatro
categorías (positiva-activadora: disfrute, esperanza, orgullo; positiva-desacti-
vadora: alivio; negativa-activadora: enojo, ansiedad, vergüenza; negativa-des-
activadora: desesperanza, aburrimiento).
La confiabilidad de las escalas del AEQ, evaluadas mediante el coefi-
ciente alfa de Cronbach, varía de adecuada a muy buena. La validez estructu-
ral interna de las escalas ha sido analizada mediante análisis factorial confir-
matorio. Además, el AEQ ha demostrado ser predictivo de distintos aspectos
del proceso de aprendizaje y el logro académico (motivación, estrategias de
aprendizaje, rendimiento académico, tasas de deserción, entre otros).
El AEQ ha sido traducido a diferentes idiomas, tales como alemán
(Titz, 2001), árabe (Ismail, 2015), coreano (Kim & Lee, 2014), español (Sán-

139
chez-Rosas, 2015), filipino (King, 2010) y portugués (Peixoto, Mata, Mon-
teiro, Sanches, & Pekrun, 2015). Las versiones alternativas del AEQ miden
emociones de los estudiantes en dominios académicos específicos (e.g., AEQ-
Mathematics; Frenzel, Thrash, Pekrun, & Goetz, 2007) y en estudiantes de
nivel primario (AEQ-Elementary School; Lichtenfeld, Pekrun, Stupnisky,
Reiss, & Murayama, 2012).

Emociones epistémicas en estudiantes


Aunque las emociones de logro pueden ser importantes para el desa-
rrollo académico de los estudiantes, no todas las emociones que ocurren en
contextos académicos son emociones de logro. Específicamente, las emocio-
nes epistémicas son aquellas que se activan por las características cognitivas
de las actividades relacionadas con la generación de conocimiento (Brun,
Doğuoğlu, & Kuenzle, 2008). Los resultados empíricos apoyan la idea de
que estas emociones influyen considerablemente en la adquisición de conoci-
miento y el rendimiento (e.g. D’Mello, Lehman, Pekrun, & Graesser, 2014).
Pekrun, Vogl, Muis y Sinatra (2016) desarrollaron las Escalas de Emo-
ciones Epistémicas (EES), un instrumento que mide siete emociones episté-
micas durante el aprendizaje: sorpresa, curiosidad, disfrute, confusión, an-
siedad, frustración y aburrimiento. A las escalas se responde indicando cuán
intensamente se siente cada emoción (1 = nada a 5 = muy fuerte) y al variar
las instrucciones, se pueden evaluar las emociones epistémicas-estado durante
episodios de aprendizaje únicos o las emociones epistémicas-rasgo que ocu-
rren habitualmente durante el aprendizaje. Las escalas evidenciaron buenas
propiedades psicométricas mediantes estudios de confiabilidad, estructura in-
terna, invarianza factorial en diferentes muestras y validez test-criterio.

Emociones de logro en docentes


Aunque las emociones de los estudiantes han recibido bastante atención
por parte de los investigadores, es escasa la investigación sobre las emociones
que experimentan los docentes. Las emociones de los docentes son relevan-
tes no sólo por su propio bienestar sino también por el funcionamiento que
infunden a las aulas. Aunque el conocimiento sobre emociones docentes está
emergiendo, es poco el avance que se ha realizado en el desarrollo de instru-
mentos para su medición. Dos excepciones son las escalas que miden ansiedad
docente y el Cuestionario de Emociones de Logro para Docentes (AEQ-Tea-
chers) desarrollado por Frenzel et al. (2016).
Las escalas de ansiedad docente miden la ansiedad que los mismos ex-
perimentan al preparar sus clases, manejar la enseñanza en el aula e interac-
tuar con colegas y supervisores. Por ejemplo, la Escala de Ansiedad Docente
de Hart (1987) evalúa, mediante 26 ítems y cuatro escalas, la ansiedad por

140
ser evaluado, ansiedad por preocupaciones relacionadas con los estudiantes,
ansiedad por el control de la clase y ansiedad por los requerimientos de la
práctica docente.
El Cuestionario de Emociones de Logro para Docentes (AEQ-Teachers,
Frenzel et al., 2016) mide, mediante escalas de cuatro ítems, tres emocio-
nes frecuentes y relevantes en el contexto de la enseñanza: disfrute (Disfruto
de enseñar), enojo (Suelo tener razones para estar enojado cuando enseño),
ansiedad (Suelo sentirme tenso y nervioso mientras enseño). Basado en los
resultados de una muestra de 944 docentes, Frenzel et al. (2016) brindaron
evidencias de confiabilidad (consistencia interna) y validez interna mediante
análisis factorial confirmatorio. La validez test-criterio de las escalas se obtuvo
al demostrar relaciones teóricamente consistentes con afecto positivo y nega-
tivo, burnout, satisfacción laboral, autoeficacia y calidad instruccional de los
docentes.

6. Evaluación de la Calidad Instruccional Docente

La literatura especializada destaca el rol de la calidad instruccional do-


cente sobre la motivación, los procesos cognitivos, las emociones y el rendi-
miento de los estudiantes (Linnenbrink-Garcia, Patall, & Pekrun, 2016). La
calidad instruccional docente es entendida como los comportamientos del
docente que facilitan el aprendizaje y promueven un óptimo desarrollo afec-
tivo, motivacional, conductual y cognitivo de los estudiantes (Sánchez-Rosas
& Esquivel, 2016). La calidad instruccional docente es uno de los principales
factores modificables que influencian el desempeño de los estudiantes (Ha-
ttie, 2009). Por lo tanto, identificar su rol en el desarrollo de estos procesos
es una meta principal en orden a mejorar la formación de los docentes y el
aprendizaje de los estudiantes (Praetorius, Lenske, & Helmke, 2012). Especí-
ficamente, la evaluación de la calidad instruccional docente permite evaluar la
efectividad de programas de entrenamiento docente, realizar devoluciones a
los docentes sobre su trabajo y estudiar las relaciones de estos comportamien-
tos con otras variables como las emociones y la motivación académicas.
En la evaluación de la calidad instruccional docente se han empleado
encuestas, estudios de caso, etnografía, observación en el aula y experimentos
de laboratorio (Murray, 2001). Desde hace varios años y en diferentes países
del mundo, se han creado y adaptado diversas escalas auto-informadas para
estudiantes. Se describe a continuación los métodos de evaluación de la cali-
dad instruccional docente, se distingue entre comportamientos docentes de
alta y baja inferencia, y se describe un instrumento de evaluación de la calidad
instruccional docente, el Inventario de Comportamiento Docente (Murray,
1983).

141
Métodos de evaluación de la calidad instruccional docente
La evaluación docente basada en los puntajes de opinión de los estu-
diantes recolectados por cuestionarios es la estrategia de evaluación más uti-
lizada en todo el mundo. Si bien existen otros métodos (como la evaluación
por parte de pares, el rendimiento de los estudiantes, autoevaluación, eva-
luación por expertos, evaluación por superiores, evaluación por ex alumnos,
clima de clase, materiales elaborados, productividad investigadora, informes
de las notas y matriculados), los cuestionarios de evaluación parte de los es-
tudiantes tienen mucho mayor soporte empírico para justificar la validez de
sus resultados. Otras razones prácticas para su uso extendido es que se pueden
evaluar las respuestas de muchos estudiantes sobre una misma clase, son rela-
tivamente fáciles de implementar y de bajo costo para la obtención de datos
en grupos numerosos. Por esta razón, son a menudo el método preferido para
la evaluación de la calidad instruccional docente en la investigación educativa.

Comportamientos docentes de alta inferencia y baja inferencia


Los comportamientos de alta inferencia son rasgos globales, como Ex-
plica con claridad o Tiene una buena relación con sus alumnos. Los comporta-
mientos de baja inferencia reflejan comportamientos de enseñanza más espe-
cíficos y concretos, como Da varios ejemplos de cada concepto, Nombra a cada
estudiante por su nombre (Murray, 1999).
La evaluación de los comportamientos de baja inferencia presenta cier-
tas ventajas. En primer lugar, son relativamente fáciles de manipular o re-
gistrar con fines de investigación, y los investigadores son más propensos a
utilizar las definiciones operacionales consistentes de enseñanza cuando se
basan en comportamientos específicos y concretos. Esto se dificulta en el caso
de comportamientos donde existe una valoración más subjetiva, como en el
caso de los comportamientos de alta inferencia. En segundo lugar, presentan
mayor utilidad a la hora de dar un feedback a los docentes sobre su desempe-
ño. Por ejemplo, si un docente recibe una evaluación negativa respecto a su
desempeño y se trata de una valoración global y no de los comportamientos
específicos, éste se verá en la encrucijada de no saber qué es lo que está fallan-
do en su performance en el aula (Murray, 1983).

Instrumentos de evaluación de la calidad instruccional docente


Los programas de evaluación por estudiantes se introdujeron en Har-
vard, la Universidad de Washington, la Universidad de Purdue y la Univer-
sidad de Texas. Cook (1989) y Marsh (1987) señalan que la primera escala
diseñada para la evaluación docente por parte de sus alumnos fue la Pordue
Rating Scale of Instruction de Remmers, la cual fue publicada en 1927. A

142
partir de ese momento aparecieron cientos de instrumentos destinados a la
evaluación de la calidad instruccional docente.
En la práctica, los instrumentos de evaluación rara vez se utilizan para
informar a los profesores acerca de las áreas de instrucción que necesitan me-
jorar. Estas evaluaciones pueden servir a las instituciones encargadas de la pre-
paración docente para informarlos sobre las áreas de fortaleza y la debilidad
en la preparación de sus futuros docentes y así mejorar la calidad profesional.
Dentro de una amplia gama de instrumentos, el Inventario de Com-
portamiento Docente de Murray (1983) destaca como uno de los más apro-
piados para la medición de la calidad instruccional docente y posee ciertas
ventajas respecto a otros instrumentos. Mide comportamientos de baja in-
ferencia, lo que ayuda a distinguir los comportamientos efectivos de los que
no lo son. Los estudiantes son los evaluadores de dichos comportamientos,
proporcionado datos confiables. Se han realizado estudios experimentales con
este instrumento que avalan su validez y confiabilidad para medir la calidad
instruccional docente. Por último, a través de sus resultados se pueden imple-
mentar mejoras en el desempeño de los docentes en el aula.

Inventario de comportamiento docente


El Inventario de Comportamiento Docente es un instrumento de se-
senta ítems que evalúa desde la perspectiva estudiantil los comportamientos
claves de la enseñanza del docente que estarían relacionados a la enseñanza
efectiva y al aprendizaje de los estudiantes. Existen diferentes versiones del
Inventario de Comportamiento Docente. Los análisis factoriales realizados
sobre las diferentes versiones y en diferentes estudios evidenciaron diferentes
estructuras factoriales. Además, ha sido adaptado en diferentes países, siendo
la versión más reciente en población de estudiantes de Argentina (Sánchez-
Rosas, Esquivel, & Cara, 2016).
La versión más utilizada del Inventario de Comportamiento Docente
es la desarrollada por Murray (1983) que consta de 60 ítems, sobre los que
se aplicó un análisis factorial exploratorio (método ejes principales, rotación
varimax, factores con autovalores > 2, 69% de la varianza explicada, alfas de
.77 a .96). El análisis factorial obtuvo los siguientes ocho factores: 1) Cla-
ridad, métodos utilizados para explicar o aclarar conceptos y principios; 2)
Entusiasmo, uso del comportamiento no verbal para solicitar la atención del
estudiante y el interés; 3) Interacción, técnicas utilizadas para fomentar la par-
ticipación de los estudiantes en clase; 4) Organización, maneras de organizar o
estructurar la materia; 5) Ritmo, velocidad de presentación de la información,
el uso eficiente del tiempo de clase; 6) Divulgación, explicitación relativa a los
requisitos del cursado y los criterios de evaluación; 7) Discurso, características
de la voz relacionados con enseñanza en el aula, y, 8) Rapport, calidad de la in-

143
teracción entre el docente y los estudiantes. Cada categoría está comprendida
por varios ítems que se responden en una escala tipo likert de cinco puntos
para indicar la frecuencia del comportamiento en clase.
Basado en este inventario, Murray y Smith (1989) propusieron la ver-
sión feedback del Inventario de Comportamiento Docente que esencialmente
contiene los mismos 60 ítems pero con una escala de respuesta diferente. Los
estudiantes, en vez de puntuar la frecuencia de ocurrencia de los comporta-
mientos de enseñanza, puntúan cada comportamiento en una escala bipolar
de 5 puntos para indicar si, a los fines de mejorar la enseñanza, la frecuen-
cia de ocurrencia del comportamiento en cuestión necesita ser incrementada
(puntuación de +1 o +2), disminuida (puntuación de -1 o -2), o deber per-
manecer igual (puntuación de 0).
El Inventario de Comportamiento Docente combina herramientas des-
criptivas y evaluativas. Es descriptiva porque los ítems no requieren que el
analista (alumno o evaluador) evalúe la calidad de la instrucción sino simple-
mente si ocurre un comportamiento de enseñanza particular. Es evaluativa
porque los investigadores han encontrado que las categorías del Inventario de
Comportamiento Docente (por ejemplo, claridad, entusiasmo) suelen aso-
ciarse a la enseñanza efectiva.

Comentarios Finales

La posibilidad de estudiar, finalizar la escuela media y acceder a la uni-


versidad, probablemente constituya uno de los hechos más significativos y de
mayor impacto en la vida de las personas. Un amplio corpus de investigacio-
nes corrobora que el futuro laboral, la posibilidad de movilidad social ascen-
dente, el desarrollo personal y el acceso a una mayor calidad de vida dependen
en gran medida del inicio y la continuación de los estudios superiores (García
Fanelli y Jacinto, 2010).
La educación no es solo un derecho, es un elemento crítico para elevar
el capital humano y mejorar las condiciones de vida de la población. La equi-
dad en el acceso a la educación constituye un punto clave para el desarrollo
de una sociedad. Sin embargo, la idea de equidad es más que el acceso a los
recursos educativos, incluye también el logro de los resultados educativos.
Diversos estudios indican que un alto porcentaje de estudiantes comienza sus
estudios en la universidad, pero no logra finalizar su carrera (SITEAL, 2012;
Shih, 2011).

En este marco, las variables psicológicas cobran especial importancia ya


que afectan la manera en que el alumno transita por su formación académica.
Los psicólogos poseen un rol clave en la promoción del desarrollo académico y
el acceso equitativo a la educación, ya que el éxito académico depende de una

144
intrincada red de factores psicosociales. El adecuado uso de procedimientos
de evaluación psicológica puede contribuir a identificar los factores asociado
al bajo desempeño académico, monitorear estudiantes que presenten riesgo
de abandonar sus estudios, y evaluar innovaciones educativas que permitan
mejorar el proceso de enseñanza-aprendizaje. El uso ético y responsable de
estos procedimientos resulta un aliado estratégico para la labor del psicólogo
en este complejo campo de ejercicio profesional.

145
|
Evaluación Psicométrica en Psicología Clínica y
de la Salud
Leonardo Medrano, Luciana Moretti, Eugenia Griffoulière,
Lucas Lapuente y Ezequiel Flores Kanter

Introducción

Los procesos de evaluación y diagnóstico clínico son fundamentales


para el estudio de la psicopatología y el tratamiento de los trastornos mentales
(Duran y Barlow, 2007). La evaluación clínica consiste en una variedad de
herramientas y procedimientos que permiten al psicólogo adquirir la infor-
mación necesaria para conocer a sus pacientes y poder ayudarlos. Aunque
la entrevista sea la estrategia básica que dirige y organiza todo el proceso de
evaluación clínica, los test psicométricos constituyen una herramienta de con-
siderable valor y utilidad. Entre las funciones más importantes se destacan
(Muñoz-López et al., 2002): a) la detección (screening) de trastornos mentales,
existen instrumentos breves y de fácil aplicación que son lo suficientemente
sensibles como para detectar la existencia de síntomas y trastornos psicopato-
lógicos; b) el diagnóstico, algunos instrumentos recaban información necesaria
para determinar si el paciente cumple con los criterios diagnósticos de un
determinado trastorno, permitiendo examinar además la severidad del mis-
mo; c) información para la evaluación del cambio y los resultados terapéuticos,
quizás una de las principales ventajas de los test psicométricos es que permi-
ten analizar con mayor precisión los cambios ocurridos durante el proceso
terapéutico a los fines de valorar la eficacia del tratamiento; y d) contraste de
hipótesis, los test constituyen una fuente de información útil para contrastar
las hipótesis que el psicólogo clínico va formulando a partir de la interacción
con el paciente, obteniéndose información más fiable que si solo se utilizara
la entrevista.
Las ventajas que conlleva el uso de pruebas psicométricas a nivel clínico
ha llevado a una proliferación innecesaria de instrumentos, generando un
auténtico caos en esta área. Existen más de 1430 instrumentos de evaluación
clínica (Muñoz-López et al., 2002). En el presente capítulo se intenta ofrecer
un panorama de las principales pruebas que pueden utilizarse en un proceso
de evaluación clínica. Sin embargo, consideramos importante destacar una
vez más que la utilización de estos instrumentos no puede entenderse fuera de
un proceso de evaluación más amplio, que involucra diferentes fases y tareas,
y que no se limita solo a la administración de una prueba.

147
El uso de test psicométricos en el Proceso de Evaluación Clínica

La evaluación clínica involucra diferentes fases que van abordándose de


forma continua y dentro de un bucle de toma de decisiones que culmina con
la elaboración de hipótesis sobre los padecimientos del paciente y la elabora-
ción de un plan de tratamiento. Según Wolpe y Turkat (1985) la entrevista
constituye la técnica central que organiza y dirige el proceso de evaluación,
mientras que los instrumentos psicométricos constituyen herramientas de las
que el clínico dispone para apoyar la información obtenida en la entrevista,
identificar problemas, recoger información adicional, facilitar el diagnóstico
y contrastar hipótesis a partir de la convergencia o divergencia que se observe
entre los datos recabados por las pruebas y la entrevista.
Aunque la entrevista sea la técnica central, en un estudio meta-analíti-
co que incluyó más de 125 investigaciones (Meyer et al., 2001) se concluyó
que los psicólogos que solamente emplean entrevistas pierden informaciones
valiosas que entorpeen la comprensión de los problemas que aquejan a sus
pacientes. La utilización de diferentes métodos de evaluación facilita la adqui-
sición de información variada y única, haciendo imprescindible el uso de test
psicométricos como medidas complementarias de evaluación.
El proceso de evaluación clínica ha sido comparado con un embudo,
ya que el clínico comienza por un acercamiento molar donde se recaba in-
formación general sobre el amplio espectro de funcionamiento del paciente,
para ir avanzando hacia una visión molecular con el fin de comprender los
factores que generan y mantienen los problemas emocionales, psicológico e
interpersonales de cada paciente. En otras palabras, se parte de un abordaje
inicialmente nomotético (general) y paulatinamente la evaluación se va pre-
cisando hasta lograr una formulación idiográfica, es decir, que contemple las
características y circunstancias únicas de cada paciente (figura 1).

Figura 1. Proceso de Evaluación Clínica

148
De esta manera, el proceso de evaluación clínica se inicia con una des-
cripción general del estado del paciente y el establecimiento de las primeras
hipótesis diagnósticas. Con esta información se pueden establecer hipótesis
globales que permitan avanzar hacia una formulación clínica a partir de la
cual se pueda explicar el inicio, curso y mantenimiento de los problemas es-
pecíficos del paciente.
Tomando en consideración a Muñoz (2003), el proceso de evaluación
clínica involucra las siguientes fases: a) exploración inicial, b) evaluación para
el diagnóstico y severidad del trastorno, c) análisis funcional y formulación
del caso, y, d) diseño del tratamiento. Los test psicométricos resultan par-
ticularmente útiles para las dos primeras fases. En particular las pruebas de
detección o screening resultan útiles para la fase de exploración, mientras que
las pruebas de diagnóstico resultan más adecuadas para la segunda fase, donde
se establece un diagnóstico preliminar y se evalúa la severidad del trastorno.

Pruebas para la Detección de Trastornos Mentales

Cuando se realiza evaluación en psicología clínica es importante di-


ferenciar test de diagnóstico y test de detección o screening. Los prime-
ros intentan brindar al usuario una evaluación detallada y pormenorizada,
mientras que los segundos se usan para la detección de riesgo, brindando
solo una evaluación preliminar que posteriormente deberá profundizarse.
La utilidad de las pruebas de screening (también denominadas pruebas de
cribado o rastrillaje) es que son breves y altamente sensibles. Esto quiere
decir que reaccionan fácilmente ante mínimos indicadores de riesgo po-
tencial. Se trata de pruebas altamente sensibles que favorecen la detección
de “falsos positivos”, lo cual significa que aún personas que no posean un
trastorno o problema psicológico pueden ser evaluadas de manera positi-
va. Por ello para realizar un diagnóstico psicológico estas pruebas deben
ser siempre profundizadas por otros test diagnósticos y entrevistas psico-
lógicas que permitan confirmar los resultados iniciales o bien descartarlos.
En la actualidad, uno de los instrumentos de screening más utilizado
en el ámbito de atención primaria es el Patient Health Questionnaire (en
adelante, PHQ) debido a su brevedad, facilidad de aplicación y su sen-
sibilidad. El PHQ es una herramienta que fue desarrollada a partir de la
entrevista de atención primaria PRIME MD (Primary Care Evaluation of
Mental Disorders) que fue diseñada para establecer diagnósticos psico-
patológicos según los criterios del Manual Diagnóstico y Estadístico de
Trastornos Mentales (DSM) en su versión III –R y VI. Esta evaluación
se compone de dos partes: la primera de ellas consta de un cuestionario
autoadministrable para el paciente que evalúa la existencia de trastornos
emocionales comunes como los trastornos del estado de ánimo, trastornos

149
de ansiedad, alcoholismo, trastornos somatomorfos y de la conducta ali-
mentaria; la segunda, implica una guía de evaluación clínica que la debe
aplicar el profesional (Diez-Quevedo, Rangil, Sanchez-Planell, Kroenke,
y Spitzer, 2001).
Debido a la cantidad de tiempo que suponía administrar la guía y
la dificultad de algunos profesionales en la utilización de los algoritmos
necesarios para obtener los resultados, se desarrolló el PHQ el cual com-
bina ambos componentes en un cuestionario de autoreporte breve, rápido
e igual de eficaz (Diez–Quevedo et al., 2001; Spitzer y Kroenke, 1999).
Al tratarse de una versión breve auto-administrada que provee resultados
semejantes a los obtenidos por psicólogos clínicos, es que el PHQ consti-
tuye en la actualidad uno de los instrumentos de mayor uso tanto para fines
clínicos como de investigación (Kroenke y Spitzer, 2002).
El PHQ permite examinar la existencia de los desórdenes emociona-
les más prevalentes como son el trastorno depresivo mayor, el trastorno de
pánico, el trastorno de ansiedad generalizada, bulimia nerviosa y atraco-
nes así como también abuso o dependencia del alcohol (Diez-Quevedo et
al., 2001). El PHQ incluye diferentes conjuntos de ítems que permiten la
evaluación de los diferentes trastornos conformando módulos o subtests,
de los cuales el PHQ-9 (depresión), el GAD-7 (ansiedad generalizada) y el
PHQ-PD (trastorno de pánico), entre otros (Muñoz-Navarro, Cano-Vindel,
Medrano, Schmitz, 2017; Muñoz-Navarro et al., 2017).
La versión en inglés del PHQ ha sido analizada por numerosos es-
tudios internacionales que han demostrado validez y confiabilidad acep-
tables (Diez-Quevedo et al., 2001; Spitzer y Kroenke, 1999). Además, ha
sido traducido y analizado en más de 25 idiomas, por ejemplo, alemán,
italiano, francés, turco y sueco, entre otros.

Detección del trastorno depresivo mediante el PHQ-9


Para evaluar Trastornos Depresivos con el PH, se emplea la subescala
PHQ-9, la cual está compuesta por un set de nueve ítems que permiten rea-
lizar el diagnóstico provisional de depresión ya que están contemplados los
nueve criterios que utiliza el DSM-IV para el diagnóstico de episodio depre-
sivo (Kroenke y Spitzer, 2002; Wittkampf et al., 2009) los cuales no han sido
modificados en el DMS V (APA, 2013) Los 9 ítems del PHQ (tabla 1) evalúan
la presencia de los siguientes síntomas en las dos semanas anteriores de la vida
diaria de la persona: estado anímico deprimido, anhedonia, problemas del
sueño, sentimientos de cansancio, cambios en el apetito o peso, sentimientos
de culpa o de inutilidad, dificultad para concentrarse, sentimientos de len-
titud o preocupación e ideación suicida (Muñoz-Navarro et al., 2017). Una
respuesta positiva de 6 de los 9 reactivos correspondientes a la sub-escala de
Depresión (Escala PHQ-9) nos indica la presencia de un episodio depresivo.

150
Tabla 1. Ítems correspondientes al PHQ-9.

Este subtest es breve comparado con otros instrumentos de scree-


ning y ha demostrado la misma especificidad y sensibilidad, permitiendo
establecer el diagnóstico provisional de depresión y la severidad de los
síntomas depresivos (Kroenke et al., 2002). EL PHQ-9 ha sido evaluado
en diferentes meta-análisis y ha demostrado que puede ser aplicado de
modo sencillo y rápidamente en una amplia gama de contextos y disposi-
tivos, por ejemplo mediante el uso de computadoras (Muñoz-Navarro et
al, 2017). Su gran utilidad ha llevado a validar una versión aún menor, el
PHQ-2 que está compuesto por solo dos criterios que correponden a los
ítems 1 y 2 del PHQ-9 (“Poco interés o placer en hacer cosas”, “se ha
sentido decaído(a), deprimido(a) o sin esperanzas); en la versión PHQ-2,
un puntaje igual o mayor a 3 nos demuestra la posibilidad que haya un
trastorno depresivo mayor; los pacientes que obtienen un resultado posi-
tivo en la detección deben evaluarse con el PHQ-9, otros instrumentos de
diagnóstico o una entrevista directa para determinar si cumplen con los
criterios para un trastorno depresivo (Kroenke, Spitzer y Williams, 2003).
151
Detección del Trastorno de Ansiedad Generalizada mediante el GAD-7
En relación a la evaluación del Trastorno de Ansiedad Generalizada
(en adelante TAG), el PHQ incluye siete reactivos (subescala GAD-7) que
permiten evaluar ansiedad generalizada a partir de los criterios diagnósticos
del DSM-IV (Ver tabla 2). Al igual que la subescala de depresión los ítems
presentan una escala de Likert del 0 al 3 en el que el sujeto evaluado debe
responer a los síntomas de acuerdo a las últimas 2 semanas transcurridas.
El GAD-7 ha demostrado un adecuado funcionamiento en términos
de sensibilidad y especificidad para el diagnóstico de TAG y para evaluar la
severidad de los síntomas (García-Campayo et al., 2010; Spitzer, Kroenke,
Williams y Löwe, 2006); una respuesta positiva a 4 de los 7 reactivos corres-
pondientes a la sub-escala es suficiente para detectar TAG. Su brevedad y fácil
implementación posibilita estudios epidemiológicos y/ o encuestas remotas
sin la necesidad de la supervisión del clínico logrando ser una herramienta
válida y eficiente para implementar tanto en el ámbito clínico como en el
ámbito de investigación (Garcia Campayo et al, 2010; Spitzer y Kroenke ,
2006). Existe una versión computarizada de esta subescala que ha demostrado
ser una excelente herramienta de screening del TAG en el ámbito de Atención
Primaria de España (Muñoz-Navarro et al., 2017).

Tabla 2. Ítems correspondientes al GAD – 7.

152
Asimismo, el GAD-7 cuenta con una versión breve denominada GAD-
2. El GAD-2 está compuesto por los ítems 1 y 2 del original (“se ha sentido
nervioso(a), ansioso (a) o con los nervios de punta”; “No ha sido capaz de parar o
controlar su preocupación”). Estos ítems presentan propiedades aceptables para
identificar TAG, los puntajes del GAD-2 oscilan entre 0 y 6, un puntaje de
corte de 3 puntos o más es suficiente para constatar su presencia (Kroenke,
Spitzer, Monahan y Löwe, 207; Kroenke, Spitzer,Williams, Monahan y Löwe,
2007; Plummer, Manea, Trepel y McMillan, 2015).

Detección del Trastorno de Pánico (PHQ-PD)


En lo que respecta al Trastorno de Pánico (en adelante TP), el PHQ
incluye un set de reactivos que permite su diagnóstico (el PHQ-PD). El PHQ-
PD ha demostrado un adecuado funcionamiento en términos psicométricos.
La primer pregunta del PHQ-PD se utiliza como un instrumento de
screening válido para detectar TP ya que presenta las mejores propiedades
psicométricas (sensibilidad de .71) (ver tabla 3). (Wittkampf, Baas, Weert,
Lucassen y Schene, 2011). Investigadores destacan la brevedad y facilidad del
uso de la subescala así como el hecho de que no causa malestar emocional a los
pacientes durante su uso (Muñoz-Navarro et al., 2016). Esta escala se puede
utilizar en pacientes con enfermedades médicas que no presenten deterioro
cognitivo como el cáncer (Osório, Polidoro y Chagas, 2015).

Tabla 3. Fragmento del PHQ donde contiene los ítems correspondientes al PHQ –PD.

153
Con respecto a la interpretación del PHQ-PD solo basta una respues-
ta positiva de tres de los cinco reactivos correspondientes. De acuerdo a lo
planteado, el PHQ es una herramienta de gran utilidad en el ámbito clínico
e investigativo para detectar de manera rápida y eficaz los desórdenes emocio-
nales de los pacientes. Tanto el PHQ como las subescalas que lo componen
han demostrado sensibilidad y especificidad adecuadas para tal labor. Poder
acceder y saber utilizar estos elementos de screening es de gran utilidad para
el trabajo de los profesionales de la salud.

Pruebas para el Diagnóstico y evaluación de la Severidad de


Trastornos Mentales

Los test psicométricos constituyen la herramienta más utilizada para


determinar la intensidad de los síntomas, y para poder cuantificar los cambios
ocurridos tras una intervención terapéutica (Echeburúa, 1996). A continua-
ción, más que presentar un listado exhaustivo de pruebas psicométricas (algo
inabarcable y de dudosa utilidad), se han seleccionado las pruebas de mayor
uso en la evaluación de trastornos mentales comunes, haciendo especial hin-
capié en los trastornos de ansiedad, depresión y constructos relacionados.

Evaluación de los Trastornos de Ansiedad


La ansiedad es un estado emocional que aparece en circunstancias
normales de la vida y es indispensable para nuestra supervivencia (LeDoux,
2003). Cuando las personas anticipan algún tipo de consecuencia negativa o
amenazante, se pone en marcha un proceso de preparación para la acción a
partir de la activación de los sistemas cognitivo, fisiológico y conductual del
propio organismo (Cano-Vindel, 2004). Este estado de activación intenta op-
timizar la respuesta de la persona ante la situación. Sin embargo, no siempre
la respuesta emocional de ansiedad resulta adaptativa debido a que en ocasio-
nes suelen producirse a partir de evaluaciones erróneas o desproporcionadas
de la amenaza (Medrano, Moretti, Muñoz-Navarro y Cano-Vindel, 2017).
Cuando la percepción de amenaza se produce a niveles maximizados, se gene-
ran activaciones emocionales muy intensas que suelen producir deficiencias
en el en el funcionamiento psicosocial y ocasionar diversos problemas de sa-
lud (Cano-Vindel, Dongil-Collado, Salguero & Wood, 2011). Asimismo, la
cronificación de los estados ansiosos puede iniciar trastornos psicopatológicos
duraderos e incapacitantes más severos (Cano Vindel, 2011).
Los trastornos de ansiedad se encuentran entre las afecciones más pre-
valentes a nivel mundial. En términos generales refieren a la presencia de
un miedo o aprensión que no guarda proporción con la situación (DSM-V,
2016). Estos trastornos se caracterizan por un estado de ánimo negativo ca-

154
racterizados por síntomas corporales de tensión física y aprensión acerca del
futuro, que afectan la calidad de vida del paciente, sus relaciones sociales y
su funcionamiento cotidiano (por ejemplo, estudiar o trabajar). Dentro de
los trastornos de ansiedad más comunes se encuentran la fobia específica, la
agorafobia, el trastorno de pánico, la ansiedad social y el trastorno de ansiedad
generalizada.

Evaluación de Fobia Específica


El término fobia hace referencia a un temor excesivo y desproporcio-
nado en relación al peligro que supone una determinada situación u objeto.
El rasgo esencial de la fobia es que el miedo o la ansiedad se limita a un ob-
jeto concreto. Este miedo puede ser temor a sufrir daño por parte del objeto
temido, temor a una situación embarazosa o temor a las consecuencias de la
exposición al objeto temido. El DSM-V clasifica a las fobias en cinco tipos: a)
animales (arañas, insectos, perros, por ejemplo), b) entorno natural (alturas,
tormentas, agua), c) sangre-inyección-dolor (agujas, procedimientos quirúr-
gicos, d) situacional (avión, ascensor, sitios cerrados), e) otras (personajes dis-
frazados, por ejemplo).
Las fobias específicas se distinguen con bastante facilidad de las demás
entidades por la naturaleza focalizada de la ansiead, y porque la ansiedad des-
aparece cuando ya no está presente el estímulo fóbico. Es importante aclarar
que la fobia específica puede darse en más de un objeto o estímulo, especial-
mente si se encuentra dentro del mismo grupo fóbico.
Entre los inventarios más utilizados para evaluar fobias específicas se
encuentra el Inventario de Temores (FSS-III) desarrollado por Wolpe y Lang
(1964). Este inventario consta de 122 ítems y abarca diferentes situaciones
referidas a temores especficos. La persona debe indicar el malestar que le pro-
duce cada una de las situaciones propuestas utilizando una escala que oscila
desde 1 (“en absoluto”) hasta 5 (“muchísimo”). Estudios de análisis factorial
agrupan a los reactivos en cuatro dimensiones: 1) temor a animales pequeños,
2) temor a la muerte, al dolor físico y a intervenciones quirúrgicas, 3) temores
relacionados con la agresión, y 4) temores en situaciones interpersonales.

155

Otro inventario popular es el Cuestionario de Miedos (FQ) construido
por Marks y Mathews (1979). Este cuestionario ofrece medidas de agorafobia,
miedo a las heridas y miedo a las situaciones sociales. Los estudios psicomé-
tricos señalan que se trata de una prueba confiable en cuanto a su estabilidad
(estudios de test-retest con valores de .80), y que además ha demostrado ser
sensible a los cambios producidos por tratamientos cognitivo-conductuales
(Echeburúa, 1996).

156
Evaluación de la Agorafobia
Tradicionalmente la agorafobia ha sido definida como “el temor y evi-
tación por estar solo o en lugares públicos”. Las personas con agorafobia ex-
perimentan una ansiedad intensa en situaciones tales como usar el transporte
público, estar en espacios abiertos o en sitios cerrados, estar en una cola o
en medio de una multitud, o bien, estar solos y fuera de su casa. El miedo
marcado por estas situaciones lleva a que las personas que padecen agorafobia
eviten activamente este tipo de situaciones o bien requieran la presencia de un
acompañante (DSM-V, 2016).
Es común que la agorafobia se desarrolle en el curso de un trastorno de
pánico o como consecuencia de ataques de ansiedad, sin embargo, también
puede darse en ausencia de dicho trastorno. La agorafobia genera un deterioro
significativo a nivel social, laboral y en otras áreas importantes de funciona-
miento, afectando sustancialmente la calidad de vida de las personas que la
padecen.
El Inventario de Movilidad (MI, Chambles et al., 1985) es un instru-
mento que consta de 29 ítems que evalúan la severidad de la evitación con-

157
ductual. Este instrumento permite obtener un puntaje que diferencia cuando
la evitación se realiza de manera asilada o bien en compañía de otra persona.
Este es un aspecto de relevancia dado que el comportamiento del agorafóbico
puede diferir notablemente en estas dos circunstancias.
El investigador español Enrique Echeburúa ha desarrollado un Inventa-
rio de Agorafobia que incluye 69 ítems que evalúan diferentes respuestas de an-
siedad (motoras, fisiológicas y cognitivas) cuando la persona está sola o acom-
pañada en diferentes situaciones estimulares (por ejemplo, lugares públicos
o aglomeraciones). Los estudios psicométricos indican adecuados niveles de
consistencia interna (valores alfa superiores a .87), y estudios satisfactorios de
validez convergente con el cuestionario de miedos (Echeburúa et al., 1991).

Evaluación del Trastorno de Ansiedad Social o Fobia Social


Las personas que padecen este trastorno temen sentirse avergonzadas en
situaciones sociales tales como hablar en público o conocer gente nueva. Si bien
es normal que todas las personas experimentan cierta ansiedad o miedo a sentirse
avergonzado, se habla de un trastorno cuando dicha ansiedad le impide participar
en actividades que desea realizar o genera una afectación significativa en su calidad
de vida o funcionamiento psicosocial. Los síntomas principales son la evitación
de situaciones sociales, y el miedo a que lo humillen o avergüencen. La ansie-
dad social no se limita a interacciones sociales, también puede experimentarse al
ser observado por otros (por ejemplo, comiendo en un lugar público) o ejecutar
una conducta frente a terceros (por ejemplo, dar una charla, cantar o tocar un
instrumento).
Existe una amplia variedad de instrumentos para evaluar la severidad de la
ansiedad social. Una de las medidas más utilizadas es la Escala de Ansiedad y Evi-
tación Social (SAD) construida por Watson y Friend (1969). Esta escala consta de
28 reactivos relacionados con situaciones sociales diversas que indagan el malestar
subjetivo que experimenta la persona en cada situación. Utiliza una escala de res-
puesta dicotómica (verdadero o falso). Se ha establecido que valores superiores a
18-20 se asocian a un diagnóstico de ansiedad social.
Los mismos autores una Escala de miedo a la Evaluación Negativa (Watson y
Friend, 1969), la cual incluye 30 ítems relacionados con el temor a recibir críticas
negativas por parte de los demás. Este es un factor crucial en la ansiedad social,
dado que a diferencia de la fobia específica (donde el miedo se debe a la percepción
de una amenaza a la integridad física), lo que se ve amenazado es la autoestima por
la evaluación negativa por parte de terceros. La reducción del temor ala evaluación
negativa es el mejor predictor de mejoría terapéutica. Este instrumento cuenta
con estudios test-restest (valores de .78), y elevada consistencia interna (.94).
Otro instrumento de amplio uso es el Inventario de Ansiedad y Fobia So-
cial (SPAI; Turner, Beidel, Dancu y Stanley, 1989). Este instrumento consta

158
de 45 ítems que evalúan respuestas conductuales, fisiológicas y cognitivas de
ansiedad social. Las personas deben indicar la frecuencia con que experimen-
tan ansiedad en cada una de las situaciones propuestas. A diferencia de otros
instrumentos, este inventario posee una subescala de agorafobia (compuesta
por 13 ítems). El objetivo de la misma es determinar si el malestar social ex-
perimentado se debe a la percepción de sentirse encerrado o por temor a sufrir
un ataque de pánico. La escala cuenta con estudio de estabilidad, estudios de
validez discriminante y evidencias favorables de validez de criterio.

Evaluación del Trastorno de Ansiedad Generalizada


Este trastorno se caracteriza por un patrón de ansiedad y preocupación
persistente, frecuente y excesivo que no guarda relación con la repercusión del
suceso o circunstancia que lo origina (DSM-V, 2016). Las personas que lo
padecen experimentan síntomas tales como preocupación persistente e incon-
trolable, inquietud, dificultad para concentrarse, tensión muscular, irritabili-
dad y problemas de sueño. Es importante señalar que el trastorno de ansiedad

159
generalizada no es lo mismo que una preocupación nrmal. Para el diagnóstico
de este trastorno la preocupación debe ser intensa y excesiva, debiendo tener
una duración mínima de 6 meses. Además, dicha preocupación debe ser causa
de angustia y provocar un deterioro significativo en la vida de la persona.
Probablemente uno de los instrumentos de mayor uso para la evalua-
ción de este trastorno sea el Inventario de Preocupación (PSWQ; Meyer et
al., 1990). Aunque no examina de forma directa los síntomas de la ansiedad
generalizada, si evalúa el síntoma núcleo del trastorno, es decir, las preocupa-
ciones patológicas. Se trata de un instrumento breve (16 ítems) que examinan
el grado de preocupabilidad (por ejemplo, “todo el tiempo estoy preocupado
por algo”). Una amplia variedad de estudios realizados en población clínica y
general corroboran la validez de sus puntuaciones. Asimismo, los estudios de
confiabilidad indican adecuada estabilidad (.93) y consistencia interna (.95).

Evaluación de la Ansiedad General


También es habitual la utilización de instrumentos que permiten una
evaluación general de la ansiedad, sin delimitarla a alguno de los trastornos
de ansiedad anteriormente mencionados. Existe una amplia variedad de ins-
trumentos, los cuales parten de diferentes modelos conceptuales. Mientras

160
algunos se centran en modelos que se focalizan en el rasgo-estado de ansie-
dad (Cattell y Scheier, 1961), otros se centran en el componente situacional
(Mischel, 1968) o enfatizan la necesidad de un abordaje interactivo (Endler
y Magnunsson, 1974). Asimismo, ciertos modelos proponen una concepción
unitaria de la ansiedad, en contraposición a modelos multidimensionales que
proponen la consideración de respuesta cognitivas, fisiológicas y conductuales
(Lang, 1968).
Un instrumento de amplio uso es el Inventario de Ansiedad Estado-Rasgo,
(STAI; Spielberger, Gorsuch, y Lushene, 1970), el cual ha sido citado en más
de 14.000 estudios (Guillen- Riquelme & Buela-Casal, 2015) y cuenta con
más de 60 adaptaciones (Buela-Casal, Guillén-Riquelme & Seisdedos, 2011).
Las propiedades psicométricas del STAI, han sido examinadas en muestras
españolas y latinoamericanas, mostrando resultados favorables en cuanto a
la consistencia interna, estabilidad y validez de criterio (Guillén-Riquelme y
Buela-Casal, 2014).
Según Spielberger (1972) la ansiedad puede ser conceptualizada como
rasgo y estado. Mientras el estado de ansiedad refiere a un estado emocional
determinado por las circunstancias ambientales o la situación del momento,
el rasgo de ansiedad da cuenta de una respuesta afectiva que tiende a pre-
sentarse con independencia de la situación, más asociada a una característi-
ca de personalidad. Diversos estudios señalan que las personas con elevadas
puntuaciones en la escala de ansiedad-rasgo son más vulnerables al estrés y
responden más intensamente a una amplia variedad de situaciones peligrosas
y amenazantes.
El STAI evalúa la ansiedad estado y la ansiedad rasgo mediante 20 reac-
tivos para cada tipo de ansiedad. Utiliza una escala de respuesta tipo Likert de
cuatro alternativas. En el caso de la ansiedad estado, la escala va de 0 (Nada) a
3 (Mucho), mientras que en la ansiedad rasgo comprende de 0 (Casi nunca)
a 3 (Casi siempre). Tanto en la ansiedad rasgo como en la ansiedad estado,
un porcentaje de los reactivos está invertido y evalúa bienestar o ausencia de
ansiedad, mientras que el resto de los reactivos se refieren a la presencia de
ansiedad (Guillén-Riquelme y Buela-Casal, 2015).
En el contexto español, Miguel-Tobal y Cano-Vindel (1986; 1988;
1994) desarrollaron un inventario centrado específicamente en el modelo
interactivo y multidimensional de la ansiedad: el Inventario de Situaciones
y Respuestas de Ansiedad (ISRA). Estos autores proponen conceptualizar a la
ansiedad como una respuesta emocional compleja (ya que se expresa a través
de un patrón variable de respuestas cognitivas, fisiológicas y motoras) y que se
genera a partir de la interacción de factores individuales y situaciones especí-
ficas (Cano-Vindel y Miguel-Tobal, 1999).
El ISRA es el único instrumento que parte de un modelo interactivo,
desde el cual se deriva la hipótesis de congruencia o diferencial (Endler, 1977;

161
Endler y Kocovski, 2001). Según esta hipótesis existen cuatro rasgos o facetas
de ansiedad (de evaluación, interpersonal, física y ambigua), la intensidad de
una respuesta de ansiedad dependerá de la congruencia entre la faceta y la
situación concreta. De esta forma, es esperable que una persona con rasgos
de ansiedad interpersonal, experimente una mayor respuesta en situaciones
sociales y no en situaciones que impliquen un riesgo físico, como por ejem-
plo, subirse a un avión o ir al dentista. A partir de esta formulación el ISRA
examina cuatro factores de situaciones de ansiedad (de evaluación, interper-
sonales, fóbicas y de la vida cotidiana) que se corresponderían con las cuatro
facetas o rasgos de ansiedad propuestos por Endler (1977). Sumado a ello, el
ISRA examina las respuestas de ansiedad considerando el modelo multidi-
mensional de Lang (1968), que diferencia tres niveles de respuesta: 1) cogniti-
vo (pensamientos de preocupación e inseguridad, p.ej.); 2) motor (conductas
de agitación que interfieren, p.ej.), y 3) fisiológicos: (índices de activación del
sistema nervioso autónomo, p.ej.). Debido a la correlación observada entre las
sub-escalas, los autores proponen la existencia de un factor general de situa-
ciones de ansiedad, y un factor general de respuestas de ansiedad, los cuales se
obtienen de la sumatoria de las sub-escalas.
Diversos estudios psicométricos sustentan que el ISRA es un instrumen-
to útil, válido y confiable tanto en la práctica clínica, como en investigación. El
mismo cuenta con estudios de validez convergente (Miguel Tobal y Cano Vindel,
1986), ha demostrado adecuada capacidad de discriminación entre grupos con
diversos trastornos de ansiedad (Miguel-Tobal y Cano-Vindel, 1995) y ha resul-
tado útil para la valoración de los factores emocionales asociados a diversas pato-
logías en las que la ansiedad juega un papel destacado (Martínez-Sánchez et al.,
1995; Miguel-Tobal, Cano-Vindel, Casado,yEscalona, 1994; Pérez-Pareja, Borrás
y Palmer, 1994). Por otra parte, es sensible para la detección de cambios entre me-
diciones pre y post-tratamiento, siendo adecuado para la evaluación de la eficacia
de intervenciones psicoterapeúticas (Cano-Vindel y Miguel-Tobal, 1999).
Una versión abreviada del ISRA ha sido adaptada al contexto argentino
(Medrano, Moretti, Muñoz-Navarro y Cano-Vindel, 2017). Esta versión, deno-
minada ISRA-B, consta de 24 reactivos para evaluar “Respuestas” de ansiedad y
22 reactivos que evalúan los cuatro tipos de “Situaciones” de ansiedad del ISRA
original. Mediante análisis factorial confirmatorio se corroboró la estructura fac-
torial de la versión original. Además, se verificó la consistencia interna y se obtu-
vieron evidencias satisfactorias de validez externa. Como conclusión, las puntua-
ciones del ISRA-B son válidas y confiables para la evaluación de problemas de
ansiedad en población argentina.

162
Figura 2. Estructura Factorial del Inventario de Situaciones y Respuestas de Ansiedad (IS-
RA-B, adaptado de Medrano et al., 2017)

Evaluación de los Trastornos del Estado de Ánimo


Los trastornos del estado de ánimo son muy prevalentes y se asocian a
mortalidad prematura y suicidio. Los principales síndromes son la depresión
y la manía, caracterizados por alteraciones prominentes y prolongadas del
ánimo, normalmente incongruentes con la situación biográfica del paciente.
A lo largo de los años los trastornos del ánimo se han dividido y clasificado
de diferentes maneras. Si bien los síntomas fundamentales son el ánimo de-
primido, el ánimo elevado o la mezcla de ambos, existen una amplia variedad
de sub-tipos y especificaciones (por ejemplo, con características melancólicas,
atípicas, catatónicas, estacional, entre otras). En términos amplios se los pue-
de diferenciar en dos grandes agrupamientos: Trastorno Depresivo y Trastor-
no Bipolar.

Evaluación del Trastorno Depresivo


La depresión es un trastorno del estado de ánimo altamente incapa-
citante y que actualmente afecta a más de 350 millones de personas en el
mundo (Organización Mundial de la Salud, 2012). Según la OMS (2001) la
depresión es la primera causa de pérdida de años de buena salud por disca-

163
pacidad, y ocupa el primer lugar de prevalencia (10.4%) entre los trastornos
psiquiátricos graves.
Este trastorno se caracteriza por presentar síntomas tales como la tristeza,
pesimismo, perdida generalizada de interés, fatigabilidad, pérdida del apetito,
dificultades e inhibiciones laborales, cambios en el sueño, apetito y psicomo-
tricidad, disminución de la atención, concentración y capacidad para tomar
decisiones, pérdida de la confianza en sí mismo, sentimientos de inferioridad o
inutilidad y culpa, así como de desesperanza, y pensamientos de muerte recu-
rrentes con ideación, planeación y/o actos suicidas (Bas y Andrés, 1996).
La teoría de la depresión de Beck se considera una de las principales
representantes de las explicaciones cognitivas de la depresión. Esta teoría se
basa en un modelo de vulnerabilidad al estrés, en el que se activan esquemas
de pensamiento distorsionado que contribuyen a la forma negativa en que el
individuo percibe, codifica e interpreta de manera negativa la información
sobre sí mismo, sobre el mundo y sobre el futuro, lo cual inicia y mantiene
los síntomas depresivos (Beltrán, Freyre & Hernández, 2012). A partir de esta
explicación surgió el Inventario de Depresión de Beck (BDI por sus siglas en
inglés), para detectar la existencia de síntomas depresivos y su gravedad, en
adolescentes y adultos.
El BDI, desarrollado originalmente por Beck y sus colaboradores en
1961, cuenta con más de 500 estudios publicados que avalan sus propiedades
psicométricas en población clínica y no clínica, así como su uso transcultural
en investigación. Desde su creación, ha recibido revisiones menores, la más
reciente e importante es la que se publicó en 1996, de la cual surge el BDI-II.
Esta versión denominada Beck Depression Inventory—II (BDI-II; Beck, Steer
& Brown, 1996) presenta modificaciones sustanciales con respecto a sus pre-
decesores. Estas modificaciones van encaminadas a conseguir que el BDI-II
cubra todos los criterios diagnósticos sintomáticos de los trastornos depresi-
vos propuestos por el DSM-IV (Sanz, Navarro & Vásquez, 2003).
El BDI-II constituye en el instrumento de auto-informe más utilizado
en las publicaciones científicas sobre depresión, tal como sugiere la revisión
realizada por Sanz (2011). Su relevanca no se circunscribe al ámbito de la
depresión, ya que, en la práctica profesional general, ocupa el tercer lugar
entre los test más utilizados en la práctica clínica española (Estrada, Delgado,
Landero & González, 2014).
Este instrumento involucra 21 ítems, en los cuales se presentan cua-
tro opciones de respuesta en una escala de 0 a 3. Por ejemplo, para medir
pesimismo (ítem 2) se utilizan las opciones de respuesta desde “No me siento
especialmente desanimado de cara al futuro” (puntaje 0) a “El futuro es desespe-
ranzador y las cosas no mejorarán” (puntaje 3). El BDI-II instrumento agrupa
los síntomas depresivos descriptos en el DSM, en tres factores: Cognitivo (e.g.
Autocrítica; Disconformidad con uno mismo), Afectivo (e.g. Tristeza; Perdida
de placer), y Somático (e.g. Llanto; Agitación; Cansancio o fatiga). Asimis-

164
mo, la sumatoria de los ítems permite obtener un puntaje total que indica la
severidad de la depresión.

Un aspecto que requiere especial atención en la evaluación de la de-


presión es la evaluación de la conducta suicida. En efecto, hay dificultades
típicas en la evaluación de este tipo de conductas dado que los pacientes con
frecuencia optan por no brindar información al clínico por temor a que éste
lo hospitalice o bien, que el terapeuta ecida interrumpir el tratamiento. Según
la evidencia científica, uno de los principales predictores del suicidio es la des-
esperanza, por lo cual resulta indispensable la evaluación de esta variable en
casos con sintomatología depresiva (Beck, et al., 2012; Wenzel, et al., 2009).
La desesperanza hace referencias a juicios cognitivos acerca del futuro,
es decir, pensamientos o expectativas negativas acerca de lo que va a acontecer
(Ellis, 2006; Wenzel et al. 2009). Debido a la importancia de esta variable se
desarrolló la Escala de Desesperanza de Beck (Beck Hopelessnnes Scale, BHS).
Este instrumento está conformado por 20 proposiciones definibles por ver-
dadero o falso que evalúan el alcance de las expectativas negativas referidas
al futuro inmediato y a largo plazo. Actualmente se cuenta con una versión

165
adaptada en Argentina (Mikulic, Casullo, Crespi & Marconi, 2009) que ha
mostrado adecuadas propiedades psicométricas.

Evaluación del Trastorno Bipolar


Los trastornos bipolares se caracterizan por marcadas oscilaciones del
estado de ánimo, la actividad y el comportamiento. Según el DSM-V entre
los criterios diagnósticos del episodio maníaco se encuentran: a) un período
bien definido de estado anormal y persistente elevado, expansivo e irritable, y
un aumento anormal y persistente de la actividad o la energía, que dura como
mínimo una semana y está presente la mayor parte del día, y b) la presencia de
síntomas tales como, aumento de la autoestima o sentimientos de grandeza,
disminución de la necesidad de dormir, fuga de ideas, facilidad de distracción,
participación excesiva en actividades que tienen muchas posibilidades de con-
secuencias dolorosas, verborragia. La alteración del estado de ánimo debe ser
lo suficientemente grave como para causar un deterioro en el funcionamiento
social o laboral. Antes o después del episodio maníaco pueden haber existido
episodios hipomaníacos o episodios de depresión.
Aunque hasta el momento no existe cura para el trastorno bipolar, el tra-
tamiento puede disminuir la morbilidad y mortalidad asociadas, permitiendo
controlar la frecuencia, severidad y desajuste psicosocial de los episodios, y
mejorar el funcioamiento psicosocial del individuo. Ante esta situación se
requiere de adecuados instrumentos que permitan la detección, prevención

166
y diagnóstico oportuno. Las escalas de evaluación de la manía comienzan a
desarrollarse a principios de los años setenta. Inicialmente se trataba de ins-
trumentos extensos y complejos que requerían un tiempo de aplicación pro-
longado. Con el tiempo se han construido herramientas de medición cortas y
de fácil aplicación y procesamiento, llegando incluso al desarrollo de escalas
de autoreporte del estado maníaco (Sánchez-Pedraza y Rosero-Villota, 2003).
Entre los instrumentos clásico en la evaluación de la manía es la Escala
de Evaluación del Estado Maníaco, desarrollada por Beigel, Murphy y Bunney
(1971). Mediante 26 ítems se evalúa la frecuencia e intensidad de síntomas
maníacos. Si bien se trata de un instrumento ágil y de fácil administración, no
cuenta con estudios psicométricos exhaustivos.

Actualmente elinstrumento más utilizado para la evaluación de este


cuadro es la Escala de Young para la Evaluación de la Manía (YMRS). Este
instrumento fue elaborado a partir de descripciones clínicas de los cuadros
maníacos. Solamente consta de 11 ítems que examinan la intensidad de la
sintomatología maníaca. No se trata de un instrumento de auto-reporte, sino
que las puntuaciones se obtienen a partir de una entrevista clínica de entre
15 y 30 minutos. Teniendo en cuenta los comentarios del entrevistado y la
observación del clínico se evalúan los síntomas presentados en la última se-
mana. Por este motivo solamente psicólogos clínicos debidamente entrenados
pueden utilizar dicho instrumento. Cabe destacar que, al ser un instrumento
breve, permite la evaluación continua de los síntomas maníacos. Este ins-
trumento cuenta con una versión en español desarrollada por Colom et al.
(2002), reportándose adecuadas propiedades psicométricas.

167
Evaluación de los Factores de Mantenimiento: Regulación Emocional
e Intolerancia a la Frustración

Cuando se evalúan los factores implicados en el desarrollo de un tras-


torno emocional es importante diferencias los factores desencadenantes (las
razones por las que aparecen los desórdenes emocionales) y los factores de
mantenimiento (es decir, lo que provoca que ese trastorno se mantenga en el
tiempo). Tal como señala Hofmann (2018), los factores desencadenantes y de
mantenimiento no suelen ser lo mismo. Además, aunque los factores desen-
cadenantes pueden resultar de interés para conceptualizar adecuadamente el
caso, son los factores de mantenimiento los que resultan cruciales al momento
de aplicar estrategias efectivas de tratamiento. Esto se debe a que los factores
desencadenantes no proveen información suficiente para el tratamiento. Tal
como señala Hofman (2018) “conocer el motivo de un brazo roto (accidente
de esquí, atropello) apenas tiene importancia a la hora de decidir cuál es el
tratamiento adecuado (escayolar el brazo)” (p.69).

168
En general, los agentes estresores suelen ejercer un efecto inespecífico
sobre el bienestar psicológico y emocional. Un mismo estresor puede ejercer
efectos diferentes en distintas personas en función de la forma en que esta
afronta los problemas o regula sus emociones. Si una persona pierde su em-
pleo y no logra regular el impacto emocional de este estresor o afrontar el
problema, seguramente desarrollará un cuadro de desesperanza que derive en
una depresión. Por el contrario, si cuenta con un repertorio adecuado de habi-
lidades de regulación emocional o desarrolla conductas efectivas para afrontar
esta problemática, seguramente experimentará malestar emocional por haber
sido despedido, pero no desarrollará un cuadro de depresión.
En este apartado abordaremos tres factores de mantenimiento relevan-
tes para el ámbito clínico, la prevención y promoción de la salud mental: a) la
dificultad en la regulación emocional y las estrategias cognitivas de regulación
emocional, b) meta experiencias emocionales y creencias referidas a la intole-
rancia a la frustración, y c) estrategias de afrontamiento.

Dificultades en la Regulación Emocional


Similar en muchos aspectos a lo que sucede con la definición de Emo-
ción o Emociones (Izard, 2010), la Regulación Emocional (RE) no es un
concepto unívoco (Medrano & Trógolo, 2017). En términos generales puede
decirse que la RE involucra cualquier proceso explícito o implícito que pue-
da alterar la emoción sentida, su duración y/o expresión (Denny, Silvers, &
Ochsner, 2009). Aun así, habría formas más adaptativas que otras de regu-
lar las emociones. En esta línea, autores como Gratz y Roemer (2004) han
propuesto un marco conceptual que permite identificar estos mecanismos
adaptativos de regulación emocional, que incluiría: a) conciencia emocional,
b) claridad emocional, c) aceptación emocional, d) control de impulsos, e)
capacidad de aplicar conductas dirigidas a metas cuando se experimenta una
emoción negativa, y f ) la habilidad de usar las estrategias de regulación emo-
cional de manera flexible y apropiadas a la situación que las demande, o a la
respuesta emocional que se desea modular. La dificultad o déficits en estas
formas de regulación emocional está presente en diversas psicopatologías y
trastornos psiquiátrico (Cancian, Schuster de Souza, Pesenti e Silva, Machado
& Silva Oliveira, 2018).
En este contexto se ha propuesto el instrumento de medida DERS
(Difficulties in Emotion Regulation Scale, por sus siglas en inglés), una escala
mundialmente validada, también en Argentina (Medrano & Trógolo, 2017),
que permite cuantificar la dificultad en la regulación emocional según los seis
puntos definidos anteriormente como una regulación adaptativa.
Si bien la escala inicialmente fue construida para medir seis subescalas
de dificultad emocional (Gratz & Roemer, 2004), los estudios locales indican
que el instrumento permitiría obtener información sobre dos factores más

169
generales de los propuestos en un primer momento por los autores del instru-
mento (Medrano & Trógolo, 2017). En este sentido, la dificultad en la regu-
lación emocional se agruparía en dos factores, uno referido al Procesamiento
Emocinal, y otro a la Respuesta Emocional.

Otra forma de conceptualizar la RE es centrarse no tanto en la capaci-


dad o no de regular adecuadamente la emoción (i.e. dificultades en la regula-
ción), sino en las estrategias específicas que la persona emplea para regular su
emoción. Una de estas formas son las estrategias cognitivas.
Dentro de los diferentes factores involucrados en la RE, los procesos
cognitivos poseen un rol destacado (Garnefski & Kraaij, 2007). En efecto, la
atención e interpretación cognitiva que se lleva a cabo de los eventos deter-
minará el tipo de emoción experimentada y modulará la respuesta emocional
(Joormann, Yoon, & Siemer, 2009).
Dentro de las estrategias de la regulación cognitiva de la emoción, Gar-
nefski y Kraaij (2007) distinguen nueve principales, las cuales constituyen la
base para elaborar el Cuestionario de Regulación Cognitiva de las Emociones
(CERQ, Garnefski & Kraaij, 2007; figura…).

170
Aunque existe evidencia que sustenta el modelo de nueve factores sub-
yacentes, aún se discute la existencia de factores de orden superior. Uno de
los modelos propuestos sugiere la existencia de dos dimensiones subyacentes:
1) Estrategias Adaptativas (incluye las estrategias de Aceptación, Refocaliza-
ción Positiva, Refocalización en los Planes, Reinterpretación Positiva, y Po-
ner en Perspectiva) y, 2) Estrategias Desadaptativas (incluye las estrategias de
Autoculparse, Rumiación, Catastrofización, y Culpar a otros). Aunque este
modelo ha obtenido evidencia favorable (d’Acremont & Van der Linden,
2007; Domínguez-Sánchez et al., 2011; Jermann et al., 2006), no se cuenta
actualmente con una explicación satisfactoria que justifique teóricamente la
existencia de factores de orden superior. En este marco, Medrano et al. (2016)
han propuesto un agrupamiento de estos factores utilizando como base las
contribuciones de la psicología evolucionista.
Desde el modelo evo-psi se plantea que los seres humanos evoluciona-
ron a partir de la adopción de comportamientos que favorecían su supervi-
vencia (Pinker, 1997). De esta forma, la tendencia a pensar de manera exce-
siva y repetitiva en eventos negativos favoreció la supervivencia de nuestros
antepasados. Por otra parte, durante la historia evolutiva reciente, la especie
humana desarrolló patrones cognitivos más elaborados. Sobre la base de estos
postulados, Medrano et al. (2016) proponen agrupar las estrategias cogniti-
vas de regulación emocional en dos categorías amplias, a) Automáticas, y b)
Elaborativas.
Este modelo sugiere que existirían al menos dos sistemas de procesa-
miento de información relacionados con la amenaza y la seguridad. Un pri-
mer sistema denominado “automático”, se caracterizaría por ser automático,
preconsciente, consumir escasos recursos atencionales, ser rápido y difícil de
regular. La existencia de este sistema se debe a que en algún momento resultó
171
una ventaja evolutiva para la especie, y continúa siéndolo en situaciones de
amenaza o peligro real. De esta manera, procesos cognitivos tales como la
catastrofización y la rumiación permiten maximizar la seguridad y evitar o
manejar toda situación que presente una amenaza inmediata. Sin embargo,
contribuyen a aumentar y mantener las respuestas de ansiedad o alerta del
organismo (Beck y Clark, 1997).
Un segundo sistema de procesamiento denominado “elaborativo” se
caracteriza por ser voluntario, totalmente consciente, consumir altos recur-
sos atencionales y ser lento. Este sistema implica el manejo y la elaboración
consciente de la información, permite realizar un procesamiento más racional
y complejo de la misma, facilitando interpretaciones más realistas y contribu-
yendo a disminuir la intensidad de las respuestas de ansiedad. Dentro de los
procesos cognitivos elaborativos se encontrarían la reinterpretación cognitiva,
la focalización en los planes y la aceptación emocional, entre otros. Así, el
aceptar que el acontecimiento ha ocurrido, encontrar un significado posi-
tivo al evento negativo o tener pensamientos referidos a cómo puede volver
a planificarse la acción que desencadenó el evento negativo, facilitarían una
disminución de la respuesta de ansiedad y aumentarían las probabilidades de
llevar a cabo comportamientos más adaptativos que promuevan el bienestar
psicológico y el crecimiento personal.
De esta forma, a lo largo de nuestra historia evolutiva hemos desarro-
llado procesos cognitivos que nos permiten detectar amenazas y reaccionar
en consecuencia, aumentando así las probabilidades de seguridad y supervi-
vencia del organismo. Procesos como la catastrofización y la rumiación serían
antiguos en términos evolutivos, y por ello involucrarían fundamentalmente
estructuras subcorticales del cerebro, mientras que los procesos elaborativos
más complejos se asentarían sobre estructuras más modernas que involucran
fundamentalmente la neo-corteza (LeDoux, 2012). Esta disposición en el ce-
rebro explicaría por qué algunos procesos cognitivos disfuncionales para la
regulación de emociones se activan de manera automática, y porqué resulta
difícil desactivarlos. Básicamente, se debería a que al involucrar estructuras
sub-corticales se encontrarían en gran medida fuera del control voluntario.
La disposición de dichos sistemas en nuestro cerebro provoca que los
procesos cognitivos automáticos sean más rápidos, intensos y difíciles de re-
gular dado que se ubican a un nivel subcortical. Los fallos en la regulación
cognitiva de las emociones se explicarían sobre la base de este hecho, es decir,
que al ser procesos difíciles de regular muchas personas pueden experimentar
fuertes obstáculos para lograr un procesamiento cognitivo más elaborado y
en consecuencia sucumbir a procesos automáticos tales como la rumiación
y la catastrofización, los cuales aumentarían las respuestas de ansiedad y la
probabilidad de desarrollar trastornos de ansiedad (Gellatly & Beck, 2016;
Jenness, et al., 2016).

172
A partir de este modelo se explicaría con mayor claridad las fallas en los
procesos de regulación emocional. Básicamente, existirían patrones cogniti-
vos automáticos difíciles de inhibir que contribuirían a aumentar la frecuen-
cia e intensidad de un estado emocional negativo. Diversos estudios permiten
visualizar que las estrategias cognitivas de regulación emocional, particular-
mente la rumiación y la catastrofización, se asocian fuertemente con la psico-
patología (Aldao, Nolen-Hoeksema & Schweizer, 2010; Flores-Kanter, Gar-
cía-Batista, Moretti & Medrano, 2018; Potthoff, et al. 2016) mientras que las
estrategias elaborativas están más asociadas al bienestar subjetivo y psicológico
(Balzarotti, Biassoni, Villani, Prunas & Velotti, 2014).

Meta-experiencia emocional: Creencias de Intolerancia a la Frustración


Otro aspecto de importancia en el mantenimiento de trastornos emo-
cionales son las meta-experiencias emocionales. Además de emociones como
miedo, ira, tristeza o felicidad, las personas también pueden sentir “emociones
acerca de sus emociones”. Las emociones secundarias son respuestas a emo-
ciones primarias y no a la situación o acontecimiento desencadenante. Por
ejemplo, puede que frente a una situación de examen (situación) experimente
ansiedad (emoción primaria), pero si al experimentar dicha emoción comien-
zo a pensar “no debería sentirme así, no puede ser que siempre me pase lo
mismo”, seguramente también me sienta frustrado (emoción secundaria). En
esta línea, se ha observado que existen una serie de creencias que contribuyen
a que las personas experimenten emociones secundarias que aumenten los
niveles de frustración. (Medrano, Franco, Flores Kanter & Mustaca, 2018).
En una serie de trabajos destacados, Albert Ellis (1980, 1995, por ejem-
plo) hizo hincapié en el papel que desempeñan una serie de creencias en la ex-
plicación de la intolerancia a la frustración (IF). Según el autor, la IF se deriva
de la exigencia de que la realidad sea como queremos y la negativa a aceptar las
diferencias entre un deseo o expectativa y la realidad. La terapia racional emo-
tiva conductual (TREC) se enfoca en disminuir estas creencias irracionales
que mantienen los altos niveles de IF, con el fin de lograr un decremento en
las emociones displacenteras y enfrentar la realidad de manera más adaptativa
(Ellis, Michael y Bernard, 2006). Según esta corriente, las creencias irraciona-
les vinculadas con la IF integran una de las dos categorías centrales de creen-
cias que permiten explicar la psicopatología en general o el mantenimiento de
la misma (Harrington, 2006), y de allí su valor transdiagnóstico.
En este contexto, una de las escalas autoadministradas más utilizadas
para evaluar las creencias irracionales asociadas a la intolerancia a la frustración
es la Escala de Intolerancia a la Frustración (EIF, The Frustration Discom-
fort Scale, Harrington, 2005). Según Harrington (2005b), desde la TREC se
plantea la existencia de cuatro creencias que promueven la intolerancia a: a)
las molestias, b) el esfuerzo, c) la injusticia y d) las emociones incómodas. Para

173
representar estas creencias irracionales los ítems de la EIF enfatizan la natura-
leza absolutista de las aseveraciones involucrando tanto una demanda como
una creencia secundaria referida a la frustración (p. ej., “No puedo estar espe-
rando porque no puedo tolerar la espera y bajaría totalmente mi autoestima”,
Medrano, Franco & Mustaca, 2018). La escala inicialmente fue construida
para medir 4 factores: 1) Intolerancia a la incomodidad, refieren a la creencia
de que la vida debería ser fácil, cómoda y libre de problemas; 2) Derechos;
que refleja creencias de que los deseos personales deben ser cumplidos y que
las otras personas deben complacer y no frustrar estos deseos; 3) Intolerancia
emocional; indica intoleranci a la angustia o malestar emocional; y 4) Logro;
son afirmaciones sobre sentimientos de frustración relacionados con una tarea
o un rendimiento óptimo.
Esta escala es mundialmente utilizada y cuentas con validaciones en di-
versos países (véase Medrano et al. 2018). La versión adaptada y validada en
Argentina por Medrano et al. (2018) cuenta con menos ítems (un total de 17),
pero sustentan los factores de la escala original presentando valores de consisten-
cia interna en su mayoría aceptables (α entre .55 y .84). En dicha validación se
verificó también que las dimensiones de la EIF presentaban correlaciones nega-
tivas y estadísticamente significativas con la escala de autoestima de Rosenberg
(r entre -.07 y -.22). Otros estudios han dado cuenta también de la asociación
que estas dimensiones de creencias irracionales mantienen con ciertos trastornos
emocionales, como ser la depresión, la ansiedad, y la ira (Harrington, 2006).

174
Estrategias de Afrontamiento
Las estrategias de afrontamiento se definen como aquellos procesos cog-
nitivos y conductuales en constante cambio que se desarrollan para manejar
las demandas que son evaluadas como desbordantes de los recursos indivi-
duales (Lazarus & Folkman, 1986). Estos modos de afrontamiento tienen el
objetivo principal de reducir la influencia del estrés sobre la persona y regular
las reacciones emocionales ante éstas. Desde este enfoque, las estrategias de
afrontamientos son definidas como aquellos esfuerzos conductuales y cogni-
tivos destinados a hacer frente al estrés y a las demandas específicas del am-
biente. Un aspecto importante a considerar es que estas demandas específicas
son valoradas por las personas como que exceden o desbordan los recursos
personales (Lazarus & Folkman, 1984).
El afrontamiento puede considerarse como un factor estabilizador debi-
do a que facilita el ajuste individual y la adaptación cuando la persona se en-
frenta ante situaciones estresantes. Asimismo, las estrategias de afrontamiento
tienden a frenar, amortiguar y, si es posible, anular los efectos de las situacio-
nes amenazantes (Moran, Landero & González, 2010). Existen una buena
cantidad de estrategias de afrontamiento que un individuo puede desplegar,
y la utilización de una u otra estrategia de afrontamiento va a depender de la
situación en sí, la evaluación cognitiva y el control percibido, las emociones y
la activación fisiológica (Londoño, Henao López, Puerta, Posada, Arango &
Aguirre-Acevedo, 2006; Vázquez, Crespo & Ring, 2000).
En Argentina, Moretti y Medrano (2011) realizaron una adaptación del
Cuestionario de Estrategias de Afrontamiento (COPE). En dicho estudio se
identificaron ocho estrategias de afrontamiento: 1) afrontamiento activo (α=
.86); 2) apoyo social emocional e instrumental (α= .88); 3) negación y des-
conexión conductual (α= .77); 4) consumo de alcohol y drogas (α= .94); 5)
religión (α= .91); 6) humor (α= .84); 7) aceptación y refrenar el afrontamien-
to (α= .69); 8) centrarse en las emocionarse y desconexión mental (α= .72).
A grandes rasgos las estrategias de afrontamiento podrían agruparse en
dos categorías generales: Afrontamiento centrado en el problema vs. Afron-
tamiento centrado en la emoción. El afrontamiento centrado en el problema
parace más apropiado en casos de estrés controlable (por ejemplo, rendir un
examen o invitar a salur a una persona), mientras que el afrontamiento cen-
trado en la emoción parace más adecuado para estrés que se percibe como
no controlable (por ejemplo, verse expuesto a una enfermedad o un desastre
natural). No obstante, algunas estrategias centrada en la emoción pueden ser
disfuncionales, tal es el caso el consumo de sustancias o algunas forma de
evasión emocional (por ejemplo, evitar una situación de examen). A conti-
nuación se presentan los ítems del COPE.

175

176
Evaluación del Bienestar subjetivo: delimitación conceptual e instru-
mentos para su medición

Evaluación del Bienestar Subjetivo: Afecto y Satisfacción con la Vida


La evaluación clínica psicológica históricamente se ha centrado en los
aspectos negativos o disfuncionales del funcionamiento psíquico. Este fenó-
meno ha dado lugar a que se haya asociado a la psicología únicamente con
los trastornos o patologías mentales. A su vez, esta focalización en los aspectos
negativos ha provocado dos fenómenos particulares. Por un lado, un cierto
pesimismo sobre la naturaleza humana ya que el conocimiento generado es-
taba enfocado en los trastornos o desórdenes mentales, llevando a la creencia
de que el psicólogo sólo podía actuar cuando había alguna dificultad. Por otro
lado, esta focalización en aspectos negativos llevó a un total desconocimiento
de las características positivas como la alegría, la creatividad o el humor (Se-
ligman y Csikszentmihalyi, 2000).
A pesar de esta focalización histórica en aspectos negativos, en los úl-
timos años el estudio de las características positivas ha crecido de manera
exponencial, creando así la corriente de estudio denominada psicología posi-
tiva. El principal objetivo de esta corriente de estudio es la generación de co-
nocimientos sobre las características positivas de las personas con el objetivo
de complementar la práctica clínica y promover prácticas que promuevan la
mejor calidad de vida.
Dentro de la corriente de la psicología positiva uno de los conceptos
centrales es el bienestar subjetivo. Sin embargo, todavía persisten controver-
sias en relación a su definición conceptual y operacional. En algunos casos
aparece como sinónimo de salud mental, resiliencia o felicidad, no quedando
en claro si existe un solapamiento entre dihos conceptos o simplemente una
confusión respecto a su uso (Olivier, Navarro Guzmán, 2016).
Quizás el modelo más popular para la explicación y conceptualización
del bienestar subjetivo sea el modelo desarrollado por Edward Diener. El au-
tor propone un modelo con tres componentes diferentes: la satisfacción con
la vida (LS); los afectos positivos (PA); y los afectos negativos (NA) (Diener,
Lucas, & Oishi, 2002). La medición de estos componentes se realiza a través
de dos instrumentos o test psicométricos de autoreporte. La medición con
instrumentos específicos responde a que los componentes que determinan
el bienestar no conforman una única dimensión, sino que corresponderían a
variables distintas que en su interacción explican el bienestar o felicidad que
puede tener una persona (ver figura 2; Lapuente, Dominguez-Lara, Flores-
Kanter & Medrano, 2018).

177
Figura 2. Estructura del Bienestar: Factores Cognitivos y Afectivos.

De este modo, existirían los aspectos cognitivos que se representan en


este modelo por los juicios de satisfacción (esto es, en qué medida conside-
ramos que alcanzamos las metas que nos propusimos). Pero este juicio por sí
solo no determinaría el bienestar, sino que al mismo tiempo debe presentar la
persona un nivel adecuado de emociones positivas y neg teniendo que ser las
primeras de mayor intensidad y frecuencia que las segundas. Las emociones
conforman así el componente afectivo del bienestar. Todo esto determina que
para medir el componente cognitivo (los juicios de satisfacción) y el com-
ponente afectivo (emociones positivas y negativas) del bienestar se utilicen
escalas distintas.
El instrumento que permite medir la satn con la vida es la Satisfation
with life scale (SWLS; Diener et al., 1985). Este instrumento consta de 5
ítems que evalúan el componente cognitivo del bienestar subjetivo mediante
una escala Likert con 7 opciones de respuesta. La satisfacción con la vida hace
referencia al juicio que realiza la persona sobre sus condiciones d vida en base
a sus propios estándares, es decir que el criterio de evaluación es propuesto
por el mismo encuestado y no es impuesto por alguien externo (tabla 4).

178
Asigne 1 si está muy en desacuerdo y 7 muy de acuerdo. Recuerde que usted
Nivel de acuerdo
tiene la posibilidad de responder con toda la escala del 1 al 7.
Las situaciones son las siguientes: 1 2 3 4 5 6 7
1. “…La mayoría de los aspectos de mi vida es como quiero que sea...”
2. “…En general, estoy satisfecho con mi vida...”
3. “…Hasta ahora he obtenido las cosas importantes que quiero en la vida...”
4. “…Si pudiera vivir mi vida de nuevo, me gustaría que todo volviese a ser
igual...”
5. “…Las circunstancias de mi vida son buenas…”

Tabla 4. Satisfaction with Life Scale (SWLS)

Respecto al componente afectivo, el instrumento que se utiliza es la


Escala de Afectividad Positiva y Negativa (PANAS). Siguiendo la escala ori-
ginal propuesta por Watson, Clark y Tellegen (1988), la misma consiste en
20 ítems, 10 que miden estados afectivos positivos y 10 que miden estados
afectivos negativos (tabla 2).

Frecuencia o Intensidad de la Emoción


Emoción Muy poco o nada Un poco Medianamente Bastante Mucho o totalmente
Interesado 1 2 3 4 5
Afligido 1 2 3 4 5
Disgustado 1 2 3 4 5
Fuerte 1 2 3 4 5
Culpable 1 2 3 4 5
Asustado 1 2 3 4 5
Tabla 5. Escala de Afecto Positivo y Negativo (PANAS)

Watson y sus colaboradores propusieron un modelo dimensional, en


donde distinguen dos factores de orden superior: Afecto Positivo y Afecto Nega-
tivo. Asimismo, sugirieron la unipolaridad o relativa independencia de ambos
factores (figura 3).

Figura 3. Modelo Estructural del Afecto: Dos Factores relativamente independientes.

179

Localmente se han llevado una serie de estudios tanto exploratorios
como confirmatorios de la escala que corroboran esta estructura del afecto
(Flores-Kanter & Medrano, 2016; Medrano, Flores-Kanter, Trógolo, Cura-
rello & Gonzales , 2015). Estos resultados se corresponde con las evidencias
tomadas de las neurociencias las cuales se han identificado neuroanatómica-
mente ciertas estructuras cerebrales más ligadas a estos factores comunes de
Afectividad Negativa y de Afectividad Positiva. En el caso del Afecto Nega-
tivo, una de estas estructuras es la amígdala, la cual ha demostrado activarse
preferentemente al experimentar afectos negativos. Para el caso del Afecto
Positivo la estructura involucrada es el núcleo accumbens, identificado como
el sistema de recompensa y placer.
En la práctica clínica, la comprensión de los componentes involucrados
en la promoción del bienestar del paciente es un tema fundamental para el
diseño y posterior tratamiento. Por ejemplo, en el caso de un tratamiento clí-
nico, se pueden dividir las intervenciones del tratamiento enfocando los tres
componentes del bienestar. Por un lado, se puede trabajar sobre la promoción
de afectos positivos, mediante diferentes técnicas como por ejemplo la activa-
ción conductual. Por otro lado, podemos aumentar la tolerancia a los afectos
o emociones negativas del paciente dotándolo de herramientas que le permi-
tan lidiar con situaciones estresantes de manera más funcional. Por último,
podemos diseñar intervenciones enfocadas en la reinterpretación positiva de
su situación de vida para centrarnos en el componente cognitivo del bienestar
subjetivo del paciente.
Como vemos, las intervenciones en la terapia dependen en gran me-
dida del conocimiento que tengamos sobre los componentes que creamos
convenientes promover en el paciente. Para ello debemos seguir estudiando e
investigando las características de los constructos trabajados por la psicología
positiva.

Evaluación del Bienestar Psicológico


Algunos autores han planteado que la conceptualización del bienestar
debe tener en cuenta factores asociados al desarrollo de un sentido de inte-
gridad personal. Desde esta mirada, se critica el modelo de bienestar subje-
tivo (centrado solo en el afecto y la satisfacción vital) ya que deja de lado la
significación de los actos humanos en términos de orden y coherencia para
la existencia personal. En esta línea se encuentran los trabajos de Ryff (1989)
que critica la concepción clásica del bienestar por basarse únicamente en la
ausencia de malestar o de trastornos psicológicos, dejando de lado factores
como la autorrealización y el significado vital.
Ryff (1989) plantea un modelo alternativo para el estudio del bienestar
que contempla las variables del desarrollo óptimo, el funcionamiento mental

180
positivo y las teorías del ciclo vital. Según la autora el nivel de bienestar ten-
dría importantes variaciones según la edad, la cultura y el sexoría propuesta
por la autora contempla seis dimensiones: 1) una apreciación de sí mismo;
2) la capacidad para manejar de forma efectiva el medio y la propia vida; 3)
la alta calidad de los vínculos personales; 4) la creencia de que la vida tiene
propósito y significado; 5) el sentimiento de que cada uno va creciendo y de-
sarrollándose a lo largo de la vida, la aceptación del paso de los años; y 6) el
sentido de autodeterminación.
En nuestro país, la autora María Martina Casullo ha desarrollado un
instrumento de medición basado en las propuestas teóricas de Ryff. El instru-
mento consta de 13 sentencias o frases que se agrupan en las siguientes cuatro
dimensiones (ver ejemplo de ítems tabla 6): Control; Vínculos; Proyectos; y
Aceptación. Cada una de las frases se responde en un formato de Likert con 3
opciones de respuesta (De acuerdo, ni acuerdo ni desacuerdo, en desacuerdo).

De acuerdo Ni acuerdo ni desacuerdo En desacuerdo


Creo que sé lo que quiero hacer
con mi vida.
Si algo sale mal puedo
aceptarlo, admitirlo.
Siento que podré lograr las
metas que me proponga
Cuento con personas que me
ayudan si lo necesito.
Creo que en general me llevo
bien con la gente.
Soy una persona capaz de
pensar en un proyecto para mi
vida.
Puedo aceptar mis
equivocaciones y tratar de
mejorar.
Tabla 6. Escala de Bienestar Psicológico

Consideraciones Finales

El uso de pruebas psicométricas en la evaluación clínica conlleva una


serie de ventajas. Mediante estas pruebas puede obtenerse información rápida
que pueda servir como complemento de una entrevista, brinda información
válida y confiable de fácil comunicación entre profesionales, permite recabar
información adicional para el establecimiento de un diagnóstico, anticipar
dificultades en el tratamiento y evaluar la eficacia del proceso terapéutico, por
mencionar algunas de las más importantes.
Por otra parte, las categorías diagnósticas mencionadas pueden ser de
mucha utilidad para el psicólogo clínico, ya que proporcionan un lenguaje co-

181
mún que facilita la comunicación acerca de los trastornos psicológicos y dan
información útil a la hora de tomar decisiones con respecto a un tratamiento.
No obstante, estas categorías deben ser utilizadas como información prelimi-
nar. Para lograr un adecuado tratamiento se requiere un abordaje ideográfico
que contemple las especificidades, características y circunstancias únicas de
cada paciente. Tal como se señaló a lo largo del capítulo, el uso de las pruebas
psicométricas debe insertarse dentro de un proceso de evaluación clínica más
amplio que involucra una formulación precisa del caso, contemplando los
factores que en cada paciente en particular generan y mantienen sus proble-
mas psicoemocionales,

182
|
Evaluación Psicométrica en Psicología Organizacional
Mario Trógolo, Carlos Spontón, Estanislao Castellano, María Alejandra
Pujol y Leonardo Medrano

Introducción

En términos amplios el psicólogo organizacional estudia el comporta-


miento del individuo en la organización (Davis y Newstrom, 2003). Esta área
disciplinar, tiene como objeto de estudio la conducta y experiencia de traba-
jo en el triple plano personal, interpersonal y organizacional-social (Alcover,
2012). Las actividades propias de esta área se relacionan, entre otras, con los
procesos de selección, organización, distribución y desarrollo del personal,
evaluación de puestos y motivaciones laborales, diagnóstico de clima en la
organización, evaluación de causas de accidentes, asesoramiento sobre la pre-
vención de los mismos y el análisis de situaciones de tensión grupal propen-
diendo a promover la salud laboral.
De esta manera, los psicólogos organizacionales aplican teorías deriva-
das de la psicología al ámbito del trabajo para mejorar el desempeño y bienes-
tar de los trabajadores. Algunos de los temas de los que se ocupan son la satis-
facción laboral, la selección de personal, la capacitación, el estudio del efecto
de la estructura organizacional sobre el desempeño laboral y el bienestar la-
boral, entre otros (Nevid, 2011). Además de éstos, otros temas comúnmente
descriptos en manuales sobre la especialidad puntualizan: la evaluación de
desempeño, capacitación para el trabajo, ergonomía, orientación profesional
y fenómenos asociados al desempleo.
En esta área de ejercicio, es habitual que se empleen pruebas psicomé-
tricas para abordar una multiplicidad de problemas organizacionales. Según
Salgado (2008) algunos de los usos más extendidos son para selección de
personal, evaluación de equipos de trabajo y factores que inciden sobre ella,
gestión de conflictos organizacionales y violencia ocupacional, medición del
bienestar psicológico, el rol de líderes y directivos, cultura de seguridad en las
organizaciones, experiencias negativas y positivas vinculadas al trabajo, entre
otras temáticas. En este capítulo, luego de una introducción al uso de pruebas
psicométricas en el contexto organizacional, se profundizará sobre el uso de
test psicométricos en dos temáticas de relevancia: a) la evaluación del bienes-
tar laboral, y b) la selección de personal.

183
El uso de Pruebas Psicométricas en la Psicología Organizacional

El interés por la evaluación en contextos del trabajo y las organizaciones


puede rastrearse hasta la edad antigua una forma de “prueba de destreza” exis-
tió ya en el año 2.200 AC en China. Esta actividad consistía en la adminis-
tración de un programa de pruebas que implicaban alguna forma de examen
tomado, cada tres años, a funcionarios públicos (Cohen y Swerdlik, 2006; Ai-
ken, 1996). Más recientemente, se identifican inicios de una “evaluación psi-
co-laboral”, en épocas de la revolución industrial, hacia la segunda mitad del
siglo XVIII. Contemporáneo a ello, la “psicología industrial” nacía a la som-
bra de la “Psicología de las Diferencias Individuales” y estaba principalmente
abocada a la aplicación masiva de técnicas psicométricas de reclutamiento y
selección de personal (Mateu, 1994). Proceso que motivaría el mayor número
de prácticas en ésta área desde entonces y hasta la actualidad.
Los constructos a evaluar en el ámbito organizacional han ido reflejan-
do intereses y necesidades del contexto y tiempo históricos. Así, por ejemplo,
en época de la revolución industrial se les solicitó a los psicólogos la selección
de candidatos aptos para puestos de trabajo priorizando la evaluación de ha-
bilidades manuales y el rendimiento intelectual (Guinzbourg et al., 2016). En
cambio, durante las I y II Guerras Mundiales (consideradas como dos mo-
mentos históricos que marcan el auge de los instrumentos de evaluación psi-
cológica), favorecieron la creación de pruebas de inteligencia y personalidad
para evaluar la estabilidad emocional y así clasificar a soldados a los fines de
la contienda (González Llaneza, 2007). En Argentina, según Ibarra (2010),
una de las primeras aplicaciones de la psicología en el área laboral es a partir
de los desarrollos de la “psicotécnia” y puede rastrearse desde períodos previos
a la creación de las carreras.
La evaluación en el contexto organizacional posee algunas particulari-
dades que la diferencian de otros contextos de evaluación y que deben con-
templarse para garantizar una evaluación válida y confiable. Un primer punto
a considerar es el motivo de evaluación, es decir, la razón por la cual se evalúa.
En esta área, la persona no concurre por motivación propia, sino que, gene-
ralmente, es enviado por una organización. Siguiendo a Elcovich (2015), no
existe una verdadera demanda de evaluación, sino que el objetivo del sujeto es
el de conseguir un empleo. Por lo tanto, es esperable que el examinado adopte
una conducta poco genuina, intentado ser cordial, con intenciones de agradar
y brindar la mejor imagen de sí mismo a quien lo entrevista. Este aspecto,
que puede ser problemático, ha contado con algunas propuestas de solución.
Por ejemplo, Olea (2010), sugiere que una de las formas de resolver el fal-
seamiento de respuestas es a través de tests ipsativos. Este formato obliga al
examinado a elegir entre opciones de respuesta que tienen un nivel similar de
deseabilidad. Por ejemplo, entre “soy una persona trabajadora” (indicador de
responsabilidad) y “soy una persona abierta” (indicador de extraversión). Otra

184
alternativa es el uso de instrumentos que contemplen escalas que analicen la
sinceridad de las respuestas. Por ejemplo, la Escala L del MMPI-II contienen
ítems que permiten evaluar el grado de franqueza al responder el inventario y
proporciona información sobre la tendencia a cubrir las fallas personales a fin
de brindar una imagen más ajustada socialmente. Así puntuaciones elevadas
se encuentran asociados a sujetos que intentan brindar una impresión favora-
ble de sí mismo (Casullo, 1999).
Otra particularidad de la evaluación en el contexto organizacional re-
fiere a la vinculación del psicólogo con la organización. El hecho de realizar
evaluaciones y pertenecer a la misma organización puede condicionar el cum-
plimiento de los requerimientos que permiten una evaluación ética. Según
Carvajal (2007), muchos psicólogos se alejan de los parámetros establecidos
en cuanto a las normas estipuladas para el buen uso e interpretación de tests
psicométricos, y actúan a partir de otras lógicas como las urgencias de las or-
ganizaciones o pedidos de clientes que requieren se administre un test particu-
lar. Un aspecto especialmente problemático es el caso de psicólogos que deben
evaluar a sus propios compañeros de trabajo, como, por ejemplo, superiores,
subordinados o colegas. Todos esos eventos pueden afectar su objetividad y
generar sesgos en el proceso de medición.

Evaluación del Bienestar en el Trabajo

En los últimos años se ha observado un cambio de enfoque dentro de


los estudios e intervenciones en el ámbito de la psicología del trabajo y de las
organizaciones. Este desplazamiento se observa desde el acento puesto en las
problemáticas o patologías asociadas al trabajo, hacia un enfoque basado en
los aspectos positivos, la optimización de empleados y puestos (Maffei, 2012).
La literatura cuenta, cada vez más, con trabajos que plantean una aproxima-
ción desde la Psicología Positiva. Los mismos señalan la importancia de que las
aportaciones atiendan a elementos positivos y oportunidades de crecimiento,
desarrollo y realización de las personas, equipos de trabajo y también hacia
las propias organizaciones (Salgado, 2008). Al respecto Muchinsky (2002),
propone que más recientemente la psicología del trabajo se ha ocupado de
aquello llamado el lado “amable” de las diferencias individuales: el humor,
los sentimientos y las emociones; constructos a los que anteriormente se les
negaba trascendencia e impacto en el desempeño laboral. Actualmente se los
ha considerado como variables intervinientes y/o significativas en la vida del
trabajo. En este sentido, conceptos como Engagement o Autoeficacia han des-
pertado un considerable interés por parte de los psicólogos organizacionales.
De esta manera, junto a la tradicional evaluación del estrés laboral, en la ac-
tualidad se complementan dichas mediciones con la consideración de factores
salugénicos, como por ejemplo el engagement.

185
Evaluación del Estrés Laboral y el Burnout
Durante las últimas décadas los procesos de globalización, desregula-
ción del mercado laboral provocaron cambios sustanciales en las condicio-
nes de trabajo, caracterizadas por mayores exigencias de calidad y producti-
vidad, aumento de la presión temporal y de la sobrecarga laboral, así como
por nuevas formas de contratación y remuneración que colocan al trabajador
en condiciones de indefensión ante muchos abusos (Schaufeli, Leiter & Mas-
lach, 2009). Asimismo, los cambios generados por la introducción de nuevas
tecnologías en las organizaciones plantean nuevos retos que producen, en al-
gunos casos, consecuencias sobre la salud de las personas (Salanova, 2003).
Como resultado de ello, los problemas relacionados con el estrés laboral se
extendieron rápidamente en las organizaciones, particularmente el burnout
(Carod-Artal & Vázquez-Cabrera, 2013).
El burnout, conocido también en la literatura hispana como “síndrome
de desgaste profesional” o “síndrome de quemarse por el trabajo”, fue defini-
do inicialmente por Maslach y Jackson (1986) como un síndrome caracteri-
zado por agotamiento emocional (sentimiento de no dar más de sí, a causa
de las demandas interpersonales que surgen en el trabajo con las personas),
despersonalización (actitudes negativas y de distanciamiento hacia las perso-
nas destinatarias del trabajo) y baja realización personal (tendencia a evaluar
negativamente las propias competencias y logros en el trabajo), que puede
ocurrir en cualquier individuo que trabaja con personas de alguna manera.
De este modo, se consideraba que sólo los profesionales y grupos ocupacio-
nales que trabajan en contacto con personas eran susceptibles de desarrollar
burnout. No obstante, con el tiempo diferentes investigaciones pusieron de
manifiesto que el burnout puede producirse en una gran variedad de profesio-
nes y ocupaciones, no sólo en aquellas dedicadas a trabajos “de contacto” con
personas, reconociéndose así su carácter transprofesional (Grau, Flichtentrei,
Suñer, Prats & Braga, 2009).
Como consecuencia directa de lo anterior, el concepto de burnout fue
evolucionando y redefiniéndose de manera más amplia como un estado men-
tal negativo, relacionado con el trabajo, que ocurre en personas normales y
que se caracteriza por síntomas de agotamiento, cinismo e ineficacia profesio-
nal (Schaufeli, Leiter, Maslach & Jackson, 1996). De esta manera, se concibe
como un fenómeno relacionado con el trabajo en general y no sólo en relación
con los trabajos que suponen un contacto directo con personas. Comple-
mentariamente, los componentes del burnout fueron ligeramente reformu-
lados con el objeto de hacerlos extensivos a las distintas ocupaciones. Así, el
agotamiento se define como la fatiga producida por el esfuerzo psicológico
que se realiza en el trabajo, sin hacer referencia explícita a si la causa de este
estado son las relaciones con las personas o el trabajo en general. El cinismo,
a diferencia de la antigua dimensión de despersonalización, engloba actitudes

186
de indiferencia y distanciamiento hacia el trabajo en un sentido amplio, y no
sólo hacia las personas para y con las que se trabaja. Finalmente, la ineficacia
profesional refiere a la tendencia a evaluar negativamente las propias habilida-
des para realizar con eficacia el trabajo, incluyendo tanto los aspectos sociales
como no sociales de éste (Schaufeli & Salanova, 2007).
Si bien este concepto constituye la definición más utilizada (Maslach,
Schaufeli & Leiter, 2001), la conceptualización del burnout ha sido y conti-
núa siendo objeto de debate, especialmente sus dimensiones o componentes
(Schaufeli & Taris, 2005). Así, mientras que existe consenso en considerar al
agotamiento y el cinismo como los factores centrales o el “corazón” del bur-
nout (Halbesleben & Demerouti, 2005), no existe acuerdo en torno al papel
desempeñado por la ineficacia laboral. En este sentido, se ha sugerido que la
ineficacia laboral representaría un precursor del burnout (Ventura, Salanova
& Llorens, 2015), una consecuencia de éste (Schaufeli & De Witte, 2017a),
o una variable que modula la influencia de los estresores laborales sobre el
desarrollo del burnout (Gil-Monte, García-Juesas & Hernández, 2008). Por
lo tanto, se ha cuestionado fuertemente el papel de este factor como un com-
ponente genuino del burnout.
El creciente interés en el estudio y la medición del burnout se ha visto
reflejado en el desarrollo de numerosos instrumentos, como el Burnout Mea-
sure (BM; Pines & Aronson, 1988), el Oldenburg Burnout Inventory (OLBI;
Halbesleben & Demerouti, 2005), el Copenhagen Burnout Inventory (CBI;
Kristensen, Borritz, Villadsen & Christensen, 2005), el Cuestionario para la
Evaluación del Síndrome de Quemarse por el Trabajo (CESQT; Gil-Monte et
al., 2006), y el Maslach Burnout Inventory (MBI; Maslach & Jackson, 1986),
que cuenta con diferentes versiones, incluyendo una genérica (MBI-GS; Mas-
lach Burnout Inventory- General Survey) que puede ser aplicada a trabajadores
de cualquier profesión u ocupación, independientemente de las tareas espe-
cíficas que desarrollen (Schaufeli et al., 1996). De todos los instrumentos
disponibles, ha sido el MBI-GS el instrumento más utilizado, probablemente
debido a su alcance y cualidades psicométricas.
En su propuesta original, el MBI-GS consta de 16 ítems que evalúan las
tres dimensiones teóricas del burnout propuestas por Maslach: agotamiento,
cinismo e ineficacia profesional. No obstante, investigaciones posteriores del
MBI-GS en distintos países no obtuvieron apoyo empica ineficacia profesio-
nal (Langballe et al., 2006). De manera similar, en un estudio llevado a cabo
en Argentina (Spontón, Trógolo, Medrano & Castellano, 2018) se observó,
mediante análisis factorial confirmatorio, que la estructura teórica que mejor
representa el burnout consiste de dos factores compuestos por agotamiento
y cinismo (Tabla 1). En síntesis, la evidencia obtenida en diferentes estudios
sugiere, en consonancia con algunas propuestas recientes (Schaufeli, Maslach
& Marek, 2017), que sería más apropiado conceptualizar el burnout como un
síndrome bidimensional conformado por síntomas de agotamiento y cinismo.

187
Tabla 1. Instrucciones, formato de respuesta e ítems de la versión Argentina del MBI-GS

A continuación, le preguntamos sobre algunas cuestiones referentes a


sus sentimientos en el trabajo. Indiqué con qué frecuencia se siente de la ma-
nera descrita, utilizando la siguiente escala de respuesta:
Siempre / Casi
Nunca Casi nunca Raramente Algunas veces Bastante Con frecuencia
siempre
0 1 2 3 4 5 6

1 Me resulta difícil relajarme después de un día de trabajo

2 Me encuentro agotado/a al final de la jornada laboral


Después de un día de trabajo, me encuentro tan cansado/a que no puedo dedicarme a otras
3
cosas
4 Cada vez se me hace más pesado levantarme por las mañanas para ir a trabajar

5 Cada vez me siento menos implicado/a con el trabajo que hago

6 He perdido interés y entusiasmo en este trabajo

7 Dudo de que mi trabajo contribuya a algo interesante

8 No tengo claro cuál es el valor y trascendencia de mi trabajo

Evaluación del Bienestar Laboral y Engagement


Paralelamente al burnout, en los últimos años el estudio de la expe-
riencia de bienestar psicológico en el trabajo adquirió un papel prominente
(Bakker, Schaufeli, Leiter & Taris, 2008). Este énfasis se vio acompañado
por el surgimiento de la Psicología Positiva (Seligman & Csikszentmihalyi,
2000) y la aplicación de sus principios al campo organizacional, la Psicología
Organizacional Positiva (POP, Salanova, Martínez y Llorens, 2005). Desde la
POP, se ha insistido en que el estado de salud y el bienestar es algo más que
no sentirse estresado o “quemado” por el trabajo, por lo que para mejorar la
calidad de vida de los trabajadores es necesario no solo reducir aquellos facto-
res que generan malestar (burnout), sino desarrollar y potenciar aquellos que
conducen a un mayor bienestar (Salanova et al., 2005)
En este marco, surge el concepto de engagement en el trabajo (work enga-
gement, o employee engagement), definido como un estado mental positivo, de
realización, relacionado con el trabajo, que se caracteriza por vigor, dedicación
y absorción (Bakker et al., 2008). El vigor hace referencia a altos niveles de
energía y resistencia mental mientras se trabaja, el deseo de invertir esfuerzo
en el trabajo que se está realizando incluso cuando surgen dificultades en el
camino. Por dedicación se entiende la alta implicación laboral, junto con un
sentimiento de significación, entusiasmo, inspiración, orgullo y desafío por
el trabajo. Finalmente, la absorción hace referencia a un estado de concen-

188
tración plena en el trabajo, al punto tal de que se experimenta la sensación
de que el tiempo “pasa volando”, y se tiene dificultades para desconectarse
debido al alto grado de disfrute y concentración en la tarea (Salanova & Llo-
rens, 2008). Pese a esta definición general, se suele considerar al vigor y la
dedicación como las dimensiones más importantes, mientras que se ha puesto
en duda al tercer factor como una dimensión del engagement (Taris, Schaufeli
& Shimazu, 2009).
Inicialmente, el engagement fue concebido como un constructo teórico
opuesto al burnout. De esta manera, mientras que engagement se caracteriza
por altos niveles de energía (vigor) y una fuerte identificación con el trabajo
(dedicación), el burnout se caracteriza, por el contrario, por bajos niveles de
energía (agotamiento) junto con una falta de identificación (cinismo) con el
propio trabajo (Maslach & Leiter, 1997). Desde esta perspectiva, el engage-
ment y el burnout constituyen polos opuestos de un continuo, donde la pre-
sencia de uno implica la ausencia de otro (Figura 1). En consecuencia, Mas-
lach y Leiter (1997) propusieron que ambas experiencias podían ser medidas
a través de las escalas del MBI, en las que puntajes altos correspondía a “bur-
nout”, mientras que el patrón de puntajes opuestos indicaría “engagement”.
Por el contrario, Schaufeli, Salanova, Gonzalez-Roma y Bakker (2002)
conceptualizaron el engagement como una experiencia psicológica cualitati-
vamente distinta del burnout. Así definido, más que el complemento opuesto
a burnout, el engagement representaría una experiencia particular, relativa-
mente independiente (Schaufeli & Bakker, 2004). Por lo tanto, la ausencia de
burnout en los trabajadores no presupone la existencia de una alta vinculación
positiva (engagement) con el trabajo. De igual modo, la ausencia de engage-
ment no implica, necesariamente, estar quemado o burned-out (Figura 1). La
evidencia científica acumulada a través de diferentes estudios parece indicar
que el engagement y el burnout constituyen constructos psicológicos inde-
pendientes, más que opuestos, aunque no totalmente independientes debido
a las relaciones negativas entre uno y otro (Cole, Walter, Bedeian & O’Boyle,
2012; Crawford, LePine & Rich, 2010). Por este motivo, tal vez la mejor
manera de definir al engagement es considerarlo como una experiencia “ni
completamente opuesta, ni completamente independiente” (Schaufeli & De
Witte, 2017b, p. 58) al burnout.

189

Figura 1. Perspectivas teóricas en torno al burnout y engagement (adaptado de Schaufeli &


De Witte, 2017a)

La consideración del engagement como un constructo diferente del


burnout derivó en la creación de cuestionarios y escalas específicas para su
evaluación. Algunos instrumentos conocidos son la Job and Organization En-
gagement Scale (Saks, 2006), la Job Engagement Scale (JES; Rich, LePine &
Crawford, 2010), el Inventario para la Medición del Engagement en el Trabajo
(IMET; Cárdenas & Jaik, 2014), y el Utrech Work Engagement Scale (UWES;
Schaufeli et al., 2002) que ha sido – y sigue siendo- la medida más popular en
el mundo, siendo validada en más de 20 países.
La escala UWES es un cuestionario de 17 ítems desarrollada en Holan-
da, basado en el concepto tridimensional de engagement. De esta manera, el
cuestionario permite medir el nivel de vigor (6 ítems), dedicación (6 ítems)
y absorción (5 ítems) en el trabajo (Tabla 2). Todos los ítems se esponden en
una escala de Likert con siete opciones que van desde 0 (nunca) a 6 (siempre
o casi siempre). Actualmente, existe una versión abreviada de 9 ítems que ha
mostrado también buenas garantías psicométricas (Schaufeli, Bakker & Sa-
lanova, 2006). Investigaciones realizadas en Argentina (Spontón, Medrano,
Maffei, Spontón & Castellano, 2012) evidencian buenas propiedades psico-
métricas de la versión larga del UWES, confirmando las tres dimensiones
teóricas del constructo, con índices de consistencia interna (alfa de Cronbach)
satisfactorios para las tres dimensiones (vigor: α = .76; dedicación: α = .88;
absorción: α = .69)

190
A continuación, le preguntamos sobre algunas cuestiones referentes a
sus sentimientos en el trabajo. Indiqué con qué frecuencia se siente de la
manera descrita, utilizando la siguiente escala de respuesta:

Siempre /
Nunca Casi nunca Raramente Algunas veces Bastante Con frecuencia
Casi siempre
0 1 2 3 4 5 6

1 En mi trabajo se presentan nuevos retos

2 En mi trabajo me siento lleno/a de energía

3 Estoy inmerso/a y concentrado en mi trabajo

4 El tiempo “vuela” cuando estoy trabajando

5 Soy persistente en mi trabajo

6 Estoy entusiasmado con mi trabajo


7 Puedo continuar trabajando durante largos períodos de tiempo

8 Cuando me levanto por las mañanas tengo ganas de ir a trabajar

9 Incluso cuando las cosas no van bien, continuo trabajando

10 Soy fuerte y enérgico/a en mi trabajo

11 Aprendo cosas nuevas e interesantes en mi trabajo

12 Mi trabajo tiene sentido

13 Cuando estoy trabajando olvido todo lo que pasa a mi alrededor

14 Me “dejo llevar” por mi trabajo

15 Mi trabajo es estimulante e inspirador

16 Estoy orgulloso/a del trabajo que hago

17 Cuando estoy absorto/a (compenetrado/a) en mi trabajo, me siento bien

Tabla 2. Instrucciones, formato de respuesta e ítems del cuestionario UWES-versión Argentina


229

A continuación, le preguntamos sobre algunas cuestiones referentes a


sus sentimientos en el trabajo. Indiqué con qué frecuencia se siente de la ma-
nera descrita, utilizando la siguiente escala de respuesta:

Evaluación con fines de Selección

Una de las funciones más habituales del psicólogo en las organizaciones


se relaciona con la identificación del perfil psicológico de una persona o grupo
y su articulación con determinados requerimientos de puestos predefinidos.
En este caso la evaluación psicolaboral se centra en valorar ciertos atributos
de empleados actuales o futuros en relación a puestos de trabajo y/o cultura
organizacional (Albajari y Mames, 2005).

191
Aunque la evaluación con fines de selección es la que ha concentrado el
mayor número de prácticas (Albajari y Mames, 2005), es importante subra-
yar que la medición es pertinente a todos los procesos de gestión de recursos
humanos en los que se requiera medir una variable psicológica (Martinez M.,
2011). Para Cohen y Swerdlik (2006) no sólo se utilizan técnicas de evalua-
ción en selección de personal sino también en otros procesos y para otros
objetivos en el lugar de trabajo. Son variados los usos de esas herramientas
con referencia a pruebas de capacidad cognitiva, productividad, motivación,
agotamiento, satisfacción, compromiso laboral y cultura organizacional.
Los constructos psicológicos evaluados en este contexto son en algunos
casos generales y típicos de taxonomías tradicionales, y en otros, constituyen
rasgos de interés propios de un campo laboral determinado (Aguilar, 2010).
Siguiendo a Albajari y Mames (2005), es posible clasificar las variables en dos
grandes grupos: a) habilidades entre las que se encuentran, por ejemplo, la
memoria, velocidad de ejecución, precisión, capacidad de organización y pla-
nificación, atención, concentración, tipo de pensamiento, habilidad verbal,
nivel intelectual y tipo de pensamiento y; b) variables de personalidad, donde
se consideran por ejemplo, la autonomía, capacidad de liderazgo, control de
impulsos, capacidad de adaptación, creatividad, motivación, relación con la
autoridad, tolerancia a la frustración, relaciones interpersonales, tolerancia
al estrés y trabajo en equipo. En este apartado realizaremos hincapié en dos
variables: evaluación del liderazgo y evaluación de la personalidad.

Evaluación del Liderazgo


En la actualidad el liderazgo es uno de los temas que mayor interés
suscita en el ámbito de las organizaciones (Cuadra & Veloso, 2007), siendo
considerado un recurso social clave (Salanova, Llorens, Cifre & Martínez,
2012). En efecto, se concibe que el éxito o el fracaso de cualquier organiza-
ción depende, en buena medida, de la calidad de sus líderes (Peiró, 2000). Es
así que la gestión del liderazgo comienza a ser un elemento de importancia
estratégica para las organizaciones.
A pesar de su importancia, el panorama no es claro cuando se trata de
definir lo que es un líder y sus características. Esto ha generado, como conse-
cuencia, el desarrollo de diferentes aproximaciones o enfoques en el estudio
del liderazgo. Uno de los enfoques más antiguos corresponde a la teoría de los
rasgos (Zaccaro, 2007), según la cual existen ciertas cualidades o atributos
personales que caracterizan y diferencian a los líderes de aquellos que no lo
son. Dentro de esta corriente se han propuesto algunas características como la
extraversión, la autoconfianza, la iniciativa, la persistencia, la responsabilidad,
el altruismo y la inteligencia -especialmente la inteligencia emocional-, entre
otros. El enfoque centrado en los rasgos tiene como supuesto básico un perfil
ideal de líder basado en ciertos atributos que puede aplicarse en todas las or-

192
ganizaciones. Si bien este enfoque es muy utilizado, ha sido objeto de críticas
al no tener en cuenta ni a los seguidores ni a la situación. Al mismo tiempo,
no existe entre los defensores del enfoque un acuerdo acerca de cuáles serían
los rasgos hacen de una persona un líder eficaz (Castro Solano, 2007).
Por su parte, desde el enfoque conductual el liderazgo es entendido como
un conjunto de comportamientos específicos (Hunt & Larson, 1977). De
manera general, las investigaciones bajo este enfoque han permitido identifi-
car cuatro comportamientos característicos en los líderes, que posteriormente
fueron reducidos a dos: consideración e iniciación de estructura. La conside-
ración son conductas que tienen como fin el mantenimiento o la mejora de
las relaciones entre el líder y los seguidores. Incluyen el respeto, la confianza, y
la creación de un clima de camaradería. En cambio, la iniciación de estructura
comprende conductas orientadas a la consecución de la tarea e incluyen actos
tales como organizar el trabajo, dar estructura al contexto laboral, definir roles
y obligaciones, entre otros. Los resultados desde este enfoque han sido incon-
sistentes, básicamente por el criterio utilizado para determinar la efectividad
de los líderes. En algunos casos un líder con una fuerte orientación a la tarea
era mejor que uno que se preocupaba por los subalternos, y a la inversa (Yukl,
2002). Por otra parte, el énfasis en el análisis de las conductas de los líderes
ha llevado a desestimar la importancia de otras variables, como las diferentes
situaciones o contextos en que las conductas de los líderes resultan eficaces.
Como resultado de lo anterior surge el enfoque situacional del liderazgo
(Hersey & Blanchard, 1993). El supuesto básico de este enfoque es que di-
ferentes patrones de conductas pueden ser efectivos en diferentes situaciones
pero que una misma conducta no es óptima para todas ellas. De esta manera,
un líder eficaz es aquel que adapta su estilo de liderazgo según la situación
para que sus acciones resulten efectivas. Por consiguiente, los modelos situa-
cionales enfatizan la flexibilidad del proceso de liderar, de modo de ajustar las
propias conductas a los requerimientos de la situación y de las características
de los subordinados. A pesar del auge de las teorías propuestas dentro de este
enfoque y de su utilización en programas de entrenamiento en organizacio-
nes, no existen estudios que hayan probado su eficacia (Graeff, 1997) y no
toma en cuenta otras variables mediadoras entre las conductas de los líderes
y de los seguidores, tales como el nivel de estudios, educación, experiencia y
edad (Northouse, 2004).
Finalmente, se destacan los enfoques basados en el procesamiento de la
información (Lord, Foti & De Vader, 1984), desde los cuales se intenta ana-
lizar el papel que juegan las percepciones y las teorías implícitas de los líde-
res y seguidores en el proceso de liderazgo, reconociendo al mismo tiempo
la importancia del contexto en el que éstas surgen. Desde este enfoque, se
asume que tanto los líderes como los seguidores poseen ciertos estereotipos
o creencias acerca de cuáles son las conductas esperadas de una persona para
que ésta sea considerada líder (Wofford, Godwin & Wittington, 1998). Las

193
teorías implícitas de liderazgo definen las creencias acerca de cómo los líderes
se tienen que comportar para ser considerados como tales y qué se espera de
ellos (Mumford, Zaccaro, Hardin, Jacobs & Fleishman, 2000).
A pesar de sus limitaciones, los diferentes enfoques sobre el liderazgo
contribuyeron a ampliar el término de liderazgo, dando origen a nuevas teo-
rías que destacan la interacción diádica líder y seguidor/colaborador (Cruz-
Ortiz, Salanova & Martínez, 2013). Así, mientras que en un principio la
investigación se centró en estudiar la figura del líder desde una perspectiva
individual –ya sea desde el análisis de los rasgos o las conductas-, las perspec-
tivas actuales en el estudio del liderazgo se centran no sólo en el líder, sino
también en los seguidores, compañeros, supervisores, entorno/contexto y la
cultura. De este modo, el liderazgo ya no es simplemente considerado como
una característica individual, sino más bien como una diada compartida de
relación, y una dinámica social estratégica, global y compleja (Avolio, Walum-
bwa & Weber, 2009).
Es así que actualmente se define al liderazgo como un proceso de in-
fluencia sobre otros con el propósito de lograr determinados objetivos (Yukl,
2002). Al ser conceptualizado como proceso, el liderazgo no es solamente un
rasgo que reside en la figura del líder. Más bien, el líder influye y es influido
por sus seguidores, mediante un proceso dinámico y recíproco. Esta influen-
cia se produce exclusivamente en un contexto grupal, siendo así un fenómeno
social. Finalmente, la influencia del líder involucra objetivos o metas; en efec-
to, el liderazgo no ocurre en el vacío, sino que el líder fija objetivos o metas en
común, y la relación con los seguidores se establece en función de estas metas
(Castro Solano, 2007)
Dentro de esta perspectiva, uno de los enfoques que mayor número de
investigaciones ha generado es la teoría de los Estilos de Liderazgo propuesto por
Bass (1985). Basándose en los estudios de House (1977) y Burns (1978) acerca
del liderazgo carismático y transformacional, Bass propuso una teoría sobre el
liderazgo que toma en cuenta tanto los rasgos y conductas del líder como las
variables situacionales, dando lugar así a una perspectiva más integradora que los
enfoques descritos (Yukl & Van Fleet, 1992).
Uno de los estilos de liderazgo que propone la teoría es el liderazgo trans-
formacional, definido como aquel que produce cambios en sus seguidores a partir
de concientizarlos acerca de la importancia y el valor que revisten los resultados
obtenidos tras realizar las tareas asignadas, incitándolos a que trasciendan sus in-
tereses personales en virtud de los objetivos de la organización (Bass, 1985). De
acuerdo con este autor, existen cuatro características que definen a este estilo lide-
razgo: el carisma (los líderes transformacionales se proponen como ejemplos a
seguir), la inspiración (proveen significado a las acciones de sus subordinados),
la estimulación intelectual (alientan la búsqueda de soluciones alternativas a
problemas cotidianos) y la consideración individualizada de los trabajadores

194
(suelen preocuparse por las necesidades individuales de sus subordinados).

El líder transformacional posee una clara visión colectiva sobre el trabajo


y la organización y es capaz de transmitirla a sus seguidores, incentivando a que
trasciendan sus intereses personales en virtud de los objetivos de la organización
(Castro Solano, 2007). Fomenta relaciones de cercanía caracterizadas por una
pequeña distancia de poder y por la consideración individualizada de las necesi-
dades y capacidades de sus miembros, ofreciendo oportunidades, desafíos y re-
compensas motivantes (Yukl, 2002). Asimismo, representa una fuente de apoyo
social, de feedback, es un clarificador de rol y hace que los seguidores perciban
un alto grado de justicia y de equidad a través de la proporción de recursos tan-
to materiales como sociales/emocionales, como por ejemplo el reconocimiento
(Tripiana & Llorens, 2015). Por último, es importante mencionar que este tipo
de liderazgo no es un fenómeno extraordinario limitado a unas pocas personas
“excepcionales”; la presencia de líderes con características transformacionales se
ha encontrado en diferente grado en diversos grupos y organizaciones, y puede
desarrollarse o potenciarse mediante diferentes tipos de intervenciones (Kelloway,
Barling & Helleur, 2000).
Otro estilo propuesto por Bass es el liderazgo transaccional. Los líderes tran-
saccionales, por su parte, se caracterizan por el desarrollo de intercambios y
la negociación con los subordinados a cambio del logro de objetivos y metas
organizacionales (recompensa contingente) y además suelen supervisar muy de
cerca las actividades de sus subordinados con el propósito de evitar posibles
errores o desviaciones de los procedimientos y normas establecidos (dirección
por excepción). En caso de ocurrir un error, suelen aplicar acciones correctivas.
Esta dimensión tiene una forma activa (prevenir para que los errores no ocu-
rran) y una forma pasiva (actuar cuando el error ya ocurrió).
Por último, Bass incluye también dentro de su teoría el liderazgo laissez
faire. Este estilo ha sido definido como la ausencia o evitación del liderazgo. En
esencia, este tipo de líderes ofrece muy poco en términos de dirección y soporte,
con frecuencia delega responsabilidades, evitan tomar decisiones y permiten a los
trabajadores hacer lo que les parece.
Para Bass (1985) los estilos de liderazgo antes mencionados no representan
puntos de un continuo ni son excluyentes entre sí, sino que el líder puede exhibir
diferentes tipos de comportamientos según la situación o patrones de conducta
que combinan elementos de diversos estilos de liderazgo. Esto ha llevado a Bass
junto con Avolio (Bass & Avolio, 1990) a proponer el modelo de liderazgo de
rango completo (Full Range Leadership, FRL), que incluye los componentes del
liderazgo transformacional, transaccional y laissez faire; y al desarrollo de un ins-
trumento basado en este modelo, el Multifactor Leadership Questionnaire MLQ),
que permite obtener una idea sobre los estilos de liderazgo predominantes y delas
dimensiones que lo componen.

195
En Argentina, Castro Solano, Nader y Casullo (2004) desarrollaron el
Cuestionario de Estilos de Liderazgo (CELID) basado en la teoría propuesta
por Bass. Este cuestionario cuenta con 34 ítems que evalúan los diferentes
estilos de liderazgo (transformacional, transaccional, laissez faire) y las dimen-
siones que lo componen, permitiendo obtener una puntuación para cada una
de ellas y un puntaje global correspondiente a cada estilo. Los autores elabo-
raron dos versiones del CELID: el CELID-S y el CELID-A. En la primera
versión, el empleado/subordinado debe responder en qué medida percibe que
cada uno de los comportamientos descritos se ajustan a los comportamientos
de su superior o jefe. En cambio, en la segunda modalidad es el jefe/superior
quien responde, indicando en qué medida los comportamientos se ajustan a
su estilo de liderar (Tabla 3)

3. Ejemplos
Tabla 3. Ejemplosde
deÍtems
Ítemsdel
delCELID
CELID (Versión S)

CUESTIONARIO DE ESTILOS DE LIDERAZGO
(CELID – S)
Protocolo de Administración
Instrucciones: A continuación, hay una serie de afirmaciones acerca del li-
derazgo y del acto de liderar. Por favor, indique cuánto se ajusta cada una de ellas
al estilo de liderar que usted percibe en su SUPERIOR. 1 indica: Total desacuer-
do con la afirmación, 5 indica: Total acuerdo con la afirmación y 3 es intermedio
(Ni de acuerdo ni en desacuerdo).
1 2 3 4 5
1. Su presencia tiene poco efecto en nuestro rendimien-
to
2. No trata de cambiar lo que hacemos mientras las
cosas salgan bien
3. Nos sentimos orgullosos de trabajar con él.
4. Pone especial énfasis en la resolución cuidadosa de
los problemas antes de actuar
5. Evita involucrarse en nuestro trabajo
6. No nos dice en donde se sitúa en algunas ocasiones
7. Demuestra que cree firmemente en el dicho “si fun-
ciona, no lo arregles”
8. Nos da lo que queremos a cambio de recibir nuestro
apoyo
9. Evita intervenir, excepto cuando no se consiguen los
objetivos
10. Se asegura que exista un fuerte acuerdo entre lo que
se espera que hagamos y lo que podemos obtener por
nuestro propio esfuerzo

En cuanto a las propiedades psicométricas del CELID, el análisis de la


estructura interna mediante análisis factoriales exploratorio y confirmatorio de-
196muestran que el CELID evalúa 7 dimensiones subyacentes agrupables en torno a
tres factores primarios que se corresponden con los diferentes estilos de liderazgo.
En cuanto a las propiedades psicométricas del CELID, el análisis de la
estructura interna mediante análisis factoriales exploratorio y confirmatorio
demuestran que el CELID evalúa 7 dimensiones subyacentes agrupables en
torno a tres factores primarios que se corresponden con los diferentes estilos
de liderazgo. Por su parte, la evaluación de la consistencia interna mediante el
coeficiente alfa de Cronbach señala que el CELID constituye un instrumen-
to confiable para ser aplicado en la población Argentina (valores α entre .65
y .80 para las diferentes escalas). Estudios complementarios evidenciaron la
capacidad de las puntuaciones del cuestionario para predecir la satisfacción
laboral de los trabajadores, obteniéndose de esta manera evidencia externa de
validez.
Los estudios basados en la teoría del liderazgo de rango completo han
demostrado que la presencia de líderes laissez faire produce un impacto ne-
gativo en el clima, la autoeficacia y la satisfacción laboral de los trabajadores
(Cuadra & Veloso, 2007; Morales & Molero, 1995). En cambio, el liderazgo
transformacional y el liderazgo transaccional han sido relacionados por lo ge-
neral con consecuencias positivas, ejerciendo una influencia favorable sobre la
autoeficacia (Dumdum, Lowe & Avolio, 2002), la motivación (Bass, 1997),
el desempeño (Judge & Piccolo, 2004), el engagement (Trógolo, Pereyra &
Spontón, 2012) y la satisfacción laboral de os trabajadores (Omar, 2011). No
obstante, la evidencia proveniente de meta-análisis muestran un efecto cuan-
titativamente mayor del liderazgo transformacional sobre el liderazgo tran-
saccional (Dumdum et al., 2002; Lowe, Kroeck y Sivasubramaniam, 1996),
sugiriendo así que el liderazgo transformacional constituye el estilo de mayor
impacto en el desarrollo de los recursos humanos y el bienestar psicológico de
los empleados (Turner, Barling & Zacharatos, 2002).

Evaluación de la Personalidad
Un aspecto tradicionalmente evaluado en el campo organizacional son
las diferencias individuales relacionadas con la personalidad, especialmente en
el contexto de selección de personal (García Izquierdo, García Izquierdo &
Ramos Villagrasa, 2007). En esencia, las investigaciones han mostrado con-
sistentemente una notable capacidad predictiva de esta variable sobre diversos
comportamientos organizacionales (Lievens, Highhouse & De Corte, 2005;
Ones, Viswesvaran & Dilchert, 2005) y, en particular, sobre el desempeño
desde la selección del personal (Barrick & Mount, 1991; Salgado, 2003).
Actualmente, existen numerosas teorías y modelos que se han pro-
puesto con el objetivo de describir la estructura básica de la personalidad
humana. Entre los modelos más relevantes se encuentran el modelo psico-
biológico de Eysenck (Eysenck, 1991), el modelo de siete factores de Clonin-
ger (Cloninger, Przybeck, Svrakic & Wetzel, 1994), el modelo de los cinco

197
factores o Cinco Grandes (Costa & McCrae, 1992), y el modelo de los Cinco
Factores Alternativos de Zuckerman (Zuckerman, Kuhlman, Joireman, Teta
& Kraft, 1993). De todos éstos, el modelo de los Cinco Grandes representa
la taxonomía más aceptada de los rasgos de personalidad (Sanz, Avia & Sil-
va, 1999) y la más utilizada en el contexto laboral (Salgado, 2005), siendo
avalada por diferentes estudios transculturales (McCrae, Costa, del Pilar, Ro-
lland & Parker, 1998; Salgado, Moscoso & Lado, 2003) que demuestran la
generalización de los rasgos propuestos por el modelo en diferentes culturas y
poblaciones.
De acuerdo con los autores de este modelo, existen cinco dimensiones
bipolares que conforman los rasgos básicos de la personalidad: (1) extraversión
(opuesto a la introversión), (2) neuroticismo/inestabilidad emocional (opuesto
a la estabilidad emocional), (3) amabilidad (opuesto a la hostilidad), (4) res-
ponsabilidad (opuesto a la irresponsabilidad), y (5) apertura a la experiencia
(opuesto a la falta de apertura a la experiencia). A la fecha, se han generado
diferentes instrumentos sobre la base del modelo de los cinco grandes facto-
res: el Inventario de personalidad (NEO-PI; Costa & McCrae, 1985), que
cuenta con una versión revisada (NEO-PI-R; Costa & McCrae, 1992) y una
versión abreviada (NEO-FFI; Costa & McCrae, 1999), y el Cuestionario de
Personalidad IPIP-FFM de Goldberg (Goldberg, 1999).
El Cuestionario de Personalidad IPIP-FFM comprende 50 ítems cons-
truidos para medir los cinco grandes factores de personalidad. Cada ítem se
encuentra redactado en forma de frase que describe comportamientos típicos
de las personas, donde se solicita al sujeto que evalúe el grado con que cada
afirmación lo describe, utilizando na escala con cinco opciones de respuesta,
desde 1 (muy en desacuerdo con esta descripción de mí mismo) hasta 5 (muy de
acuerdo con esta descripción de mí mismo) (Tabla 4). En nuestro país, Cupani
(2009) llevó a cabo estudios de validación del IPIP-FFM en pre-adolescentes,
reportando una adecuada estructura factorial, valores de consistencia interna
satisfactorios (coeficientes alfa de Cronbach entre .77 y .84) y evidencia de
validez convergente con el Cuestionario de Cinco Factores para Niños (Bar-
baranelli, Caprara, Rabasca & Pastorelli, 2003) Las buenas propiedades del
IPIP-FFM fueron confirmadas en un estudio posterior sobre una muestra
amplia de individuos de la población general (Gross, Zalazar-Jaime, Piccolo
& Cupani, 2012), representando de esta manera una alternativa válida para la
medición de los cinco grandes factores en la población local.

Tabla 4. Ejemplo de Ítems del Cuestionario de personalidad IPIP-FFM


1 2 3 4 5

Me siento cómodo entre la gente.

Ofendo a la gente.

198
Pongo atención en los detalles.

Me preocupo demasiado.

Tengo una imaginación fluida.

Intento no llamar la atención.


Me compenetro con las
emociones de los otros.
Hago un lió con las cosas.

Raramente me siento triste.


No me interesan las ideas
abstractas.
Generalmente comienzo las
conversaciones.
No me interesan los problemas de
otras personas.
Realizo mis tareas
inmediatamente.

Tabla 4. Ejemplo de Ítems del Cuestionario de personalidad IPIP-FFM (continuación)

Deseabilidad Social
A pesar de la eficacia de las medidas de personalidad para predecir di-
ferentes comportamientos organizacionales (Barrick, Mount & Judge, 2001;
Hogan & Holland, 2003), su utilización en este ámbito no está exenta de pro-
blemas. En concreto, se ha sugerido que las personas podrían estar motivadas
a distorsionar sus respuestas con el objetivo de brindar una imagen favorable
de sí mismos, particularmente en aquellas situaciones donde las respuestas en
los cuestionarios de personalidad tienen consecuencias importantes para las
personas que responden, como ocurre en los procesos de selección de personal
(Salgado, 2005).
La tendencia de los individuos a distorsionar las respuestas en los cues-
tionarios con el objetivo de proyectar una imagen favorable de sí mismos, se
conoce como deseabilidad social (Paulhus, 1984). El problema de la deseabi-
lidad social en las medidas de personalidad ha sido extensamente analizado
en el contexto de selección de personal. Las investigaciones realizadas han de-
mostrado repetidamente que los puntajes en las escalas de personalidad de los
solicitantes difieren significativamente de las puntuaciones que obtienen las
personas que los completan de forma voluntaria como, por ejemplo, personas
que actualmente ocupan esos empleos o personas que participan en volun-
tariamente en una investigación (Birkeland, Manson, Kisamore, Brannick y

199
Smith, 2006; Hough, 1998). En concreto, Sanz y García-Vera (2009) com-
pararon las respuestas de una muestra de candidatos que participaban en un
proceso de selección de personal con las respuestas de sujetos que participa-
ron voluntariamente. Hallaron puntajes más altos en extraversión, apertura,
amabilidad y -especialmente- responsabilidad, y puntajes más bajos en neu-
roticismo en los candidatos. Los autores concluyeron que el principal efecto
de la deseabilidad social consiste en aumentar las puntuaciones en aquellos
aspectos de la personalidad que están (o que los candidatos creen que están)
positivamente relacionados con el desempeño laboral, y en reducir los pun-
tajes en aquellos aspectos de la personalidad que están (o que los candidatos
creen que están) asociados negativamente con el desempeño.
Debido a esto, es dable suponer que la validez de los cuestionarios o in-
ventarios de personalidad se encuentren seriamente limitados en los procesos
de selección de personal. En otras palabras, la utilidad predictiva de las medi-
das de personalidad podría verse afectada negativamente, o incluso anulada,
debido a los efectos de deseabilidad social (Goffin & Christiansen, 2003). No
obstante, estudios que analizan el sesgo de deseabilidad social mostraron que,
tras controlar los efectos de la deseabilidad social, las medidas de personalidad
mantienen su capacidad predictiva sobre diferentes variables como la satisfac-
ción laboral y el compromiso organizacional (Ones & Viswesvaran, 1998).
Estos resultados respaldan la utilidad de los cuestionarios de personalidad
para la evaluación con fines de selección.
Con todo, el control y la detección del sesgo de deseabilidad social con-
tinúa siendo un problema importante. Al respecto, se han desarrollado distin-
tas estrategias aunque dos de ellas han demostrado ser efectivas: (a) informar a
los evaluados de que se examinarán sus respuestas en relación con la deseabili-
dad social y que la existencia de distorsiones tendrá consecuencias negativas, y
(b) crear baremos específicos a partir de muestras de candidatos o de personas
que contestan a las medidas de personalidad en contextos que puedan suscitar
deseabilidad social (e.g., selección de personal o promoción; Salgado, 2005).
Por otra parte, se ha comprobado que ciertas escalas del MMPI-2 pueden
ser útiles para la detección de patrones de respuesta de simulación y engaño
en contextos de selección de personal (Rosario-Hernández, Rovira, Álvarez
& Rodríguez, 2007). Por lo tanto, una alternativa útil podría consistir en
complementar la aplicación de las medidas de personalidad con estas escalas.
Finalmente, existen algunas propuestas metodológicas recientes basadas en el
uso de pruebas implícitas para evaluar la personalidad (qIAT; Yovel & Fried-
man, 2013) que resultan prometedoras, aunque se requiere de investigaciones
que examinen la validez incremental respecto de las medidas tradicionales de
personalidad, en el contexto de selección.

200
Consideraciones Finales

En el presente trabajo se realizó un recorte de algunas de las pruebas


de mayor uso en la evaluación organizacional. No obstante, es importante
señalar que las pruebas utilizadas en este contexto no se limitan solo a las ex-
puestas. Según Aguilar (2010), entre las pruebas más utilizadas en el contexto
organizacional se encuentran la Escala Weschler de inteligencia para adultos
(WAIS), test de Matrices progresivas Raven, Test de dominós D-48 y D-70,
BETA III, Cuestionario de 16 factores de personalidad (16PF), Inventario
de personalidad para vendedores (IPV), Inventario Millon de estilos de la
personalidad (MIPS), Inventario Multifásico de la personalidad Minnesota
(MMPI-2), Cuestionario de los 5 grandes factores de la personalidad (BFQ),
Cuestionario de Personalidad situacional (EPQ-R) de Eysenck, Test de habili-
dades de negociación (NEGO), Test de Aptitud verbal BAIRES, Tolouse-Pié-
ron (TP) y Escala de preferencias-vocacional de Kuder.
Por su parte, Muñiz et al., (2010), señalan que los diez test más uti-
lizados por los psicólogos laborales en España son el 16PF (16 Factores de
Personalidad), PAPI (Inventario de Personalidad y Preferencias), DAT (Test
de Aptitudes Diferenciales), TPT (Test de Personalidad de TEA), IPV (In-
ventario de Personalidad para Vendedores), MMPI (Inventario Multifásico
de Personalidad de Minnesota), IGF (Inteligencia General de TEA), BFQ
(Cuestionaro de Cinco Factores de Personalidad), MCMI (Inventario Mul-
tiaxial Clínico de Millon) y NEO PI (Inventario de Personalidad).
En Argentina, siguiendo a Elcovich (2015), las herramientas más utili-
zadas son los test proyectivos, y luego pruebas psicométricas. Según este autor
los principales instrumentos son: el Test de Zulliger, el Psicodiagnóstico de
Rorschach, la Persona bajo la lluvia, el Test Gestáltico Viso Motor de Bender,
el test Casa-árbol-persona (HTP), el Inventario Millon de Estilos de Perso-
nalidad (MIPS); Test de Aptitudes Diferenciales (DAT), entre otros. Como
puede apreciarse, las pruebas de mayor uso a nivel internacional son poco
contempladas en el contexto local.
Como se ha mencionado anteriormente la evaluación en el contexto
organizacional requiere una serie de precauciones. Tal como señala Martínez
(2011) la sobrecarga de la operación y rutina de trabajo de los profesionales
del área lleva a que a veces no se tomen los cuidados metodológicos que éstas
pruebas demandan. Siguiendo a este autor, los psicólogos deben transmitir
a los directivos de las organizaciones la importancia de los criterios psico-
métricos básicos y su influencia en la eficacia y el costo/beneficio para las
organizacionales.
Por otra parte, es necesario destacar una vez más que la evaluación im-
plica una integración de distintos instrumentos y fuentes de recolección de
datos. Será esencial además que el psicólogo cuente con hipótesis previas y
una clara identificación de la demanda de evaluación para orientar la elección

201
de los instrumentos. Finalmente, resta por recordar que los test contribuyen
a la toma de decisiones, no las dirigen (Muchinsky, 2002), por lo que es clave
no sobrevalorarlos, ni subestimarlas, sino utilizar aquellas pruebas debida-
mente calificadas en cuanto a sus propiedades psicométricas ya que, en parte,
a partir de ellas se tomarán decisiones importantes sobre la vida de las perso-
nas (Muñiz et al., 2015).

202
|
Pruebas Psicométricas en la Evaluación
Neuropsicológica
Alberto Luis Fernández

Introducción

La administración de tests neuropsicológicos constituye una parte subs-


tancial de la evaluación neuropsicológica. De la correcta administración de
tests apropiados para la evaluación de las variables cognitivas y su relación
con el funcionamiento cerebral depende una gran parte de la evaluación neu-
ropsicológica, mediante la cual se puede arribar a un correcto diagnóstico
neuropsicológico.
En los párrafos siguientes se delinearán conceptos básicos de neurop-
sicología y la inserción de las técnicas psicométricas en este campo, especial-
mente con población adulta. Se revisarán los fundamentos y limitaciones de
las mismas, como así también sus aplicaciones y las pruebas más comúnmente
utilizadas.

Neuropsicología: ¿Qué es y para qué sirve?

La neuropsicología es la disciplina clínica y experimental que estudia las


relaciones cerebro-conducta/cognición (Ardila, Arocho Llantin, Labos & Ro-
driguez Irizarry, 2015). En este concepto de conducta se incluyen tanto aque-
llas observables como las no observables en forma directa, como por ejemplo
los pensamientos, emociones, y actitudes. El desarrollo de la neuropsicolo-
gía ha estado, fundamentalmente aunque no exclusivamente, determinado
por la necesidad de investigar y encontrar herramientas que permitieran el
diagnóstico y posteriormente el tratamiento de los déficits en el rendimiento
cognitivo (memoria, lenguaje, atención, funciones visoespaciales, funciones
ejecutivas) luego de la ocurrencia de una lesión cerebral. Frecuentemente,
estas lesiones resultan en trastornos cognitivos que afectan el desempeño de
una persona en las actividades de la vida diaria (AVD), incluyendo sus activi-
dades laborales, sociales y académicas. Por ello, luego de una lesión cerrioso
determinar la cantidad y calidad de daño cognitivo que puede haber sufrido
una persona determinada. Sin embargo, la evaluación neuropsicológica (EN)
no es sólo útil en casos de una lesión cerebral traumática sino también en
los casos de enfermedades cerebrales degenerativas tales como la Enfermedad
de Alzheimer o la Demencia Frontotemporal (Jacova, Kertesz, Blair, Fisk &

203
Feldman, 2007; Salmon & Bondi, 2009) como así también en casos de niños
con dificultades del aprendizaje (dislexia, discalculia, disgrafia) o Trastorno
por Déficit de Atención e Hiperactividad (Semrud-Clikeman, 2005; Silver et
al. 2006). Finalmente, la utilización de esta herramienta en los casos de perso-
nas que padecen trastornos psiquiátricos también ha sido muy útil. La Tabla
1 resume todos los casos en los que la EN puede resultar de utilidad.

Tabla 1. Situaciones en las que la evaluación neuropsicológica puede resultar de utilidad

Traumatismos de cráneo
Heridas abiertas (balas, hierros, cuchillos, etc.)
Accidente cerebrovasculares (hemorragia o isquemia cerebral)
Infecciones virales o bacterianas (meningitis)
Intoxicación por inhalación de gases tóxicos
Enfermedades degenerativas (Alzheimer, Parkinson, Esclerosis múltiple, etc.)
Consumo crónico abusivo de alcohol u otras drogas
Anoxia (interrupción del flujo respitarorio por un tiempo prolongado)
Dificultades de aprendizaje (dislexia, discalculia, disgrafia)
Trastornos de la niñez (Déficit de atención e hiperactividad, trastorno del espectro autista, etc.)
Hipertensión crónica
Trastornos cardíacos crónicos
Infección por VIH

La EN, no obstante, tiene aplicaciones que van más allá del diagnóstico.
Lezak, Howieson, Bigler & Tranel (2012) señalan 5 aplicaciones de la evalua-
ción neuropsicológica:
–– Evaluación: es útil para discriminar entre síntomas psiquiátricos y
neurológicos, en la identificación de un posible trastorno neuro-
lógico en un paciente no psiquiátrico, en ayudar a distinguir entre
diferentes condiciones neurológicas y en proveer datos comporta-
mentales para localizar el sitio – o al menos el hemisferio – de una
lesión.
–– Cuidado del paciente y planeamiento: la descripción detallada de las
alteraciones que un paciente determinado puede padecer ayuda en
las medidas a tener en cuenta por quienes cuidan de él por ejemplo,
adaptándose a sus dificultades.
–– Rehabilitación y evaluación del tratamiento: esta evaluación indica al
terapeuta a qué funciones es necesario dirigir el tratamiento y posi-
bilita además controlar la evolución del mismo.
–– Investigación: la investigación en neuropsicología comprende tanto
la evaluación de las relaciones entre diferentes estructuras cerebrales

204
y el comportamiento como la referida a las metodologías diagnósti-
cas y terapéuticas.
–– Neuropsicología forense: la pericia de los neuropsicólogos es requeri-
da muchas veces en el ámbito forense para dirimir cuestiones tales
como la comprensión de una persona de sus actos jurídicos, los da-
ños cognitivos resultantes de un accidente o mala praxis, etcétera.

Elementos de la Evaluación Neuropsicológica

La EN cuenta con tres elementos fundamentales:

1. Antecedentes del paciente o anamnesis: mediante una entrevista


se obtienen datos tales como historia social, circunstancias vitales ac-
tuales, historia médica, y circunstancias relacionadas a la evaluación.
2. Observación: directa - durante la evaluación -, e indirecta - a tra-
vés del informe de familiares o personas convivientes. Entre las va-
riables observables podemos mencionar la conducta: velocidad de
reacción, marcha, lenguaje, comprensión de consignas, etcétera; y
la emocionalidad.
3. Evaluación psicométrica: Dentro de la evaluación psicométrica es
importante tener en cuenta varios aspectos, a saber:
a. Objetivos de la evaluación: el principal objetivo de la evaluación
neuropsicológica en el área clínica es el de determinar el estado cog-
nitivo de una persona. Frecuentemente, la demanda está referida a
personas que han sufrido o de quienes se sospecha una lesión cere-
bral. En tal caso, la EN está dirigida a estimar la cantidad y calidad
del deterioro cognitivo que una persona pueda haber sufrido luego
de este evento. A través de ello será posible estimar la etiología, lo-
calización, tratamiento y pronóstico de dicha lesión. Sin embargo,
existen otras aplicaciones, tales como el monitoreo del efecto de
una droga, la localización de un hemisferio de la lesión o como las
mencionadas anteriormente, que determinan las pruebas necesarias
en cada caso. Algunas escuelas promueven la utilización de una ba-
tería única, no obstante, este no parece ser un enfoque adecuado
considerando la necesidad de adecuación al objetivo de la evalua-
ción, tiempos y costos. El enfoque de evaluación que promueve la
utilización de una batería fija está siendo cada vez menos utilizado
por los neuropsicólogos clínicos. Una reciente encuesta, realizada
en nuestro país, reveló que el 94,4% de los encuestados utilizaban
baterías flexibles, es decir baterías de tests que pueden ser modifi-
cadas (agregando o substrayendo algún/os test/s) según el paciente
que se debe evaluar (Fernández, Ferreres, Morlett-Paredes, Rivera &

205
Arango-Lasprilla (2016). La misma situación se da en otros países
(Rabin, Barr & Barton, 2005). Si el objetivo es realizar una detec-
ción de casos o un rastreo inicial [screening], una evaluación breve
será adecuada. Por el contrario, si lo que se desea es establecer con
precisión funciones y grado de alteraciones para realizar un trata-
miento de rehabilitación neuropsicológica, la exploración deberá
ser, necesariamente, más profunda.
No obstante, dentro del esquema de baterías flexibles, se han de-
sarrollado algunas que se suponen más sensibles para la detección
de algunas patologías específicas como por ejemplo Enfermedad de
Alzheimer, esclerosis múltiple, VIH, etcétera (Burin, 2007)
b. Validez y confiabilidad: un aspecto imprescindible al momento
de conformar una batería de evaluación neuropsicológica - como
en cualquier otra evaluación psicológica - es conocer las caracterís-
ticas técnicas de los instrumentos a utilizar, es decir los estudios de
validez y confiabilidad realizados con tales pruebas. Este aspecto,
que suele ser escasamente considerado entre algunos profesionales,
es substancial para poder establecer los alcances y límites de nues-
tros datos. Las pruebas con mayor cantidad y calidad de estudios
técnicos darán mayor certeza a nuestros datos reduciendo nuestro
margen de error al momento de realizar la evaluación. Existen casos
en donde el trabajo del neuropsicólogo adquiere fundamental im-
portancia para la elaboración del diagnóstico de un paciente, como
es el caso del diagnóstico de demencia. La comunidad científica
ha acordado que la verificación de deterioro cognitivo a través de
una evaluación neuropsicológica profunda es imprescindible para
el diagnóstico de demencia (McKhann et al., 2011). Es importante
señalar que, al igual que en muchas otras áreas de la psicología, al-
gunos de los constructos que se manejan en la neuropsicología no
se encuentran definidos con claridad o existen tanta variedad de
definiciones del mismo constructo (ver Fernández, 2014) que es
muy importante determinar cuál es el constructo en el que se basa
la prueba que estamos utilizando.
c. Especificidad y sensibilidad: además de la confiabilidad y validez,
existen otras propiedades técnicas que es sumamente importante
considerar, fundamentalmente en los casos en donde se realiza un
rastreo inicial o una detección de casos, cuales son la sensibilidad y
especificidad. La sensibilidad hace referencia a la precisión de una
prueba para identificar a aquellas personas que poseen una condi-
ción determinada por ejemplo, demencia, déficit de memoria, etcé-
tera. La sensibilidad de una técnica para determinar si tal deterioro
existe es trascendental sobre todo en aquellos casos en donde tal

206
daño es incipiente y la distinción entre la normalidad y la patología
es sumamente difícil - en este caso particular los estudios de vali-
dez concurrente adquieren un rol fundamental. La especificidad, en
cambio, es la capacidad de una prueba para clasificar correctamente
como negativos a aquellos casos que no presentan esa condición.
Un test de detección perfecto sería aquel que identificara a todos los
sujetos que poseen y no poseen esa condición. Sin embargo, esto es
imposible ya que a medida que la sensibilidad aumenta la especifici-
dad disminuye y viceversa. Por lo tanto, es necesario buscar en una
prueba un equilibrio, que puede lograrse a través de técnicas que
permiten seleccionar un punto de corte adecuado y que nos permi-
ta reducir al mínimo los costos de producir tanto falsos negativos
como falsos positivos.
d. Tiempo y costo: para que una batería neuropsicológica sea útil
debe ser reducida en el tiempo. Una persona que ha sufrido un
daño cerebral suele fatigarse con facilidad. Esto puede provocar que
luego de un tiempo lo que se esté evaluando sea un efecto de fatiga
sobre la cognición de esa persona y no su verdadera capacidad. En
otras situaciones el individuo se traslada desde una localidad en la
que reside y no tiene acceso a un servicio neuropsicológico hacia
otra en donde puede realizarse la EN. En estos casos el individuo
puede contar con un tiempo muy limitado para permanecer en el
lugar en el que se realiza la EN. Por otra parte, una batería dema-
siado extensa implica muchas horas de trabajo profesional, incre-
mentando como consecuencia el costo de esta tarea. Por lo tanto,
una de las principales ventajas de la aplicación de la psicometría en
la evaluación neuropsicológica con respecto a otros enfoques es su
brevedad, ya que nos permite, con pruebas que pueden extenderse
por un período tan breve como 1 minuto, observar el rendimiento
de determinadas funciones cognitivas que mediante la mera obser-
vación conductual implicaría un tiempo significativamente mayor.
Es, por otra parte, sumamente difícil establecer el rendimiento de
determinadas funciones sin una estimulación específica. Por ejem-
plo, ¿cómo podría determinarse la integridad de la memoria semán-
tica de una persona sin utilizar un test que mediante sus estímulos
provoque específicamente la expresión de dicha capacidad?
e. Adaptabilidad: Lezak et al. (2012) señalan la necesidad de contar
con pruebas que puedan adaptarse a cualquier situación para la eva-
luación (incluida dentro de lo que ellos denominan “practical bat-
tery”). Existen circunstancias en que un paciente debe ser evaluado
en una sala de internación o en las que la movilidad del mismo se ve
muy reducida por dificultades en su sistema motor (por ejemplo, un

207
paciente con trastornos de la marcha por lesión del sistema nervioso
periférico). En casos como el mencionado, una prueba que cuente
con un instrumental difícil de trasladar disminuye sus posibilidades
de ser aplicada fuera de un ambiente determinado.
f. Facilidad de administración: esta es otra característica necesaria
para lograr una mayor utilidad de una prueba. Las pruebas que re-
quieren de materiales complejos y cuya administración implica un
proceso igualmente complejo resultan poco prácticas al momento
de la evaluación. Esto aumenta los tiempos de administración y
disminuye la confiabilidad de la misma, ya que es posible que la
persona evaluada haya interpretado las consignas en forma errónea
y no se esté analizando la conducta deseada. Por otra parte contri-
buyen a una mala disposición del sujeto a continuar con la eva-
luación debido a su gran dificultad para comprender las consignas.
Esta situación suele suscitarse con las pruebas computarizadas al
intentar ser administradas a personas que no están habituadas a uti-
lizar computadoras. Aunque en la actualidad esa situación es cada
vez menos frecuente sigue existiendo un gran número de personas,
particularmente adultos mayores, que no utilizan computadoras
habitualmente. En consecuencia, en esos casos, los tests deberían
contar con ensayos de prueba que permitan que el entrevistado se
familiarice con el teclado, mouse o dispositivo que se esté utilizan-
do. Lamentablemente en muchos casos las pruebas no disponen de
estos ensayos.
g. Adaptación cultural: muchas de las pruebas utilizadas actualmente
han sido desarrolladas mayoritariamente en EE.UU y Europa. Por
esa razón, en muchos casos los estímulos utilizados no son apropia-
dos para nuestro medio. Un ejemplo paradigmático y ampliamente
documentado de una prueba con un fuerte sesgo cultural es el del
Test de Denominación de Boston, cuyas láminas tienen dibujos de
elementos que son poco conocidos (castor) fuera de EE.UU o para
los cuales no existe una palabra en otro idioma (pretzel) (Fernández
& Fulbright, 2015). Asimismo, los baremos desarrollados en esos
países pueden no ser apropiados para la población local. Estas varia-
bles tienen mucha mayor influencia cuando estos tests se aplican en
culturas no occidentales.
Por estas razones es sumamente importante que los tests a utilizar
sean adaptados al medio local asegurándose de que son cultural-
mente apropiados para la población en la que se van a utilizar.

208
Ventajas y Limitaciones de la Psicometría en Neuropsicología

Ventajas
Objetividad: esta es una de las características más importantes que
puede aportar la psicometría a la neuropsicología, como lo hace en toda la
psicología. Al establecer un procedimiento estándar para la administración,
corrección e interpretación de una prueba se abre la posibilidad de que di-
ferentes evaluadores en forma independiente obtengan resultados altamente
similares, aumentando de este modo la confiabilidad de una prueba, y por lo
tanto, de la evaluación. Este constituye uno de los mayores progresos de la
ciencia psicológica, y la neuropsicología no es ajena a ello. El hecho de confiar
en la experiencia personal o en una observación detallada deja mucho lugar a
la subjetividad del examinador y conduce a muchos errores en la interpreta-
ción de las conductas bajo observación. Para ejemplificar podemos describir
dos situaciones: a) los casos en donde se pretende diagnosticar la presencia
de un trastorno cognitivo degenerativo en una persona que padece de un
deterioro cognitivo incipiente. La frontera entre el envejecimiento normal y
el comienzo de una demencia en sus estadios más primarios es tan sutil que
su determinación es prácticamente imposible sin la utilización de pruebas
psicométricas. Establecer si los olvidos de una persona de edad avanzada son
normales para su edad o constituyen el comienzo de una enfermedad degene-
rativa no es posible sin contar con baremos que nos indiquen este hecho; b)
los casos en los que una persona ha sufrido un daño cerebral leve en la corteza
prefrontal. Las quejas de los familiares suelen ser de este estilo: “es diferente.
No puedo explicar cómo pero su conducta ha cambiado”. La sola observación
de estos comentarios nos da una idea de la dificultad de establecer la calidad
y cantidad del deterioro de una persona con este tipo de patología. Su deter-
minación frecuentemente requiere de la aplicación de pruebas técnicamente
muy sofisticadas tales como la Prueba de Clasificación de Tarjetas de Wis-
consin [TCTW] (Heaton, Chelune, Talley, Kay y Curtis, 1993) o la Torre de
Hanoi entre otras. Intentar su diagnóstico mediante la mera observación pue-
de conducir a confusiones con características de personalidad premórbidas o
alteraciones psiquiátricas, sobre todo en un observador poco experimentado.
La distinción de ambos síndromes solo podría ser posible en un observador
con una abundante experiencia clínica, lo que tampoco elimina la posibilidad
de cometer errores. Por otra parte, al tratarse de medición de habilidades, el
evaluador siempre está realizando una medición, ya sea que use técnicas psi-
cométricas o no. En el segundo caso, lo que hará es disminuir la confiabilidad
de su medición.
Costo: esto constituye otra de las principales ventajas de la psicometría
en una evaluación neuropsicológica ya que permite reducir notablemente los
tiempos de una evaluación, reduciendo por lo tanto sus costos.
Tiempo: también como fuera mencionado anteriormente, mediante la

209
utilización de pruebas psicométricas es posible reducir considerablemente el
tiempo de una evaluación, lo que aumenta la calidad técnica de la evaluación
al evitar la fatiga del paciente, entre otras ventajas ya mencionadas.
Sensibilidad: la sensibilidad de las técnicas psicométricas en neuropsi-
cología está íntimamente ligada a los conceptos vertidos anteriormente. Estas
técnicas nos ofrecen la posibilidad de detectar síndromes o alteraciones en
etapas muy iniciales o leves. Dicha detección mediante una mera observación
clínica resulta muy difícil y conduce a muchos errores, arrojando frecuen-
temente falsos negativos, es decir, a no diagnosticar a personas que padecen
algún tipo de patologías. Esta sensibilidad ha permitido la identificación y el
tratamiento precoz de muchas patologías como por ejemplo la Enfermedad de
Alzheimer (Bastin & Salmon, 2014), o la dislexia (Schatschneider, Fletcher,
Francis, Carlson, & Foorman, 2004) entre otras, generando, de este modo, la
posibilidad de una prevención o mejor calidad de vida para el paciente.
Minuciosidad: la minuciosidad es otra peculiaridad de estas técnicas. El
empleo de pruebas psicométricas nos permite realizar una exploración muy
amplia del funcionamiento cognitivo incluyendo las más diversas funciones.
Esto es muy importante ya que hay alteraciones que sólo se hacen evidentes
mediante una detallada inspección de la función. A veces, tal deterioro pasa
desapercibido en el medioambiente en el que se desempeña esa persona por
situaciones tales como poca actividad - jubilados, personas que realizan sus
tareas en lugar del paciente -, o por realizar actividades en las que la función
bajo observación no es frecuentemente requerida - por ejemplo, dibujar, en
el caso de la evaluación de las praxias constructivas; leer o realizar operacio-
nes matemáticas en los casos de personas que se ocupan de tareas rurales o
manuales.

Limitaciones
También existen algunas limitaciones de estos procedimientos que se-
rán mencionadas a continuación:
Artificialidad: normalmente la evaluación neuropsicológica se realiza en
el ámbito de un consultorio u oficina en el cual la persona se encuentra ais-
lada de toda otra estimulación y su atención está completamente dirigida a
la resolución de las pruebas mediante las cuales se la estimula. Este no es el
ambiente natural en el que una persona desarrolla sus actividades de la vida
diaria. Frecuentemente, nos encontramos rodeados de estimulación y durante
el desarrollo de una tarea laboral, por ejemplo, nos vemos requeridos de rea-
lizar más de una operación en forma simultánea. Esto puede conducir a una
disminución del rendimiento en las tareas consideradas, que el profesional
puede no observar durante la EN debido a esta “artificialidad” de la situación
de evaluación. Esto ha conducido al concepto de validez ecológica de una
prueba neuropsicológica. La validez ecológica hace referencia a la capacidad

210
de una técnica de predecir el desempeño de una persona en su medio am-
biente natural. Las pruebas neuropsicológicas clásicas, fueron originalmente
diseñadas para localizar las lesiones cerebrales y el diagnóstico clínico, por
lo que presentan dificultades con relación a la validez ecológica (Marcotte,
Scott, Kamat & Heaton, 2010; Sbordone, 1996). Es por ello que durante las
últimas décadas se intentó desarrollar tests con mayor validez ecológica. La neu-
ropsicología inglesa ha realizado, hasta ahora, los intentos más exitosos (Wilson,
Cockburn y Baddeley, 1985; Wilson, Cockburn & Halligan, 1987; Wilson et
al. 1996). El desempeño en los tests neuropsicológicos permite predecir la eje-
cución de las actividades de la vida diaria tales como rendimiento académico,
actividades instrumentales de la vida diaria, nivel de empleo y habilidad para
conducir un automóvil (Marcotte et. al, 2010). No obstante, dicha correlación
ha sido calificada como “moderada”. Se destaca, sobre todo, la correlación entre
el funcionamiento ejecutivo y las actividades de la vida diaria.
Longitud: en la actualidad existen muchas pruebas neuropsicológicas de
incuestionable utilidad que fracasan con aquel requisito de la brevedad. Suce-
de que muchas de ellas fueron creadas en contextos de investigación en donde
se utilizaba sólo una prueba. Al integrar dichas pruebas a baterías (conjuntos
de tests individuales) más amplias se evidencia su problemática longitud. No
obstante, en muchos casos se ha logrado desarrollar versiones más breves de
pruebas muy eficaces pero extensas, como es el ejemplo de la versión breve del
TCTW desarrollada por Axelrod, Woodard y Henry (1992).

Funciones Cognitivas habitualmente evaluadas por


Test Neuropsicológicos

Si bien como se mencionó antes, el propósito de una evaluación neu-


ropsicológica es el de realizar una exploración lo más amplia posible, esto no
siempre es factible debido a los costos económicos y en tiempo que requieren.
Diversos autores proponen baterías que evalúan diferentes funciones. Sin em-
bargo, existe un grupo de funciones que parece ineludible explorar y en las
que coinciden la mayoría de los autores y que son las que vamos a destacar
a continuación. Además, se describirán algunas de las pruebas neuropsicoló-
gicas clásicas que se utilizan para evaluar dichas funciones. Las mismas son
mencionadas a modo de ejemplo y no constituyen una enumeración exhaus-
tiva ya que existen numerosísimos tests que pueden utilizarse para evaluar
dichas funciones.

Atención
El concepto de atención ha sido definido de múltiples maneras y es
considerado por la mayoría de los autores como un concepto multifactorial
(Fernandez, 2014). Estos modelos se derivan de diferentes fuentes clínicas,

211
experimentales y psicométricas. A continuación, se presentará el esquema
conceptual delineado por Mirsky y su grupo de colaboradores y posterior-
mente desarrollado en Mirsky y Duncan (2001). Este modelo fue elegido
debido a que es uno de los más utilizados en la evaluación clínica.
Sostenida (vigilancia): este componente de su modelo “representa la
capacidad de mantener el foco y la alerta en el tiempo, o la vigilancia”. (p.
112). Un test paradigmático para la evaluación de esta función es el Test de
Rendimiento Continuo [Continuous Performance Test] (Rosvold, Mirsky,
Sarason, Bransome & Beck, 1956). Esta prueba, tiene varias versiones, pero
básicamente implica la presentación de un estímulo blanco entre otros estí-
mulos distractores durante un período de hasta 15 minutos. El desempeño se
evalúa contando las omisiones y comisiones, como así también los tiempos de
reacción del individuo. Esta es una prueba computarizada.
Focalización: para Mirsky et al. este elemento representa la capacidad
de seleccionar un segmento de información determinada, de entre toda la
información presentada, para procesarla. Una de las pruebas más utilizadas
a este propósito es el Test del Trazado [Trail Making Test] (Army Individual
Test Battery, 1944). Otra prueba posible de utilizar es el Test de Interferencia
Palabra-Color de Stroop (Stroop, 1935).
Alternancia: este componente del modelo de Mirsky et al. hace refe-
rencia a “la capacidad para cambiar el foco de la atención de un modo flexible
y adaptativo” (p. 112). A tal fin, en su investigación, ellos utilizan el TCTW.
Es importante considerar que este concepto se superpone con el de Ejecu-
tivo Central, que pertenece al esquema de Memoria de Trabajo. Dentro de
este esquema conceptual, lo que Mirsky denomina alternancia de la atención,
Baddeley lo supone como una función a cargo del subsistema Ejecutivo Cen-
tral. Se asemeja también, como veremos más adelante, al concepto de flexibi-
lidad cognitiva o conceptual, dentro de las denominadas funciones ejecutivas.
Codificación: este componente no existía teóricamente en el modelo,
sino que fue incluido a partir de esta investigación en la cual se reveló su
presencia a partir del análisis factorial. No posee una definición precisa y en
este estudio dos pruebas saturaron en ese factor: los subtests de Aritmética
y Amplitud de Dígitos de la Escala de Inteligencia de Weschler - Revisada
(WAIS -R).
Estabilidad: un componente no descripto con precisión, fue definido
como la coherencia en la respuesta a los estímulos “diana”. Los autores no
precisan ninguna región específica del cerebro para apoyar este elemento.
Memoria
Dentro de los múltiples sistemas de memoria del ser humano, los tres
más frecuentemente evaluados son:
Memoria episódica: este concepto hace referencia a “la capacidad adi-
cional de adquisición y retención de conocimientos sobre eventos personal-
mente experimentados y sus relaciones temporales en el tiempo subjetivo y la

212
capacidad de ‘viajar hacia atrás’ mentalmente en el tiempo” (Tulving, 1985;
p. 387). Es una memoria muy frágil y muy sensible a cualquier tipo de lesión
cerebral. Entre las pruebas clásicas más utilizadas se encuentran el Test de
Aprendizaje Auditivo-Verbal de Rey (Rey, 1964), el Test de Recuerdo Selec-
tivo de Buschke (Buschke, 1973; Buschke & Fold, 1974), el Test de Apren-
dizaje Verbal de California (Delis, Kramer, Kaplan & Ober, 1987), el Test de
Retención Visual de Benton (Benton, 1974), y la Figura Compleja de Rey
(Rey, 1941), entre otros.
Memoria semántica: “hace referencia a la información consolidada,
bien aprendida. Es la memoria que contiene nuestro conocimiento general
del mundo, la ‘cultura general’; los significados de las palabras, el conocimien-
to perceptual del mundo que nos rodea y las reglas por las que se rige nuestra
sociedad” (Fernández, Monti & Bacile, 1998; p. 10). La alteración de esta
memoria suele ser un marcador muy sensible de comienzo de la Enfermedad
de Alzheimer. Entre las pruebas más frecuentemente utilizadas están el Test
de Asociación de Palabras Orales Controladas, y el Test de Denominación de
Boston (Goodglass & Kaplan, 1996).
Memoria de trabajo (working memory): de acuerdo con Baddeley,
uno de los creadores de este concepto, la memoria de trabajo es “la capaci-
dad de realizar tareas que implican almacenar y manipular información en
forma simultánea” (1995; p. 12). Esta memoria consta de tres subsistemas,
de los cuales usualmente se examina el Bucle Fonológico, a través del Test de
Amplitud de Dígitos - que es un subtest del Test de Inteligencia de Weschler
[WAIS] (Weschler, 1984). El Ejecutivo Central es una función involucrada
en la ejecución de muchos tests tales como el TCTW.

Funciones viso-espaciales
Las funciones visoespaciales comprenden un espectro bastante amplio
de funciones cognitivas. Aquí se presentarán tres conceptos claves dentro de
este campo.
Discriminación: en este caso, lo que interesa conocer en una evaluación
neuropsicológica es la capacidad del sujeto de discriminar objetos complejos o
posiciones espaciales relativas. Las lesiones del lóbulo occipital suelen generar
alteraciones visuales en la capacidad de discriminación de estímulos visuales.
A tal fin se utilizan pruebas como el Test de Discriminación de Formas Vi-
suales de Benton (Rey & Sivan, 1995) o el Test de Estimación de Ángulos de
Benton (Rey & Sivan, 1995).
Construcción: también denominadas praxias constructivas, lo que se
considera aquí es la capacidad del sujeto para realizar dibujos o ensamblar
objetos. En este dominio son utilizadas con mayor frecuencia las siguientes
pruebas clasicas: Figura Compleja de Rey y substest de Diseño con Cubos de
las distintas versiones del WAIS.

213
Gnosias visuales: aquí se evalúa la capacidad de una persona para re-
conocer dibujos, objetos, colores, etcétera. Las agnosias visuales - es el déficit
resultante de la alteración de las gnosias - pueden ser múltiples e incluso muy
específicas, por lo que la variedad de pruebas es bastante importante. El Test
de Figuras Superpuestas de Poppelreuter (Poppelreuter, 1917) es una de las
pruebas más comúnmente utilizadas.

Lenguaje
La evaluación del lenguaje puede ser muy amplia, ya que sus subcom-
ponentes son múltiples: escritura, lectura, denominación, comprensión de
lenguaje escrito o hablado, fluidez, producción fonémica, etcétera. El lengua-
je es, no obstante, una de las funciones más resistentes al daño cerebral, por
lo que se la utiliza, en muchos casos, como una medida del nivel de actividad
premórbida del sujeto, es decir, evaluando el estado actual del lenguaje del pa-
ciente se puede inferir el estado de todas sus funciones cognitivas previamente
a la ocurrencia de la lesión cerebral. Hay, sin embargo, algunos componentes
del lenguaje que resultan más sensible a algunos daños sutiles del lenguaje. Ta-
les elementos suelen estar alterados en casos en los que otras alteraciones más
evidentes del lenguaje no están presentes, como por ejemplo afasias de Broca,
o de Wernicke. Estos elementos son la denominación y la fluidez verbal. De-
bido a que la magnitud de una exploración detallada del lenguaje excede los
propósitos de este capítulo, nos referiremos aquí solo a estas últimas.
Denominación: es la capacidad de una persona para “encontrar pala-
bras”. El síntoma que resulta de la dificultad para encontrar palabras se ha
denominado “anomia”, el cual ha sido definido como “…una dificultad en
encontrar palabras de alta información en el habla fluente y cuando se re-
quiere identificar un objeto o acción nombrándolo (Goodglass & Wingfield,
1997, p. 3). En una evaluación clínica se utilizan normalmente pruebas de
denominación confrontacional. En estas pruebas, al sujeto evaluado, se le
presenta una lámina con el dibujo de un objeto y se le pide que mencione el
nombre de dicho objeto. Se utilizan dibujos de diferentes frecuencias de inte-
racción en la vida aria: de alta frecuencia (un árbol), hasta baja frecuencia (un
compás). Una de las pruebas más populares es el Test de Denominación de
Boston. Sin embargo, ha sido demostrado que la misma tiene un significativo
sesgo cultural. Por esa razón recientemente ha sido desarrollado en Argentina
el Test de Denominación Córdoba (Fernández, 2013), el cual es apropiado
para ser utilizado con hispano-parlantes (ver Figura 1).
Fluidez verbal: es la capacidad para producir palabras en secuencias
conectadas e ininterrumpidas. Lesiones de ciertas zonas de los lóbulos frontal
y temporal, entre otras pueden producir una reducción significativa en la tasa
de producción de palabras. Una técnica muy sencilla en su implementación,
pero muy sensible - el Test de Asociación de Palabras Orales Controladas - se
utiliza frecuentemente para examinar esta función.

214
Figura 1. Ejemplos de algunas figuras incluidas en el Test de Denominación Córdoba.

Funciones ejecutivas

El término funciones ejecutivas ha sido definido como “un término pa-


raguas que subsume un conjunto de procesos neurocognitivos de alto orden
arriba-abajo que están involucrados en el planeamiento, selección, y ejecución
de acciones que son intencionadas y adaptativas, dirigidas hacia un objeti-
vo y orientadas hacia el futuro, con contenido social (socially informed), y
que están ayudadas por un conjunto de procesos de bajo orden, automáticos,
abajo-arriba que sirven para disparar el procesamiento arriba-abajo según sea
necesario o apropiado” (Suchy, 2016, p. 10). Aunque estás funciones están
estrechamente relacionadas a la actividad de la corteza prefrontal, las mismas
involucran a muchas otras áreas de la corteza cerebral (Lezak et al., 2012).
Como se desprende de la definición anterior se trata de un término muy am-
plio que involucra a múltiples subfunciones. La definición del mismo varía
significativamente entre los distintos autores. Además, algunas funciones des-
criptas anteriormente en otros apartados suelen incluirse también dentro de
las funciones ejecutivas, como es el caso de la fluidez verbal o la memoria de
trabajo. Por esa razón en este apartado sólo se describirán algunas de las áreas
que generalmente se evalúan dentro de este constructo.
Planeamiento: este concepto está referido a la capacidad de identificar
los pasos y elementos necesarios para la consecución de un plan o una activi-
dad destinada a lograr un objetivo determinado. Es muy común la utilización
de pruebas que impliquen resolución de laberintos, como es el caso del Test
de Laberintos de Porteus (Porteus, 1965). Otra prueba muy utilizada en la
actualidad es la Torre de Hanoi (Glosser y Goodglass, 1990) y sus diferentes
versiones: Torre de Londres (Shallice, 1982), Torre de Toronto (Saint Cyr y
Taylor, 1992), Torre de Hanoi-Sevilla (León - Carrión, 1997). Estas últimas
implican establecer los pasos para resolver un juego de ingenio que implica

215
mover una serie de anillos desde una clavija a otra pero respetando ciertas
reglas.
Flexibilidad conceptual: en este caso lo que se evalúa es la capacidad
de una persona para cambiar el curso de acción de su pensamiento de acuer-
do a las demandas de la situación. La rigidez o inflexibilidad aparece cuando
el sujeto se encuentra “atado” al estímulo y no puede cambiar de actividad
mental. Por ejemplo, frente a la presentación de un dibujo simple (un círculo)
del cual se le ha requerido al paciene que realice una copia, éste continuará
dibujando en forma indefinida hasta que se acabe su hoja o hasta que el eva-
luador lo detenga. Esta alteración, técnicamente, se denomina perseveración
o inflexibilidad cognitiva. Frecuentemente, las pruebas dirigidas a evaluar este
aspecto requieren que el sujeto alterne entre una y otra tarea con intervalos
de tiempo determinados. Tal es el caso del TCTW, una de las pruebas más
utilizadas y de mayor calidad técnica.
Fluidez gráfica: como un análogo de la fluidez verbal, pero en el plano
no verbal, lo que se intenta medir en este caso es la habilidad de un individuo
para producir diseños geométricos únicos o figuras dentro de un período de
tiempo determinado. Entre los tests que suelen utilizarse a tal fin se encuen-
tran el Test de los 5 Puntos (Regard, Strauss & Knapp, 1982) y el Test de
Fluidez Figural de Ruff (Ruff, 1996).

Figura 2. Hoja de estímulos del Test de los 5 Puntos.

Conceptualización

Solhberg y Mateer (1989) propusieron un esquema conceptual referen-


te a los procesos de conceptualización o razonamiento que resulta muy útil

216
en el campo de la evaluación neuropsicológica clínica. Dicho esquema consta
de 4 componentes (Razonamiento, Producción de Pensamiento, Resolución
de Problemas y Comprensión Social y Juicio), que se subdividen, a su vez, en
varios subcomponentes. Cabe aclarar que estas categorías no corresponden
a procesos bien diferenciados, sino que existe superposición entre ellas. Las
pruebas para la evaluación de estas funciones están dirigidas, fundamental-
mente, al pensamiento lógico la comprensión de las relaciones y los juicios
prácticos.
Razonamiento: este componente está referido a los procesos de ha-
bilidades básicas (secuenciamiento y clasificación), razonamiento deductivo,
inductivo y pensamiento convergente. Dentro de este componente una de las
pruebas más utilizadas es el TCTW, para evaluar la capacidad de clasificación.
Otra prueba adecuada es el Test de Matrices Progresivas de Raven (Raven,
Raven & Court, 1993).
Producción de pensamiento: entre sus subcomponentes, pensamiento
divergente y capacidad de abstracción, suele evaluarse este último a través de
pruebas de interpretación de Proverbios o las subpruebas de Similitudes del
WAIS.
Resolución de Problemas: en este caso se evalúan los procesos de se-
lección de estrategias, aplicación de operaciones y evaluación de resultados a
través de pruebas como el Test de Laberinto de Porteus, entre otras.
Comprensión Social y Juicio: fundamentalmente en este caso se in-
tenta evaluar los procesos cognitivos sociales entre los que se encuentran as-
pectos tales como teoría de la mente, empatía, autoconciencia, razonamiento
moral, intencionalidad e imitación. En este contexto se destaca la evaluación
de la teoría de la mente, que puede definirse como la capacidad de atribuirles
estados mentales a otras personas y usar esta información para predecir sus
conductas. Algunas pruebas que se utilizan a tal fin (especialmente en niños)
son el test de las Falsas Creencias (Baron-Cohen, 1989) o el Test de Faux Pas
(Baron-Cohen, O’Riordan, Stone, Jones & Plaisted, 1999). El juicio social
también puede evaluarse con el subtest de Comprensión de las distintas ver-
siones de los tests de Wechsler.

Consideraciones Finales

En síntesis, las pruebas psicométricas tienen un rol fundamental en la


EN proveyendo de información objetiva y confiable en un tiempo breve. Asi-
mismo, la sensibilidad de las mismas posibilita la detección temprana y/o la
identificación de procesos de deterioro cognitivo degenerativo o subyacentes
que no pueden ser detectados fácilmente con la observación conductual. Por
todas estas razones es imprescindible que el neuropsicólogo, especialmente el
neuropsicólogo clínico, posea una adecuada formación psicométrica para va-
lorar y manejar adecuadamente estos instrumentos esenciales para su práctica.
217
|
Evaluación Psicométrica en Áreas Emergentes
Mario Trógolo, Maria Marta Morales y Leonardo Medrano

Introducción

Con el pasar de los años, la práctica de la psicología se va consolidando


y ampliando a nuevos campos. Además de las áreas de ejercicio profesional
que podemos llamar “tradicionales”, tales como la psicología clínica o educa-
cional, comienzan a configurarse “áreas emergentes”, como la psicología del
tránsito y la psicología del deporte. La aparición de nuevas áreas de ejercicio
profesional no implica una aplicación directa de los conocimientos y saberes
de un campo de trabajo (por ejemplo, el organizacional) en otro nuevo (por
ejemplo, el tránsito). Es decir, que no basta con la aplicación de conocimien-
tos y herramientas generalistas, se requiere del desarrollo de nuevos conoci-
mientos, competencias e instrumentos de evaluación. En el presente capítulo
se expondrán algunos instrumentos y técnicas de evaluación utilizadas en dos
áreas emergentes, pero cada vez más consolidadas en nuestro país: la psicolo-
gía del tránsito y la psicología del deporte.

Introducción a la Psicología del Tránsito

La Psicología del Tránsito puede definirse como el estudio del com-


portamiento de todos los individuos que actúan en contextos viales y de las
variables psicológicas subyacentes, con el objetivo de desarrollar medidas de
intervención que contribuyan a mejorar la seguridad vial (Groeger & Rothen-
gatter, 1998). Se trata de un área joven de la psicología, pero con una larga
historia. En efecto, si bien suele considerarse como hito fundacional de la psi-
cología del tránsito su reconocimiento oficial en 1990 en la 22da Conferencia
de la International Association of Applied Psychology (Porter, 1991), en algunos
países la primera actividad reconocida de los psicólogos estuvo vinculada a la
evaluación psicotécnica de conductores (Tortosa & Montoro, 2002).
Desde sus comienzos, la psicología del tránsito se constituyó como un
área aplicada con un objetivo bien definido: mejorar las condiciones de se-
guridad en el tránsito y la movilidad, a partir del conocimiento de las bases
psicológicas del comportamiento de los usuarios. Sin embargo, a partir de
las necesidades y problemas que han ido surgiendo en materia de transporte
y movilidad, los intereses en el área fueron redefiniéndose y expandiéndose,
abarcando otros aspectos que exceden el interés por la seguridad vial y reflejan
una preocupación por los problemas ambientales derivados de la movilidad

219
(Farla, Alkemade & Suurs, 2010). De esta manera, la psicología del tránsito
configura hoy un campo heterogéneo, que se refleja en una gran diversidad de
temas de investigación y en el estudio de los diferentes usuarios (conducto-
res, pasajeros, peatones, ciclistas y motociclistas), con un objetivo en común:
contribuir a una movilidad más segura y más sustentable (Ledesma, Poó &
Montes, 2011).
A pesar de ello, la investigación psicológica en el área se ha centrado,
fundamentalmente, en el estudio del comportamiento de los conductores de
automóviles y los factores de riesgo asociados (Ulleberg & Rundmo, 2003).
En esencia, aun cuando es posible advertir el crecimiento de modalidades de
transporte alternativas o no hegemónicas (e.g., bicicleta y motocicleta), el uso
del automóvil como medio principal de desplazamiento representa una seria
amenaza para la salud pública, debido a las lesiones fatales y no fatales que
produce (OMS, 2015). Al mismo tiempo, se estima que aproximadamente
el 90% de los siniestros viables se deben a factores derivados del conductor
(Hoffmann, 2005; Petridou y Moustaki, 2000). En este contexto, es fácil
entender por qué buena parte de la investigación en Psicología del Tránsito se
ha enfocado en comprender e identificar los factores psicológicos & compor-
tamentales que afectan la conducción.

Métodos y técnicas de evaluación en Psicología del Tránsito

La investigación en el área se ha caracterizado por la aplicación de una


gran diversidad de técnicas y métodos. Una de las herramientas más utiliza-
das han sido los instrumentos de auto-informe, como los cuestionarios, in-
ventarios y escalas psicométricas. Algunos instrumentos conocidos dentro de
esta categoría son el Multidimensional Driving Style Inventory (Taubman-Ben-
Ari, Mikulincer & Gillath, 2004), el Driver Behavior Questionnaire (Reason,
Manstead, Stradling, Baxter & Campbell, 1990), la Driving Anger Scale (De-
ffenbacher, Oetting & Lynch, 1994); la Driving Anger Expression Inventory
(Deffenbacher, Lynch, Oetting & Swaim, 2002) y la Aversion to Risk Taking
Scale (Dorn & Machin, 2004). Estos instrumentos han permitido estudiar
diferentes aspectos cognitivos, emocionales y comportamentales en la con-
ducción de una manera sencilla y a bajo costo, prescindiendo de recursos o
equipamientos especiales.
Si bien son varias las ventajas del uso de escalas y cuestionarios, se ha
cuestionado la validez de los auto-informes en el ámbito de la conducción,
debido principalmente al sesgo de deseabilidad social (af Wåhlberg, 2010;
af Wåhlberg, Dorn & Kline, 2010). La deseabilidad social constituye la ten-
dencia de los individuos a proyectar una imagen favorable de sí mismo, y
a distorsionar sus respuestas en consecuencia (Nunnally & Berstein, 1995).
Como resultado, la validez de los auto-informes puede verse seriamente li-
mitada. Aunque ninguna escala está exenta de este tipo de sesgos, el riesgo es
220
mayor en aquellos cuestionaros y escalas que evalúan conductas socialmente
censurables, cuyas respuestas pueden ser interpretadas por quien responde
como auto-incriminadoras (Poó, Ledesma & Montes, 2010). Ese puede ser el
caso de algunos comportamientos viales, como la violación deliberada de las
normas de tránsito o acciones que ponen en riesgo la vida de otras personas.
No obstante, se han llevado a cabo estudios con diferentes metodolo-
gías (e.g., comparación de las respuestas en condiciones de anonimato y no-
anonimato; correlación entre auto-informes y observaciones objetivas) que
sugieren efectos muy débiles o nulos del sesgo de deseabilidad social en las
respuestas proporcionadas por los conductores (Lajunen & Summala, 2003;
Sullman & Taylor, 2010; Taubman-Ben-Ari, Eherenfreund-Hager & Prato,
2016). Por este motivo, las escalas y cuestionarios continúan siendo una he-
rramienta muy valiosa como medio de obtención de datos.
Otro tipo de técnica empleada para el estudio del comportamiento de
los conductores han sido lo simulares de conducción (Carsten & Jamson,
2011). Los simuladores permiten estudiar ciertos comportamientos de modo
directo, en un ambiente controlado y seguro (Figura 1). Este tipo de métodos
ha sido utilizado para la investigación de temas importantes, como el efecto
del sueño y del uso del teléfono celular sobre el desempeño en la conducción
(Åkerstedt, Peters, Anund & Kecklund, 2005; Rumschlag et al., 2015). A pe-
sar de su gran utilidad, existen algunos problemas que pueden limitar su uso,
particularmente su elevado costo. Asimismo, se ha cuestionado el grado en
que podrían generalizarse los resultados obtenidos a partir de los simuladores.
En este plano, existe consenso en considerar que los simuladores representan
una buena forma de aproximarse a, aunque no de replicar, los comportamien-
tos reales del conductor (Mullen, Charlton, Devlin & Bédard, 2010).

Figura 1. Ejemplos de simuladores de conducción profesionales

221

Figura 2. Ejemplos de vehículos equipados con instrumentales de medida

Finalmente, existen otras alternativas metodológicas como la observa-


ción natural y los registros basados en vehículos equipados con instrumental
(Klauer, Dingus, Neale, Sudweeks & Samsey, 2006) (Figura 2). Estas técnicas
representan un avance frente al uso de simuladores y los auto-informes, ya
que permiten evitar los sesgos de respuesta y, en comparación con los simula-
dores, permiten obtener información en tiempo real y en contextos naturales
sobre el comportamiento de los conductores. No obstante, el uso de este tipo
de metodologías ha sido comparativamente menor. Esta circunstancia podría
deberse, en parte, a la falta de formación específica que acusan los psicólogos
en metodologías de observación natural y, en parte, a los costos y conocimien-
tos técnicos necesarios para la implementación de instrumentales de medida
en vehículos (Ledesma et al., 2011).
En síntesis, la investigación psicológica en el tránsito se ha caracterizado
por la utilización de estrategias metodológicas diversas, aunque con un predo-
minio de las técnicas de auto-informe. En nuestro país, se han llevado a cabo
estudios de adaptación y validación de diferentes inventarios y escalas, como

222
el Multidimensional Driving Style Inventory (MDSI-S; Poó, Ledesma, Taub-
man-Ben-Ari & Díaz Lázaro, 2013). Se trata de un instrumento multidimen-
sional que evalúa el comportamiento habitual o estilo de conducción de las
personas. En concreto, el MDSI-S contiene 40 ítems que evalúan 6 dominios
de conducción: Estilo Riesgoso (9 ítems), Estilo Agresivo (6 ítems), Estilo
Ansioso (4 ítems), Estilo Disociativo (10 ítems), Estilo Prudente y Cordial
(6 ítems), y Estilo de Reducción de Estrés (5 ítems). No obstante, estudios
posteriores en Argentina (Trógolo, Ledesma, Poó, Tosi & Medrano, 2018)
mediante análisis factorial confirmatorio, no obtuvieron evidencia que con-
firme la validez de la Reducción de Estrés como estilo de conducción (Tabla 1

Tabla 1. Ejemplo de ítems del MDSI-S

Otro instrumento que ha sido validado en nuestro país es la Driving


Anger Scale (DAS; Trógolo, Flores Kanter, Pareja & Medrano, 2017). La esca-
la DAS ha sido diseñada con el objetivo de medir el nivel de ira experimenta-
da por los conductores. Los estudios de estructura interna a través de análisis
factorial confirmatorio sustentan una estructura factorial compuesta por tres
dimensiones: Ira ante el Avance Impedido por Otros (7 ítems), Ira ante la
Hostilidad Directa (2 ítems), e Ira ante Conducción Temeraria (5 ítems; Ta-
bla 2). Todas las dimensiones presentan niveles de consistencia interna acep-
tables (valores alfa de Cronbach superiores a .70), y relaciones con medidas
de conducción agresiva y riesgosa, que proporcionan evidencia concurrente
de la escala.
223
Tabla 2. Ejemplo de ítems de la escala DAS

Por otra parte, para entender la influecia de la ira sobre el comporta-


miento en la conducción, se ha señalado la importancia de tener en cuenta,
además de la ira experimentada, la manera en que ésta se expresa (Herre-
ro-Fernández, 2011). La relevancia de esto radica en el hecho de que dos
conductores que experimentan el mismo grado de ira pueden expresarla de
diferentes formas. Con este propósito, Deffenbacher et al. (2002) crearon la
Driving Anger Expression Inventory (DAX), un instrumento de 53 ítems que
permite analizar distintas formas de expresión de la ira al volante. Específica-
mente, la DAX evalúa cinco factores: Expresión Verbal, Expresión Física, Ex-
presión mediante el Vehículo, Expresión Desplazada y Expresión Adaptativa-
Constructiva. Mientras que las cuatro primeras reflejan modos de expresión
agresiva de la ira, la forma adaptativa-constructiva representa una forma de
expresión no agresiva de esta emoción.

224
Tabla 3. Ejemplo de ítems de la escala DAX

Los estudios realizados en Argentina (Trógolo, Flores Kanter & Me-


drano, 2018) identificaron, a partir de análisis factorial exploratorio, cinco
factores consistentes con los cinco modos de expresión de la ira propuestos en
la escala original, aunque en el proceso de validación se descartaron 18 ítems
en total, muchos de ellos por su contenido redundante, o bien por las bajas
correlaciones ítem-total que mostraron con sus respectivos factores. De este
modo, la escala quedó conformada por 35 ítems distribuidos en 5 factores:
Expresión Verbal (8 ítems), Expresión Física (7 ítems), Expresión mediante el
Vehículo (9 ítems), Expresión Desplazada (4 ítems y Expresión Adaptativa-
Constructiva (7 ítems; Tabla 3). Todos los factores evidenciaron una consis-
tencia interna satisfactoria, con coeficientes alfa de Cronbach superiores a .70,
y relaciones teóricamente esperadas con medidas de ira y de comportamientos
agresivos y riesgosos en la conducción.
Otro instrumento que ha sido objeto de validación es la Aversion to Risk
Taking Scale (ARTS) propuesta por Dorn y Machin (2004). La escala original
consta de 8 ítems que miden la percepción explícita de peligro en relación con
diferentes conductas o acciones consideradas riesgosas (Tabla 4). En nuestro
país, se llevaron a cabo estudios psicométricos con una versión extendida de
este instrumento compuesta por 6 ítems adicionales que fueron agregados
con el fin de dotar de mayor validez de contenido a la escala (Trógolo, Ledes-
ma & Medrano, 2018).

225
Tabla 4. Ejemplo de ítems la escala de percepción de riesgo en la conducción (ARTS)

Esta versión cuenta con evidencia de validez de estructura de interna


que confirma la unidimensionalidad de la escala, análisis de consistencia satis-
factorios (alfa de Cronbach = .86), y correlaciones significativas con medidas
de autoeficacia para la conducción y conductas riesgosas en la conducción que
proporcionan evidencias externas de validez. Además, se obtuvieron correla-
ciones nulas y muy débiles con la escala de Deseabilidad Social del Conductor
(Poó et al., 2010), lo que sugiere que la ARTS constituye una medida robusta
frente al sesgo de deseabilidad social.
Finalmente, se han propuesto diferentes instrumentos para la evalua-
ción de las actitudes hacia el riesgo en el ámbito de la conducción. Uno de
los más conocidos es la Attitudes toward Traffic Safety Scale (Iversen, 2004),
que evalúa las actitudes de los conductores hacia comportamientos de riesgo
que son críticos paa la seguridad vial: (a) actitud hacia las infracciones y el
exceso de velocidad (11 ítems), (b) actitud hacia los comportamientos te-
merarios de otros (3 ítems), y (c) actitud hacia el alcohol y la conducción (2
ítems; Tabla 5). Esta escala presenta buenas propiedades psicométricas en el
contexto argentino (Trógolo, Ledesma & Medrano, 2018). Particularmente,
se obtuvo evidencia de la estructura interna de la escala mediante análisis
factorial confirmatorio que provee apoyo empírico a los tres factores. La con-
sistencia interna obtenida para los tres factores fue adecuada (coeficientes alfa
de Cronbach superiores a .70). Por último, se obtuvieron relaciones esperadas
entre las tres dimensiones de la escala y un cuestionario de conductas riesgosas
en la conducción, y se comprobó que la escala resulta resistente al sesgo de
deseabilidad social.

226
Tabla 5. Ejemplos de ítems de la de actitudes hacia el riesgo en la conducción

Comentarios finales

La investigación en el área se caracteriza por el uso de diferentes me-


todologías, desde técnicas psicométricas hasta simuladores de conducción.
Entre éstas, han sido las primeras las herramientas más utilizadas por los in-
vestigadores, probablemente debido a su sencillez y economía. Asimismo, los
estudios realizados han mostrado resultados consistentes sobre la validez de
la información obtenida mediante este tipo de instrumentos, particularmente
su robustez frente al sesgo de deseabilidad social. Sin embargo, estos resulta-
dos han sido obtenidos en un contexto específico y con fines de investigación
exclusivamente. La validez de las técnicas psicométricas en ámbitos aplicados
(ej., evaluación y selección de conductores) es un tema pendiente en la inves-
tigación. En este contexto, se ha sugerido que el uso de medidas indirectas
podría ser más útil que los auto-informes, ya que limitan las posibilidades de
control y manipulación sobre las respuestas (Tosi, Ledesma, Poó, Montes &
López, 2018), lo que representaría una ventaja en aquellas situaciones donde
existen consecuencias personales asociadas a los resultados de la evaluación,
que pueden llevar a distorsiones en las respuestas.

227
Introducción a la Evaluación Psicométrica en Psicología del Deporte:
Reseña Teórica y Modelos Teóricos

La Psicología del Deporte como área emergente de la Psicología se ofi-


cializó en 1986, con la aparición de la División 47 Exercise and Sport Psycho-
logy en la clasificación de la Asociación Americana de Psicología (A.P.A.). Allí
se define a la Psicología del Deporte y de la Actividad Física como “...el estudio
científico de los factores psicológicos que están asociados con la participación y el
rendimiento en el deporte, el ejercicio y otros tipos de actividad física...” (Gonzá-
lez, 1992 en Morales et al. (2007).
Actualmente y en virtud de sus objetivos pueden diferenciarse tres ám-
bitos de incumbencia del psicólogo del deporte (Clasificación COP, Colegio
Oficial de Psicólogos de España, 1998): 1) El Deporte de Rendimiento (Alto
Rendimiento y otros niveles de rendimiento) y de Iniciación Deportiva; 2)
Recreativo (Incluye el Deporte Comunitario y de Poblaciones Especiales y
Tercera Edad) y 3) Salud.
La Psicología del Deporte como aplicación de la Psicología, cuyas pri-
meras referencias datan de finales de siglo XIX, se institucionaliza a partir de
1965 y desde la última década del siglo XX, presenta un vertiginosos desarro-
llo en el que generalmente la práctica ha ido delante de la teoría presentan-
do abordajes basados en diferentes modelos psicológicos que pueden parecer
controversiales (Valdés Casal, 2000).
En relación al proceso de medición en esta área debe contemplarse: la
naturaleza de las variables psicológicas que se estudian (el deportista, el depor-
tista en situación deportiva y la interrelación entre ambos), la dificultad del
estudio mediante la constitución de muestras homogéneas y la especificidad
inherente al funcionamiento de cada disciplina deportiva. Por ello, tanto este
proceso de evaluación (medición y construcción de instrumentos) como en
las diferentes teorías que los sustentan se contemplan dos dimensiones teoría
y praxis.
Los principales instrumentos de recolección de datos utilizados son: la
observación semiestructurada en terreno, los cuestionarios, los reportes, los
auto- informes y las entrevistas. También a la aplicación de pruebas estanda-
rizadas. Se aplican a los diversos actores del escenario deportivo (deportista,
entrenador, padres, directivos, etc.).
Las variables principales que se evalúan son: atención-concentración;
motivación; ansiedad; fortaleza mental; funcionamiento en equipo; y otras
competencias psicológicas específicas de cada situación deportiva solicitada,
etc.
Es un área donde el proceso de medición-evaluación de variables psi-
cológicas es permanente por lo que también lo es la adaptación y construc-
ción de instrumentos ad hoc para evaluar situaciones propias como el nivel de

228
competición en relación a un determinado oponente y la evaluación mediante
criterios pre-post como por ejemplo pre y post la realización de un entrena-
miento específico en el dominio de una destreza psicológica.
El proceso de evaluación psicológica en el deporte especialmente en el
deporte de rendimiento y alto rendimiento así como las diferentes teorías que
los sustenta evolucionaron en dos diferentes trayectos complementarios: 1)
La dimensión práctica, en la aplicación de pruebas en los ciclos y megaciclos
del entrenamiento, la competición y el desentrenamiento y 2) La dimensión
teórica en la confección y puesta a punto de las pruebas y en la construcción
y deconstrucción de los paradigmas que las sustentan (Morales y Marzano,
2007).
Entre los años 2002 y 2012 los trabajos de evaluación y de investigación
de las variables psicológicas en el deporte en español se refieren en su mayoría
a la motivación, siguiéndole la percepción y el autoconcepto. Los deportes
más estudiados son Basquetbol y Fútbol (probablemente porque al estar pro-
fesionalizados tienen más posibilidades económicas para financiar desarrollo
científico) y la etapa evolutiva más estudiada es la adolescencia.
Existe una importante demanda desde el deporte de elite que busca
en la intervención psicológica una posibilidad más para incrementar el ren-
dimiento deportivo de los atletas que no se equipara con la demanda prove-
niente del deporte de salud, recreativo y comunitario (Del Grosso, Fernández
y Matosko, 2012).
Históricamente, se ha solicitado a los psicólogos del deporte intervenir
para lograr la maximización en el rendimiento del deportista evaluando cada
aspecto y momento de ese proceso. Esto se realizó en un principio desde
la óptica de un modelo teórico innatista no siempre explicitado, al que ha-
bía que desarrollar mediante la estimulación ambiental. Considerando que
el éxito deportivo del atleta dependía de forma exclusiva de sus cualidades
individuales o talento como rasgos de personalidad o cualidad estable que for-
ma parte de la estructura temperamental del sujeto ligada a lo constitucional
(hereditario, genético y congénito). Por ello, entre l1920 y 1980, se estudió
la personalidad del deportista a partir de este supuesto como predictor de la
conducta en todas las situaciones deportivas.
Este movimiento se inicia en la URSS P. con Rudik y Puni (1930) con
la creación del Instituto Central de Investigación Científica para el Estudio
de de la Educación Física y continúa en EEUU con C. Griffith (1932) con la
fundación del primer Laboratorio de Psicología del Deporte en la Universi-
dad de Illinois. En ambos, evaluando –detectando- talentos mediante la utili-
zación de tests de personalidad, de inteligencia y de psicomotricidad a partir
de observaciones, cuestionarios, auto-informes y entrevistas con deportistas.
Se indaga sobre variables tales como: capacidad de liderazgo, control emocio-
nal, autoconfianza, autocontrol emocional, capacidad de determinación, op-

229
timismo, etc. (Cruz y Capdevila en Cruz, 1980). Emergiendo la controversia
que ha acompañado el desarrollo teórico de esta disciplina a lo largo de las
décadas: campeón se nace o se hace (Martens, 1987)
En los Institutos de Cultura Física creados en Moscú y en Leningrado,
donde trabajaron P. Rudik y A.Z. Puni respectivamente, se promovían las
habilidades deportivas desde la niñez; con evaluación constante de las capaci-
dades físicas y atléticas. Los niños que evidenciaban mayor potencial podían
continuar sus estudios en los Institutos del Deporte y de Cultura Física don-
de eran entrenados y estimulados de manera individual en sus habilidades
motoras, para su posterior incursión de forma natural en la especialización
deportiva específica y también en el más alto nivel de las Ciencias Deportivas
(Pérez Córdoba y Estrada Contreras, 2015). Este laboratorio tuvo dos áreas
fundamentales la investigación fisiológica y el estudio experimental de los
tiempos de reacción, el aprendizaje deportivo y la adquisición de las habilida-
des motrices que es el área de investigación psicológica).
A partir de la segunda mitad del siglo XX comienza la producción y
proliferación de instrumentos estandarizados de medición; del establecimien-
to de perfiles personales de funcionamiento psicológico aptitudinal y actitu-
dinal y la medición pre-post. Algunos de esos instrumentos son famosos en
la literatura específica y perduran hasta la actualidad, realizándose periódica-
mente con ellos estudios de confiabilidad y baremación. Ejemplo de ello son:
el Athletic Motivation Inventory (AMI) (Tutko, Lyon y Ogilvie, 1969), para
evaluar un posible rasgo de motivación deportiva; el Sport Competition Anxie-
ty Test (SCAT) (Martens, 1977), para evaluar el rasgo de ansiedad competi-
tiva, específico de los deportistas (Cruz, 1991); el Test of Attentional And In-
terpersonal Style (Nideffer, 1976)que evalúa el estilo atencional característico
del deportista; el Profile of Mood States (POMS) McNair, Lorr y Droppleman
(1971) que establece el perfil anímico predominante del deportista; la Measu-
rement of values expresión in sports and athletics (Simmons y Dickinson, 1986)
que evalúa la valoración del deportista acerca de la actividad físico deportiva.
Cabe consignar que este instrumento deriva de la Rokeach Value Sur-
vey (RVS) (Rokeach, 1968). Esta Encuesta sobre los valores que las personas
atribuimos a diferentes cosas de la existencia humana que inspiró varios ins-
trumentos de medición a partir del los años ’60, por ser una temática de la
Psicología-Social impuesta en la época.
Sin embargo, comienza a vislumbrarse también una controversia en re-
lación a los instrumentos de medición, pues no todos los instrumentos de
medición resultan buenos predictores del rendimiento deportivo. Algunos es-
pecialistas plantean la inutilidad práctica de contar con instrumentos estanda-
rizados bien calibrados que son útiles en otras áreas de la Psicología pero no en
ésta. Éstas y otras dificultades, dieron inicio a la construcción de un ámbito de
la Psicología del Deporte, con un corpus teórico, instrumentos de evaluación
y dispositivos de intervención propios (Martens, 1975).

230
Hacia fines de los ‘70, la Psicología del Deporte asume un enfoque
predominantemente cognitivo-conductual (aunque co-existiendo con otras
corrientes). Pero, este modelo cognitivo, esencialmente psicológico, se dife-
rencia del modelo médico psiquiátrico pues no tiene como referente a la pa-
tología sino al máximo desarrollo de la función, lo que instituye el epicentro
en el comportamiento y el aprendizaje. Sustituyendo el concepto de enferme-
dad por el de distorsión cognitiva, producto de condicionamientos nocivos
o aprendizajes negativos. Proponiendo una línea de abordaje que bien puede
denominarse de entrenamiento cognitivo-comportamental (Gardner, 1987).
Fuertemente centrados en la figura del deportista y en el ámbito especí-
fico del juego con todos sus componentes incluido el espectador y los vínculos
relacionales (Escenario deportivo), en este período, la evaluación adopta un
enfoque más empírico. Se utilizan test, cuestionarios y auto-informes cuyo
objetivo es evaluar los aspectos cognitivos, los estados (más que los rasgos) de los
deportistas durante los entrenamientos y las competiciones. Aunque, se con-
tinúa empleando registros cognitivos con instrumentos adaptados de otras
áreas, como la Psicología Clínica; y, en algunos casos, aplicando sin ninguna
modificación test estandarizados cuyos baremos de comparación correspon-
dían a poblaciones de no deportistas (Martens, 1987 en Cruz, 1997).
En líneas generales, en esta etapa los procesos psicológicos más inves-
tigados fueron los emocionales, atencionales y motivacionales con la idea de
producir entrenamiento de la atención para el aprendizaje de los estados emo-
cionales que se consideran favorables para la exitosa perfomance deportiva
y el control y des- aprendizaje de aquellos que no lo eran. Son medidos los
constructos de activación y control utilizando el Test of Attentional and In-
terpersonal Style (TAIS) (Nideffer, 1976). Considerando que los atletas en
situación de activación extrema controlan la situación según un rasgo o estilo
atencional personal al cual hay de educar en función de las necesidades para
éxito deportivo.
Esto produce el giro de la mirada de los instrumentos de evaluación. Los
procesos emocionales, como la ansiedad o stress competitivo, estado de ansie-
dad específico de la situación deportiva, son evaluados a partir de la creación
del Sport Competition Anxiety Test (SCAT), desarrollado por Martens (1977),
bajo la conceptualización cognitiva de la percepción que el atleta tiene de la
situación deportiva como amenazante (Martens, 1977).
De igual modo, otras pruebas, como el Profile of Mood States (POMS)
de Mc Nair, Lorr y Droppleman (1971), informan por evaluación sobre el
cambio en el estado de ánimo que va adquiriendo el perfil personal del depor-
tista a través de las diversas situaciones de entrenamiento y de competición.
Obteniendo el entrenador un perfil multidimensional general del atleta lo
que le permite observar las oscilaciones del estado de ánimo en diferentes
categorías.

231
A través de la evaluación de los procesos motivacionales surgen mo-
delos explicativos trascienden aquellos de meta de ejecución y meta de logro e
intentan explicar los aspectos motivacionales desde perspectivas pluri-dimen-
sionales que incluyen los factores cognitivo - sociales y valorativos de moda
en la época. Surgen así modelos teóricos como la Teoría de la Atribución que
considera a la motivación como el resultado de la confluencia de factores di-
versos, entre los cuales, el ámbito social y cultural puede ser determinante; ya
que, los pensamientos y sus significados cambian cuando el contexto social
también lo hace. (Roberts, 1995)
En síntesis, en esta área, la evaluación abarca tres niveles o modalidades
de respuesta psicológica con su indicador conductual y su correspondientes
instrumentos de medición (Cruz, 1997).
1. Nivel de Modalidad Cognitiva (pensamientos, sentimientos, ex-
pectativas, cogniciones, motivaciones). Este indicador se evalúa
mediante técnicas tales como test, cuestionarios, inventarios, auto-
informes y entrevistas.
2. Nivel de Modalidad Conductual Externa (lo que hace y / o dice
el atleta, incluyendo la modalidad motora externa). Este indicador
que se evalúa mediante técnicas de observación sistemática de la
conducta externa para lo cual el equipo técnico diseña instrumentos
adecuados al contexto (Mora Mérida, et al, 2000)
3. Nivel de Modalidad Psicofisiológica (informa sobre los valores que
alcanzan los procesos funcionales orgánicos del atleta frecuencia
cardiaca, sudoración, tensión muscular y que también se utilizan
para obtener alguna información psicológica, ya que estos cambios
pueden observarse como variables dependientes de alguna interven-
ción del entrenamiento físico o psico-conductual. (Capdevila, 1989
en Cruz, 1991)

En las últimas décadas, por las características y necesidades propias de


cada disciplina deportiva, surge una tendencia a confeccionar instrumentos a
medida de las situaciones y modalidades deportivas específicas como también
provistos de sub-escalas que evalúan los desajustes cognitivos. El objetivo es
el logro de eficacia y eficiencia requeridas por la práctica. (Capdevila en Cruz,
1991). También de considerar las variables psicológicas asociadas a la práctica
de actividad física (concepto proveniente de las corrientes inter-accionistas
provenientes de la clásica Teoría de Campo de Kurt Lewin) para ser evalua-
das dentro de un contexto dinámico, en función de las interacciones entre
los actores del escenario deportivo; y abordando el estudio de la problemática
natura-nurtura de manera global como posible predictor del éxito deportivo
considerando tanto la contribución relativa de los genes como parte del entre-
namiento en el rendimiento (González, 1996).

232
En este escenario comienza a adquirir protagonismo el coaching en la
conducción del atleta hacia la excelencia (Martens, 1987) y el rol del Psicó-
logo del Deporte se amplía y enriquece a partir de estas concepciones; ya que
“…deberá intervenir en el nivel psico-fisiológico, el nivel que podemos llamar per-
sonológico - motivación, ansiedad, auto-confianza, etc.- y el nivel social del equipo
deportivo, con toda la complejidad que este presenta…” (Valdés Casal, 2000);
lo cual requiere de un soporte teórico-instrumental adecuado al que cada
coach debe llegar mediante estudios y preparaciones específicas que incluyen
el dominio de la construcción de pruebas para la evaluación de cada nivel de
intervención al mismo tiempo que la especificidad que cada tarea requiera.

233
|
Organización y Redacción de Informes Psicométricos
Leonardo Medrano y Lucas Lapuente

Introducción

Habitualmente los psicólogos deben realizar una serie de actividades


destinadas a valorar las virtudes y dificultades de sus pacientes, con el fin de
lograr una mayor comprensión de los mismos. Dado que estas actividades de
evaluación resultan inherentes al ejercicio profesional, se podría pensar que
todos los psicólogos, en mayor o menor medida, se encuentran vinculados a
la evaluación psicológica (Trull & Phares, 2003). Más allá del tipo de evalua-
ción efectuada, generalmente dichos exámenes se encuentran acompañados
de un informe escrito sobre los resultados obtenidos, no obstante, a pesar de
la frecuencia con que los psicólogos realizan esta actividad la elaboración de
un informe no resulta una tarea sencilla.
En una investigación desarrollada por Tallent (en Jiménez 2001), se
solicitó a 1400 psicólogos y psiquiatras que completasen la frase: “el problema
de los informes psicológicos es que….”. Los resultados obtenidos indicaron
que los problemas más frecuentes en la elaboración de informes se centran
en dos aspectos. El primero referido a la falta de organización de los informes,
dado que muchas veces la presentación de los resultados se realiza de una
manera desordenada y sin un esquema claro de base. El segundo aspecto hace
referencia a la redacción de los informes, principalmente dificultades centradas
en el uso de términos ambiguos o bien demasiado técnicos, que impiden una
correcta comprensión por parte del destinatario.
Tomando esto en consideración, el presente capítulo apunta a brindar
una serie de lineamientos generales para la elaboración de informes psico-
métricos. Para ello nos centraremos en dos interrogantes: ¿Cómo organizar
un informe? y ¿Cómo redactar un informe? No obstante, resulta importante
conocer en primer lugar las diferencias entre un informe psicológico y un
informe psicométrico. En efecto, aunque el contenido de este capítulo puede
resultar útil para la elaboración de informes psicológicos, los lineamientos
presentados se centran en la elaboración de informes psicométricos. Es im-
portante que se tenga en claro dicha diferenciación ya que la misma da cuenta
de los límites y alcances de nuestros resultados. Por ello el primer interrogante
a responder (¿Qué es un informe psicométrico?) apunta a delimitar con cla-
ridad las diferencias existentes entre ambos tipos de informes. Finalmente, se
presentan una breve síntesis de las características fundamentales de un infor-
me psicométrico y una serie de principios éticos y recomendaciones destina-
das a salvaguardar el bienestar de los examinados.

235
¿Qué es un informe psicométrico?

En un sentido amplio, los informes en psicología hacen referencia a una


comunicación (escrita u oral) mediante la cual se informan los resultados de
las exploraciones efectuadas. A partir de los resultados observados se puede
establecer un pronóstico o bien un diagnóstico que responde a las necesidades
planteadas por la persona, entidad u organismo que solicitó el informe (Bo-
sio, 2005). De esta manera todos los informes escritos comparten la caracte-
rística de ser comunicaciones que presentan una síntesis de las evaluaciones
realizadas. Sin embargo, dado que los informes constituyen la última etapa de
un proceso de evaluación, se observarán importantes variaciones según el tipo
de proceso realizado. En efecto, mientras los informes psicológicos constituyen
el producto de un proceso de evaluación, los informes psicométricos son el pro-
ducto de la aplicación aislada de una prueba psicométrica (figura 1).

Informe Proviene de Proceso de


Psicológico Evaluación

Informe Proviene de Aplicación de


Psicométrico Pruebas

Figura 1. Esquema sobre la diferencia entre informe psicológico e informe psicométrico

Según Cohen y Swerdlik (2006), un proceso de evaluación psicológica


se define como la recolección e integración de datos psicológicos mediante el
uso de diferentes herramientas (pruebas, observación, entrevistas, etc.), mien-
tras que la aplicación de una prueba se caracteriza por ser un proceso destinado
a medir una variable psicológica mediante un instrumento diseñado para tal
fin. De esta manera se vislumbran dos diferencias principales, la primera es
que en el proceso de evaluación psicológica se utilizan diferentes herramientas
de evaluación (entre ellas pruebas psicológicas) haciendo uso especial de la
entrevista psicológica. Por otra parte, el informe psicométrico proviene de un
proceso de aplicación de pruebas y por ende posee un alcance más reducido.
En este caso se apunta a medir un rasgo latente a partir de un único instru-
mento o bien de un conjunto de pruebas, pero sin hace uso de una entrevista.
Esta modalidad de evaluación es habitual en procesos de evaluación colectiva.

236
La segunda diferencia radica en el rol del evaluador, de hecho durante
un proceso de evaluación psicológica el examinador constituye el punto cla-
ve ya que deberá integrar las diferentes fuentes de información para realizar
predicciones o pronósticos. Por otra parte, en la aplicación de una prueba el
objetivo principal se encuentra en las puntuaciones obtenidas por la prueba
y no en las decisiones del examinador. Como puede observarse existen nota-
bles diferencias entre ambos procesos, lo que derivará en diferentes tipos de
informes. Un informe psicológico no sólo resulta más amplio y profundo,
sino que además contiene de forma explícita los razonamientos que llevaron
al examinador a integrar la información aportaa por las diferentes técnicas
de recolección de datos. Por el contrario, en un informe psicométrico sería
imprudente extenderse más allá de los resultados obtenidos y las teorías sub-
yacentes a la prueba utilizada.

¿Cómo organizar un informe Psicométrico?

Existen diferentes modos de organizar la información presentada en un


informe psicométrico. Puede hacerse hincapié en la teoría que sustenta la
prueba, en los resultados obtenidos o en el motivo de consulta del examinado.
Asimismo, los informes presentarán variaciones según los propósitos del exa-
men y los destinatarios de la información. Sin embargo, pueden proponerse
modelos generales para organizar la información incluida en los informes psi-
cométricos. A continuación, se presenta un “Modelo de Informe Psicométri-
co” elaborado a partir de los formatos propuestos por Aiken (2003), Maloney
y Ward (1976), Sattler (1982), Pelechano (1976) y Fernández- Ballesteros
(1983).

237
Figura 2. Esquema sobre la organización de un Informe Psicométrico

¿Cómo redactar un informe Psicométrico?

Elaborar un adecuado informe psicométrico no sólo requiere de cono-


cimientos técnicos para sintetizar e interpretar los datos recabados, también
debemos disponer de herramientas discursivas que nos permitan transmitir
con precisión y claridad los resultados de la exploración. Como norma gene-
ral, es necesario considerar el objetivo del informe y los destinatarios del mis-
mo dado, ya que esto determinará el vocabulario y la terminología a utilizar.
En efecto, si el destinatario del informe es otro profesional se recomienda la
utilización de un lenguaje científico-metodológico preciso y compartido por
ambos profesionales. Esto facilitará la toma de decisiones y la realización de
las intervenciones pertinentes (Jiménez, 2001). Por otra parte, si el destina-
tario es el sujeto examinado u otra persona cercana (los padres del niño, por
ejemplo), se sugiere utilizar un lenguaje coloquial y centrar el informe en con-
tenidos directamente vinculados con la demanda o problema del examinado.

238
En este punto cabe señalar que el informe escrito podría ser acompañado de
un informe oral para evitar malinterpretaciones por parte de los destinatarios.
El lenguaje utilizado debe ser claro, sencillo y sin ambigüedades, a la vez
que no se recomienda emplear un lenguaje técnico que pudiera dificultar la
comprensión e interpretación del informe. Por ello, debe constituir un objeti-
vo primordial del psicólogo la búsqueda de una comunicación que resulte en-
tendible para los destinatarios del informe. Lamentablemente resulta frecuen-
te encontrar informes que se limitan a la exposición de las cifras obtenidas
por el test, o bien incluyen siglas (por ejemplo, IAMI, CIP, TIMI, DAT), en
vez de describir con claridad las características de la prueba empleada. Estos
aspectos dificultan una correcta comprensión. También resulta contraprodu-
cente redactar informes mediante una descripción literal y técnica de la teoría
utilizada para interpretar los resultados, o bien, empleando un lenguaje vulgar
que reste seriedad y rigurosidad científica al informe. Es importante saber
conservar un equilibrio entre el lenguaje técnico y el coloquial, sólo una equi-
librada dosis de cada uno permitirá una adecuada comprensión del informe.
Además de estas consideraciones generales para la redacción del informe
psicométrico, también se sugieren algunas más específicas, pero igualmente
importantes. En primer lugar, se recomienda ser claros respecto al grado de
certeza de los datos recabados, mostrando convicción de los datos fiables y
utilizando frases como “probablemente” o “tal vez” cuando se trate de inferen-
cias o deducciones del examinador. Por otra parte, se recomienda centrar el
informe en los rasgos o datos presentes en el examinado, más que en los rasgos
ausentes (“el examinado no posee capacidad para la música”, por ejemplo). A
menos que los comportamientos ausentes constituyan el foco del motivo de
consulta. También se recomienda comenzar por los aspectos más adaptativos
y positivos del evaluado e ir incluyendo aspectos menos positivos de manera
paulatina y matizada.
Otro aspecto a considerar es la inclusión de variables que la prueba no
mide efectivamente. Cabe recordar que un informe psicométrico, a diferencia
de un informe psicológico, se basa en los datos recabados a partir de la aplica-
ción de una prueba aislada y una breve interacción con el examinado, por lo
cual resultaría aventurado realizar evaluaciones de aspectos no contemplados
en la prueba. En efecto, resulta habitual observar que los evaluadores realizan
abstracciones infundadas de los datos objetivos, como por ejemplo, afirmar
que la persona posee baja autoestima o que es introvertida, cuando la prueba
utilizada no mide estos aspectos psicológicos.
Según Jiménez (2001) estas conductas generalmente provienen de la
falta de asertividad de los examinadores, ya que éstos optan por brindar infor-
mación infundada para satisfacer las demandas del examinado. Estas conduc-
tas generalmente provienen de la ansiedad generada en el evaluador por tener
que circunscribirse a un dominio comportamental delimitado y no poder

239
explayarse sobre el comportamiento general del examinado, aún cuando éste
lo solicita. Por ello, resulta importante mantenerse firme y asertivo respecto
a la información comunicada, focalizando nuestro informe en aquellos datos
que recabamos mediante la prueba.
Finalmente, se sugiere evitar informes superficiales que puedan ajus-
tarse a cualquier persona, así como el uso de “etiquetas diagnósticas” que
reduzcan la complejidad de la conducta humana a una definición estática.
Por ejemplo, afirmando que el sujeto examinado es neurótico sólo por que
obtuvo una puntuación elevada en la escala de Neuroticismo del inventario
NEO. En efecto, el evaluador debe ser modesto al comunicar los resultados
aportados por la prueba, debe recordarse que un test psicométrico constituye
un instrumento útil y válido, pero también sujeto a errores e imprecisiones.

Modelo y ejemplo de Informe Psicométrico

A continuación, se desarrollará un ejemplo de informe psicométrico


para la evaluación en el ámbito escolar. Cabe destacar que el informe elabora-
do es a partir de datos ficticios, no obstante, puede servir de modelo para ela-
borar y comprender la información que debe incluirse dentro de un informe
psicométrico:

1. Datos personales
Alumna: Martina
Edad: 12 años
Colegio: Privado de la Ciudad de Córdoba
Evaluador:

2. Referencias y objetivos
La profesora Patricia ha pedido que se realizase una evaluación de Mar-
tina para tener una mejor comprensión de las necesidades educativas de su
alumna. Actualmente Patricia es profesora particular de Martina y le da clases
todos los días después del colegio, principalmente para ayudarla a completar
sus tareas escolares. La evaluación fue pedida para explorar los posibles facto-
res que pudieran estar interviniendo en el desarrollo educativo y en el rendi-
miento en las materias escolares. A su vez, se plantea la pregunta de si es nece-
sario que Martina acuda a un centro de educación especial o si se mantiene en
el colegio donde está pero con un programa especial que permita atender a sus
características particulares. Por último, la profesora está interesada en conocer
cuáles son los programas y técnicas de instrucción que resultarían más eficaces
para el aprendizaje de la niña.

240
3. Datos biográficos relevantes
Martina fue adoptada cuando era bebé y según cuenta su madre, todas
las etapas del desarrollo se han cumplido dentro de los límites normales. Ac-
tualmente vive en Córdoba Capital con su madre y un hermano de 8 años que
también fue adoptado.
En el historial médico de la chica se encuentran algunas infecciones
auditivas a temprana edad (hasta los 2 años), asma (entre los 2 y los 3 años)
y una reacción extrema a los ruidos o movimientos inesperados (cuando es-
taba en el jardín de infantes). Empezó el colegio en una institución pública y
permaneció allí hasta el 4to grado. En ese momento el profesor del curso re-
comendó buscar un colegio que le pudiera dar atención más individualizada.
A raíz de esa recomendación Martina comenzó a asistir a un colegio privado
caracterizado por tener pocos alumnos por curso, lo que permite que el pro-
fesor tenga un seguimiento más individualizado de cada chico. En ese colegio
repitió el 4to grado.
Los informes más recientes describen a Martina como “educada, res-
petuosa y colaborativa”. No hay ningún indicador de que tenga problemas
sociales o de conducta en el entorno escolar, incluso varios profesores han
indicado que se esfuerza constantemente y que ha mostrado mejoría en sus
tareas. Las mayores dificultades se muestran en el campo de la matemática y el
profesor indica que presenta dificultades para dominar los conceptos básicos.
4. Conductas durante la evaluación
Martina mantuvo una actitud cooperadora en todas las sesiones de la
evaluación y se mostraba cómoda y atenta. Se mostraba interesada de intentar
todas las tareas y mostraba una actitud positiva, incluso cuando las tareas iban
aumentando en dificultad. En ocasiones se distrajo por ruidos ambientales,
pero rápidamente volvió a dirigir su atención a las que tareas que se le indica-
ban. La niña comentó que le gusta el colegio y sus profesores y que además no
le importa dedicar tanto tiempo para hacer las tareas para la casa.

5. Test aplicados
Los test utilizados fueron:
–– WJ III COG, Woodcock-Johnson III, Test of cognitive Ability: #
1-9; 11-18
–– WJ III ACH, Woodcock-Johnson III, Test of Achivement: #1-2,
13-15, 18, 19.
–– Dinostic Supplement to the Test of Cognitive Abilities (# 21,26)
–– Key-Math- Revised, con tipificación actualizada.

241
6. Resultados de los test
Como Martina ha repetido el 4º grado, en los WJ III Test of Cognitive
Abilities y Test of Achivement los resultados se compararon con los baremos de
su curso y con los de su edad; en ambos casos las puntuaciones derivadas eran
muy similares. Como esos dos instrumentos (de aptitudes y rendimiento)
se tipificaron conjuntamente (con la misma muestra), se pueden comparar
directamente los datos cognitivos de Martina con los de rendimiento. Estas
comparaciones ayudan a determinar la presencia y significación de cualquier
punto fuerte y débil entre sus aptitudes. En el resumen siguiente las aptitudes
de Martina, medidas por los componentes del WJ III, se dan en puntuaciones
típicas (Pt) y los niveles o categorías se han creado con el intervalo de confian-
za del 68% (Pt +- 1 desviación típica).

Rango <70 70-79 80-89 90-110 110-120 121-130 >131


Muy Normal Muy
Nivel Bajo Medio Medio alto Superior
Bajo Bajo superior

El percentil (Pc) indicaría en qué lugar se encontraría la puntuación de


Martina dentro de los resultados de 100 a 1000 alumnos de su mismo curso
y mes. Por ejemplo, un Pc de 75 indicaría que su puntuación era superior a
la del 75% de sus compañeros e la muestra normativa, mientras que un Pc
de o, 1 indicaría que su resultado sería superior sólo a 1 de cada 1000 de sus
compañeros. El grado equivalente (Ge) indica la puntuación directa mediana
de los alumnos en ese mes y año dentro del colegio. El índice de eficiencia re-
lativa (Er) es una valoración cualitativa que señala el nivel esperado de eficien-
cia de Martina en tareas similares si sus compañeros de nivel medio tuvieran
un 90% de éxito. Los valores Er por encima de 96/90 sugieren que Martina
encontrará más fácil la tarea, mientras que unos valores inferiores a 75/90
sugieren que ese tipo de tarea le resultará difícil. Los comentarios que vienen
a continuación se basan en la baremación según el curso.

Resultados cognitivos
A partir de los test WJ III COG, la puntuación compuesta en aptitud
intelectual general de Marta se encuentra en el nivel medio (Pt=96, interva-
lo de confianza 93-98). Este resultado es congruente con exámenes previos
en el WJ-R y en el WISC-III, como lo son los puntos fuertes y débiles
encontrados en evaluaciones anteriores. En conjunto, hay una diferencia
significativa entre las aptitudes verbal y pensamiento (nivel medio) y su
eficiencia cognitiva (nivel inferior). A continuación, se ofrece una revisión
de los resultados.

242
Procesamiento fonológico y auditivo. Martina ha mostrado un rendimien-
to de nivel muy superior en su capacidad para escuchar y manipular sonidos
del lenguaje. Su puntuación tanto en el test de Atención fonémica como en
el test Procesamiento auditivo superan el valor del 99,9% de sus compañeros.
Esto significa que sólo un uno por mil de personas obtendría una puntua-
ción mejor. En realidad, Martina obtuvo una puntuación máxima en el test
Mezcla de sonidos, que indica una facilidad muy grande para ensamblar so-
nidos hablados, una habilidad importante para leer y escribir correctamente.
Martina también obtuvo una puntuación de nivel superior en un test que el
exigió completar un sonido en una frase hablada incompleta (test Palabras
incompletas) y de nivel medio en otro test (Atención auditiva) que le pidió
que discriminara las palabras en un ambiente ruidoso creciente. Estos resulta-
dos sugieren que Martina será capaz de emplear con facilidad las habilidades
fónicas en la lectura y en la escritura.
Aptitud verbal, conocimientos adquiridos y lenguaje oral. Martina ha de-
mostrado un rendimiento proporcionado en comparación con sus compañe-
ros en cuanto al lenguaje oral, ya que demostraba tener aptitud para seguir
instrucciones con pasos múltiples, logró identificar relaciones entre palabras,
comprensión de información hablada y logró retener información narrativa.
Su puntuación en el conglomerado Aptitud verbal extensa superaba al 61%
de sus compañeros de curso, como lo hacía su puntuación en el conglomera-
do Lenguaje oral del WJ III ACH. El conocimiento general de Martina en la
información adquirida en sus experiencias diarias y el aprendizaje escolar esta-
ba en el nivel medo de sus compañeros de clase (medido por el conjunto Co-
nocimientos) y superaba al 52% de sus compañeros. Estos resultados indican
que Martina podrá aprovechar las instrucciones verbales y podrá comunicarse
oralmente con sus compañeros sin problemas.
Pensamieno visoespacial y razonamiento fluido. En los test de Pensamien-
to visoespacial y de razonamiento fluido, Martina obtuvo puntajes que se
encontraban en el nivel medio. Esto indica que ella puede razonar mediante la
utilización de patrones visuales, puede realizar con éxito tareas como recordar
dibujos después de un breve intervalo de tiempo, a su vez puede percibir las
relaciones entre la parte y el todo y puede manipular mentalmente partes de
un modelo para conformar el diseño completo. En el factor de Pensamiento
visoespacial su rendimiento superó al 53% de sus compañeros de clase. En el
de Razonamiento fluido su rendimiento superaba al del 28% de sus compa-
ñeros. Estos datos sugieren que Martina tiene aptitudes adecuadas para perci-
bir patrones visuales y usar razonamiento para resolver problemas.
Memoria. Martina ha mostrado un puntaje débil, en un grado entre leve
y moderado, en varias medidas de la memoria existentes en el WJ III COG.
Sin embargo, se han observado diferencias significativas entre los test. En el
factor de memoria a corto plazo, su rendimiento sólo superaba al 14% de sus

243
compañeros. Sus puntuaciones más bajas se daban en el test Números inver-
tido, en el que se le pidió que recordara series de dígitos y los presentara en
orden inverso; su rendimiento superaba al 9% de sus compañeros. En el fac-
tor de Memoria a largo plazo su rendimiento superaba al 9%. En el conjunto
de Memoria de trabajo su rendimiento superaba al 12 % de sus compañeros.
En contraste, en el conjunto de memoria asociativa, su rendimiento estaba en
el nivel medio y superaba al 52% de sus compañeros. Sin embargo existía una
diferencia significativa entre su puntuación de nivel normal bajo en un test
que exigía leer y aprender miniaturas, y medía su capacidad para almacenar y
recordar asociaciones dentro de un contexto (Pt de 83 en el test Aprendizaje
visoauditivo), y su puntuación medio alta en un test que implicaba recordar
los nombres de personajes espaciales (Pt de 114 en el test de Memoria de
nombres). En contraste, en los test que exigían más memoria del lenguaje y de
significados, tales como los test Comprensión de instrucciones y recuerdo de
historias del WJ II ACH, sus puntuaciones estaban en el nivel medio. Cuan-
do se examina el conjunto, su rendimiento en los diferentes test de memoria
sugiere que le resultan más difíciles las tareas que requieren la memoria de
materiales poco significativos (como memorizar los datos de una multiplica-
ción), que aquellas otras que implican la memoria de lenguaje y material con
mayor significado.
Eficiencia cognitiva, rapidez perceptiva y nombrado rápido de dibujos. Las
menores puntuaciones de Martina estaban en instrumentos con tiempo li-
mitado. La eficiencia cognitiva alude a la facilidad con la que el sistema cog-
nitivo puede procesar automáticamente la información, sin necesidad de un
pensamiento consciente y, por lo tanto, este se ve libre para atender a tareas de
razonamiento y pensamiento complejo. Este conjunto implica unas medidas
de la rapidez de proceso y la memoria de trabajo. La rapidez perceptiva alude
a la capacidad para realizar con prontitud tareas simples y frecuentemente
practicadas. Sus resultados en los tests indicaban que su rapidez para procesar
tareas simples superaba solo al 3% de sus compañeros de clase. La puntua-
ción de Martina e el conjunto de eficiencia cognitiva era debida en parte a su
lenta rapidez perceptiva. Para Martina el test más difícil fue el de rapidez de
procesamiento, que implicaba examinar filas de números para encontrar unas
determinadas parejas (test Emparejamiento visual); su puntuación superaba
solo la del 1% de sus compañeros. Además, tuvo dificultades para comprobar
filas de símbolos y encontrar los cinco que se emparejaban (test Cruzado) y
nombrar rápidamente dibujos simples (test Nombrado rápido de dibujos);
en este último test su puntuación superaba solo al 1% de sus compañeros de
clase. Todos estos resultados sugieren que Martina trabajará lentamente en
tareas que requieran un procesamiento rápido de la información.

244
Resultados académicos
Los exámenes escolares indican que Martina ha hecho un considerable
progreso tanto en lectura como en escritura, mientras que tiene problemas
con el dominio de las habilidades y los conceptos básicos en matemáticas.
Lectura y lenguaje escrito. La puntuación de Martina en el conjunto
Lectura general del WJ III estaba en el nivel medio, con una puntuación
superior al 31% de sus compañeros. En general, su disposición e identifi-
cación de palabras eran adecuadas, pero su rapidez para reconocer palabras
era baja. Su puntuación más baja estaba en el test Fluencia lectora, en el que
tenía que leer frases simples (p. ej., “los autos van por el agua”) y decidir si
la respuesta debería ser verdadera o falsa; en este test Martina puntuó en el
nivel normal bajo y su resultado solo superaba al 10% de sus compañeros.
Aunque la precisión de Marta en lectura ha mejorado mucho, su nivel de
lectura es todavía bajo.
Martina obtuvo puntuaciones de nivel medio en todos los test de escri-
tura, con una puntuación en lenguaje escrito general que era mejor que la del
42% de sus compañeros. Parecía que le gustaba escribir y redacto frases con
facilidad y confianza. Fue capaz de escribir con rapidez y facilidad cuestiones
simples (test Fluencia en la escritura). Aunque sus puntuaciones estaban en el
nivel medio, cuando intento escribir unas frases más descriptivas tuvo dificul-
tad para organizar su pensamiento y controlar la ortografía. Se sintió confusa
entre palabras simples: cama y coma; correo y correa.
Matemáticas. Las principales dificultades de Martina están en la adqui-
sición y el dominio de habilidades numéricas básicas. Su puntuación en las
medidas de habilidades para el cálculo numérico solo era mejor que las del
4% de sus compañeros. Actualmente, puede sumar y restar combinaciones de
números de un digito, conoce algo sobre la multiplicación y hace divisiones
simples (p. ej. 10/2). Sin embargo, no tiene unas bases firmes sobre esas ope-
raciones simples.
A causa de sus dificultades en matemáticas en los test del WJ III ACH,
se le aplico el Key-Math versión revisada, un inventario de diagnóstico de
las bases matemáticas. El Key-Math-R tiene 13 tests que miden tres áreas
principales: conceptos básicos, operaciones y aplicaciones. El propósito de la
evaluación era determinar unas metas apropiadas de instrucción para Marti-
na en el campo de las matemáticas. Obtuvo las puntuaciones que aparecen
a continuación en el recuadro siguiente; en las puntuaciones escalares (Pe)
la media es 10 y su desviación típica es 3; en las típicas Pt su media es 100 y
su desviación típica es 15, con sus correspondientes percentiles (Pc) y grado
equivalente.

245
Test Pe
Operaciones
Adición 7
Sustracción 4
Multiplicación 5
División 5
Cálculo mental 5
Conceptos básicos
Numeración 6
Números racionales 9
Geometría 11
Aplicaciones
La medida 8
El tiempo y el dinero 7
La estimación 6
Interpretación de datos 8
Resolución de problemas 8
Áreas Pt Pc Ge
Conceptos básicos 92 30 4,8
Operaciones 73 4 2,7
Aplicaciones 84 14 3,8
Puntuación total 81 10 3,6

Discrepancias en el WJ III
En este instrumento se calculan dos tipos de discrepancias para mostrar
la probabilidad de que una persona obtenga una determinada puntuación: la
diferencia entre las aptitudes (puntos fuertes y débiles entre las aptitudes) y la
diferencia entre aptitud y rendimiento (la aptitud se emplea para estimar el
rendimiento). En las discrepancias entre las aptitudes, la puntuación estimada
se basa en las puntuaciones de la persona en los demás conjuntos de puntua-
ciones d aptitudes y rendimiento. Martina tiene unos significativos puntos
fuertes intrasujeto en procesamiento auditivo y atención fonémica. Cuando
estas aptitudes se comparan con el promedio de las otras aptitudes, solo un
1 por mil de las personas obtendría una puntuación estimada más alta. Esta
aptitud superior ante el sonido sugiere que Martina tiene buena aptitud en
temas como los fonemas, la lingüística, la música y el aprendizaje de una
lengua extranjera. En contraste, cuando su rapidez perceptiva se compara con
las otras aptitudes cognitivas, solo el 3 por mil de los alumnos con igual pun-
tuación estimada obtendría una puntuación tan baja. Esta información, junto
a su lenta capacidad para dar nombres de modo rápido, sugiera que Martina
tiene dificultad para procesar rápidamente tanto la información verbal como

246
la visual. Cuando su aptitud intelectual general y su lenguaje oral general se
comparan con el rendimiento académico, la capacidad numérica para el cál-
culo de Martina presenta una predicción significativamente baja.

Resumen y conclusiones

Martina es una joven de 11 años con unas capacidades de nivel medio


en cuanto a su capacidad intelectual general y su lenguaje oral. Sus conoci-
mientos de la información general del mundo y la de tipo escolar son de tipo
medio comparados con los de sus compañeros de clase. Sus aptitudes para
razonar y pensar con patrones visuales están también en el nivel medio. En
comparación con la de sus compañeros, su capacidad de atención a los fone-
mas está en un nivel muy superior.
En contraste, Martina presenta puntos débiles relativos en rapidez per-
ceptiva, memoria de trabajo y memoria a largo plazo, que son aptitudes rela-
cionadas con el aprendizaje de los conceptos y las habilidades numéricas bási-
cas. Su punto débil más significativo está en la rapidez perceptiva, una aptitud
cognitiva que supone una base critica para el aprendizaje y la automatización
de la información de conceptos y procedimientos. Estos resultados sugieren
que Martina necesita más tiempo para procesar y manejar la información. Los
efectos de esta debilidad cognitiva son evidentes en el pobre rendimiento en
las habilidades numéricas básicas, así como en su lenta fluencia lectora. En
general, obtuvo puntuaciones bajas en la mayoría de los test que exigen res-
puestas rápidas o facilidad con los números. Cuando se observan estos datos
a la luz de las evaluaciones previas, Martina ha hecho progresos significativos
en todos los aspectos de la lectura y de la escritura. Esto es un tributo a la
buena calidad de la instrucción de los profesores y tutores, así como al cons-
tante deseo de Martina por implicarse en un trabajo intenso. En contraste, sus
habilidades numéricas básicas y su comprensión de los conceptos numéricos
son todavía un punto débil.

Recomendaciones escolares
En general
1. Como Martina trabaja con intensidad y desea tener éxito, propor-
ciónele frecuentes alabanzas y dele refuerzos por su trabajo y sus
esfuerzos.
2. Compruebe que Martina se mantenga dentro de un ambiente esco-
lar de apoyo.
3. Anime a Martina para que vaya aumentando su responsabilidad
para terminar las tareas encargadas para hacer en casa.
4. Ayude a Martina a que vaya ganango confianza en sus aptitudes de
aprendizaje. Es una alumna capaz y trabajadora, y seguira haciendo
progresos paulatinos.
247
Terapia escolar y de aula
1. Martina seguirá con provecho la instrucción en una clase normal
de educación, puesto que sus aptitudes intelectuales y sus niveles
de rendimiento en lectura y escritura son comparables a los de sus
compañeros.
2. Seguirá con provecho una instrucción individualizada que atienda
y resuelva sus problemas en las capacidades numéricas básicas, que
aumente su fluencia lectora y que mejore sus habilidades de escritu-
ra y redacción.
3. Martina se esfuerza, completa sus tareas y se lleva bien con sus pro-
fesores y sus compañeros. Su buen rendimiento indica que no ne-
cesita un entorno escolar restrictivo y podrá seguir beneficiándose
de estar en el aula actual o en un centro público, aunque aumenten
mucho las demandas de las tareas para hacer en casa.
4. Si entrase en un centro público, es probable que cumpliese los re-
quisitos exigidos para recibir unos servicios por problemas de apren-
dizaje en el área de aptitudes numéricas básicas.

Ajustes escolares
1. Dada su lenta fluencia lectora y na generalmente lenta rapidez de
procesamiento de la información, Martina necesitará mayor tiempo
en ls test tipificados, así como en algunas de las tareas para hacer en
clase.
2. Dada su lenta fluencia lectora, necesitará ajustes en la cantidad de
lectura que se espera de ella. En vez de ajustar el número de páginas
a leer, sería preferible que se le asigne una cantidad de tiempo para
su tarea lectora.

Consideraciones Finales

A partir de los contenidos desarrollados anteriormente, pueden señalar-


se una serie de características fundamentales que los informes psicométricos
habitualmente presentan. En primer lugar, son el producto de la aplicación
aislada de una prueba psicométrica y no de un cuidadoso y exhaustivo proce-
so de evaluación. Esta característica exige ante todo modestia y asertividad en
la comunicación de los resultados (Jiménez, 2001), siendo conscientes de las
limitaciones de la evaluación y no explayándose sobre variables no medidas
por el instrumento a pesar de la insistencia de los sujetos evaluados.
Por otra parte, los informes psicométricos deben ser útiles a sus des-
tinatarios. Para ello se requiere un lenguaje adecuado y comprensible, así
como también información ajustada al sujeto examinado. En otras palabras,
se sugiere evitar información no relacionada con el objetivo de la consulta y

248
excluirse aspectos superficiales aplicables a cualquier individuo. En aquellos
casos donde el destinatario sea otro profesional, se recomienda un lenguaje
riguroso y objetivo tanto en el contenido como en los aspectos metodológicos
del informe. Esto facilitará la toma de decisiones por parte del colega y la re-
plicación del examen en caso de que se considere necesario.
En todo momento, tanto en el examen como en la comunicación de los
resultados, debe considerarse el bienestar del examinado. Bajo ninguna cir-
cunstancia se deben descuidar los derechos del examinado y las obligaciones
deontológicas del profesional. En este punto, Múrat (1985) subraya la impor-
tancia de tres principios éticos: el derecho a la privacidad, el consentimiento
informado y la honestidad intelectual. El primero hace referencia al derecho
a guardar toda información relacionada con la vida privada de los examina-
dos, es decir, que el evaluador sólo debe recabar la información estrictamente
necesaria y vinculada al objeto de la consulta o examen. Sumado a ello, el
profesional tiene la obligación de mantener en secreto los datos recabados
y pedir autorización al examinado en caso de que deba comunicar dicha in-
formación a terceras personas. El informe debe ser confidencial y en caso de
querer realizar una exposición pública del mismo se debe pedir autorización a
los evaluados y presentar el caso de manera anónima (sin identificar al sujeto).
El consentimiento informado, por otra parte, consiste en que el sujeto
o cliente acepte voluntariamente a ser examinado. Para ello debe estar infor-
mado acerca de la evaluación, los destinatarios del informe, si la evaluación
fue solicitada por terceros y conocer los límites en el manejo y accionar del
psicólogo. En el anexo de la presente guía se presenta un formato elaborado
por Aiken (2003), para obtener el consentimiento informado y llevar a cabo
un examen psicológico.
El último principio destacado por Múrat (1985) es la honestidad inte-
lectual, el mismo señala que los psicólogos debemos reconocer los límites de
nuestra competencia y de las técnicas empleadas. Este principio exhorta a los
psicólogos a ser claros y precisos en la expresión de los alcances y limitacio-
nes de los resultados obtenidos. Para esto resulta crucial que el examinador
comunique claramente el grado de certeza que posee sobre los contenidos
transmitidos y reconozca los aspectos o variables que escapan a la evaluación
efectuada.

249
|
Apéndice I: ¿Cómo leer artículos de Investigación en
Psicometría? Pautas para una lectura crítica
Leonardo Medrano

Introducción

Quizás antes de preguntarnos ¿cómo leer un artículo de investigación?,


deberíamos preguntarnos ¿qué es un artículo de investigación?, y ¿por qué es
necesario leerlos? En términos generales, los artículos de investigación hacen
referencia a un escrito académico-científico que se caracteriza por ser bre-
ve, periódico, y por transmitir a la comunidad científica los nuevos conoci-
mientos y avances científicos de una disciplina (Cubo de Severino, 2005).
Dichos artículos cumplen básicamente una función comunicativa destinada
a transmitir a la comunidad científica los resultados alcanzados por diversas
investigaciones.
Respecto a la segunda pregunta (¿por qué es necesario leer artículos
científicos?), cabe considerar dos razones principales. En primer lugar, el rá-
pido desarrollo científico y tecnológico torna imposible la transmisión de la
gran cantidad de conocimientos que se van generando. Más aún, dichos avan-
ces han llevado a un profundo cambio en los modelos de enseñanza y apren-
dizaje. El modelo tradicional de transmisión de contenidos se ha tornado
ineficiente debido al rápido incremento en la producción de conocimientos
(Bornas, 1997). En otras palabras, si queremos mantenernos actualizados so-
bre los descubrimientos que ocurren en nuestra disciplina, necesariamente
debemos leer artículos de publicación periódica. Por ello los nuevos modelos
de educación sugieren que el rol de los maestros debería centrarse en la trans-
misión de las herramientas necesarias para que los estudiantes puedan recabar
información válida y actualizada mediante la lectura de artículos de investiga-
ción (Greenhalgh, 2005).
En segundo lugar, debe considerarse que el desarrollo científico depen-
de en gran medida de los servicios de documentación encargados de comu-
nicar los avances del conocimiento científico de un contexto particular. En
parte, la satisfacción de las necesidades sociales de un determinado contexto
va a depender de la existencia de órganos institucionales encargados de la
difusión de la producción científica. Sin embargo, para que se desarrollen
dichos órganos de difusión resulta indispensable el incremento en el número
de usuarios de éstos servicios (Currás, 1999). En otras palabras, la lectura de
artículos de investigación no sólo nos permitirá ser profesionales autónomos

251
y actualizados, sino también ser usuarios que promuevan el crecimiento de la
investigación científica en nuestro contexto.
A pesar de la importancia de la lectura de artículos científicos, son po-
cos los esfuerzos destinados a promover estas conductas en los estudiantes.
Como señala Carlino (2007), la preocupación por lo poco o mal que leen
los estudiantes suele estar acompañada por la inactividad de los docentes,
cuando en realidad las acciones de lectura y comprensión de los estudiantes
deberían verse acompañada de la experiencia y orientación de los docentes.
Las dificultades para leer artículos de investigación, no proviene de una falta
de habilidad o capacidad, en general los problemas de lectura se deben a que
los estudiantes deben enfrentarse con nuevas “culturas escritas” que exigen
modalidades diferentes de lectura y comprensión. Tomando esto en consi-
deración una forma de estimular la lectura de artículos de investigación en
los estudiantes, se basaría en la transmisión de herramientas que permitan
una adecuada compresión de los textos científicos. De esta manera, el pre-
sente apéndice tiene como objetivo brindar una serie de recomendaciones y
sugerencias que guíen la lectura y favorezcan una mayor comprensión de los
artículos de investigación, más precisamente, artículos de investigación rela-
cionados con la investigación en psicometría.

Secciones de un Artículo Científico

Para orientarnos en la lectura de los artículos científicos lo primero que


debemos considerar son las diferentes secciones o partes que lo componen.
Tal como señala Greenhalgh (2005) podemos diferenciar cuatro secciones
principales: Introducción (donde los autores explican el porqué de su trabajo);
Metodología (cómo llevaron a cabo el estudio); Resultados (qué fue lo que ha-
llaron) y Discusiones (cómo interpretan los resultados obtenidos).
De esta manera, en la “Introducción” de una investigación se presenta a
los lectores la propuesta del estudio, así como los estudios antecedentes y el
marco conceptual de la investigación. Así mediante la lectura de esta sección
los lectores pueden comprender como se relaciona la propuesta actual con
otras investigaciones (Pajares, 2007). Habitualmente se comunica en esta sec-
ción el propósito de la investigación, el cual puede reconocerse fácilmente ya
que se presenta en una frase que generalmente comienza así: “el objetivo del
presente estudio es…..”. Si el propósito ha sido formulado correctamente el
lector podrá reconocer las variables o conceptos centrales, el área de investiga-
ción involucrada, la población en estudio y el contexto en el que se desarrolla
la investigación. Por ejemplo, “el presente trabajo tiene por objetivo realizar
una adaptación psicométrica de la Escala de Satisfacción Académica a la po-
blación de estudiantes universitarios de la ciudad de Córdoba” (Medrano &
Pérez, 2010).

252
En la introducción de un artículo también se brinda al lector una revi-
sión bibliográfica sobre el tema en estudio. Aunque la revisión bibliográfica
posee diferentes funciones, se caracteriza principalmente por suministrar el
“telón de fondo” del problema de investigación (Pajares, 2007). Dicha revi-
sión debe ser breve y directa presentando los descubrimientos recientes que
sean pertinentes al problema en estudio. De esta forma el autor brinda una
fundamentación teórica sobre la importancia del trabajo, así como un marco
de referencia para comparar los resultados recabados con los conseguidos por
otras investigaciones.
También suele incluirse en la introducción las hipótesis del trabajo. Las
hipótesis son proposiciones contrastables que constituyen las guías del estudio
y nos preparan para interpretar los resultados de la investigación. Por ejem-
plo, “la inducción de estados emocionales positivos y negativos aumentará y
disminuirá, respectivamente, los niveles de autoeficacia académica de los estu-
diantes universitarios” (Medrano, 2010). Tomando en consideración esta afir-
mación es que podemos interpretar los resultados del estudio y determinar si
los mismos se corresponden con la teoría sostenida por el investigador. Dado
que estas proposiciones son derivaciones directas de las teorías consideradas
por el investigador, habitualmente se presentan en esta sección del artículo
junto a la revisión bibliográfica.
En la sección de “Metodología” se describe de manera detallada la se-
cuencia de pasos seguida por los investigadores para poner a prueba las hi-
pótesis de trabajo. Esta sección puede ser considerada como el corazón de la
investigación ya que dependiendo de los pasos seguidos por el investigador
los resultados serán considerados válidos o no. En efecto, existen considera-
bles fuentes de errores que pueden distorsionar los resultados obtenidos. Por
ejemplo, se puede suponer equivocadamente que existen diferencias entre dos
cursos en la ejecución de una prueba, cuando en realidad se comunicaron
diferentes consignas a cada curso. Aunque no existen diseños metodológicos
perfectos, es decir, libres de errores, se deben considerar las posibles fuentes de
error y observar cómo fueron atenuadas. Dentro de ésta sección encontrare-
mos un apartado denominado “procedimientos” donde el investigador descri-
be las fuentes de error identificadas en el estudio y cómo fueron controladas.
Otro apartado incluido dentro de la “Metodología” se denomina “par-
ticipantes”. En esta sub-sección se describe la muestra utilizada, vale decir, el
subconjunto de la población en estudio que participó de la investigación. Es
importante atender a la representatividad de la muestra, ya que de ello de-
penderá que los resultados puedan ser generalizados a personas o situaciones
diferentes de las observadas en el estudio (Pajares, 2007). En esta sección se
presentan datos referidos al método de elección de los participantes (probabi-
lístico vs. no probabilístico), el tamaño de la muestra y las características de la
misma (género, edad, situación socioeconómica, entre otras).

253
Por último, la sección de “Metodología” también incluye información
referida a los “instrumentos” de recolección de datos, esta información es cru-
cial ya que constituye la definición operacional del constructo en estudio. Tal
como señala Pajares (2007), en esta sub-sección se presentan los instrumentos
que se utilizarán, indicando las propiedades psicométricas de los mismos o
bien los estudios psicométricos que se pretenden examinar en caso de que se
trate de un instrumento nuevo.
En la sección de “Resultados” no sólo se provee información sobre los
datos recolectados, sino que también se comunican los procedimientos de
análisis de datos seleccionados. Habitualmente en los estudios instrumentales
se utilizan procedimientos estadísticos, los cuales son brevemente descriptos y
justificados por el investigador. Existen diferentes modos de presentar los re-
sultados de la investigación, generalmente se opta por utilizar gráficos y tablas
para mostrar de manera clara y sintética los datos obtenidos. Sin embargo, los
resultados también pueden ser presentados en el cuerpo del texto.
Finalmente, en la sección de “Discusiones” se presenta una interpreta-
ción de los resultados obtenidos considerando el modelo teórico de base y las
hipótesis presentadas en la introducción del trabajo. En esta sección suelen
indicarse las limitaciones y delimitaciones (Pajares, 2007). Las limitaciones
refieren a las debilidades del estudio, por ejemplo, que la muestra no es repre-
sentativa, o que no se controlaron ciertas fuentes de error o que el instrumen-
to utilizado es poco válido o confiable. Por otra parte, la delimitación refiere
al alcance específico del estudio, vale decir, las acciones que no se efectuaron.
De esta forma el investigador presenta aquí aspectos que serían esperables de
encontrar en el estudio, junto con una clara explicación de las razones por las
que no están presentes. Por ejemplo, “en la presente investigación el tamaño
muestral fue relativamente bajo (N=23), dado que resulta sumamente costoso
realizar análisis de contenido de entrevistas abiertas, lo cual podría modificar-
se en futuras investigaciones utilizando cuestionarios estandarizados” (Medra-
no, Fernández, Galera & Galleano, en prensa).
Generalmente se finaliza la sección de “Discusiones” destacando la im-
portancia del trabajo. Se describe de qué manera el estudio efectuado amplía
los conocimientos en el área de investigación indicando las consecuencias
teóricas, prácticas y técnicas de la investigación. Por ejemplo, en un estudio
realizado por Moriondo, Palma, Medrano, y Murillo, (2012) se lee en el últi-
mo párrafo “cabe destacar el valor heurístico del presente trabajo así como las
importantes implicaciones prácticas del mismo. En efecto a partir de la adap-
tación del PANAS se podrán realizar numerosos estudios tendientes a exami-
nar el rol de las emociones en diferentes ámbitos del ejercicio profesional”. Pa-
jares (2007) sugiere una serie de preguntas útiles para analizar esta sección del
artículo. Alguna de ellas son: 1) qué importancia tienen estos resultados para
la teoría de base?, 2) los resultados tendrán influencia en programas, método
o intervenciones?, y 3) cómo se implementarán los resultados del estudio?.

254
Guía para la Lectura Crítica de Artículos Instrumentales

Investigaciones recientes en psicología cognitiva señalan que la lectura


constituye un proceso estratégico en el cual el lector debe interactuar con el
texto para construir un significado coherente (Carlino, 2005). Este proceso se
considera estratégico ya que el que lee debe hacerlo considerando un propósi-
to, el cual le permitirá otorgar un sentido al texto. Es evidente que no leemos
igual una novela, un periódico, o un libro que será evaluado en un examen.
Las preguntas que nos formulemos permitirán enfocar la lectura hacia deter-
minados sectores del texto, jerarquizar los contenidos, organizar los nuevos
conocimientos y no perder de vista los objetivos de la lectura (Gonzalez-Pien-
da et al, 2005).
Con el objeto de orientar el propósito de lectura durante la revisión de
un artículo de investigación, Greenhalgh (2005) propone tres preguntas pre-
liminares para orientarnos en un artículo científico: 1) ¿Con que fin se realizó
la investigación?, 2) ¿Qué tipo de estudios se realizaron?, y 3) ¿El estudio se
adecua al problema planteado?. Si bien estas preguntas son útiles para orien-
tarnos en la lectura de artículos científicos, debeos considerar una serie de
criterios adicionales cuando estamos leyendo un artículo que informe acerca
del desarrollo, adaptación o validación de un test psicológico.
Tal como señala Carretero-Dios y Pérez (2007) una gran cantidad de
instrumentos psicométricos publicados y de uso común en nuestro medio no
cumplen con las exigencias mínimas requeridas por la normativa psicométrica
internacional. Más aún, resulta arriesgado suponer que los test publicados
en una revista o editorial cumplen con los requisitos mínimos exigidos por
la normativa psicométrica internacional (APA, 1999). En efecto, Hogan y
Agnello (2004) estiman que un 45% de los test publicados no proporcionan
todas las evidencias necesarias para garantizar su correcta utilización. Toman-
do esto en consideración, los autores Carretero-Dios y Pérez (2007) proponen
6 criterios para evaluar a calidad de un artículo psicométrico:

1. Delimitación conceptual
Una de las principales dificultades en el desarrollo de instrumentos psi-
cométricos es que un mismo constructo puede ser definido de diferentes ma-
neras. Por ello los usuarios de tests no sólo deben conformarse con la etiqueta
denominativa del instrumento, sino que deben realizar un exhaustivo análisis
de los ítems y la definición teórica del constructo evaluado.
Un claro ejemplo puede observarse en el contexto de evaluación de la
inteligencia. De hecho, la escala Weschsler para niños (WISC-IV) supone
la existencia de un factor cognitivo general (factor g) que puede obtenerse a
partir de la sumatoria de puntajes obtenidos en las subescalas de organización
perceptual, memoria de trabajo, comprensión verbal y velocidad de proce-

255
samiento. Por otra parte, el test de Matrices Progresivas de Raven mide el
factor g de inteligencia mediante una serie de ítems no verbales, en los que el
examinado debe responder completando la secuencia faltante de una serie de
figuras. De esta manera puede observarse que ambas escalas miden el mismo
constructo teórico (factor g), pero una de ellas contiene medidas de razona-
miento verbal, mientras que la otra no.
Sumado a lo anterior, debe considerarse que muchas pruebas no poseen
una clara delimitación del constructo o dominio que están evaluando. En
consecuencia, los ítems de la escala resultan ambiguos e inespecíficos, lo cual
trae aparejado puntuaciones imprecisas y cuyo resultado final resulta difícil de
interpretar (Carretero-Dios y Pérez, 2007).

2. Análisis cualitativo de los ítems


Al momento de seleccionar un test psicométrico Carretero-Dios y Pé-
rez (2007) recomiendan inclinarse por aquellos que presenten con claridad
los criterios utilizados para generar los ítems de la escala. De esta manera, se
sugiere inclinarse por aquellos tests en los que se haya justificado la elección
del formato de respuesta de los ítems, los ejemplos redactados, la escala de
respuesta utilizada y el vocabulario empleado, entre otros aspectos. En caso de
tratarse de traducciones de ítems de un test extranjero, se recomienda utilizar
aquellos tests que hayan desarrollado estudios de equivalencia conceptual en-
tre los ítems originales y los traducidos (Muñiz y Hambleton, 1996).
Se recomienda además realizar un análisis cualitativo de los ítems con el
objeto de evaluar si los mismos representan de manera adecuada el constructo
que teóricamente se está midiendo. No obstante, dicha valoración debe com-
plementarse con el examen de los análisis estadísticos efectuados a los ítems
de la escala.

3. Análisis estadísticos de los ítems


Si bien no existen criterios estadísticos universales para realizar una va-
loración de los ítems, es importante constatar la existencia de estudios desti-
nados a analizar estadísticamente los reactivos del test.
Existen dos procedimientos tradicionales de análisis de ítems derivados
de la Teoría Clásica de los Tests, son el índice de dificultad del ítem (valores
p) y el índice de discriminación (correlación ítem-test). El primero refiere al
porcentaje de sujetos que han respondido correctamente al ítem y se utiliza
principalmente en pruebas de ejecución máxima (Álvaro, 1997). El segundo
alude a la capacidad del ítem para diferenciar entre grupos de examinados
(Hogan, 2004), como por ejemplo, determinar en que medida el ítem “Dis-
conformidad con uno mismo” de la escala de Depresión de Beck (BDI-II,
Beck, Sterr y Brown, 2006) diferencia entre personas con y sin depresión.
En términos generales, si se observa que la mayor parte de los ítems de

256
un test resultan altamente dificultosos (contestados por menos del 25% de la
población), o muy sencillos (contestados por más del 75% de la población),
la varianza será pequeña y en consecuencia, el test y sus puntuaciones serán
poco fiables ya que los examinados se posicionarán de manera muy similar
respecto al rasgo evaluado (Álvaro, 1997). Por otra parte. si la mayor parte de
los índices de discriminación no resultan estadísticamente significativos, estos
resultados sugieren que la escala no podrá distinguir entre examinados que
poseen en alto grado el rasgo evaluado de los que lo poseen en bajo grado. En
ambas situaciones, se sugiere la búsqueda de escalas alternativas con mejores
propiedades psicométricas.

4. Evidencias de estructura interna del test o validez de construcción


Las evidencias basadas en la estructura interna de un test indican si las
relaciones entre los ítems confirman la existencia de los constructos que se
pretenden medir. Para concluir que los ítems de un test conforman el cons-
tructo que se intenta medir, no es recomendable basarse exclusivamente en
las suposiciones teóricas de los autores de la escala. Con el fin de verificar es-
tadísticamente si los ítems se agrupan del modo que se predice teóricamente,
se debe llevar a cabo un Análisis Factorial (AF). Este método estadístico per-
mite analizar las relaciones entre los ítems de la escala con el fin de identificar
agrupaciones entre los mismos que permitan inferir la existencia de factores
comunes subyacentes (Gardner, 2003). Este método de interdependencia
permite identificar a partir de las relaciones entre las variables observables la
existencia de factores subyacentes de valor teórico. No obstante cabe señalar
una importante limitación de la técnica: las agrupaciones (intercorrelaciones)
de los ítems pueden deberse a factores accidentales, tales como el formato del
ítem. En palabras de Eynseck: “el análisis factorial es un buen servidor pero
un mal amo”. En efecto, el empleo exclusivo del AF puede conducirnos a ob-
tener estructuras meramente empíricas, dependientes de las muestras e ítems
seleccionados, y no replicables con facilidad (Pérez-Gil, Chacón Moscoso y
Moreno Rodríguez, 2000).
En este sentido, Carretero-Dios y Pérez (2007) señalan que uso del AF
sin una valoración crítica teórica puede llevar a resultados azarosos y poco
estables, ya que este procedimiento depende completamente de las circuns-
tancias y datos recabados. Un agrupamiento empíricamente relevante puede
carecer de significado psicológico si se desconoce el constructo que se pre-
tende medir. Por ello, se sugiere que al momento de evaluar un artículo se
examine si la aplicación del AF ha estado sujeta a premisas teóricas sobre la
dimensionalidad subyacente de los ítems. En este sentido, las investigacio-
nes actuales sobre la estructura interna de los tests utilizan frecuentemente el
análisis factorial confirmatorio, un método menos dependiente de la muestra
particular de investigación de un estudio determinado.

257
5. Análisis de la confiabilidad
La confiabilidad de un test constituye un criterio crucial al momento de
seleccionar un test. Más aún, se observa en los usuarios una sobrevaloración
de los índices de confiabilidad en relación a otros criterios igualmente relevan-
tes para evaluar las propiedades psicométricas de una escala. Sin embargo, la
justificación de la elección de una prueba no sólo debe basarse en la confiabi-
lidad de la misma, sino que debe considerarse todo el proceso de construcción
del instrumento (Carretero-Dios y Pérez, 2007). De hecho hasta que no se
conozca con exactitud la estructura interna del instrumento, no resulta acon-
sejable efectuar estudios de confiabilidad en la escala.
La confiabilidad hace referencia a la precisión o exactitud de las medi-
ciones de un test. Para determinar la confiabilidad de un test habitualmente
son dos las dimensiones consideradas: 1) la estabilidad de la prueba y 2) la
consistencia interna. Los estudios de estabilidad pretenden evaluar en que
medida el puntaje de un test está libre de errores de medición causados por
los cambios personales aleatorios del examinado, o por los cambios en las
condiciones de administración. El método más utilizado para evaluar esta
dimensión es el método test-retest, el cual consiste en correlacionar dos con-
juntos de datos obtenidos por la aplicación repetida de una misma prueba.
Cuando el objetivo del test es el diagnóstico o la clasificación de personas se
recomienda seleccionar escalas que presenten coeficientes de correlación con
valores superiores a r =.80 (Buela-Casal & Sierra, 1997).
La consistencia interna de un test hace referencia al grado en que los
ítems de una prueba son homogéneos, vale decir miden un mismo constructo.
La homogeneidad de una prueba es deseable en tanto permite una interpre-
tación relativamente directa del rasgo examinado (Cohen & Swerdlik, 2006).
En la actualidad, el coeficiente alfa de Cronbach es el procedimiento más
utilizado para estimar la consistencia interna de una escala (Liu & Zumbo,
2007). Sin embargo, no se observa un acuerdo unánime respecto a que tan
elevado debe ser el valor obtenido para considerar adecuada la consistencia de
una prueba. Por ejemplo, Nunnally y Bernstein (1994) consideran que un va-
lor de α=.95 debe ser la norma aceptable. Por el contrario, Manzano y Tobio
(2003) señalan que un valor de alfa superior a .90 es demasiado alto e indica
redundancia de reactivos. En general, se acepta que estimaciones de .80 o su-
periores son consideradas entre moderadas y elevadas, mientras que puntajes
cercanos a .70 resultan aceptables para fines de investigación (Hogan, 2004).

6. Evidencias de validez relacionada con variables externas


Luego de haber obtenido evidencias de que el test posee una clara de-
limitación del constructo, cuenta con ítems adecuados cuantitativa y teóri-
camente, posee estudios de estructura interna ajustados a premisas teóricas y
puntuaciones relativamente libres de error, es necesario ubicar al constructo

258
evaluado en un entramado de relaciones teóricas con otros constructos. Es de-
cir, obtener evidencias de que el constructo medido se relaciona con variables
con las que se esperaría que esté relacionado.
Según Carretero-Dios y Pérez (2007), las evidencias externas de validez
se basan en el análisis de las relaciones entre las puntuaciones obtenidas de
la prueba y: 1) criterios externos con los que se espera que exista relación (una
escala que mide Ansiedad ante los Exámenes debería asociarse de manera in-
versa con el Rendimiento Académico de los estudiantes, por ejemplo), 2) otros
test con el mismo objetivo de medición o con otros constructos con los que
se esperaría relación (las puntuaciones de una escala de Habilidades Sociales
deberían relacionarse positivamente con las puntuaciones obtenidas por los
mismos sujetos en una escala de Extraversión de un inventario de personali-
dad, por ejemplo) y 3) otros test con los que se esperaría ausencia de relación o
bien menor que la esperada con otras variables (por ejemplo, las puntuaciones
en una escala que mida Bienestar Psicológico deberían relacionarse de manera
negativa o no significativa con una escala que mida Depresión).
Dado que no existe una estrategia metodológica única para obtener este
tipo de evidencia, ya que se pueden utilizar estudios experimentales o no
experimentales, no es posible especificar criterios generales para evaluar este
tipo de evidencia. Por ello, lo que se sugiere en este punto es examinar si los
autores del test han justificado correctamente las relaciones evaluadas del test
con otros constructos ya sea a través de modelos teóricos o resultados empíri-
cos de investigaciones previas.

Consideraciones Finales

Un trabajo de investigación sólo puede considerarse completo cuan-


do los resultados obtenidos se comparten con la comunidad científica (APA,
2002). Aunque la comunicación entre profesionales puede efectuarse por me-
dio de diferentes canales, formales e informales, el medio tradicional para la
comunicación de resultados es el artículo científico. En este tipo de docu-
mentos se presenta de manera clara y ordenada información sobre los éxitos o
fracasos de diversas investigaciones. Por ello, la lectura de artículos de inves-
tigación constituye una actividad ineludible para ser profesionales idóneos y
actualizados.
Especial atención merece la lectura de artículos instrumentales. De he-
cho, la psicometría constituye un campo de reciente desarrollo en nuestro
medio. De esta manera, la lectura de artículos sobre investigación en psicome-
tría no sólo permitirá formarnos en el campo de la medición y evaluación en
psicología, sino que también estaremos promoviendo el crecimiento de esta
disciplina en nuestro contexto.
Cabe destacar que, si bien la lectura de artículos científicos no es una
tarea simple, esta dificultad no proviene de una incapacidad personal. Tal
259
como ocurre con otras actividades en las que no tenemos experiencia, de-
bemos adquirir ciertas destrezas para ejecutar eficientemente la nueva tarea.
El objetivo de la presente guía se orienta en esta dirección, esperemos que la
misma contribuya a estimular la lectura de artículos de investigación en psi-
cometría y favorezca la adquisición de herramientas necesarias para la lectura
crítica de los mismos.

260
|
Apéndice II: Revisión de Conceptos y
Procedimientos Estadísticos
Leonardo Medrano y Edgardo Pérez

Conceptos y procedimientos estadísticos básicos

Media aritmética o Promedio


En el transcurso de una investigación tenemos acceso a una gran canti-
dad de datos e información referente a un determinado aspecto de la realidad.
Para poder hacer comprensible y analizables estos datos es necesario llevar a
cabo una serie de procedimientos estadísticos que permitan reduir la informa-
ción acumulada a proporciones manejables. Con este fin se han desarrollado
una gran cantidad de procedimientos estadísticos “descriptivos”, es decir, que
permiten describir, resumir y analizar datos con el fin de emplear los mismos
de una forma útil y significativa.
Supongamos que un investigador está interesado en saber cuántas pala-
bras pueden recordar las personas. Con este fin lleva a cabo un experimento
donde lee una serie de 20 palabras a 30 personas y luego le pide que a cada
una que escriba las palabras que recuerda. Posteriormente al contar la canti-
dad de palabras que recuerda cada persona obtiene los siguientes valores: 8 10
5 6 7 6 8 10 11 7 8 6 8 4 7 9 8 7 8 7 12 9 8 8 9 7 6 5 4 7
¿Qué puede información puede extraerse de estos datos? ¿Qué afirma-
ción podemos efectuar? Prácticamente ninguna. Para hacer un uso significa-
tivo de estos datos y extraer información debemos resumirlos. Un procedi-
miento estadístico ampliamente utilizado para resumir un conjunto de datos
a un único valor es el cálculo de la media aritmética o también denominado
promedio. Para ello simplemente debemos realizar una sumatoria de todos los
valores y posteriormente dividirlos por la cantidad de casos. Siguiendo con
el ejemplo sería: 225/30=7.5. De esta forma podríamos decir que todos los
valores anteriormente expuestos se encuentran alrededor de 7.5. Más aún si
restamos las diferencias que hay entre todos los números referenciados con la
media, y luego sumamos dichas diferencias obtendríamos que el valor es “0”.
Es decir, que la media es el número que “equilibra” las distancias de todos los
números, es el número que se encuentra más cercanos a todos los números
de manera simultánea. Cualquier otro número se encontraría más cercano a
algunos y más alejado de otros. El hecho de que la media sea una especie de
punto de equilibrio es lo que hace que se la utilice como valor típico o valor
representativo de un conjunto de datos. En el caso del ejemplo, podríamos

261
afirmar que las personas tienden a acordarse alrededor de 7.5 palabras, algu-
nas personas recuerdan más palabras y otras menos, pero en general los valores
obtenidos son cercanos a 7.5. Tal como puede apreciarse la media no debe ser
una observación real, en efecto es imposible que una persona se acuerde 7 pa-
labras y media. El valor 7.5 simplemente está reflejando el punto de equilibrio
de todos los datos obtenidos.

Desviación estándar
El escritor George Bernard Shaw solía decir que “la estadística es una
ciencia que demuestra que, si mi vecino tiene dos coches y yo ninguno, los
dos tenemos uno”. Este chiste puede ser cierto si el usuario sólo contempla el
valor de la media, pero ignora los valores relacionados con la varibilidad. Ade-
más de conocer la tendencia central en un conjunto de datos el investigador
debe atender a la dispersión de los mismos. Imaginemos que estamos intere-
sados en comparar el rendimiento de dos cursos de alumnos y obtenemos los
siguientes valores:
Grupo 1: 8 8 8 8 8
Grupo 2: 7 9 6 10 8

Si calculamos las medias en ambos grupos obtendremos el valor de 8


¿Esto significa que los grupos son equivalentes? Como se podrá observar la
media no brinda información sobre el nivel de variabilidad u homogeneidad
de un grupo. Para ello debemos calcular otro estadístico como por ejemplo
la desviación estándar. El mismo brinda información sobre la dispersión del
conjunto de datos tomando como referencia la media. Para calcular la desvia-
ción estándar simplemente debemos observar el promedio de las diferencias
que hay entre cada valor del conjunto de datos y la media. Tomando el ejem-
plo anterior se confeccionó la siguiente tabla:
 Tal como puede observarse en la tabla, para obtener los desvíos debe-
mos calcular la diferencia que hay entre cada valor y la media del conjunto de
datos. Al hacerlo obtenemos un nuevo conjunto de datos. Para resumir este
nuevo conjunto de datos podemos calcular otra media, en este caso de los des-
víos y obtener así la desviación estándar. Sin embargo, al hacerlo aparece un
problema. Tal como habíamos mencionado en el apartado anterior la media
es el punto de equilibrio, por tanto, vamos a obtener desvíos positivos y nega-
tivos (por encima y por debajo de la media). Al ser sumado dichos valores se
cancelan entre sí y obtenemos el valor “0”. Para evitar este problema podemos
elevar cada desvío al cuadrado y obtener así todos valores positivos (tal como
se observa en la última columna de la tabla). Al sumar dichos desvíos cuadrá-
ticos obtenemos el valor de 101.5. Este valor carece de interés dado que poco
informa sobre la variabilidad del conjunto de datos. Para obtener entonces la

262
desviación estándar simplemente debemos calcular el promedio de los desvíos
cuadráticos y luego la raíz cuadrado del mismo. Al hacerlo obtenemos, ahora
sí, la desviación promedio o estándar la cual es igual a 1.87. Esto quiere decir
que si bien la media de palabras recordadas es 7.5, se observa una desviación
promedio de 1.87. Pasando esta información a valores netos podemos decir
que las personas tienden a recordar 7± 2 palabras, es decir entre 5 y 9 palabras.

Los valores obtenidos se asemejan a los reportados por clásico trabajo


de Miller (1956): “El mágico número 7, más o menos 2: algunos límites en
nuestra capacidad de procesamiento de la información”. Básicamente se plan-
tea la idea de que las personas pueden almacenar en su memoria de trabajo
un promedio de 7 objetos, observándose un promedio de 2 variaciones por
encima y por debajo de 7.

263
Muestra y Muestreo
Los conceptos de muestra y muestro son de gran importancia en el
campo de la estadística, aunque con frecuencia se confunden. Hasta ahora los
conceptos mencionados tenían un fin meramente descriptivo, su uso se res-
tringía a reducir información y hacerla interpretable. Sin embargo, la estadís-
tica también posee un alcance inferencial, es decir, pretende extender nuestros
hallazgos sobre datos no observados. Este proceso inferencial es sumamente
común en nuestra vida cotidiana. Supongamos que vamos a una fiesta y nos
invitan a comer un plato de comida china que nunca hemos probado. Imagi-
nemos que el plato incluye 5 “rollos” o “maki”. Si probamos 1 de los 5 maki
y no nos gusta, seguramente no necesitaremos comer todos los “maki” para
concluir que no nos gustan. Bastaría con probar una “muestra” es decir un
sub-conjunto de la totalidad de “maki” (la población) para realizar una con-
clusión general.
La lógica subyacente en un proceso inferencial es que si tomamos un
sub-conjunto de una población, y si esta muestra es representativa, las conclu-
siones que obtengamos de la misma pueden luego extenderse a la población
aun cuando no hayamos analizado a la totalidad de la población. Ahora bien,
el punto clave en este razonamiento es que la muestra debe ser “representa-
tiva”, ¿qué ocurriría si justo el “maki” que probamos estaba en mal estado?
Quizás concluiríamos erróneamente que toda la población de “maki” es desa-
gradable cuando en realidad solo hubo un error en la selección de la muestra
¿Qué garantiza entonces que una muestra sea representativa? En este punto es
donde cobra importancia el concepto del muestreo, entendido como el proce-
so por medio del cual se selecciona a los elementos que conformarán la mues-
tra. Este es un punto de suma importancia ya que con frecuencia se tiende a
pensar que solo el tamaño de la muestra es lo que otorga representatividad, lo
cual lleva a cometer graves errores al momento de extender los resultados al
resto de la población.
Supongamos un ejemplo real; en el año 2008 se publica una nota en
el diario La Voz del Interior donde se titula que entre los infectados de HIV
de la Universidad Nacional de Córdoba (UNC) el 60% son mujeres y que
habría 305 estudiantes con HIV en toda la universidad (figura 1). Entre las
afirmaciones que se incluyen en la nota se escribe que “la UNC tiene caracte-
rísticas similares a las de África” y que “las cifras implican que se trata de un
grupo que está avanzado en la epidemia”. Asimismo, se afirma que partici-
paron 1710 estudiantes y que “la muestra es estadísticamente representativa,
por lo cual los resultados podrían extrapolarse al conjunto de la población
universitaria”. Sin embargo, estas afirmaciones son altamente discutibles. En
primer lugar, porque más allá del tamaño de la muestra para determinar la
representatividad de la misma es crucial el muestreo es decir ¿cómo se selec-
cionaron los participantes? En efecto existe mucha diferencia entre un mues-

264
treo probabilístico donde los participantes se seleccionan por azar (y por ende
todos tienen la misma probabilidad de ser seleccionados), y un muestreo no
probabilístico donde la selección no es por azar (y por ende no se puede ga-
rantizar posibilidades homogéneas de selección).
Tal como se afirma en la nota citada “los datos provienen del testeo
voluntario”, es decir que los estudiantes interesados en conocer si estaban
infectados o no de HIV se dirigían a la universidad para realizarse el estudio.
Este tipo de muestreo no es probabilístico y en consecuencia no garantiza
que la muestra sea representativa de la población. De hecho se trata de un
muestreo “autoconformado” dado que la decisión de formar parte o no de la
muestra queda en manos de los participantes y no del investigador. ¿Podemos
suponer que los estudiantes que están interesados realizarse un estudio para
conocer si tienen HIV son igualmente representativos que los estudiantes que
directamente optan por no participar? ¿No sería acaso riesgoso extender los
resultados obtenidos al resto de la población?
Cabe señalar que, si bien los muestreos no probabilísticos son muy uti-
lizados en el campo de las ciencias sociales, debemos tener especial cuidado
al momento de extender los resultados observados en la muestra al resto de la
población. En la not ejemplificada los autores concluyen que el 60% de los
infectados son mujeres y que habría 305 estudiantes con HIV en la población
universitaria. La base para concluir esto es que de los 1710 estudiantes de la
muestra 5 presentaron HIV. Como 2 eran hombres y 3 mujeres concluyeron
que el 60% de los infectados son mujeres, y como 5 de 1710 es el 0.29%, esti-
man que este mismo valor se obtendría a nivel poblacional. Esta extensión de
los resultados los lleva a concluir que existirían 305 estudiantes con HIV en
la población (es decir el 0.29% de 105 mil que es el total de estudiantes de la
UNC). Como puede observarse en el ejemplo dichas conclusiones no se sos-
tienen en los datos, por el contrario, se podría señalar que se está cometiendo
un error en el proceso de inferencia dado que se extienden los resultados de la
muestra a la población, sin considerar que el muestreo utilizado no garantiza
una adecuada representatividad.

Figura 1. Nota sobre la prevalencia de HIV en la Universidad Nacional de Córdoba

265
Puntaje Z
Una práctica habitual en psicología es la de estandarizar variables, que
conlleva transformar una variable a una métrica en común para poder com-
parar observaciones de variables medidas en diferentes escalas. La relevan-
cia de este concepto es doble, ya que en sí mismo constituye un método de
importancia para interpretar puntuaciones, pero además constituye un paso
clave para determinar si dos variables (medidas con diferentes escalas) se rela-
cionan entre sí. Supongamos que me interesa conocer la relación entre el nivel
de agotamiento laboral de una persona y su satisfacción laboral, y que para
averiguarlo mido ambas variables mediante un test psicométrico, observando
que una persona posee un valor de 45 de agotamiento y 17 de satisfacción
laboral. ¿Se trata de un valor alto, bajo o medio? Esto no puede determinarse
dado que el tipo de escala del test (escala intervalar) no posee cero absoluto,
por lo cual el puntaje 75 será relativo a la puntuación obtenida por el resto
de las personas en dicha escala. Suponiendo que el promedio de la población
obtuvo una puntuación de 45, en este caso el puntaje 75 es alto, por el con-
trario, si el promedio de la población obtuvo un puntaje de 90, el valor 75 es
bajo. En ausencia de datos interpretativos adicionales la puntuación bruta de
una prueba psicológica carece de significado, la manera tradicional de resolver
este problema surge de la utilización de los puntajes Z (Anastasi y Urbina,
1998). Las puntuaciones Z, se definen como un modo de transformación
de los puntajes originales que permite al investigador estandarizar los valores
obtenidos con el objeto de poder comparar observaciones de variables medi-
das en diferentes escalas (Everitt y Wykes, 2001). La transformación de los
puntajes consiste en utilizar la desviación estándar como unidad de medida.
Para calcular una puntuación Z se resta una constante (la media) a cada pun-
taje bruto y se divide el resultado en otra constante (la desviación estándar),
lo cual permite mantener las relaciones numéricas exactas de las puntuaciones
originales (Cortada de Kohan, 1994).
Las ventajas de estas puntuaciones, sumamente utilizadas en psicología,
son principalmente dos: 1) no modifica la forma de la distribución de fre-
cuencias originarias, y 2) las puntuaciones Z obtenidas en dos o más variables
pueden ser comparadas directamente entre sí, dado que comparten un origen
(la media aritmética) y una unidad de medida (la desviación estándar).

Correlación
Con frecuencia se debe determinar si dos variables co-varían, es decir,
si los cambios en una variable se ven acompañados por cambios en la otra
variable. Para determinar de manera precisa si dos variables están o no corre-
lacionadas podemos apelar al uso de procedimientos estadísticos, como por
ejemplo el cálculo de un coeficiente de correlación r de Person. Este coeficien-

266
te permite determinar la dirección y magnitud de una relación. La dirección de
una correlación va a depender del patrón de la relación, podemos hablar de
una correlación positiva cuando el aumento de una de las variables se asocia
a un aumento en la otra variable (por ejemplo, a mayor sobrecarga laboral,
mayor estrés). Por el contrario, hablamos de una dirección negativa cuando
los valores altos de una variable coinciden con los bajos de la otra variable y
viceversa (por ejemplo, a mayor consumo de alcohol, menor equilibrio).
El segundo componente que se analiza en un coeficiente de correlación
r de Pearson es la magnitud o grado de la correlación, el cual hace referencia
a la fuerza o intensidad de la relación. El grado de correlación indica en qué
medida existe un patrón claro de relación, este patrón dependerá de la canti-
dad de coincidencias entre los valores de las variables. Se puede hablar de una
relación prfecta cuando un cambio determinado en una variable es acompa-
ñado por un determinado cambio en la otra, en esta situación un valor en la
variable X conduce siempre a un mismo valor en la variable Y. Si esto ocurre
al representar gráficamente los datos en un gráfico de dispersión se observa
que todos los puntos están en una línea recta. Un coeficiente de correlación
expresa de manera cuantitativa la magnitud y dirección de una correlación. El
coeficiente puede variar de -1 a +1. El signo indica si la dirección es positiva
o negativa, mientras que el número describe la magnitud (valores cercanos a
1 indican mayor intensidad, mientras que cercanos al 0, menor intensidad).
El coeficiente de correlación de Pearson (o también denominado coefi-
ciente de correlación producto momento de Pearson) se define como el pro-
medio de los productos cruzados de puntuaciones Z (Aron y Aron, 2001). La
fórmula del coeficiente de correlación es:

El producto cruzado hace referencia a la multiplicación del valor de una


variable por un valor de la otra variable. Si se multiplica una puntuación Z
alta por una puntuación Z alta, siempre se obtiene un resultado positivo (un
número positivo multiplicado por otro positivo produce un número positi-
vo). Del mismo modo si se multiplica una puntuación Z baja (las puntuacio-
nes Z bajas poseen signo negativo, ya que se encuentran debajo de la media),
por otra puntación Z baja, se obtiene un producto positivo, dado que un
número negativo multiplicado por otro número negativo produce un número
positivo. Por lo tanto, si los valores altos de una variable coinciden con los
valores altos de la otra y los bajos con los bajos, el producto cruzado Z siempre
será positivo, se tratará entonces una correlación positiva o directa. Por otra
parte, si no existe coincidencia entre los valores altos y bajos de ambas varia-
bles se obtiene un producto negativo, ya que al multiplicar valores positivos

267
con negativos y negativos con positivos se originan productos negativos. Este
es el caso de la correlación negativa o inversa. Finalmente, puede suceder que
existan coincidencias en algunos casos y no existan en otros, en esta situación
al sumar los productos cruzados negativos en algunos casos, y positivos en
otros, se observa una cancelación entre los productos llevando a un resultado
cercano a cero. Esto sucede cuando no existe correlación entre las variables.
En conclusión, si al multiplicar dos puntuaciones Z de un mismo grupo
de personas, sumar los productos cruzados y calcular el promedio se obtiene
un número positivo, existe una correlación positiva, si se obtiene un número
negativo, existe una correlación negativa, finalmente, si se obtiene un valor
cercano al cero, no existe correlación.

Conceptos y procedimientos estadísticos avanzados

Regresión múltiple
El análisis de regresión múltiple permite ponderar la contribución inde-
pendiente realizada por cada predictor para la explicación de un criterio deter-
minado. La ecuación de regresión múltiple se basa en la correlación de cada
variable con el criterio, pero también informa sobre las correlaciones entre las
variables predictoras. Las pruebas que correlacionan más alto con el criterio
reciben más peso en la ecuación, pero es igualmente importante considerar la
correlación con las variables restantes. Cuando las variables correlacionan alto
entre sí representan una duplicación innecesaria puesto que explican casi los
mismos aspectos del criterio.
Los estadísticos fundamentales del análisis de regresión múltiple son: a)
los coeficientes de regresión estandarizados (ß), que indican cual es la impor-
tancia relativa de cada variable independiente en la predicción de la variable
dependiente; b) el coeficiente de correlación múltiple (R) que expresa el gra-
do de asociación entre dos o más variables independientes (predictoras), en
conjunto, con una variable dependiente; c) el coeficiente de regresión múlti-
ple al cuadrado (R2), que permite determinar el porcentaje de varianza de la
variable dependiente explicada en conjunto por las variables independientes
(predictoras) de la ecuación, y d) el cambio en R2 que indica el porcentaje de
varianza de la variable dependiente explicada independientemente por cada
uno de los pasos (ingresos de predictores) de la ecuación de regresión. Esta-
dísticos adicionales como el análisis de la comunalidad y los coeficientes de
correlación semiparcial son también muy útiles para interpretar los resultados
del análisis de regresión múltiple, refinando la comprensión de la varianza
explicada específica de cada predictor sin estar contaminada por la varianza
común (compartida por los predictores).
Lo que incrementa el coeficiente de correlación múltiple al añadir una
variable predictora a la ecuación de regresión es precisamente la correlación

268
semiparcial de esa variable predictora (inteligencia, por ejemplo) con el cri-
terio (rendimiento académico, por ejemplo) controlando la influencia de las
restantes variables predictoras (motivación, por ejemplo) sobre ese predictor
(inteligencia, en este caso). En el contexto del análisis de regresión múltiple el
coeficiente de correlación semiparcial indica el grado de asociación existente
entre la variable dependiente y la parte de la variable independiente que no
está explicada por el resto de las variables independientes de la ecuación de re-
gresión. Existen varios procedimientos de análisis de regresión múltiple, pero
los dos más empleados son el análisis de regresión jerárquico o secuencial y el
análisis stepwise (Tabachnick y Fidell, 2001).
En el análisis de regresión jerárquico las variables predictoras son ingre-
sadas a la ecuación de predicción en el orden lógico sugerido por la teoría y
es el procedimiento más recomendable. Así, por ejemplo, si un investigador
quisiera predecir el rendimiento académico utilizando tests de aptitudes y de
autoeficacia, las medidas de aptitudes deberían ser ingresadas primero puesto
que son una de las fuentes antecedentes de la autoeficacia y, posteriormente,
ingresar las medidas de este último constructo.
El método stepwise se aplica en las fases exploratorias de investigación,
cuando no existe un modelo teórico explícito respecto a las interrelaciones
entre las variables. En este método, el programa de computación (SPSS, por
ejemplo) selecciona primero la variable independiente que presenta la co-
rrelación más elevada con la dependiente. El proceso continúa hasta que la
incorporación de variables al modelo no implica una mejora significativa en la
predicción (Aron y Aron, 2001). Este método posee limitaciones que lo hacen
poco recomendable excepto con fines exploratorios o para encontrar la mejor
ecuación de predicción de una variable sin importar su significado teórico.
Una de las principales dificultades es que los resultados son muy dependientes
de las características de la muestra empleada en una investigación determina-
da. En efecto, el orden de ingreso de las variables que determina el programa
puede depender de diferencias triviales en las relaciones entre los predictores
en una muestra en particular que no reflejan diferencias reales en la población
(Tabachnick y Fidell, 2001).
El análisis de regresión múltiple pese a su relativa sencillez (comparado
con otros métodos multivariados) posee una serie de supuestos exigentes que
el investigador debe respetar para interpretar inequívocamente los resultados.
Entre ellos cabe mencionar el tamaño muestral requerido (104 casos más el
número de variables independientes incluidas en el modelo como regla gene-
ral), el análisis de los casos con valores extremos en las variables (outliers), la
ausencia de multicolinearidad (correlaciones elevadas entre los predictores), la
distribución normal de todas las variables, la linealidad de las relaciones entre
las variables y la adecuada confiabilidad de las medidas empleadas (Tabach-
nick y Fidell, 201).

269
Los diferentes métodos del análisis de regresión múltiple son potentes
para estimar la predicción de una variable dependiente pero no tanto para
reflejar las interrelaciones entre las variables independientes incluidas en el
modelo. Estas limitaciones son subsanadas con el empleo del método de aná-
lisis de senderos (path analysis), un procedimiento especial del Modelo de
Ecuaciones Estructurales, que permite comprender con más claridad la red de
intercorrelaciones entre las variables y determinar no sólo las contribuciones
directas a la explicación de una variable, sino tabién las indirectas (Tabachnick
y Fidell, 2001).

Coeficiente alfa de Cronbach


El coeficiente alfa refleja el grado de covariación de los ítems de un test.
En términos prácticos, estos coeficientes nos permiten evaluar en qué medida
los diferentes ítems de una tests miden un mismo constructo. La fórmula del
coeficiente alfa de Cronbach (1951) es:
k  ∑ si 
2

a= 1− 2
k − 1  st 
Donde
k = número de ítems de la prueba
k  ∑ ssi2 = sumatoria de la varianza de cada ítem
2

a= 1− 2 i
k − 1  2st 

st = varianza del total de las puntuaciones del test.

El coeficiente alfa puede considerarse como la media de todas las corre-


laciones de partición por mitades posibles (Cohen y Swerdlik, 2000).

Coeficiente Kappa
Este coeficiente se utiliza habitualmente para estimar la concordancia
entre observadores, es decir, hasta qué punto los jueces coinciden en su pun-
tuación considerando el porcentaje de acuerdos que se observarían solamente
por azar. La fórmula de kappa es:
F
c −F
a
K=
N−Fa
Donde, Fc son las frecuencias de coincidencias o número de casos en
los que las clasificaciones de ambos jueces coinciden. Se obtiene sumando las
celdas que representan los casos que fueron evaluados de la misma manera
por ambos jueces. Fa son las frecuencias de azar, o número de casos en que

270
cabe esperar que las clasificaciones de los jueces coincidan por mero azar, y
se obtienen mediante la sumatoria de los productos de los subtotales de cada
categoría sobre el número de casos. N es el número total de casos evaluados
por los jueces.
La máxima concordancia posible corresponde a k = 1. El valor k = 0
se obtiene cuando la concordancia observada es la que se espera exclusiva-
mente del azar. A la hora de interpretar el valor de k se suele considerar que
un coeficiente de acuerdo de .80 o superior sugeriría que el test en cuestión
permite una interpretación unívoca de sus resultados independientemente del
evaluador.

Análisis factorial
En términos generales, el análisis factorial (AF) es el nombre genérico
con que se designa a un conjunto de métodos estadísticos multivariados de
interdependencia cuyo propósito principal es el de identificar una estructura
de factores subyacentes a un conjunto amplio de datos. Si bien constituye una
técnica ampliamente utilizada en ciencias sociales, posee especial relevancia
en el campo de la psicometría. En efecto, el paso decisivo para verificar la
estructura interna de cualquier escala, así como para seleccionar y otorgar sig-
nificado teórico a un conjunto inicial de ítems de un test es el AF (Martínez
Arias, 1995). Este método multivariado permite agrupar las variables (ítems,
por ejemplo) que se correlacionan fuertemente entre sí, y cuyas correlaciones
con las variables de otros agrupamientos (factores) es menor.
Según Kline (2000), mediante el AF la variabilidad de las puntuaciones
de un conjunto de variables es explicada por un número más reducido de di-
mensiones o factores. De este modo, por ejemplo, una gran cantidad de ítems
de tests puede reducirse a un número pequeño de factores o dimensiones (ap-
titud verbal, extraversión, por ejemplo) que confieran un significado teórico
a la medición. Cada uno de estos factores agrupa a los ítems intecorrelaciona-
dos que son, al mismo tiempo, relativamente independientes de los restantes
conjuntos (factores) de ítems.
Como otras técnicas estadísticas, el AF se inicia con los trabajos de
Galton (1889) quien propuso el concepto de rasgo latente para explicar por
qué un conjunto de variables se encontraba relacionadas. Según este autor, el
hecho de que dos variables se encuentran relacionadas entre sí proviene del
hecho que ambas variables poseen algo en común y algo que las diferencia. De
esta manera, la varianza total de una variable se debe a factores que comporte
con las otras variables (comunalidad) y a factores específicos de la variable
(especificidad). A partir de esta idea se sostiene la lógica del AF, vale decir, si
un conjunto de variables, se encuentran correlacionadas entre sí, estas relacio-
nes recíprocas se deben a que poseen un factor o rasgo latente en común, y

271
además, dicho factor explica en parte la varianza de las variables o indicado-
res medidos (Blalock, 1966). Teniendo esto en consideración, Galton (1889)
afirmó que debía desarrollarse una técnica que permitiera descubrir estos fac-
tores o variables latentes subyacentes.
Como se mencionó con anterioridad el AF constituye una designación
genérica. Dentro de los métodos de AF cabe diferenciar el Análisis Factorial
Exploratorio (AFE) y el Análisis Factorial Confirmatorio (AFC). La diferen-
cia principal entre ambos análisis es que en el AFE el investigador no conoce
la estructura subyacente al conjunto de variables y su interés radica en encon-
trar un número de factores (en principio indeterminado) que expliquen las
correlaciones observadas entre las variables. Por el contrario en el AFC el in-
vestigador posee hipótesis explícitas sobre la estructura latente de las variables.
Los conocimientos para la formulación de hipótesis están basados en la teoría,
la investigación empírica previa o ambas.
Tal como señalan Barbero García, Vila Abad y Holgado Tello (2011), el
AFE no permite incorporar restricciones sobre la forma en que se relacionan
los indicadores con los factores subyacentes. Dichas limitaciones son supera-
das por el AFC donde el investigador puede imponer restricciones sobre la
manera en que se relacionan los indicadores con los factores, e incluso acotar
parámetros del modelo a valores determinados. Cabe destacar que dichas res-
tricciones se efectúan partiendo de un modelo teórico de base. Por lo cual en
el AFC se trabaja con hipótesis que posteriormente serán contrastadas, mien-
tras que en el AFE se carece de hipótesis. Para llevar a cabo un AFC se deben
considerar las siguientes fases:
1. Especificación del Modelo: Consiste en establecer un modelo formal
que en esencia es una explicación teórica plausible de por qué las
variables están o no relacionadas. Esta primera etapa depende fun-
damentalmente del conocimiento teórico sobre el fenómeno a abor-
dar. De esta manera el investigador debe conocer de antemano 1)
El número de variables latentes, 2) las saturaciones factoriales, y 3)
la covarianza entre los factores. Con esta información se construye
un sistema de ecuaciones que expresa cada elemento de la matriz de
covarianza en función de los parámetros del modelo. Generalmen-
te, es preferible la utilización de diagramas para representar teorías
que involucran muchas relaciones (este aspecto se desarrollará con
mayor detenimiento en el apartado de Ecuaciones Estructurales).
2. Identificación del Modelo: Implica verificar si se posee la suficiente in-
formación en los datos muestrales para estimar los parámetros del mo-
delo especificado. Se deben calcular la cantidad de grados de libertad
del modelo (gl) a partir de la diferencia entre el número de momentos
distintos de las matrices de varianza y covarianza (relaciones posibles
entre las variables observables) y la cantidad de parámetros a estimar. El

272
modelo puede clasificarse como:1)sub-identificado (gl<0), 2) identifi-
cado (gl=0) o, 3) sobre-identificado (gl>0). Sólo aquellos modelos con
menor cantidad de parámetros que varianzas y covarianza en la matriz
observada (gl>0), son susceptibles de ser estimados y contrastados.
3. Estimación de los Parámetros: La etapa de estimación consiste en obtener
los valores de los parámetros especificados en el modelo a partir de las
varianzas y covarianzas muestrales. El proceso de estimación apunta a la
obtención de aquellos valores de los parámetros que proporcionen una
matriz reproducida que ajusten lo mejor posible a la matriz observada.
Aunque existen muchos métodos de estimación el método de máxima
probabilidad es el más recomendado cuando los datos presentan una
distribución normal multivariada.
4. Evaluación del Ajuste del Modelo: durante esta etapa se efectúa un diag-
nóstico con el fin de determinar si el modelo especifica correctamente
las relaciones entre las variables analizadas. Un modelo “correcto” con-
duce a diferencias reducidas entre las varianzas y covarianzas observadas
y las reproducidas por el modelo, es decir, una predicción adecuada de
la realidad (Hair et. al., 1999). La literatura especializada recomienda
el uso de múltiples indicadores de ajuste. Una revisión de los valores
críticos para determinar el ajuste del modelo se presenta en el apartado
de Ecuaciones Estructurales.
5. Re-especificación del Modelo: A menudo el modelo inicial no se ajusta
adecuadamente a los datos, lo cual puede deberse a inclusiones o exclu-
siones incorrectas de parámetros. Se recomienda re-espesificar el mo-
delo atendiendo a los residuos, especialmente los mayores. Los índices
de modificación indican cuanto decrecería el valor de c2 si se liberase el
parámetro. Se recomienda ser muy cauto en este punto para no termi-
nar con modelo que presenten un buen ajuste a los datos pero un pobre
fundamente teórico.

Ecuaciones Estructurales
El análisis mediante ecuaciones estructurales (SEM) parte de la premi-
sa que las covarianzas pueden proporcionar información sobre las relaciones
causales. Aunque la existencia de covarianza brinda información insuficiente,
dado que existe una multitud de efectos posibles que pueden provocarla, se
considera que es posible dilucidar la causalidad mediante el uso del control
estadístico y la selección de efectos guiada por criterios teóricos. La lógica sub-
yacente consiste en descomponer la covarianza entre las variables para obtener
información sobre los parámetros del proceso causal subyacente.
De esta manera, utilizando reglas de descomposición y seleccionando
posibles fuentes de covariación, se establece de forma intuitiva la relación

273
entre los parámetros y las covariaciones. Por ejemplo, si se observa covarianza
entre ansiedad (A) y autoeficacia social (AS), esta relación podría deberse a
que la ansiedad influye sobre la autoeficacia social, que la autoeficacia social
influye sobre la ansiedad o que otras variables están afectando la covariacion
entre ls mismas (por ejemplo, un sesgo cognitivo; SC). Dado que existen
muchas relaciones causales que podrían explicar la covarianza entre A y AS,
por medio de criterios teóricos se elige uno de los posibles nexos causales. Por
ejemplo, un modelo que plantea que los sesgos cognitivos afectan la autoefi-
cacia social y esto aumenta la ansiedad.
Una vez seleccionada la posible relación causal entre las variables, se
procede a estimar los parámetros de la relación considerando las reglas de
descomposición de la varianza y utilizando métodos de estimación (máxima
probabilidad, por ejemplo).
Básicamente existen dos reglas de descomposición: 1) la covarianza en-
tre dos variables es igual a la suma de los efectos directos, indirectos, espúreos
y conjuntos, 2) la varianza de una variable dependiente es igual a la varianza
debida a la perturbación, más la varianza explicada por otras variables del mo-
delo. Mediante el uso de dichas reglas se construye un sistema de ecuaciones
estructurales que expresa cada elemento de la matriz de covarianza en función
de los parámetros del modelo. En otras palabras, dichas ecuaciones imponen
una forma o estructura determinada a la matriz de varianza y covarianza de la
población bajo estudio (Batista Foguet & Gallart, 2000).
El SEM constituye una técnica de gran utilidad para el desarrollo de
modelos conceptuales, ya que permite poner a prueba modelos hipotéticos
y mediante el contraste empírico adquirir nuevos insights teóricos que de-
puren el modelo inicialmente especificado. A su vez, el uso de teorías bien
fundamentadas y sostenidas por la evidencia empírica, favorecen una mejor
aproximación a la realidad. De esta manera, el SEM podría conceptualizarse
como una técnica que mediatiza el proceso de ida y vuelta entre el desarrollo
teórico y los hechos de la realidad (Blalock, 1994).
Las fases para llevar a cabo un análisis SEM son las mismas que para el
AFC. No obstante en el presente apartado se desarrollarán con mayor profun-
didad algunos de los pasos anteriormente descriptos.
1. Especificación del Modelo: tal como se señaló con anterioridad en
esta etapa el investigador establece cuáles serán las variables que se
incluirán en el modelo explicativo y cuál es la relación que existe en-
tre ellas. Esta primera etapa depende fundamentalmente del conoci-
miento teórico sobre el fenómeno a abordar. Con el fin de no obviar
potenciales variables importantes algunos investigadores tienden a
incluir en el modelo variables poco relevantes o fundamentadas teó-
ricamente. La mera inclusión de variables también constituye un
error de especificación ya que puede llevar a desarrollar modelos

274
poco parsimoniosos y de bajo valor explicativo.
2. Identificación del Modelo: los autores Weston y Gore (2006) advier-
ten que antes de recolectar los datos, se debe determinar si un mo-
delo está correctamente identificado. Esta etapa consiste fundamen-
talmente en determinar si se cuenta con la cantidad suficiente de in-
formación para contrastarse el modelo. Para ello los investigadores
deben calcular los grados de libertad del modelo, el cual se obtiene
restando el número de parámetros a ser estimado, del número de
elementos conocidos de la matriz de correlación. Esto se logra me-
diante la siguiente fórmula:
3. gl= ½ x (Nº de variables observadas x (Nº de variables observadas +
1)) – Nº parámetros a estimar
4. Cabe recordar que solo si el modelo se encuentra sobre-identificado
se puede proceder con la estimación de los valores de los parámetros
especificados a partir de las varianzas y covarianzas muestrales.
5. Estimación del Modelo: El método más común de estimación es del
de máxima verosimilitud (ML, Maximum Likelihood), siempre
que se cumplan los supuestos referidos, tales como disponer de una
muestra de tamaño adecuada, medidas al menos de nivel intervalar,
y distribución normal multivariada. No obstante, este método es
robusto a ligeras desviaciones de la distribución normal (valores de
hasta 70 en el coeficiente Mardia, Rodríguez Ayán y Ruiz, 2008;
Bentler, 1995). En caso de existir mayores alejamientos de la distri-
bución normal se sugiere transformar los datos, utilizar métodos de
bootstrapping o aplicar métodos de estimación alternativos como
de Distribución Asintótica Libre (ADF, Assintotic Distribuccion
Free). Aunque este último requiere de muestras de gran tamaño (su-
periores a 500 participantes).
6. Evaluación del Modelo: La evaluación del ajuste tiene por objeto de-
terminar si las relaciones entre las variables del modelo estimado
reflejan adecuadamente las relaciones observadas en los datos (Wes-
ton & Gore, 2006). Los investigadores deberían evaluar el ajuste en
términos de (a) magnitud y significación de los parámetros estima-
dos, (b) varianza explicada por las variables, y (c) ajuste del modelo
a los datos. Existen tres tipos de estadísticos de bondad de ajuste, los
de ajuste absoluto (chi cuadrado por ejemplo), los de ajuste relativo
que comparan el ajuste respecto a otro modelo (CFI, por ejemplo) y
los de ajuste parsimonioso que valoran el ajuste respecto al número
de parámetros utilizados (NFI, por ejemplo). Ninguno de estos es-
tadísticos de ajuste aporta toda la información necesaria para valorar
el modelo, por lo cual habitualmente se utiliza un conjunto de ellos
simultáneamente. En la tabla 2 se sintetizan algunos de los estadís-

275
ticos de ajustes más utilizados y algunos valores críticos sugeridos
por la literatura (Bentler, 1995 y Byrne, 2001). Cuando se trata de
muestras de tamaño igual o inferior a 250 participantes, Hu y Bent-
ler (1999) sugieren utilizar solamente los índices de ajuste CFI y
SRMR. Si se desea comparar el ajuste relativo de dos o más modelos
alternativos la mayoría de los autores recomiendan utilizar el Crite-
rio de Información de Akaike (AIC; Akaike, 1987). El índice AIC
ajusta el estadístico chi-cuadrado al número de grados de libertad
del modelo. Valores inferiores de AIC para un modelo indican su
relativo mejor ajuste respecto a los modelos alternativos.
7. Re-especificación del Modelo: Finalmente, a los fines de mejorar el
ajuste el investigador podrá efectuar la re-especificación del modelo.
Es importante que las decisiones de añadir o eliminar parámetros
sean coherentes con la teoría subyacente al modelo de medición
propuesto. Para realizar una re-especificación se sugiere explorar los
índices de modificación de los parámetros individuales y un análisis
pormenorizado de los residuos. El valor del índice de modificación
corresponde aproximadamente a la reducción en el que se produ-
ciría si el coeficiente fuera estimado. Un valor > 3.84 sugiere que se
obtiene una reducción estadísticamente significativa en el cuan-
do se estima el coeficiente. La existencia de residuos elevados entre
parejas de variables ( 2.58) señalarían la necesidad de introducir
parámetros adicionales susceptibles de explicar la relación entre las
variables en cuestión.

276
|
Apéndice III: El uso de Biomarcadores como
complemento de la Evaluación Psicológica
Luis Pedro Morera y Leonardo Medrano

Introducción

Sin duda, los test psicométricos poseen muchas ventajas. Simplicidad al


momento de ser interpretados, fácil aplicabilidad, la posibilidad de alcanzar
grandes tamaños muestrales y velocidad, entre otros (Kline, 2000). Sin em-
bargo, a pesar de los avances de la teoría psicométrica, las escalas de medición
utilizadas en estos instrumentos poseen importantes limitaciones. En general,
sólo alcanzan un nivel ordinal de medición (Bunge y Ardila, 2002), los sesgos
de deseabilidad social y sesgos de memoria pueden impactar en la validez
de las mediciones, existen disparidades conceptuales entre instrumentos que
examinan un mismo constructo, por mencionar algunas. Por este motivo, se
requiere de herramientas que permitan complementar dichas mediciones y
alcanzar propiedades métricas más sólidas.
Por otra parte, existe un consenso creciente en la necesidad de una ma-
yor integración entre las ciencias sociales y naturales. Entender el comporta-
miento humano es poder describir la compleja interacción entre genes, ana-
tomía cerebral, diversos procesos bioquímicos y el ambiente (Pinker, 1999).
Este breve apéndice intentará aportar las bases para la evaluación biológica, las
cuales complementarían la psicológica del comportamiento humano. Con-
cretamente se utilizará como ejemplo la evaluación del estrés.
Supongamos la siguiente situación: tu cerebro detecta una situación es-
tresante, el eje HPA (hipotálamo, glándulas adrenales y pituitaria) y el eje
simpático adrenomedular (SAM) se activan instantáneamente, liberando cor-
tisol y catecolaminas (adrenalina y noradrenalina) respectivamente, las cuales
preparan al cuerpo para una acción instantánea. Esta cadena de hechos fue se-
leccionada como ventajosa mediante presión ambiental a lo largo de miles de
años y muy probablemente les fue muy útil a nuestros ancestros, permitiendo
responder rápidamente ante una amenaza o situación de peligro. Sin embar-
go, altos niveles decortisol durante largos períodos de tiempo causan estragos
en tu cerebro. Por ejemplo, el estrés crónico aumenta el nivel de actividad y
el número de conexiones neuronales en la amígdala, el centro de miedo del
cerebro. A medida que aumentan los niveles de cortisol, las señales eléctricas
en el hipocampo, la parte del cerebro asociada con el aprendizaje, los recuer-
dos y el control del estrés, se deterioran. Lo que acabamos de describir son los
procesos biológicos subyacentes a toda respuesta de estrés. Estos ejes se activa-

277
rán desencadenando una serie de respuestas neurofisiológicas, bioquímicas y
comportamentales ya sea que tengas que dar una conferencia magistral frente
a un auditorio repleto o que te asuste el perro del vecino. Resulta lógico en-
tonces que, en el estudio de éste y otros procesos complejos, la cuantificación
de marcadores biológicos juegue un rol protagónico como complemento de
la evaluación psicológica.


Figura 1. Sustrato biológico implicado en el Sistema de Respuestas al Estrés

¿Qué es un marcador biológico?

Se denomina biomarcador a una sustancia, estructura o proceso pasible


de ser medido y evaluado como indicador de un estado biológico normal o
patológico. Un marcador biológico debe ser sensible, objetivo, específico, es-
table y cuantificable (Strimbu & Tavel, 2010).

Pros y contras
En el campo del estrés, desde la psicología, se han desarrollado nume-
rosos instrumentos para la evaluación del estrés (Moretti & Medrano, 2014).
Existen más de 150 instrumentos de auto-reporte que evalúan estrés (Ko-
calevent et al., 2007), además de entrevistas clínicas y otros procedimientos
subjetivos de evaluación. Sin embargo, inclusive las herramientas más confia-
bles en evaluación psicológica, tales como los test psicológicos, poseen limi-
taciones importantes. La distorsión y sesgos de quien contesta cuestionarios
auto-administrados es uno de los factores que más afecta la validez de los

278
mismos. Por ejemplo, las personas tienden a responder de tal manera que se
los presenta de una forma más favorable, incluso si sus respuestas no reflejan
exactamente cómo piensan o se comportan (respuestas socialmente deseables
(Paulhus, 1991). De acuerdo con (Schwarz, 1999) “los auto-informes son
una fuente falible de datos, y cambios menores en la redacción el formato o
el contexto de las preguntas pueden resultar en cambios importantes en los
resultados obtenidos”.
Su simplicidad al momento de ser interpretados, fácil aplicabilidad, la
posibilidad de alcanzar grandes tamaños muestrales y la posibilidad de reco-
pilar datos en forma veloz (Kline, 2000), se constituyen como ventajas indis-
cutibles en la aplicación de esta metodología. Pero hay un creciente consenso
en la comunidad científica acerca de la necesidad de aplicar una variedad de
métodos al momento de determinar constructos psicológicos (Dodorico Mc-
donald, 2008).
Además, a pesar de los avances de la teoría psicométrica, las escalas de
medición utilizadas en estos instrumentos carecen de cero absolutos y, fre-
cuentemente, alcanzan sólo un nivel ordinal de medición (Bunge y Ardila,
2002). Por este motivo, si bien éstas medidas pueden ser auxiliares importan-
tes en la investigación o el diagnóstico psicológico se requiere de instrumentos
más objetivos y con propiedades métricas más sólidas.

¿Cómo elegir los biomarcadores a cuantificar?

Para seleccionar marcadores biológicos en nuestro caso, apuntaremos a


medir la actividad de alguno de los ejes descriptos (Figura 1), por ejemplo, los
niveles de cortisol son representativos de la activación del eje HPA. De hecho,
numerosos grupos de investigadores (Vogel & Schwabe, 2016) han vinculado
los niveles de estrés al rendir un examen con afecciones de memoria y altos
niveles de cortisol (ac tenés una justificación psiconeuroendocrinológica de
por qué no te fue tan bien en el último parcial, o mejor aún , por qué podría
no irte tan bien).
Si quisiéramos determinar si existe una vinculación entre la activación
de nuestro sistema inmunológico y el estrés psicosocial podríamos medir al-
guno de los marcadores de inflamación especificados en la tabla 1, llamados
interleucinas, estos mediadores (entre muchos otros factores) están involucra-
dos en las respuestas inmunes contra patógenos, y se ha demostrado que sus
niveles se ven afectados en personas que sufren de depresión (cita), ansiedad
(cita) entre otros desórdenes. ¿Sabes en qué otro grupo se demostró que los
niveles de estos biomarcadores inflamatorios varían? Si, adivinaste, en estu-
diantes (cita).

279
¿Qué otros biomarcadores podríamos medir?

En la tabla 1 encontrarás un resumen de ellos, junto con la metodología


utilizada y la muestra de la cual provienen.
Muestra biológica Biomarcadores Referencia
Saliva
IL-1β, IL-6, PCR,
Cortisol, DHEA,
DHEA-S, TNF-α
Sangre IL-1β, IL-6, PCR,
Cortisol, DHEA,
DHEA-S, TNF-α,
IL-12, Epinefrina,
Norepinefrina, CRH,
ACTH
Cabello Cortisol
Orina Epinefrina,
Norepinefrina, Cortisol
Biopsia Marcadores inflamatorios

Técnicas, muestras y algo más

En la búsqueda del método analítico óptimo para la determinación de


marcadores biológicos asociados al estrés, tenemos que consideradar numero-
sas variables, como por ejemplo: muestra biológica, efecto matriz, biomarca-
dor a determinar, estabilidad del mismo, costos asociados a la determinación,
así como también la disponibilidad del equipamiento adecuado, entre otras.
Además, necesitamos que nuestro métodaltamente específico y sensible,
que proporcione un alto rendimiento de muestras, y que nos permita lograr
una alta precisión y exactitud, con límites bajos de detección (LOD) y cuan-
tificación (LOQ) (Winnik & Kitchin, 2008).
Las dos metodologías que engloban las técnicas más utilizadas en el
campo son: los inmunoensayos y las técnicas cromatográficas. Que nos incli-
nemos en la elección por una u otra metodología dependerá principalmente
del marcador biológico a dosar, en la figura 2 podrás ver esquematizado el
principio de funcionamiento de cada una de ellas.
Al momento de elegir la muestra, en especial para la determinación de
biomarcadores asociados al estrés, es fundamental que el método de extrac-
ción no sea invasivo y produzca la menor perturbación posible en el indivi-

280
duo. Los tipos de muestras más utlizados, así como también los biomarcado-
res que pueden ser determinados en las mismas se enumeran en la tabla …..

Muestra biológica Biomarcadores


Saliva IL-1β, IL-6, PCR, Cortisol, DHEA, DHEA-S, TNF-α
IL-1β, IL-6, PCR, Cortisol, DHEA, DHEA-S, TNF-α,
Sangre
IL-12, Epinefrina, Norepinefrina, CRH, ACTH
Cabello Cortisol
Orina Epinefrina, Norepinefrina, Cortisol
Biopsia Marcadores inflamatorios

Como habrás visto para la selección de los biomarcadores a cuantificar,


debemos conocer mínimamente el mecanismo biológico que subyace al com-
portamiento, esto es esencial, el describir y comprender la fisiopatología de
los diversos trastornos psicológicos es un campo de intenso estudio científico
que requiere de la aplicación integrada de diversas metodologías, apuntan-
do a desenmarañar esta trama con fundamentos psicológicos, bioquímicos y
genéticos.
Por otra parte, y a diferencia de muchas otras enfermedades, en el caso
de las patologías psiquiátricas no existen pruebas clínicas aprobadas, más allá
de la evaluación mental y conductual. Por ejemplo, no existen pruebas pre
sintomáticas de predicción del riesgo, como la determinación de la lipoproteí-
na asociada a fosfolipasa A2 para la determinación de riesgos cardiovasculares,
no existen pruebas diagnósticas o de monitoreo como la determinación de
hemoglobina A1 para el control de diabetes. Sin embargo, existe un conside-
rable optimismo de que nos estamos acercando a un punto de inflexión en la
investigación de las enfermedades psiquiátricas con un abordaje psicobiológi-
co, que podría allanar el camino no sólo para las nuevas terapias, sino también
para la evaluación crítica de riesgos, el diagnóstico y las pruebas clínicas de
pronóstico necesarias para identificar y controlar las diversas psicopatologías.

281

También podría gustarte