Está en la página 1de 34

Psicométricas

Curso básico de Psicometría.

Psicometría, evaluación psicológica y ámbitos de aplicación.


1.1. La evaluación psicológica. Es un proceso de toma de decisiones, puesto que el propósito de la misma
es recomendar un camino de acción determinado en virtud de los objetivos perseguidos por la evaluación (el
evaluador no toma esta decisión, recomienda).
Si tenemos en cuenta que la psicología como disciplina aplicada se desarrolla principalmente en los contextos
clínico, laboral, educativo y forense, entre otros, la evaluación psicológica como subdisciplina englobada en la
psicología aplicada, también tiene lugar en los mismos ámbitos. En el ámbito de aplicación (contextos en los
que puede desempeñarse el psicólogo, ejerciendo su rol profesional, aplicando conocimientos técnicos que
derivan de teorías y de investigaciones empíricas, psicólogo con el rol de usuario de técnicas, aplicador,
administrador o evaluador), en tanto proceso de toma de decisiones, la evaluación psicológica implica una
instancia consultiva, en la que el psicólogo será convocado para reunir toda la información o indicadores
disponibles referidos a un problema, a una pregunta o tema dado, y en base a ello efectuará recomendaciones
dirigidas a resolver o mejorar el problema, en la que la decisión estará en manos de otra persona (quien ha
solicitado la evaluación). Si se trabaja en el ámbito de investigación (contexto en el que la Psicología se
desarrolla como disciplina científica, generando nuevos conocimientos en forma permanente; conocimientos
que serán transferidos al ámbito de aplicación), la tarea de evaluación se relacionará con recabar datos o
indicadores que den cuenta de aquel fenómeno que se quiere investigar.
La evaluación psicológica es un proceso de toma de decisiones. Se usa en la psicología aplicada y está
dirigida a la solución de problemas personales, institucionales, grupales, comunitarios, sociales o
ambientales. Psicólogo y consultante toman decisiones (qué test a utilizar, cursos de acción posibles para
solucionar el problema, etc.; y si seguir lo recomendado o no). Evaluar implica categorizar, evaluar y
contrastar datos referidos a atributos del sujeto y/o de la situación o interacción (evaluamos atributos
psicológicos de una persona).
La evaluación psicológica es una tarea de la psicología aplicada dirigida a la solución de problemas
personales, institucionales, grupales, comunitarios, sociales o ambientales. Para desarrollar esta actividad es
necesaria la aplicación de un modelo teórico que será de utilidad para comprender o analizar el fenómeno
concreto que es objeto de nuestra atención, los instrumentos son coherentes con una teoría.

1.2. Evaluación psicológica y Psicometría. Existe otra inserción posible para el psicólogo investigador, y
ella es especializarse en el diseño, construcción y adaptación de técnicas de evaluación psicológica (área
de la psicometría). Los tests serán un fin en sí mismos, son el producto de un desarrollo tecnológico derivado
de un modelo teórico, y su construcción será utilizada más tarde por los profesionales que trabajan en el
ámbito de aplicación en su quehacer diario. La psicometría es solo del ámbito de investigación, no existe en
el ámbito de aplicación (donde hay un psicólogo evaluador que solo usa el instrumento), el psicólogo
psicometrista juzga la calidad de los instrumentos y los mejora, construye instrumentos psicométricos. Se
define a la psicometría como la disciplina que tiene por finalidad el desarrollo de modelos
(preferentemente, pero no de manera exclusiva) cuantitativos que permitan “transformar” o codificar los
fenómenos o los hechos en datos, diseñando métodos adecuados para la aplicación de tales modelos con el
fin de determinar las diferencias individuales de los sujetos en cuanto a sus atributos, sus propiedades o
sus rasgos.
Es posible detectar y describir diferencias entre los sujetos mediante el empleo de conceptos
operacionalizados en forma cualitativa, semicuantitativa u ordinal, o cuantitativa. - Caracterizamos la
medición como un proceso de asignación de números o símbolos a atributos de los sujetos siguiendo una
serie de reglas para representar la presencia o ausencia del atributo medido, su cualidad, jerarquía o
cantidad. - Una escala se define como un conjunto de números o símbolos cuyas propiedades modelan
propiedades empíricas de los sujetos a los que esos números o símbolos son asignados, cada valor
asignado responderá a una propiedad que se obtendrá del comportamiento del sujeto. Niveles de medición:
En el nivel cuantitativo o métrico pueden distinguirse las escalas de intervalos y las escalas de cocientes o
razones. Ambas implican la noción de cuantificación (establecer la cantidad del atributo que el sujeto
posee). El nivel intervalar supone la igualdad de intervalos entre números: cada unidad de esta escala es
exactamente igual a cualquier otra unidad; además, al igual que en el nivel de medición ordinal, no existe un

1
Psicométricas

punto cero absoluto, sino uno arbitrario. (Por ejemplo la temperatura o el CI, que por cuestiones éticas
nadie obtiene cero). El nivel de medición de cocientes o razones posee todas las características y
facilidades nombradas para el nivel de intervalos, pero su punto cero no es arbitrario, sino absoluto ;
ello significa que no ha sido convencionalmente establecido, sino que verdaderamente implica ausencia del
atributo medido. Cuantitativo (cuantos síntomas tiene, cuántos errores cometió en un test). Puede ser de
intervalo (cero arbitrario) o de razones/cociente (cero absoluto que implica ausencia del atributo).
Más allá de la cuantificación, también medimos cuando asignamos números de tal forma que éstos
reflejen un ordenamiento o jerarquía entre los sujetos, resultante de la aplicación de algún criterio
clasificatorio. Este escalamiento ordinal, jerárquico o semicuantitativo, en que el número es utilizado para
identificar cada categoría, se usa para dar cuenta del ordenamiento o posición del sujeto en el rasgo
medido, sin implicar una unidad de medición. De esta manera, no se conoce la cantidad absoluta del
atributo, sino que solamente se puede establecer qué sujetos se ubican en la misma categoría, qué otras
personas caen en la categoría superior o inferior y qué categoría implica más del atributo respecto de cual otra.
(Por ejemplo escolaridad siendo 1 primaria incompleta… etc.; o al clasificar la gravedad de un episodio
depresivo mayor en leve, moderado o severo, lo que implica un ordenamiento del atributo gravedad del
trastorno; o en escalas de actitudes, intereses, comportamientos o inventarios de personalidad que se brinda un
formato de respuesta likert, donde se elegirá una respuesta que indicará su grado de conformidad o la
frecuencia con la que se presentan los fenómenos descriptos en la formulación del ítem). Ordinal o
semicuantitativo (no sabemos cantidad de síntomas, pero sabemos si es leve, moderada, o severa, podemos
ordenar).
Refiriéndonos al nivel de medición cualitativo o nominal, utilizamos este tipo de escala cuando aludimos a
la presencia o ausencia de un atributo (síntoma presente o ausente, acierto o error en un test de desempeño)
o al referirnos al tipo o clase específica de un atributo dado (tipo de estructura, tipo de neurosis). En este tipo
de escala se trata de establecer la pertenencia de un
sujeto a una categoría en virtud de un atributo dado
que la determina, sin implicar una jerarquía entre los
individuos. El número utilizado para identificar cada
categoría solo nombra o nomina la etiqueta de la categoría
sin indicar un ordenamiento. Nominal o cualitativo (tiene
el síntoma o no lo tiene, y cuál, pero no sé cantidad de
síntomas ni gravedad).
El hecho de que trabajemos en uno u otro nivel de
medición, y por lo tanto de análisis, se relacionará con el
interés particular del evaluador, con las características de la
variable que se está estudiando y con el tipo de escala al que el instrumento empleado es capaz de llegar. En
muchos casos, es posible medir una misma variable en varios niveles de medición. La manera en que se
diseñe una categorización será arbitrariamente establecida por el evaluador o investigador, aunque
debe fundamentarse en razones teóricas, técnicas o evolutivas, acompañándose de una clara división de
las categorías que deben ser mutuamente excluyentes (un mismo individuo no puede ser ubicado en más
de una categoría a la vez), y no debe dejar ningún individuo por fuera.

1.3. Los instrumentos psicométricos. Una técnica, prueba, test, escala o instrumento psicométrico se
define como un dispositivo o procedimiento en el que se obtiene una muestra de comportamiento de un
examinado en un dominio específico, subsiguientemente evaluado y puntuado usando procedimientos
estandarizados, y que cuenta con evidencias empíricas sobre la validez y la confiabilidad de los
resultados que arroja. Un test es un dispositivo o procedimiento, que implica un proceso, determinadas
coordenadas de administración y de evaluación.
Procedimiento que se ha estandarizado: se ha tipificado de manera explícita, puntualizando específicamente
un dispositivo o un método de trabajo: qué tipo de materiales deben utilizarse, qué consignas, qué ítems o
estímulos, en qué tiempos de administración se trabajará, si habrá o no tiempo límite, de qué forma se
entregará el material, qué actitud asumirá el examinador frente al sujeto, qué criterios se emplearán para
puntuar los resultados, etc. Este conjunto de procedimientos se ha especificado y estandarizado al momento en

2
Psicométricas

que el test ha sido validado y han sido calculadas sus normas, y debe respetarse al pie de la letra cada vez que
se administre.
No solo los procedimientos de examen se tipifican y se hacen constantes, sino que también se realiza con
las formas de puntuación y con las condiciones de interpretación de las respuestas brindadas por los
examinados. También es importante que, teniendo en cuenta los sentimientos de temor, ansiedad,
aburrimiento, entre otros que suelen presentarse en los evaluados, el evaluador intente mantener un clima de
trabajo cómodo, relajado, que promueva la colaboración y la motivación del examinado. Acá es adecuado el
concepto de rapport, entendido como los esfuerzos puestos en juego por el evaluador para generar en el
evaluado una actitud general de cooperación, despertar su interés y motivación y estimularlo a
responder a los tests y entrevistas de la mejor manera posible.
“…una muestra de comportamiento en un dominio específico”: el sujeto recibe una consigna que le indica qué
se espera de él (responder preguntas, armar un rompecabezas, hacer un dibujo), y al responder a dichas
instrucciones, generará un conjunto de comportamientos que el evaluador registrará (respuestas a las
preguntas, el armado concreto de rompecabezas en un tiempo dado, el dibujo queda registrado en papel). Las
condiciones del test buscan lograr que el examinado emita una serie de comportamientos reducidos a un área
específica de todos los comportamientos que habitualmente genera. Esto implica que un test no evalúa todo
el comportamiento de una persona, son una muestra de todos sus comportamientos posibles, reducidos
a un área específica. El modelo teórico también circunscribirá y definirá los comportamientos, pues toda
teoría implica un recorte dado de la realidad. Obtenemos una muestra de comportamiento (solo una muestra,
por ejemplo de inteligencia).
Los autores de la técnica deben diseñar y llevar a cabo estudios empíricos que den idea al usuario de dos
cuestiones básicas: si el test evalúa aquello que dice medir (validez) y si aporta resultados en las que se pueda
confiar, con un error de medición predecible y determinable (confiabilidad).

El psicólogo dispone de un arsenal de pruebas que le permiten recoger la información necesaria. Ellas son las
técnicas psicométricas, las proyectivas y las entrevistas. En la tarea de evaluación se trabaja integrando la
información que deriva de las tres fuentes.
Técnicas psicométricas Técnicas proyectivas
Cuentan con consignas, estímulos y alternativas Las consignas y estímulos que disparan las
de respuesta altamente estructurados. Se asociaciones o respuestas comportamentales en las
trabaja con materiales e instrucciones fuertemente técnicas proyectivas poseen escasa estructuración y
estructurados, así como con opciones de están pensados de manera tan amplia que,
respuesta preestablecidas y/o con criterios de potencialmente, pueden propiciar un repertorio de
puntuación minuciosamente definidos. Son respuestas que tiende a infinito. Poco o nada
muy estructurados, respuestas predeterminadas, estructurado (“dibuje lo que quiera”)
consigna específica (sí/no, verdadero/falso)
Se basan en el principio de la proyección (mecanismo
con el que contamos los seres humanos para hacer
frente a la ansiedad, estrés, y situaciones conflictivas
o críticas).
Pueden fundamentarse en diversos marcos Todas tienen un marco teórico en común, el PSA
teóricos, entre los que el PSA es solo una de las (interpretación desde Freud, Klein, Anna Freud).
alternativas posibles. Multiplicidad de modelos Modelos psicoanalíticos (no Lacan)
posibles (social, PSA, cognitivo, conductual,
sistémico)
Aíslan atributos diversos, valorándolos de a uno a Ponen la evaluación de la personalidad como un todo
la vez
Críticas: da mucha cantidad de información pero Críticas: da menos información pero con más
con poca profundidad, son muy estructuradas profanidad, son poco estructurados, no suelen
acompañarse de validez y confiabilidad

1.4. Los test como operacionalizaciones de constructos teóricos. Todo test se basa en un modelo dado.
Ese marco teórico que fundamenta la técnica apela a diversos conceptos o constructos (construcciones
3
Psicométricas

ideales, formuladas para explicar determinados aspectos o fenómenos de la realidad). Por ejemplo, la ansiedad
no es observable, perceptible ni pasible de ser medida; como concepto, no tiene existencia real, sino ideal.
Lo que tiene existencia real y es apreciable mediante los sentidos, observable o medible, son sus
manifestaciones o indicadores (signos y síntomas de la ansiedad, aquellos indicios que se pueden observar,
oír o tocar, y los que el sujeto que los experimenta puede informarnos).
Una vez que se ha definido y descripto este concepto desde un modelo teórico, se procede a
operacionalizarlo; operacionalizar un concepto o definirlo operacionalmente implica “bajar” su definición
abstracta a la empiria mediante la identificación de indicadores observables que den cuenta de la
ocurrencia de este fenómeno en la realidad. Todo constructo teórico implica una definición teórica o
conceptual, y una operacional. Mediante esa prueba empírica la teoría se corrobora o no con datos de la
realidad, conformándose o debiendo reformularse a la luz de esos datos reales.
Podemos entender los instrumentos psicométricos como un conjunto de indicadores de un concepto o
constructo teórico; ese conjunto de indicadores observables o medibles son los ítems, elementos o
reactivos del test.
Los ítems de un test son la mínima unidad distinguible en él, consistentes en cada una de las pequeñas
tareas o actividades que el individuo debe realizar para responder a la consigna. Estas actividades pueden
consistir en efectuar un dibujo, efectuar piezas, elegir la opción correcta, preferida o más frecuente, etc. El
total de los ítems forma la escala o prueba. Dos o más subescalas forman la escala total o instrumento
psicométrico.
Los modelos teóricos tienen constructos o conceptos psicológicos (no son entes reales, la ciencia se maneja
con entes ideales. Los conceptos psicológicos son construidos, no existen en la naturaleza, no se pueden
tocar, coherentemente con un modelo teórico). Para poder observar ese concepto en el comportamiento de
las personas tenemos que operacionalizar el concepto (buscar indicadores comportamentales observables).
En el caso de los test, los ítems son los indicadores del constructo, la operacionalización, la bajada empírica.
Un test psicológico es la operacionalización de conceptos según un modelo teórico.

1.5. La noción de escalamiento. Una prueba psicométrica supone: una colección de indicadores relativos
a un dominio de comportamiento precisamente definido (Es un procedimiento estandarizado: un test se
toma siempre igual, con las mismas condiciones, con la misma colección de indicadores (ítems) de un
dominio de comportamiento), e implica: la medición de un rasgo o atributo de un sujeto, operacionalizado
desde un modelo teórico; la noción de escalamiento (significa la posibilidad de convertir o traducir las
respuestas brindadas por los sujetos a una puntuación, las respuestas de los sujetos las codificamos
(asignamos números de manera arbitraria) según una puntuación que será interpretado teóricamente);
capacidad para discriminar diferencias individuales entre las personas; validez y confiabilidad verificadas
empíricamente (calidad del instrumento); determinados atributos formales; estar enmarcado dentro del área
de la evaluación psicológica.
Las respuestas brindadas por un sujeto, que se codificarán en una forma preestablecida y de manera pautada o
estructurada, se agruparán para ser resumidas en una puntuación final que brindará una idea general sobre el
conjunto de las respuestas. Las respuestas del sujeto quedarán registradas en lo que llamaremos
protocolo. El examinador codificará esas contestaciones según el sistema tipificado en el manual para,
finalmente obtener una puntuación global que, desde el punto de vista estadístico y metodológico, es un
índice, (puntuación construida que servirá para resumir la serie de respuestas dadas por el sujeto).
Otro problema que debe atenderse es que el instrumento sea realmente capaz de captar las diferencias
individuales que existen entre las distintas personas en cuanto al rasgo o atributo medido, es decir, de
discriminar.
El test contará con ciertas propiedades o características formales, los materiales empleados, la forma de
administración, el uso de tiempo límite o no, la base sobre la que se comparan las respuestas o el desempeño
del sujeto evaluado, entre otros aspectos.

Formas de clasificación de los test:


Refiriéndonos al objetivo de la pesquisa, puede hablarse de tests de diagnóstico y de tests de
screening. Los test de diagnóstico intentan brindar al usuario una evaluación detallada y pormenorizada de
una situación, un atributo o estado o rasgo dado. Nos darán mucha mas información, más profunda y

4
Psicométricas

pormenorizada, sobre la variable que se esté evaluando. Sus tiempos de administración y evaluación serán
mayores. Serán menos sensibles pero muy específicas. Los test de screening, rastrillaje o despistaje son de
administración y evaluación breve y sencilla porque se trabaja con un gran número de personas en un
corto lapso. Se usan para detectar riesgo; es decir que dan una evaluación poco detallada, preliminar y
que debe profundizarse. Una vez localizados ciertos casos mediante el instrumento de despistaje, se vuelve a
examinar a esos sujetos con técnicas de diagnóstico que brindarán una información más acabada y completa,
permitiendo confirmar los resultados iniciales o descartarlos (falso positivo).
En cuanto a los materiales y medios empleados, hay tests de lápiz y papel, de materiales
manipulables, de estímulo oral y respuesta oral, de estímulo gráfico y respuesta oral, y de estímulo oral
y respuesta escrita, entre otros.
En relación con la forma de administración, existen dos grupos de instrumentos: los de
administración individual (requieren la interacción personalizada de un examinador con un examinado) y
los autoadministrables (diseñados para que sus consignas, sus materiales y sus ítems sean tan claros que el
sujeto sea capaz de dar respuesta a ellos sin o con poca ayuda, lo que permite que sea administrada en
forma individual o colectiva).
Con respecto al objeto de la evaluación, suele hablarse de tests de habilidades, de potencia, de
personalidad, entre otros. Esta categorización alude al gran grupo de conceptos o variables al que pertenece
el constructo que se quiere evaluar.
Tomando como criterio clasificatorio el tipo de respuesta, las pruebas psicométricas pueden ser de
formato dicotómico (decidir la respuesta entre dos opciones polares, si-no o verdadero-falso), likert (implica
un ordenamiento de las opciones según un gradiente que va desde la máxima aceptación al máximo rechazo, o
viceversa; también puede plantearse likerts en términos de frecuencia de aparición temporal de los
comportamientos u otras alternativas de categorización), de diferencial semántico (forma de respuesta que
prevé una escala, generalmente de 7 o 9 puntos, en cuyos extremos se ubican dos adjetivos o expresiones con
significados contrapuestos, y se solicita al examinado que marque en qué punto de ese continuo ubica su
parecer con respecto a aquella variable que se está evaluando), de opción múltiple, de resolución de tareas
específicas (se pide al sujeto que realice una producción determinada, como copiar tarjetas, dibujar bajo
determinadas condiciones, resolver un laberinto o un rompecabezas, recordar palabras y repetirlas, etc.
Aunque las respuestas quedan registradas, suelen recodificarse según criterios diversos, por ejemplo como
éxito-fallo), de valoración de éxito o error, entre otras.
Según su formato, las técnicas pueden dividirse en inventarios (listados de afirmaciones que el sujeto
debe leer y responder, verdadero-falso por ejemplo), cuestionarios (listados de preguntas que el sujeto debe
responder según un formato preestablecido, sí-no, o grados de conformidad o frecuencia), escalas clásicas
(suelen identificarse con tests de rendimiento que se componen, por ejemplo, de tareas que el sujeto debe
resolver o de preguntas que debe contestar para reflejar algún conocimiento o respuesta), encuestas (tienen un
formato similar al de los inventarios y se utilizan para recolectar opiniones o actitudes de las personas sobre
algún tema en especial), protocolos de entrevistas dirigidas (listados de preguntas preestablecidas que se
hacen oralmente al sujeto en una administración individual y que deben responderse oralmente) y protocolos
de observación (u hojas de registro, son también formularios preimpresos que establecen qué aspectos
específicos deben observarse en determinados comportamientos o interacciones, en los que el examinador va
codificando en una forma abreviada y rápida los atributos que son objetos de su evaluación), tests de
desempeño (inteligencia, memoria, etc.), entre otros.
En cuanto al uso del tiempo, existen técnicas que no fijan un límite temporal para finalizar la
tarea, sino que permiten que el examinado trabaje libremente y a su ritmo. Otras establecen un límite
preciso luego del cual se suspende la tarea, llegando hasta el punto al que se haya arribado en la actividad.
Otros tests permiten que se trabaje libremente pero toman nota del tiempo para valorarlo en una forma
determinada.
Enfocándonos en la base sobre la que se valoran o comparan las respuestas o desempeño del sujeto
evaluado, podemos clasificar los instrumentos psicométricos en tests normativos y test de criterio o de
dominio. La primera modalidad de valoración de los resultados corresponde a las técnicas psicométricas que
se rigen por baremos o normas estadísticas, llamados tests normativos. Ellas comparan el rendimiento o
respuestas de una persona individual con el rendimiento promedio registrado por una muestra
normativa o de tipificación, es decir, por un grupo de individuos homogéneos al examinado, según edad,

5
Psicométricas

sexo, hábitat y otras condiciones que pudieran afectar a la variable evaluada. Así, el baremo es un cuadro de
doble entrada en el que se consignan el promedio de las puntuaciones obtenidas por esa muestra de sujetos y
su dispersión o desviación típica (es decir, su distancia relativa respecto de la media). El baremo permite que
el examinador valore el desempeño de un sujeto a la luz del desempeño promedio observado por sujetos
semejantes a él.
Los test de criterio o de dominio, en cambio, no emplean normas para comparar el desempeño o
respuestas del individuo, sino que las valora según un criterio previamente establecido. Es decir que, por
ejemplo, en una prueba elaborada para evaluar la presencia de síntomas depresivos, se determinará si las
respuestas coinciden con el listado de síntomas de depresión que se ha tomado como base para comparar (por
ejemplo, el DSM).
Los test psicométricos se dividen en test normativos (se basan en normas estadísticas o baremos, que sirven
para comparar las respuestas del sujeto con sujetos similares, homogéneos), y test de criterio (no tienen
baremos. Se ve si las respuestas son suficientes para llegar a un diagnóstico (comparamos con un modelo
teórico o descriptivo)).

Debe tenerse presente que todo instrumento tiene su sentido en tanto esté enmarcado en un proceso de
evaluación psicológica, cobrando valor en virtud del interjuego que sea posible establecer entre los
resultados que arroje y el resto del material que se valorará (otros resultados derivados de otras técnicas
psicométricas, proyectivas, entrevistas, etc.), sin perder de vista el objetivo final de este proceso: la
construcción de una descripción exhaustiva tendiente a generar una recomendación que llevará a tomar
una decisión determinada.

La validez y los instrumentos psicométricos.


2.1. Existen tres elementos fundamentales que permiten juzgar la calidad de una técnica psicométrica: su
capacidad discriminativa, con la que nos referimos a la capacidad de un instrumento para captar
diferencias individuales en la variable que está siendo medida; la confiabilidad de una prueba se refiere a
la confianza que podemos tener en los resultados que arroja. Se dirige a valorar cuánto error existe en la
medición; y se alude a la validez mediante la pregunta referida a qué mide la técnica y cómo lo mide, que
esa herramienta sirva para medir aquello que intenta medir.
Ya no hablamos de discriminación, confiabilidad y validez como atributos inherentes al test, ya que ello crea
cierta sensación de invariabilidad, de permanencia o de fijeza; actualmente nos referimos a la confiabilidad
y validez de los resultados arrojados por el test, así como a la capacidad discriminativa de sus ítems en
tales o cuales sujetos, que poseen tales y cuales características determinadas (ya no se trata de la validez del
test, sino de evidencias de validez de tal o cual tipo, aportadas por tal o cual investigación desarrollada sobre
tales o cuales sujetos. Diferenciación que implica que la validez ya no es considerada un atributo estático de la
escala, sino que es pensada como un resultado que corresponde a una investigación científica realizada
en un momento concreto y con personas reales y concretas, por lo que sus resultados son provisorios y
sujetos a refutación y verificación constantes; y al diferenciarse varios tipos de validez de las puntuaciones
obtenidas por medio de una técnica, no se puede concluir si una escala es válida o no, sino que debe
afirmarse que se han obtenido evidencias de validez de tal o cual tipo en las puntuaciones derivadas de
tal o cual instrumento en tales sujetos y bajo determinadas condiciones). La validez tiene que quedar
demostrada con investigaciones (no es fija, está sujeta a determinadas condiciones, por eso se habla de
evidencia sobre la validez de los resultados). Los estudios de validez deberán repetirse toda vez que se
varíe la población sobre la que se ha trabajado.

Distintos tipos de validez. Es posible distinguir cuatro grandes


áreas en las que pueden categorizarse las distintas aristas del
término validez: el área del contenido, el área empírica, el área
teórica y el área formal.

Validez de contenido. Se evalúa con el juicio experto.


Los jueces valoran a qué escala pertenece cada ítem. Jueces que

6
Psicométricas

identificaron la escala, dividido el total de jueces, es igual al Aiken. Calculo un Aiken para cada ítem del test.
Esperamos que el Aiken sea mayor a .75, .80).
Se refiere a la verificación de que la muestra de ítems incluida en el test cubra todos los aspectos o
dimensiones relevantes de la variable en estudio o a ser medida. Para comprender este concepto, debemos
pensar que los ítems que se han redactado o ideado para formar parte de un instrumento psicométrico son solo
una muestra de todos los ítems posibles. De todos los posibles, los finalmente incluidos deberán integrar
una muestra representativa de todos los ítems posibles. Los finalmente incluidos tienen que cumplir con el
criterio fundamental de no haber descuidado ninguna de las dimensiones de la variable. Esta tarea debe
ser desempeñada por los diseñadores originales del instrumento y posteriormente controlada en aquella
instancia que se conoce como juicio experto (que está destinado a trabajar sobre los aspectos de la validez
que se relacionan con el contenido de los ítems, y también se la emplea como instancia de reformulación de
consignas y demás cuestiones a ajustarse). El juicio experto es un procedimiento mediante el que los
autores del test convocan a un pequeño grupo de expertos en el tema que se quiere evaluar mediante
esa nueva escala. Los expertos revisarán el contenido y la redacción de cada ítem y su adecuación con
respecto a cada dimensión prevista por la teoría, efectuando críticas a algunos de ellos, mostrando su
conformidad con respecto a otros, sugiriendo modificaciones en otros casos. Cada uno trabajará de forma
independiente y hará llegar su evaluación a los autores que sopesarán el dictamen de cada uno de los
expertos en base al conjunto de todos los dictámenes, efectuando sobre los ítems propuestos aquellas
modificaciones que hayan sido sugeridas por la mayoría.
Se pregunta si el contenido de los ítems es coherente con el modelo teórico (y además si estamos
preguntando por todas las dimensiones del modelo, por ejemplo, si la teoría tiene dimensiones cognitiva,
fisiológica y motriz, ¿evalúa las tres o no?). El procedimiento que se hace para validar el contenido de un
test se llama juicio experto (expertos miran el contenido de un test según la teoría). Los expertos son
psicólogos que se especializan en el tema, se fijan que los ítems estén bien operacionalizados según el
modelo teórico. Ítems con 75 u 80% de aprobación se quedan, los otros no.
Validez teórica o de constructo. Se evalúa con: análisis factorial (ver como se agrupan los ítems.
Calculo estadístico que da las escalas y cómo están constituidas); convergente/ divergente (ver qué ocurre
con otros constructos. Evalúo con r de pearson, valores cercanos a 1 me dan validez convergente, valores
cercanos a -1 me dan validez divergente); grupos contrastados.
Los aspectos teóricos de la validez se circunscriben a que se sea capaz de aportar evidencias de que la
operacionalización del constructo ha sido efectuada en forma coherente con el modelo teórico y
cubriendo todos los aspectos o dimensiones incluidos en él. Es el tipo principal de evidencia de validez
(teórica, estructural o de constructo), se dedicará a responder a la pregunta de si esta técnica mide
efectivamente aquello que dice medir, según tal o cual modelo teórico y por lo tanto, si la misma es una
adecuada operacionalización de un constructo teórico dado, derivado de ese modelo.
Teniendo en cuenta que siempre hay algún grado de subjetividad, la validación de constructo se define como
un proceso continuo (durable en el tiempo, requiere de investigaciones desarrolladas y renovadas en forma
permanente) por medio del que se realizan múltiples investigaciones con el fin de poner a prueba
diferentes hipótesis sobre la estructura interna del constructo, así como de sus relaciones con otras
variables o constructos. También se la puede definir como el grado en que un test mide un constructo, en
tanto es una buena operacionalización del mismo. ¿El test es una adecuada operacionalización del
constructo teórico? Miramos si lo que los sujetos responden en la práctica corrobora lo que dice la teoría.
Investigación empírica donde se aplica el test a una muestra representativa para ver si las hipótesis de la
teoría están bien. Se miran las respuestas de los sujetos en la empiria, en la realidad.
Procedimientos más frecuentes para aportar evidencias de validez de constructo. Se produce mediante
alguno de los siguientes procedimientos:
- Estudios evolutivos. Si una teoría y/o resultados empíricos de distintas investigaciones postulan que, por
ejemplo, a medida que un niño crece y madura, se acrecienta su capacidad para efectuar algún tipo de
actividad dada, un test que intente medir esa capacidad, debería corroborar esto mediante sus resultados.
- Estudios clínicos. Con una lógica similar de razonamiento se procede cuando se usan estudios clínicos si el
constructo a ser evaluado implica algún tipo de patología. Por ejemplo, los resultados aportados por el
instrumento en pacientes psicóticos deberían ser significativamente distintos de aquellos obtenidos por sujetos
no psicóticos.

7
Psicométricas

- Análisis factorial. Es un procedimiento de análisis multivariante de los datos que permite analizar la
variable, tal como ha sido medida por medio de un test en una muestra de sujetos dada, determinando qué
dimensiones podrían aislarse en la misma. El análisis factorial es definido como un método de reducción de
datos por el que es posible disminuir la cantidad de datos a ser analizados o tenidos en cuenta.
El análisis factorial se maneja por medio del cálculo de múltiples coeficientes de correlación entre las
respuestas de todos los sujetos incluidos en la muestra a cada uno de los ítems del test.
Este cálculo de múltiples coeficientes de correlación entre todas las combinaciones posibles de
respuestas emitidas por los sujetos incluidos en la muestra implica intentar conocer qué grado de
asociación, relación o covariación tiene el total de las respuestas de todos los sujetos en todos los ítems
de la escala (cómo se asocian, los contenidos a los que ellos aluden). La correlación calculada no nos
informará sobre los contenidos presentes en las formulaciones de los reactivos, pero sí nos hablará de su
asociación y de su semejanza.
El análisis factorial detecta, según el grado de asociación entre las respuestas a los ítems, si dos
reactivos distintos guardan entre sí algún grado de asociación. De esta forma, aquellos elementos que
hayan registrado entre sí elevados grados de asociación se agruparan bajo lo que llamamos un factor,
dimensión o variable latente.
Si la cantidad de factores aislados o identificados y sus contenidos coinciden con la cantidad e
identificación de las dimensiones previstas en la teoría, entonces, podrá decirse que el test es una
adecuada operacionalización de tal marco teórico, o que mide tal variable según tal teoría x. Si el
análisis factorial aísla un número distinto de dimensiones que las previstas en el modelo, o el mismo número
pero con distintos contenidos, entonces deberá revisarse el instrumento a fin de detectar errores técnicos,
teóricos y/o metodológicos. Método que intenta establecer correlaciones múltiples entre las respuestas de los
sujetos, para determinar de qué modo se agrupan las respuestas.
- Evidencia de validez convergente y discriminante. En todo proceso de validación de constructo de un test
interesa conocer si se han podido recoger evidencias de validez convergente y discriminante, es decir,
evidencias de que el constructo medido por el instrumento converge en el mismo sentido que otra
evidencia relacionada por similitud, y a la vez, que aparece evidencia discriminante, que se distingue
teóricamente del concepto medido. Las evidencias de validez convergente son aquellas que se recogen
cuando los resultados de un estudio de validez de constructo convergen en un mismo sentido,
verificando la relación entre constructos vinculados
teóricamente. En el caso de las evidencias de validez
discriminante, existirán tales resultados cuando obtengamos
coeficientes de correlación relativamente bajos entre
dimensiones o constructos diferentes del que se desea medir,
que el modelo ha concebido como relacionados teóricamente
pero con una frecuencia de aparición conjunta en la realidad muy
escasa.

Validez empírica (o validez de criterio). Uso un criterio


externo (otro test u otra medida relacionada con mi test),
correlaciono con r de pearson, espero que se aproxime a 1.
Se relaciona con que sea en base a estudios de campo realizados con rigor metodológico y sobre
personas concretas, y el término remite a un tipo de evidencia que se vincula con el uso práctico que puede
darse al test, en base a los resultados que arroja, es decir, en base a qué mide y cómo mide en la práctica.
Involucra una metodología de investigación que trabajará utilizando lo que se conoce como criterio externo
(es una medida de la misma variable que el instrumento intenta medir, obtenida en forma independiente al
instrumento (externa a él), cuyas evidencias de validez deberán estar previamente establecidas, además de
ser coherentes con la base teórica que sustenta la prueba ya que sino, no serían comparables. Esta medición
externa permite verificar empíricamente si la prueba brinda información semejante a ella. Siempre, para la
validez empírica, se trabaja en forma externa a la técnica. El criterio externo seleccionado deberá estar
sustentado en el mismo marco teórico, y operacionalizado de forma similar, que el instrumento cuyos
resultados se quieren validar. Tiene un propósito aplicado o empírico. Es la pregunta de qué información
me da el instrumento. ¿El test reemplaza a otra información sobre la misma variable? ¿El test y el criterio

8
Psicométricas

dan la misma información? Es sinónimo de criterio externo, que se de la misma información, pero por otro
medio que ya esté demostrado. (Por ejemplo, demostrar que el test de bender da la misma información que si
ves al niño en la escuela durante 6 semanas). Se divide en:
- La validez concurrente. Para que estemos seguros de que un nuevo test nos permite acceder a cierta
información que necesitamos conocer, debemos poder corroborar que arroja esa misma información o los
mismos resultados que podríamos obtener por otros medios (criterio externo). Aplicación de dos
técnicas independientes que miden el mismo constructo a los mismos sujetos y se mide la correlación de los
resultados.
- La validez predictiva. Posee una lógica similar a la de la validez concurrente, trabajando con un criterio
externo y un coeficiente de correlación. La validez predictiva trabaja a futuro y con un criterio externo a
predecirse, diferente de la variable medida en el aquí y ahora por el test. Un estudio destinado a aportar
evidencias de validez predictiva se basa en la idea de intentar verificar que el instrumento (administrado
en el presente) resulte un buen predictor de otra variable (relacionada teóricamente con la que se ha
medido, pero distinta) cuyo comportamiento futuro interesa estimar.
La diferencia lógica entre validación concurrente y predictiva no se basa en el tiempo sino en los
objetivos de la evaluación: mientras que la primera es la elegida cuando la prueba va a emplearse para
efectuar diagnósticos del estado actual, la segunda lo será cuando el instrumento busque predecir
resultados futuros; es decir que el uso de la escala en el ámbito de aplicación o de investigación será el
criterio decisorio que permitirá dirimir qué tipo de estudio de validación se empleará. Si predice otra
información sobre otra variable (por ejemplo, el bender mide maduración viso-motriz, variable que se
relaciona con el aprendizaje a leer y escribir). Medición de otra variable relacionada con la que el test mide
(criterio externo).
- La validez retrospectiva. Se vincula con la correlación verificada entre los resultados de un test
administrado en un momento determinado y un criterio externo medido con antelación a la aplicación
del instrumento psicométrico.
[Para comparar dos vías de evaluación: se empleará un coeficiente de correlación para valorar el grado
en que ambos caminos de evaluación se hallan asociados, es decir, coinciden. El coeficiente de correlación
es un índice que nos informa el grado de covariación o asociación entre dos variables, tratándose de una
correlación directa (de signo positivo) cuando ambas variables aumentan o disminuyen juntas, y siendo
la correlación inversa (de signo negativo) cuando al aumentar una de las variables, la otra disminuye o
viceversa. Independientemente del signo o sentido de la correlación, el grado de asociación entre las
variables consideradas será mayor cuanto más se acerque su coeficiente a 1; será menor cuanto más
cerca de cero se ubique.
En el caso de un estudio de validez concurrente, si este coeficiente es positivo y elevado, estará
indicando que ambas mediciones (criterio y escala) realizadas a una única muestra de sujetos arrojan
resultados similares, por lo que será prácticamente lo mismo medir la variable deseada mediante la prueba o
mediante el criterio. Aquel estudio ha arrojado evidencias de validez empírica o de criterio, de tipo
concurrente. Esta expresión significa que técnica psicométrica y criterio concurren juntos, en un mismo
sentido, arrojando idénticos resultados (o similares). El coeficiente de correlación más usual en este tipo de
estudios es el r de pearson].
- Otra manera posible para examinar la validez de los resultados obtenidos mediante un test es efectuar un
estudio por grupos contrastados. El objetivo consiste en demostrar que las puntuaciones arrojadas
adquieren valores predecibles en función de la pertenencia de los individuos a un grupo dado. Cuando
un criterio determinado ha sido establecido de antemano pueden validarse los resultados aportados por una
escala que evalúe esa variable, de manera que el grupo de
pacientes con tal diagnóstico deberían puntuar
significativamente más alto que otro grupo de no-pacientes,
utilizados en esta hipotética investigación como grupo de
comparación. Si la escala está midiendo correctamente el
constructo que se ha propuesto, debería ser capaz de
discriminar fácilmente quiénes son aquellas personas que
presentan esta clase de pensamientos y quienes no; este tipo
de diseños de investigación contribuye a aportar evidencias

9
Psicométricas

acerca de la validez de constructo de una prueba, aunque también, indirectamente, brinda evidencias de
validez empírica. Si el test me resulta útil para discriminar si el sujeto necesita tratamiento o si no. Usa un
grupo con, por ejemplo, trastorno de ansiedad ya diagnosticados y otros sin. Toma el test a todos, evaluando
sin saber quién está en cada grupo, para ver si los diferencia.

Validez de facies o validez aparente. Se evalúa con estudio piloto.


La validez aparente tiene que ver con que el instrumento resulte válido a los ojos del examinado, ya que si
los materiales, la consigna, el estilo de respuesta o las condiciones propuestas para el examen dejan de
aparecer como serias o adecuadas a su edad o sus características, podría suceder que los sujetos vieran
afectada su actitud de respuesta. Este aspecto es vigilado en el proceso de elaboración y adaptación de las
escalas psicométricas indirectamente en diversos momentos: redacción de ítems, juicio experto,
administración piloto. Si el test aparece como válido a los ojos del sujeto. Si el contenido, el material, etc.,
son adecuados al sujeto. Toman el test a una muestra, preguntándoles qué no entienden, qué les causa
gracia.
- Validez ecológica. Si el test está adaptado a diferentes poblaciones y diferentes contextos.

2.6. Sesgo y error sistemático. El sesgo es un concepto relacionado con el de validez, se define como un
error constante o sistemático como opuesto al aleatorio o azaroso, que impide la medición precisa e
imparcial del constructo a evaluarse. Por acción de este sesgo, la probabilidad de éxito no es independiente
del subgrupo poblacional al que pertenece el examinado. Eso significa que, aunque el instrumento haya sido
estandarizado para un grupo poblacional dado, un subgrupo dentro de ese grupo mayor generará,
probablemente, respuestas atípicas o no exitosas por acción de la pertenencia a ese subgrupo (conectada con la
generación de un error sistemático) y no por otras razones.
Ese error sistemático, dado por cualquier componente inherente a la prueba, se da siempre de la misma
manera y en el mismo sentido toda vez que el instrumento se administra a algún integrante de ese
subgrupo.
Un test que funciona en forma diferencial en un subgrupo de población dado deja de arrojar resultados válidos
para los miembros de ese subgrupo, ya que estas personas obtienen puntuaciones distintas en la medición de
la variable por factores ajenos a ella (por ejemplo, si se mide inteligencia mediante videojuegos, quienes no
tengan acceso a ellos puntuarán más bajo pero por su poca accesibilidad a los juegos y no por ser menos
inteligentes).

Confiabilidad y error de medición.


4.1. Confiabilidad. No solo es importante seleccionar adecuadamente el tipo de puntuaciones que el
instrumento ha de brindar, es necesario también proveer evidencia empírica sobre la calidad de las mismas, lo
cual se lleva a cabo poniendo a prueba la consistencia y precisión de los puntajes (confiabilidad) y
analizando la bondad de dichos puntajes para aportar información pertinente de la variable que se intenta
medir (validez).
Si se acepta la posibilidad de medir en psicología, es necesario asumir dos supuestos: existen puntajes
verdaderos, que reflejan puntualmente la realidad, que miden de un modo exacto, sin error; y siempre que
se realizan mediciones pueden cometerse errores.
La distinción entre un puntaje teorizado, ideal, que llamaremos verdadero, y otro concreto, que
llamaremos obtenido (el que resulta de la aplicación de una técnica psicométrica) es fundamental ya que uno
de los objetivos más importantes de la psicometría es determinar la puntuación verdadera. Esta puntuación se
define como lo que queda de la puntuación observada u obtenida a través de un test, una vez eliminados los
errores de medida. Podemos formalizar este enunciado así: PV (puntaje verdadero obtenido en un test por
un sujeto) = PO (puntaje obtenido a través de una técnica) + (-) e (error posible que se esté cometiendo al
medir). Nunca vamos a conocer el PV por el error de medición. Esa puntuación verdadera se estima, nunca
se conoce. En la mayoría de los instrumentos el error ya está calculado.
En las mediciones indirectas de fenómenos intangibles (como son la mayoría de las que se realizan en
psicología) el puntaje verdadero no puede ser concretamente calculado, por lo que solo puede inferirse
su valor hipotético. Por esto, el objetivo de los estudios que se realizan sobre la precisión de las puntuaciones
obtenidas a través de un instrumento es controlar y calcular el margen de error. La confiabilidad es la

10
Psicométricas

confianza que podemos tener en la medición de un instrumento, en los resultados que brinda el test, al medir
el constructo. Para entender el concepto de confiabilidad, este está atado al error de medición.

4.2. Tipos de error. Se puede dividir las fuentes de error en dos categorías según el tipo de error que generan:
sistemáticos o asistemáticos.
Errores sistemáticos. Las fuentes de error sistemáticos son aquellas que desplazan las puntuaciones
en cierta dirección, generando una puntuación sistemáticamente elevada o baja. Suelen denominarse
también errores constantes. El error sistemático, a pesar de introducir diferencias en el resultado de la
medición, no cambia la variabilidad, la distribución de las puntuaciones de un grupo de sujetos en la
variable que se está evaluando. Los instrumentos que conllevan este tipo de error sistemático sobreestiman (o
subestiman) el atributo evaluado. Los errores sistemáticos pueden ser detectados a través del análisis de la
validez del instrumento.
- Error sistemático de construcción del instrumento. Error relacionado con situaciones de error en la
construcción del instrumento mismo (por ejemplo, si hay una consigna poco clara, o materiales que no son
pertinentes para determinada cultura). Esto es cuando por ejemplo se pregunta mal en los ítems, afecta
respuestas, por lo tanto afecta la validez de los resultados. Son errores de simple detección y simple solución.
El error afecta a todos los que responden.
- Sesgo/error sistemático para un subgrupo poblacional. Entra en la misma categoría que el anterior porque
ambos son sistemáticos, es decir que se produce siempre igual. Afecta a un pequeño grupo de población, por
variables ajenas a la variable evaluada (por ejemplo con materiales que no son culturalmente adaptados a
ellos, generalmente por escasa familiaridad o pertinencia de los materiales). Estos dos errores sistemáticos
afectan la validez.
Errores no sistemáticos. Son aquellos que no tienen posibilidad de ser controlados, impredecibles
o aleatorios, ya que son generados por las variaciones cuya causa es el azar. Los estudios sobre la
confiabilidad se ocupan de los errores asistemáticos. Las fuentes de error pueden haber sido generadas en la
etapa de construcción de la técnica, en la administración, en la puntuación y en la interpretación de los
resultados arrojados por la misma. Las fuentes de error que pueden ocurrir durante la administración de la
técnica son aquellas que tienen cierta influencia en cambios azarosos en la atención o motivación del sujeto
examinado (desgano, ansiedad, experiencias anteriores), las variables relacionadas con las condiciones
ambientales (temperatura, ruido, iluminación), y las variables relacionadas con el examinador (su estilo, su
comportamiento, si implica su subjetividad).
También llamado error de medición. Es un error azaroso, que no siempre afecta las mediciones de la misma
manera, es ineludible, está siempre. No asumirlo como negativo, tengo que saber que está para prevenir
errores. Es la contracara del concepto de confiabilidad. Existen tres fuentes posibles, que producen error
(variables que hacen que el examinado rinda mejor o peor): el examinado, el examinador y el ambiente.
Afecta la confiabilidad.

4.3. Confiabilidad de las puntuaciones. Podemos definir confiabilidad como la consistencia, o mejor, la
coherencia de los puntajes obtenidos por los mismos individuos en distintas ocasiones o con diferentes
conjuntos de ítems equivalentes. Los estudios de la confiabilidad se han desarrollado para responder
interrogantes sobre la precisión de los puntajes obtenidos a través de la aplicación de una técnica
psicométrica.
Hay diferentes tipos o grados de confiabilidad, el coeficiente de confiabilidad informa el grado de
precisión del instrumento.

Coeficiente de correlación. Un coeficiente de correlación expresa el grado de correspondencia, o relación, o


covariación, entre dos conjuntos de puntuaciones. Permite establecer el grado de asociación entre dos
variables (medidas en un nivel de intervalos o de razón). Cuando la correlación entre dos variables es perfecta,
el coeficiente de correlación (r de pearson) es igual a uno (r=1, r=-1). Cuando no existe asociación alguna, es
cero.

El coeficiente de confiabilidad. Se trata de un número que indica en qué medida una técnica es confiable.
El coeficiente es un número cuyo valor mínimo es cero (lo que indicaría la inexistencia de varianza verdadera,

11
Psicométricas

ya que toda es varianza de error), y su valor máximo es igual a uno (lo que indicaría que no hay error, todo es
varianza verdadera).
Cuánto más cercano a uno sea el valor del coeficiente de confiabilidad, más confiable será el
instrumento del cual se obtuvieron las puntuaciones; por el contrario, cuanto más cercano a cero es
dicho coeficiente, menos confiable será el mismo.

4.6. Procedimientos empíricos para estimar el coeficiente de confiabilidad. Tipos de confiabilidad. Si en


dos ocasiones se administra una técnica a un mismo grupo de sujetos, obteniendo de este modo dos conjuntos
de medidas, el instrumento pocas veces proporcionará exactamente el mismo resultado, y esto es debido a la
incidencia de factores aleatorios. El hecho de que las mediciones repetidas a los mismos sujetos no muestren
los mismos resultados revela falta de confiabilidad en el instrumento (error de medición). Las mediciones
repetidas también suelen mostrar consistencias, por lo cual, las consistencias entre la primera y la segunda
medición van a representar la varianza verdadera.
Existen diferentes métodos que permiten calcular empíricamente el coeficiente de confiabilidad, y cada
uno de ellos, de acuerdo a las características del diseño, permite delimitar de manera adecuada algún
aspecto sobre la confiabilidad de los puntajes arrojados por la técnica de medición en cuestión.
A partir de la implementación de estos métodos empíricos, se obtienen coeficientes de confiabilidad, algunos
más sensibles a la consistencia entre los ítems, otros a la estabilidad temporal del puntaje, o a la confiabilidad
del evaluador, entre otras alternativas.

Cada método involucra diferente pasos para hallar el coeficiente de confiabilidad, pero en todos los
procedimientos es necesario disponer de al menos dos conjuntos de medidas paralelas de los mismos
sujetos, para luego calcular entre ellas, el coeficiente de confiabilidad de la técnica.
La correlación de pearson es una medida que indica el grado de relación que existe entre dos conjuntos
de datos, provenientes de dos variables. Cuanto más cercano a uno sea el coeficiente hallado, indicará que
el primer conjunto de medidas es parecido al segundo (que no hubieron errores que modificaran los
resultados); por el contrario, cuanto más cercano a cero sea ese valor, indicará más discrepancia
(presencia de errores) entre las dos mediciones, es decir, menos confiabilidad del instrumento (el error
lo afecta en gran medida). Mientras que el coeficiente de Pearson puede asumir valores entre -1 y +1, el
coeficiente de confiabilidad solo asume valores entre 0 y 1:
Coeficiente de Lectura de la correlación hallada Lectura (interpretación psicométrica) del
correlación r de coeficiente de confiabilidad
Pearson
+1 Correlación positiva perfecta (cuando Nunca alcanza este valor, ninguna técnica
aumenta una, aumenta la otra o cuando arroja puntajes perfectos
una disminuye, disminuye la otra)
+0.90 Correlación positiva muy fuerte Técnica muy confiable
+0.75 Correlación positiva considerable Adecuada
+0.50 Correlación positiva media Regular (no cumple requisitos científicos)
+0.10 Correlación positiva débil Baja confiabilidad
0 No existe correlación alguna entre las Medición contaminada de error, no
variables confiable

Métodos que requieren repetidas aplicaciones, dos aplicaciones del test a una misma muestra. Es
importante que un instrumento arroje mediciones estables en el tiempo. Una forma de estimar la confiabilidad
de un instrumento de medición consiste en usar el mismo instrumento en una muestra de sujetos, en dos
momentos, es decir, con un lapso de tiempo entre ambas administraciones. Con estos métodos se estima el
coeficiente de confiabilidad que permite medir la estabilidad de las puntuaciones obtenidas.
- Test-retest. El objetivo de este método es medir la estabilidad de las puntuaciones sabiendo que
conforme transcurre el tiempo las personas cambian. La fuente de falta de confiabilidad que identifica este
método son las fluctuaciones temporales aleatorias, que influyen tanto en las condiciones de administración
como en las condiciones de los examinados.

12
Psicométricas

Etapas: Aplicar y evaluar la técnica a una muestra de sujetos; lapso de tiempo (justificado según las
características de la variable); aplicar y evaluar la técnica a la misma muestra de sujetos; calcular la
correlación (r) entre las puntuaciones obtenidas en ambas ocasiones; interpretar el coeficiente hallado
(estabilidad temporal de las puntuaciones).
La aplicación de este método implica una clara distinción entre la posibilidad de cambios reales en las
puntuaciones de la variable, esperables desde el punto de vista teórico y aquellos otros cambios, indicados en
las puntuaciones del test, pero debidos a fuentes de error inherentes al instrumento de medición, a su falta de
precisión.
Atiende estabilidad temporal. Mediante la repetición en los mismos sujetos, si la medición en ambas
mediciones es similar, a una muestra de sujetos con un intervalo de tiempo entre la primera toma y la
segunda toma. No se puede hacer esto cuando hay posibilidad de aprendizaje, de memoria, cuando se mide
estado de ánimo que cambia. Se calcula el r de pearson; para decir que el test es confiable en términos de
estabilidad temporal, el r debería ser alto (cercano a 1).
- Formas paralelas o alternativas (con intervalo). La evaluación de la variable no conserva las mismas
características cuando un test es administrado en una segunda oportunidad, ya que las respuestas a algunos
ítems pueden verse afectadas por factores tales como la experiencia previa con los reactivos del instrumento
(aprendizaje y memoria), la falta de novedad, la memoria o la fatiga.
Este procedimiento es utilizado cuando se necesita minimizar el efecto de la memoria del contenido de otra
prueba aplicada con anterioridad. Se procede entonces a elaborar formas equivalentes y se las aplica a los
mismos sujetos en dos oportunidades, con un intervalo de tiempo entre ambas administraciones.
Las formas paralelas deben ser similares en contenido, instrucciones y duración, pero también deben ser
equivalentes, tanto en las medidas y varianzas de las puntuaciones que arrojan como en los anides de
dificultad y discriminación de los ítems.
Este procedimiento controla dos fuentes de confiabilidad, las fluctuaciones temporales aleatorias, y
además la inconsistencia de las respuestas a diferentes muestras de ítems, ya que hay cambios en los
reactivos del instrumento administrado en cada sesión.
Etapas: administrar una forma de test a una muestra de sujetos; lapso de tiempo (justificado); administrar la
forma paralela del test a los mismos sujetos; calcular la correlación (r) entre las puntuaciones obtenidas con
una forma y con la otra; interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y
muestreo de contenido).
Consistencia, estabilidad temporal. Se usa r de pearson, tiene que ser cercano a 1.
Métodos que requieren una sola aplicación a una muestra:
- División por mitades. El que utiliza este método tiene como objetivos el escrutinio de los ítems que
conforman la prueba y el análisis de las relaciones entre ellos. El procedimiento empírico aporta
información para estimar el grado de consistencia interna del instrumento.
Etapas: aplicar la técnica a una muestra de sujetos; dividir el conjunto de ítems en dos mitades homogéneas
(en cuanto a contenido y dificultad); calcular la correlación (r) entre las puntuaciones obtenidas en las dos
mitades en las que ha quedado dividida la técnica; ajustar la confiabilidad de la mitad de la prueba usando la
fórmula de Spearman-Brown; interpretar el coeficiente hallado (consistencia de las respuestas a lo largo del
test).
Existen diversas formas adecuadas para lograr dos mitades homogéneas, una forma aceptable es asignar a
cada ítem, a una mitad o a la otra, al azar. Otra modalidad consiste en dividirlos en números pares e impares,
de modo que los ítems quedan ordenados según su dificultad creciente. O dividir la prueba por contenidos, de
modo que cada mitad del test contenga ítems equivalentes en cuanto al contenido y la dificultad. Las mitades
deben ser similares en cuanto a formato, número de ítems y estadísticos; deben ser homogéneas.
Consistencia interna, homogeneidad. Se usa r de pearson, tiene que ser cercano a 1 (si hace falta, cada
escala dividirla por separado).
- Formas paralelas o alternativas (sin intervalo). No hay lapso de tiempo entre administraciones. Se
aplican ambas formas (que deben ser equivalentes) en la misma sesión, a la misma muestra de sujetos,
una después de la otra. Identifica la presencia de inconsistencias en las respuestas a diferentes muestras
de ítems.
Etapas: aplicar las dos formas a una muestra de sujetos (sin intervalo de tiempo entre ambas); calcular la
correlación (r) entre las puntuaciones obtenidas por la misma muestra en una y otra forma; interpretar el

13
Psicométricas

coeficiente hallado (consistencia de las puntuaciones). Consistencia. Se usa r de pearson, tiene que ser
cercano a 1.
- Coeficiente alfa de Cronbach. Puede ser utilizado en reactivos no dicotómicos (por ejemplo en escalas
Likert). Es en la actualidad el estadístico preferido para obtener una estimación de la confiabilidad de la
consistencia interna (entre los ítems de una técnica).
Etapas: aplicar la técnica a una muestra de sujetos; calcular el coeficiente alfa entre las puntuaciones
obtenidas en los distintos ítems; interpretar el coeficiente hallado.
Consistencia interna. Consistencia, homogeneidad. Que los ítems evalúen cosas parecidas, que haya una
coherencia lógica, que los ítems pregunten cuestiones del mismo tema. Implica una sola aplicación del
instrumento a una muestra. Se correlacionan todas las respuestas de todos los sujetos y se evalúa mediante el
cálculo de un alfa de cronbach. Espero que sea mayor a 0,70.
- Confiabilidad entre evaluadores. Una técnica psicométrica confiable debe arrojar los mismos resultados
independientemente de quien lleve a cabo la evaluación, ya que la medición es estandarizada e implica
uniformidad tanto en las condiciones de administración como en las de evaluación. Este método indica las
fluctuaciones en las puntuaciones según el evaluador.
Etapas: administrar la técnica a una muestra de sujetos; evaluar las técnicas administradas (evaluador A);
evaluar las técnicas administradas (evaluador B); calcular la correlación (r) entre los puntajes asignados por
evaluador A y evaluador B; interpretar el coeficiente hallado.
Consistencia entre evaluadores, criterios de evaluación (Coeficiente de correlación. Más cercano a +1, más
confiabilidad).

4.7. Error típico de medida. El coeficiente de confiabilidad ayuda al autor o adaptador de una técnica a
construir un instrumento de medición adecuado, mientras que al administrador lo ayuda a valorar cuándo una
técnica es adecuada para evaluar una variable de su interés. El error se refiere al componente de la puntuación
obtenida por un sujeto en una técnica psicométrica, que no está en relación con la evaluación del atributo en
cuestión.
Cuanto mayor es el coeficiente de confiabilidad, menor será el error típico de medición.
Niveles de significación e intervalo de confianza. No es posible calcular el error de una determinada
medición (porque no se conoce el valor verdadero), pero calculando el desvío estándar de los errores se
puede conocer la posibilidad de que el error se encuentre entre dos determinados, y calculables, valores.
A estos dos valores, uno por encima del puntaje obtenido y otro por debajo del mismo, con su
correspondiente probabilidad, se los conoce como intervalo de confianza (el intervalo de confianza
permite estimar con una determinada probabilidad entre qué puntajes estaría el valor verdadero). Así, por
ejemplo, obtenido un determinado puntaje producto de una medición, se puede asegurar con el 68% de
certidumbre que el puntaje verdadero estaría entre un desvío estándar de error por encima y uno por debajo de
dicho puntaje. Por ejemplo, si a un niño se la administra un test y obtiene 100 puntos, y la fórmula del error da
que este es 4, con un 68% de certeza, el valor verdadero estaría entre los valores 96 y 104 puntos, ya que estos
toman en cuenta un DE de error por encima y por debajo del puntaje obtenido. De la misma forma, podría
indicarse que si el resultado de la medición fue de 100 puntos, se
puede asegurar con un 95% de certeza, que el valor verdadero
estaría entre los valores 92 y 108, que señalan los dos DE de error
por encima y por debajo del valor medido.
A medida que aumentamos la seguridad, la confianza en la
evaluación, aumenta también el intervalo (distancia entre puntajes mínimo y máximo).
El intervalo de confianza me sirve para tener idea del margen de variación entre el que oscilarían los
puntajes verdaderos de un sujeto. El error siempre existe, el puntaje verdadero se estima, mediante los
intervalos de confianza.

Las puntuaciones de los test.


3.1. Los puntajes brutos.
Numerales y niveles de medición. Los numerales son símbolos numéricos, mientras que el número es la
cantidad que estos símbolos representan.

14
Psicométricas

Mediciones psicológicas. En la ciencia al realizar una medición debe especificarse no solo el valor medido
sino también el error con que este se calcula. Las mediciones pueden clasificarse en directas e indirectas.
Mediciones directas serán aquellas donde el fenómeno a medir pueda observarse a través de los sentidos, se
puede “contar”. El sexo, la edad, la cantidad de palabras que es capaz de recordar son ejemplos. En este tipo
de medidas el error puede no existir, y si existe suele ser sencillo de calcular. En las mediciones indirectas el
fenómeno a medir no puede evaluarse en forma directa sino que se hace necesario el uso de un instrumento
para “materializarlo” y de este modo asignarle números.
Conductas observables  Cuantificación de las conductas observables  Cuantificación de conjuntos
de respuestas  (Puntaje bruto)  Comparación con referencias poblacionales  (Puntaje
transformado)
Desarrollaremos cómo se cuantifican los conjuntos de respuestas obteniendo el PB y cómo se lo valora a
través de los PT y los baremos.

El puntaje bruto. Referiremos como variable psicológica a los fenómenos de interés de la psicología que
tienen variabilidad, que se manifiestan con más de una modalidad, sean estas cualitativas o
cuantitativas. El escalamiento es la posibilidad de convertir o traducir las respuestas brindadas por los
sujetos a una puntuación. Es un conjunto de números asignados unívocamente a una variable
psicológica, y para ser unívocos deben ser exclusivos (que cada una de las modalidades solo pueda ser
representada por un numeral) y exhaustivos (que todas las modalidades posibles tengan asignado un
numeral).
Una vez asignados los numerales a los ítems es deseable operar sobre ellos de forma tal de obtener otros
nuevos que tengan una significación más robusta e isomorfa con la variable que se quiere evaluar. Así, si se
determinó que un conjunto de respuestas están evaluando la misma variable, podríamos por ejemplo sumar los
números que les asignamos a cada una de ellas para obtener un nuevo valor que represente el total del
conjunto. A este nuevo número, que sintetiza y representa la cantidad/cualidad/frecuencia de la variable
y que ha sido resultado de este proceso de medición, se lo denomina puntaje bruto, crudo o directo. El
PB es, entonces, un número que representa una cuantificación de la variable o constructo a medir. Es en
general, el resultado final de la escala de medición.

Valoración del puntaje bruto. El puntaje bruto suele ser poco claro para la evaluación por parte del usuario
de la técnica, ya que si bien cuantifica o cualifica el constructo, por sí mismo no ofrece suficiente
información con respecto a la magnitud de la medida obtenida. Para comprender si el puntaje bruto es
alto, bajo o intermedio se requiere de un sistema de referencia externo, generalmente una comparación con
los valores que comúnmente obtienen los demás sujetos.
Se utilizan valores (frecuencias, media, DE) para contextualizar los PB, obtenidos del conjunto de datos de
una población. Cuando a estos valores se los utiliza para convertir los puntajes brutos en otros, a los
últimos se los conoce como puntajes transformados. Se trata de nuevos números, fruto de la comparación
de los puntajes brutos con referencias poblacionales. Estos números no expresan cuánto de la variable puntuó
el examinado, sino cuánto puntuó en relación a los demás. Tenemos dos puntajes: puntaje bruto y el
puntaje transformado. La mayoría de técnicas tienen ambos, pero no todas (las que solo tienen PB no tienen
baremos o normas, como la entrevista; es para los test de criterio, o para los test normativos, pero en este
caso solo como medio para llegar al PT). El puntaje transformado sirve para comparar sujetos con la
población sociodemográfica igual a él.
A su vez, los puntajes transformados pueden clasificarse en dos grandes tipos: las medidas de posición
(me indican posición del sujeto dentro del grupo normativo, del baremo: percentil y el puntaje prevalente) y
los puntajes estándar (puntajes que me indican distancia a la media: z, t, CI, equivalente).

3.2. Medidas de posición. Lo ideal para establecer comparaciones y valorar el puntaje obtenido por un sujeto
es hacerlo con los puntajes de la población, entendiendo esta como el conjunto de todos los sujetos con los
que se desea comparar al primero. A los valores estadísticos que se obtienen de esos puntajes (mediana,
desvío estándar, etc.) se los llama parámetros. Se recurre para la comparación a subconjuntos de la
población llamados muestras. Una vez que se ha seleccionado la muestra, se administra el instrumento en
cuestión a todos sus integrantes, y se calculan los resultados obtenidos por cada uno de los sujetos. Con ellos

15
Psicométricas

se calculan los estadísticos y se estiman los parámetros. Estos valores son presentados en los manuales para
uso del evaluador, en forma de tablas que permiten la conversión de los puntajes brutos a puntajes
transformados. Dichas tablas reciben el nombre de baremos o normas estadísticas.

Percentil. La mediana es el valor que divide al conjunto de los datos en dos mitades con la misma
cantidad de datos. Se puede calcular también el puntaje que corresponde a la mediana de cada mitad,
quedando dividido en cuatro partes los datos originales, con un 25% de los puntajes en cada una de ellas.
Si se deseara dividir la distribución en 100 partes en cada una de las cuales se encuentre la misma
cantidad de casos, hacen falta 99 valores. Esos puntajes que dividen la distribución en 100 partes con el
1% de los casos en cada una de ellas se denominan percentiles. El percentil expresa qué porcentaje de
mediciones de la muestra tiene por debajo o en el mismo valor cada puntaje bruto.
El percentil es usual por sus ventajas. La primera es ser un valor fácil y claro de interpretar, ya que su
número indica el porcentaje de sujetos de la muestra que obtuvieron el mismo valor o menor en la
variable medida. Otro es que no es difícil hacer un listado de puntajes brutos, asignarle a cada uno el
percentil correspondiente y presentarlo como una tabla, un baremo. (Baremo: puntaje bruto + percentil).
(Con el ejemplo, las personas que obtuvieron 16 puntos habrían “superado en memoria” al 85% de la
muestra).
A veces, el percentil no refleja las variaciones de puntajes. Esto es una limitación de las medidas de
posición en general. Esto, sumado al hecho de no asignar un valor en forma unívoca a cada estado medido,
hace que este tipo de medidas pierdan el carácter de escala. Otra limitación es que difícilmente los
baremos incluyen los 99 valores, por lo que al pasar los puntajes brutos a percentiles se puede producir una
pérdida del rango de amplitud del instrumento.
(Los extremos percentilares no representan el mínimo ni el máximo de la variable que el instrumento puede
evaluar, sino los mínimos y máximos de la comparación con la muestra; el percentil no es un porcentaje, sino
una medida de posición, por lo cual nunca es mayor a 99 (o 100 en caso de la frecuencia acumulada); el rango
percentilar indica el porcentaje de sujetos de la muestra que ha sido superado por el número del percentil, pero
no necesariamente que el complemento a 100 de ese número lo supera. Por ejemplo, un sujeto que sacó un
percentil de 90 ha superado en su puntuación al 90% de la muestra, pero no se puede afirmar que es superado
por el 10%, solo se puede indicar que está entre el 10% de los sujetos que han superado al 90% de la muestra).
PT que no indica distancia a la media, son los puntajes de posición (ubica posición de los sujetos respecto
del grupo, pero no conocemos el valor de la media): el percentil, que se mueve entre 1 y 99. Se simboliza, por
ejemplo, como p1. Significa el porcentaje al que el sujeto supera a la muestra. p99 significa que el sujeto
supera al 99% de los sujetos de la muestra de la población. Entre los parámetros p30 y p70 encontramos las
puntuaciones que están en el medio. Es una medida poco precisa. Por debajo de 30 están los percentiles
inferiores al término medio. Hay pocos cortes (en el medio, inferior o superior). Se sigue usando esta
medición porque es fácil de entender. Bender, DFH, VADS y Raven utilizan percentiles; y el puntaje de
prevalencia, que sus valores se usan mucho para personalidad. Tiene un valor mínimo de cero y un valor
máximo de 100. En el pp 50 se traza una línea imaginaria. Entre 0 y 50, el sujeto no presenta ese rasgo como
principal. Entre 50 y 100 está presente, y cuanto más cercano a 100, más se ve.

3.3. Puntajes estándar. Los puntajes estándar se obtienen mediante un cálculo matemático por el que se logra
comparar el puntaje bruto evaluado en un sujeto con el valor medio y el desvío estándar previamente
calculados en una muestra. Los puntajes transformados, a diferencia de las medidas de posición, mantienen
el aspecto unívoco que caracteriza a las escalas de medición.

Puntaje z. El puntaje z tiene gran difusión en los instrumentos de evaluación psicológica, y se


calcula como (PB – media)/DE.
Cuando el PB obtenido en una medición es igual al valor de la media, z valdrá cero. - Si z es un valor positivo
entonces el PB con el que se calculó es mayor a la media, y si es negativo, dicho PB es menor a la media. – El
número z indica cuán alejado o cercano a la media está un PB en unidades de DE (puntaje z=1, PB ubicado el
valor de un DE por encima de la media, z=-1, PB se corresponde a un valor ubicado un DE por debajo de la
media).

16
Psicométricas

El puntaje z es un puntaje transformado (llamado puntaje estándar) que puede obtenerse a partir de
un PB, cuando se conocen la media y el DE de los puntajes obtenidos previamente en una muestra. Este
puntaje es un número que puede ser positivo o negativo, e indica cuán cercano o lejano al valor
promedio de la muestra está el PB.
Curva normal (Gauss). Inteligencia, memoria, atención, ansiedad, responden a la curva normal. La curva
significa que la mayoría de los sujetos obtuvieron puntajes por el medio. A esta curva normal se la puede
dividir en intervalos, en regiones. En la CN la media está en el medio (es simétrica). (Los puntajes que dan
distancia a la media son más precisos).
Arbitrariamente, se fijó en la media el punto 0 y cada intervalo desviado vale 1 punto (hacia la derecha
tengo +1, hacia la izquierda tengo -1). Desde -1 a +1 hay un rendimiento promedio. En +2 hay
rendimientos superiores a la media. Entre -1 y -2 hay rendimientos inferiores a la media, entre -2 y -3 hay
rendimientos muy inferiores a la media. Este es el puntaje z.
Para el DFH y el VADS, cuanto más puntúa mejor, debajo de -1 es inferior, y arriba de 1 es superior. Para el
Bender, cuantos más errores es peor, debajo de -1 es superior, y arriba de 1 es inferior.
Puntaje t. Si bien el puntaje z, comparado con el PB, aporta ventajas para la interpretación, el hecho
de que sus valores suelan tener decimales y que arrojen puntajes con signo positivo y negativo, complican su
facilidad de lectura.
Para simplificar la interpretación de los puntajes estándar, numerosos instrumentos utilizan variantes del z,
que pueden calcularse con operaciones matemáticas. Todas estas variantes se obtienen sumando una constante
para trasladar el valor medio desde el cero hasta un nuevo valor, y multiplicar la puntuación z por otra
constante que lo eleva. Una de estas alternativas es el puntaje t que se obtiene: T = 50 + [ (PB – media) / DE]
x 10
Z -5 -4 -3 -2 -1 0 1 2 3 4 5
T 0 10 20 30 40 50 60 70 80 90 100
Otro PT que indica distancia a la media es el puntaje t, pero la media se fijó en 50 y el desvío se fijó en 10
(para que no hayan valores negativos). Los puntajes medios están entre 40 y 60.
Puntaje CI. Las escalas Wechsler de inteligencia, para niños y adultos, expresan sus resultados
principales en puntajes transformados, llamados coeficientes intelectuales (CI verbal, CI de ejecución, CI de
escala completa) y puntajes índice (I de comprensión verbal, I de organización perceptual, I de velocidad y
precisión e I de ausencia de distractibilidad).
Todos comparten las mismas características como puntajes transformados, usando una media de 100 puntos
y un DE de 15. Otro PT es el CI, con la misma lógica. Pero la media vale 100 y el desvío vale 15. Los
retrasos intelectuales se ubican por debajo de 70.
Si una persona tiene un CI de 104, poner que la media es 100, el DE es 15, y que entre los valores de 85 y
115 está el término medio, por lo que esa persona está en término medio.
Además, existe otro test de inteligencia, el test Stanford-Binet, que utiliza también puntajes CI. Su media es
de 100, pero su DE es de 16 puntos. Esta técnica, en sus orígenes, solo estaba destinada a niños y utilizaba
un cociente intelectual, es decir que su obtención se calculaba dividiendo la edad mental del sujeto por la
edad cronológica del examinado, y al valor así obtenido se lo multiplicaba por 100.
Puntajes equivalentes. Las escalas Wechsler obtienen sus valores de CI y de puntajes índice de una
combinatoria de puntajes obtenidos a través de los distintos subtest que las componen. Como resultado de la
puntuación de cada subtest se obtienen los correspondientes PB que se han de convertir en un puntaje
transformado que permita su comparación, además de permitir su agrupamiento en los puntajes índice y en
los CI. Cada uno de estos puntajes transformados es también una variante del puntaje z llamado
puntaje equivalente, con una media de 10 puntos y un DE de 3. Un valor por encima de la media en un
desvío, o más, se considera elevado, una fortaleza, mientras que un valor por debajo de lo denomina
debilidad. Otro PT es el puntaje equivalente, se usa al interior de los test de inteligencia (WISC, subtest de
habilidad por habilidad). Media 10; desvío 3; Si en analogías obtuvo un puntaje equivalente de 6, si la media
es 10 y el DE es 3, los valores de término medio están entre 7 y 13, por lo que su rendimiento fue inferior.

3.4. Distribución normal. Si se grafica los datos de las frecuencias, donde en el eje vertical se indique el
valor de la frecuencia y en el horizontal el valor del puntaje, se obtiene un gráfico de distribución de
frecuencias donde la cantidad de frecuencias más elevadas está en la parte central y van disminuyendo hacia

17
Psicométricas

los extremos de los puntajes. Este tipo de distribución de frecuencias es uno de los más comunes. Se llama
distribución de frecuencias normal, o distribución normal. También es llamada curva o campana de Gauss.
El área de los puntajes que está por debajo de un DE representa al 16% de los puntajes, y por arriba de ese DE
se ubica un 84%; El área que se encuentra entre un DE por debajo y un
DE por arriba de la media implica el 68% de los puntajes; El área que se
encuentra entre dos DE por debajo y dos DE por arriba de la media
implica el 95% de los puntajes; El área que se encuentra entre tres DE
por debajo y tres DE por arriba de la media implica el 99% de los
puntajes.

Puntajes de prevalencia. Son propuestos en los instrumentos de Millon. Usan un puntaje que es una
variante que combina la distribución de frecuencias con tasas de prevalencias poblacionales de los constructos
a evaluar. Se usa el término prevalencia para indicar la frecuencia (generalmente relativa y porcentual) que
tiene determinado constructo en una población, es decir qué proporción o porcentaje de sujetos poseen
ese rasgo (o trastorno) en el total de la población.
Los puntajes de prevalencia son sencillos de obtener y tienen como finalidad facilitar la lectura e
interpretación de los perfiles. Se consiguen postulando el rango que tendrán los valores transformados y
un punto de corte a partir del cual se considera que el rasgo está presente. En el MIPS se utiliza un rango
de 0 a 100 y el punto de corte a partir del cual se considera presente el rasgo es 50. Son valores elegidos por
convención. El puntaje de prevalencia es categorial: a partir del valor 50 hacia arriba se dará una medida
de la presencia y por debajo de 49, será una medida de la ausencia del mismo constructo.

Construcción y adaptación de técnicas psicométricas.


5.1. Pasos para la construcción de una técnica psicométrica. Es analizado en dos fases: una primera de
diseño, en donde se delinean los aspectos iniciales y basales del desarrollo del instrumento (1. Definir la
finalidad de la técnica; 2. Marco teórico, definición del constructo; 3. Aspectos de diseño preliminares), y una
segunda de construcción, donde se materializa el instrumento (4. Preparación y análisis de ítems; 5. Estudio
de la calidad psicométrica; 6. Normas; 7. Publicación).
A través de la publicación (habitualmente un manual), el autor de la técnica, en este caso quien ha elaborado
el test psicométrico, brinda, además de la fundamentación teórica del instrumento, la información esencial
necesaria para su aplicación, calificación y evaluación, el número y naturaleza de las personas en las que se
establecieron las normas, así como los métodos utilizados para estudiar la confiabilidad y la validez.

Etapa 1. Definir la finalidad de la técnica. El investigador debe hacerse preguntas vinculadas con la
finalidad del instrumento, como ¿cuál es el objetivo de la prueba? ¿Qué es lo que la prueba medirá de acuerdo
a su diseño? ¿Cuáles son las necesidades de realizarla? ¿Hay otras pruebas que evalúen lo mismo, y qué
ventajas y desventajas tendrá sobre ellas? ¿Quién la usará? ¿A quién se aplicará, cuáles son las características
de la población destino como su rango de edades, nivel cultural? Etc. Definir la finalidad de la técnica
implica identificar las variables a medir y la población a la cual se dirige la evaluación.
Etapa 2. Marco teórico. Definición del constructo. La elaboración de un instrumento científico,
implica la perspectiva de un marco conceptual (marco teórico o corriente psicológica amplia) que
aporta información para la interpretación de las puntuaciones. El atributo psicológico en cuestión no
puede captarse por sí mismo sin la mediación de un proceso intelectivo que de cuenta de su sostén teórico. La
base empírica que toda técnica psicométrica aporta, debe ser interpretada a través de la teoría.
Etapa 3. Aspectos de diseño preliminares. Esta etapa tiene como objetivo especificar a priori las
principales restricciones con las que deberá operar el instrumento. Lo principal a considerar es: El tipo de
test (basados en criterios o en normas), el formato (escala, cuestionario, inventario, entrevista), tipo de
consigna (oral o escrita, explicaciones, necesidad de ejemplos o entrenamientos), tipo de respuesta
(dicotómica, likert, diferencial semántico), características de los sujetos a examinar (edades, nivel de
instrucción, nivel de comprensión lectora, nivel intelectual), modalidad de administración (individual,
colectiva, autoadministrable, interactiva por computadora), tiempo de administración (con o sin tiempo
límite, una única sesión o varias), forma de aplicación (oral o escrita, de lápiz y papel, manipulativo o de
ejecución), tipo de exigencia (velocidad o potencia, grado o dificultad), evaluación (manual o

18
Psicométricas

computarizada). Por otro lado, las decisiones relacionadas con el formato de los ítems, implican una tarea
clave en el proceso de operacionalización del constructo, que comienza a realizarse en esta fase de diseño
pero que se plasma en la práctica en la etapa siguiente.
Diseño: Definición de la finalidad del test (objetivos del instrumento, para qué lo queremos construir):
Análisis del rasgo o atributo (variable psicológica) (los investigadores hacen una búsqueda bibliográfica, es
el análisis racional (marco teórico) y/o empírico (campo). Desde qué modelo evalúa); Aspectos formales (si
va a ser autoadministrable, figuras, preguntas, etc.)
Etapa 4. Preparación y análisis de ítems. A partir de esta etapa comienza la fase de construcción del
instrumento propiamente dicha, es decir que la definición teórica del constructo debe derivar en una
operacional, entendiendo a esta como una definición concreta de la variable psicológica a evaluar, lo cual
implica una revisión de las manifestaciones del constructo susceptibles de ser medidas.
Identificados los indicadores prácticos del constructo a medir a través de las definiciones operacionales, se
hace necesario generar los estímulos que los fomenten, es decir los ítems cuya respuesta sea una
manifestación observable de la variable a medir.
Las tareas pueden ser divididas en por lo menos cuatro momentos, con un orden lógico y no necesariamente
cronológico, por lo que la información obtenida en cualquiera de ellos puede ocasionar un cambio en el plan
original.
- Paso A. Planeamiento y confección de los ítems. La confección de ítems tiene que estar guiada por la
teoría, ya que solo así se podrá elaborar un test con validez de constructo.
La construcción propiamente dicha del test comienza al diseñar un conjunto numeroso de ítems, generalmente
mucho mayor que la longitud prevista de la técnica (los ítems deben recoger información adecuada y
representativa del atributo).
En los casos en que el constructo fuera multidimensional, debe informarse que dimensiones tiene la variable y
que conjuntos de ítems componen cada una de ellas, además de especificar si la técnica arrojará un puntaje
único y/o varios. En el caso de que se ofreciera un puntaje único, producto de la combinación de varios, es
necesario fundamentar como es que se integran los puntajes parciales para lograrlo. Las decisiones sobre la
naturaleza de los materiales estímulo y las posibilidades de respuesta del examinado deben también
fundamentarse y justificarse en virtud de los objetivos de evaluación previamente planteados.
Una vez definidos el tipo de ítem y su formato de respuesta, el especialista procede a generar gran cantidad de
ellos, que es mayor al que finalmente conformará la prueba. La siguiente tarea implica someterlos a un
minucioso análisis crítico o a un sistema de jueces, o a ambos.
Si bien los reactivos fueron desarrollados por expertos y psicómetras, es menester que puedan superar el
examen crítico y pormenorizado sobre su calidad y ajuste por parte de otros jueces, que puedan determinar su
adecuación a la teoría e indicar cuales son los más adecuados y los que deberían desecharse. Si bien una vez
finalizado el instrumento se harán los correspondientes estudios de validez y confiabilidad, la validez
conceptual, de contenido y aparente comienzan a ser evaluadas en este momento. También se deberá agregar
la consigna general y/o particulares, el procedimiento de corrección, los cuales también pasarán por la vista de
los jueces, complementando la estandarización de una primera versión de la técnica que será administrada a
una muestra piloto.
- Paso B. Estudio prepiloto. Se trata de un ensayo, generalmente realizado en pequeños grupos de sujetos
similares a los que está dedicada la técnica, y que tiene como objetivo identificar ítems débiles o defectuosos,
elementos con significado ambiguo, así como estimar la adecuación del lenguaje y las dificultades de
comprensión. Con frecuencia se anexa un cuestionario donde se solicita a los sujetos que realicen comentarios
sobre la técnica en general y sobre el comportamiento de los reactivos en particular. A su vez, los
examinadores a cargo, registran los efectos de las condiciones de administración, los problemas y las
dificultades observadas. El estudio prepiloto permite desechar o corregir los ítems que habían sido
incorporados a la primera versión.
- Paso C. Muestra piloto de sujetos/ítems preseleccionados. Se trata de administrar la versión piloto a la
muestra representativa de la población a la que va dirigida al instrumento, de forma tal de evaluar el
funcionamiento del mismo y obtener un conjunto de resultados concretos que permitan cuantificar y cualificar
las características de los ítems. A partir de esos resultados, se pueden tomar decisiones ya fundamentadas en
la práctica, que incluyen la modificación, inclusión o exclusión de los ítems, modificación de la consigna,
entre otras. El conjunto de procedimientos formales para hallar esta información se conoce como “análisis de

19
Psicométricas

ítems”. Dentro de los índices generales más usuales para el análisis de los ítems se destacan los destinados a
evaluar el poder discriminativo del ítem, y aquellos que describen el grado de relación entre la respuesta al
elemento y algún criterio de interés, sea este interno o externo al propio test (índices de discriminación, de
homogeneidad, de confiabilidad y validez del ítem). Algunas de sus características: Poder discriminativo del
ítem, Sesgo de los ítems (Se considera que un ítem está sesgado cuando arroja puntuaciones
significativamente diferentes en grupos específicos de examinados que, teóricamente, forman parte de la
misma población a la que se va a aplicar el test), Confiabilidad y validez de los ítems (es factible calcular la
confiabilidad y la validez de cada uno de los ítems, aplicando coeficientes de correlación adecuados a las
características de la prueba piloto y de los ítems en cuestión, seleccionándose los elementos con mayor nivel
de calidad), Relación entre los ítems (mediante AF, método que permite determinar el nivel de relación que
existe entre las respuestas a los ítems, y con eso identificar conjuntos de reactivos que tienen algo en común, a
los que se llamarán factores).
En síntesis, las puntuaciones obtenidas en las administraciones realizadas en una o más muestras piloto,
permiten establecer definitivamente cuestiones específicas de la administración (consignas, materiales,
tiempo) y a su vez determinar objetivamente las características de los ítems que pasarán a constituir la versión
definitiva del instrumento.
- Paso D. Versión definitiva de la técnica. Una vez seleccionados los ítems que se consideran idóneos para
la formación del test, se estudian las características de este y se aplican técnicas para su estandarización
definitiva, que incluirá el formato, las consignas, cuales reactivos la compondrían, las normas y los estudios
de calidad psicométrica.
Etapa 5. Estudio de la calidad psicométrica. Las dos cualidades de un instrumento psicométrico en
las que el investigador y el usuario deben interesarse especialmente son la confiabilidad y la validez. Los
constructores de estas técnicas suelen presentar distintos tipos de estudios para dar cuenta de la validez de las
puntuaciones.
Construcción (puesta en práctica de lo diseñado): Preparación de ítems (hay más de los que quedan
finalmente, se sabe que se van a perder en el proceso de construcción. Los ítems se redactan, son sometidos a
juicio experto (control de la validez de contenido), hay un estudio piloto (control de la validez aparente);
Estandarización (que el test sea estándar, que se trabaje siempre de la misma manera, para que las
diferencias tengan que ver con diferencias individuales). Con el instrumento como está, se hace una
administración de tipificación, a una muestra grande de una muestra representativa de la población a la que
está destinado. De ahí se hace un análisis de ítems (discriminación, dificultad). Se hacen los estudios de
validez que faltan y de confiabilidad. Se redactan las normas (baremos o criterios) y los manuales).

5.2. La adaptación de los test. Estudios que deben realizarse para ajustar una prueba original proveniente
de un determinado medio sociocultural y adaptarlo a otro. Cuando un investigador adecua una técnica en
uso desde el punto de vista de su ajuste cultural, realiza una adaptación del test en sentido estricto, mientras
que cuando la actualiza, realiza también una adaptación pero en este caso se denomina revisión. Ambas están
imbricadas, toda adaptación involucra siempre atender las especificidades de una comunidad así como el
carácter cambiante de esta.
Cuando el instrumento no se construye de cero, cuando se traslada culturalmente, se hace lo mismo (solo no
se hace la construcción de ítems de cero, pero sí se los revisa).
Ninguna prueba puede ser aplicada universalmente, cada test tiende a favorecer a las personas de la cultura en
la que se ha creado. Ni en test verbales, ni en test no verbales. Además, si las variables psicológicas resultan
de la combinación de comportamientos importantes dentro de una cultura, ¿para qué eliminar las diferencias
culturales?
Aspectos émicos y éticos. Se denomina éticos a aquellos constructos o aspectos de los mismos, ideas e
instrumentos, que tienen y han demostrado características universales, mientras que los aspectos
denominados émicos son aquellos vinculados o utilizables en solo uno o pocos grupos culturales.
La consideración de este tema no implica juicios valorativos, su objetivo es destacar la importancia de
analizar el grado de universalidad del constructo o instrumento en cuestión y de demostrarlo con datos
empíricos. Así por ejemplo, un constructo como inteligencia tiene un importante valor ético, debido a su
universalidad: en casi todas las culturas existe alguna concepción de la capacidad de los sujetos, pero también

20
Psicométricas

posee alguna valoración distintiva de cada cultura en particular (valor émico). Es necesario crear instrumentos
éticos que midan los conceptos de una forma culturalmente relevante (émicos).

Quien adapta una técnica debe ser un “mediador” entre culturas, y debe considerar detalladamente las
características del instrumento original para adecuarlas a la nueva cultura en cuestión. Marín propone tres
tipos de equivalencias a tomar en cuenta en esta adaptación de un constructo: las equivalencias
conceptuales o de constructo, lingüísticas, y métricas (y agregamos la equivalencia de formato). Las
conceptuales refieren a si el constructo existe en la cultura donde se desea utilizar la técnica en cuestión,
y en tal caso, si la forma de valorarlo es la misma que en la cultura de origen . Esta equivalencia nos lleva
a preguntarnos por la validez cultural del constructo y del instrumento que lo mide, si, por ejemplo, el
comportamiento valorado como inteligente tiene los mismos indicadores en la cultura origen que en la que se
adapta el test (hacen al concepto teórico, que se haya hecho investigaciones que el fenómeno a estudiar es
equivalente en las dos culturas). Las lingüísticas refieren a la redacción de los ítems y consignas, a su
traducción y al empleo de términos que tengan significados iguales o lo más parecidos posible a los
originarios. Está hermanada con la conceptual, porque debe tener en cuenta los giros idiomáticos, la
idiosincrasia, las creencias y los valores puestos en juego en los reactivos. Para realizarla, se suele recurrir a
las traducciones por consenso (varios expertos), a personas bilingües y luego se realizan las pruebas piloto
necesarias para garantizar la correcta equivalencia (hacen a las traducciones, a los modismos regionales,
también a las imágenes). Las métricas refieren al calibrado, tanto al valor con que se pondera cada ítem
(si se debe mantener, cambiar), como a la adecuación de las normas, la revaluación de los estudios de
validez y confiabilidad y la revisión de la cantidad de factores que componen el instrumento, entre otras
posibilidades (confiabilidad, validez, baremos). Las de formato refieren a los aspectos formales del
instrumento que puedan afectar la forma de responder de los sujetos, como ser la utilización del tiempo, el
tipo de formato de las respuestas.
ENTREVISTA. EPED-I. Es un instrumento psicométrico de criterio, no usa baremo.
La entrevista es un encuentro de dos o más personas en un lugar determinado, para tratar de resolver algún
asunto. Es una técnica que servirá en el contexto de un psicodiagnóstico para revelar y relevar datos
acerca del consultante. Es la técnica de mayor aproximación al estudio del comportamiento humano y la más
utilizada ya que facilita obtener datos de una mayor riqueza y amplitud en relación con cualquier otra
técnica de evaluación.
Hay diferentes etapas dentro del proceso psicodiagnóstico: Primer contacto, en forma personal o por
teléfono y la entrevista inicial con el paciente; administración de la batería diagnóstica; devolución de la
información oral al paciente (y/o padres); informe escrito al profesional que lo ha derivado.

Momentos de la entrevista.
Preentrevista. Se inicia con el pedido de consulta y finaliza con la apertura de la entrevista inicial. Se
evalúan los datos que se obtuvieron de la persona antes de contactarse con el entrevistador, es la primera
información que obtenemos acerca del consultante (en relación al derivante y al pedido, los datos
provenientes de nuestra primera impresión). Es personal o telefónico, pero siempre breve. A partir de estos
conocimientos mínimos se elaboraran estrategias para lograr un mejor acercamiento y poder formular
hipótesis sobre la situación que nos servirán para comenzar a trabajar.
Apertura. En el momento del encuentro entre las dos personas se produce un incremento de ansiedad
(que no va a dejar de existir, pero hay que conocer que existe).
- Establecimiento del encuadre. Consiste en el mantenimiento de ciertas constantes durante el proceso, lo
que permite que las variables participantes sean la personalidad del entrevistado y su problemática. Las
variables a ser mantenidas constantes son: ámbito físico donde el proceso formal tendrá lugar, tiempo total
aproximado, duración de cada encuentro, fijación de honorarios, rol del profesional y rol del consultante. Se
conversa en la primera entrevista sobre esto, y sobre los objetivos generales y las diferentes actividades que se
realizarán. - Instalación del rapport. Un buen rapport es el logro de un adecuado clima de trabajo, cálido,
amable y ameno, respetando los estilos personales de ambos. Es el esfuerzo del examinador por despertar el
interés del sujeto, obtener su cooperación y asegurar que sigue las instrucciones tipificadas del test.

21
Psicométricas

Acontecer propiamente dicho. Debe ajustarse a las motivaciones y fines de la entrevista, a los
objetivos específicos de la misma. En esta etapa transcurre la entrevista y el material que se obtenga nos
servirá para acercarnos al futuro trabajo con el paciente.
Cierre. Está condicionado a cómo se haya logrado el objetivo propuesto. En general, dejamos abiertos
algunos temas, para seguir conversando acerca de ellos en futuras entrevistas y para ser pensadas fuera de la
consulta.
Posentrevista. Es el momento de elaboración del material obtenido durante la entrevista. Los
resultados de esta elaboración son devueltos en forma gradual durante las entrevistas siguientes, a la vez que
resultan de fundamental importancia en la elección de las técnicas por ser administradas.

Clasificación. El grado de estructuración de las entrevistas variará de acuerdo con las diferentes
combinaciones posibles de realizar:
Abierta o libre. El entrevistador asume un rol poco participativo, en la cual la consigna es que el
entrevistado exprese lo que quiera, que tenga la libertad de hablar de lo que desee, sin limitarlo.
Cerrada. Las preguntas han sido establecidas con anterioridad, así como el orden y la manera de
plantearlas. El rol del entrevistador es directivo, guiando a través de preguntas al entrevistado para obtener
datos sobre su historia.
Semidirigida. En esta modalidad se alternan secuencias no directivas que permiten que el entrevistado
se exprese libremente y secuencias directivas en las que las intervenciones tienen como finalidad esclarecer
algunos puntos que han quedado confusos o que no fueron referidos por el entrevistado. Este tipo de técnica
se utiliza en la entrevista inicial de todo proceso psicodiagnóstico.
La entrevista con niños. Los niños pequeños se expresan por intermedio de los dibujos, juegos, movimientos
corporales y algunas formas verbales. El juego en los niños puede ser instrumentado tanto para diagnóstico
como en un proceso psicoterapéutico.
El evaluador de niños y adolescentes precisa de una específica preparación y de una experiencia profesional
pluridisciplinar que incluya conocimientos evolutivos, psicopatológicos, de tratamiento, etc., y que debe estar
dotado de una gran sensibilidad diagnóstica para apreciar, en el proceso de evaluación, las variabilidades que
puedan darse vinculadas a factores de edad, socioculturales, fenómenos educativos, situaciones específicas, y
que deban ser interpretadas con valor diagnóstico propio u accidental.
Hay que actuar con prudencia para diferenciar entre el cambio generado por el propio desarrollo, el causado
por variables accidentales, el desencadenado por la acción educativa planificada y el provocado por la
específica acción terapéutica.
Una parte de la información proviene del propio niño (información acerca de sus problemas y autoinformes) y
una mayor parte de información es aportada por los padres o por los educadores, además de la información
obtenida mediante pruebas objetivas.

MINIBATERÍA PSICOEDUCACIONAL KOPPITZ. Apta para niños en edad escolar (6 años a 11 años y
11 meses). Es posible usarla para una investigación epidemiológica o screening, para captar posibles
riesgos en poblaciones grandes en cuanto a variables psicoeducativas (como integración y aprendizaje,
riesgos de disfunción en el aula), o como parte de una evaluación psicoeducacional individual. Los tres
instrumentos son capaces de detectar problemas vinculados a la escolaridad, en la primaria, que dependen
del desarrollo neurológico y de la estimulación ambiental. Da una idea general de cómo está el chico para
atravesar su proceso de aprendizaje.

BENDER. Maduración visomotriz en la infancia y pre-pubertad: el Test Guestáltico Visomotor de Bender.


Indicadores de disfunción neurológica e indicadores emocionales.
El test de Bender consiste en nueve figuras que son presentadas una por vez para ser copiadas por el
sujeto en una hoja en blanco. Wertheimer había usado esos diseños para demostrar los principios de la
psicología de la gestalt en relación con la percepción. Bender adaptó estas figuras y las usó como un test
visomotor. Al hacer esto, aplicó la psicología de la gestalt al estudio de la personalidad y la práctica
clínica. Bender señala que la percepción y la reproducción de las figuras gestálticas está determinada por
principios biológicos de acción sensorio-motriz que varían en función de: el patrón de desarrollo y nivel de
maduración de cada individuo, y su estado patológico funcional u orgánicamente inducido. Se basa en la

22
Psicométricas

teoría gestaltica, porque las figuras son las que usaba Wertheimer para probar las leyes de la gestalt. En la
mayoría de las culturas se aprende a leer y escribir a partir de los 5, 6 años. Para ello se necesitan
configuraciones gestálticas.
La mayoría de los niños pueden copiar los nueve dibujos del Bender sin errores alrededor de los once años.
Bender adopta un encuadre evolutivo al analizar los protocolos infantiles, y efectúa una evaluación
clínica en el caso de protocolos de pacientes adultos.
El protocolo del Bender puede evaluar madurez perceptiva, posible deterioro neurológico y ajuste
emocional. Test de Bender (1938). Evalúa madurez viso-motriz (capacidad de que una persona pueda
percibir el dibujo como un todo, captar visualmente una gestalt y su configuración, y para reproducirla
gráficamente como tal, y poder iniciar y detener una acción a voluntad), ajuste emocional, indicadores de
posible disfunción neurológica. En adultos se evalúa más como test proyectivo (se supone que ya tienen
maduración viso-motriz).
Koppitz intenta distinguir entre distorsiones en el Bender que reflejan inmadurez o disfunción perceptiva, y
aquellas que no están relacionadas con la edad y la percepción sino que reflejan factores emocionales y
actitudes. La estadística dice a qué edad qué error debería haber desaparecido. Si no desaparece, es un
indicador de posible daño neurológico (no sirve en edades tempranas, porque es esperable que cometan
errores madurativos). Hay errores que se repiten y que no son madurativos, son los relacionados con el
ajuste emocional, no dependen de la edad.
El sistema de maduración consiste en 30 ítem de puntaje mutuamente excluyentes, los cuales se computan
como presentes o ausentes. Todos los puntos obtenidos se suman en un puntaje compuesto. Desde que se
computan los errores, un puntaje alto indica un pobre desempeño, en tanto que un puntaje bajo refleja
una buena actuación. Se buscan errores en lugar de aciertos. Buscamos 4 errores: rotación, integración de
la forma, perseveración, distorsión de la forma.
No se puede ni debe efectuar un diagnóstico de lesión cerebral solamente sobre la base del puntaje obtenido,
de una sola desviación en el test, o de un solo rasgo de conducta. Pero si uno toma en cuenta todos estos
factores combinadamente, entonces aumenta la validez de esta prueba como instrumento diagnóstico. Todos
los diagnósticos de lesión cerebral basados en el Bender deben ser considerados como hipótesis que luego hay
que verificar confrontándola con datos de la historia clínica, examen médico y otras pruebas psicológicas.
Tiene validez predictiva (a un año). Se usa el análisis de correlación entre el rendimiento en el bender y las
notas (menos errores en el bender, mejores notas). Utiliza percentil.

DFH. La maduración conceptual en la infancia y pubertad: el T est del Dibujo de la Figura Humana .
Indicadores madurativos según Goodenough y Harris. Indicadores de disfunción neurológica e indicadores
emocionales según Koppitz.
Dibujo de la figura humana. Técnica de screening que se toma en niños de edad escolar. Evalúa madurez
conceptual (se relaciona con la madurez intelectual), posible daño neurológico y ajuste emocional. Es útil
para el aprendizaje escolar.
Busca aciertos, cuántos detalles tiene el dibujo. A mayor puntaje, mayor madurez conceptual (capacidad de
abstraer y generalizar conceptos). Utiliza percentiles.
Hay un enfoque psicométrico (evolución, maduración conceptual, capacidad creciente, de formulas
conceptos concretos a abstractos) y un enfoque proyectivo (clínico en adultos).
También evalúa indicadores emocionales. En este caso, algunos ítems dependen de la edad, lo madurativo, y
otros no. Los ítems nos van a indicar las ansiedades, los miedos, las actitudes, las preocupaciones. Para que
un signo emocional esté presente tiene que cumplir tres criterios: validez clínica (que el ítem esté presente en
chicos con problemas emocionales y no esté presente en chicos sin desajuste emocional), que sea inusual o
raro (hay una reducida frecuencia de aparición en los niños normales), y que no esté relacionado con la
edad ni la maduración (que la frecuencia de ocurrencia no vaya apareciendo con la edad).
También da indicadores de posible disfunción neurológica. Si hay detalles que a x edad deberían aparecer y
no aparecen.
La figura del examinador ejerce una mínima influencia, el entrenamiento artístico, lo escolar y lo emocional
tampoco generan diferencias significativas.

VADS. Escala visual y auditiva de dígitos. La memoria de corto plazo y el procesamiento de la información.

23
Psicométricas

Koppitz elaboró el VADS, compuesto de 26 tarjetas impresas con dígitos. Nos da 11 puntajes,
incluyendo evaluaciones del proceso auditivo y visual, así como memoria auditiva y visual, integración
intersensorial e intrasensorial. Los cuatros subtests del VADS son:
1) auditivo-oral (A-O): se nombran oralmente los dígitos y se pide su repetición oral. Evalúa integración
auditiva, conservación de una secuencia y su evocación.
2) visual-oral (V-O): se muestran los dígitos y se pide su repetición oral. Evalúa integración visual-oral-
memoria.
3) auditivo-gráfico (A-G): se nombran oralmente los dígitos y se pide su reproducción gráfica. Evalúa la
capacidad de procesar, establecer una secuencia y evocar estímulos auditivos y trasladarlos a símbolos
escritos.
4) visual-gráfico (V-G): se muestran las tarjetas y se pide su reproducción gráfica. Evalúa integración
intrasensorial entre percepciones visuales y expresión gráfica.
Evalúa procesamiento de la información en tareas de memoria inmediata (corto plazo) con estímulo
auditivo y visual y respuesta oral y gráfica, integración intra e intersensorial, disfunciones visuales o
auditivas severas, estrategias y habilidades cognitivas necesarias para el aprendizaje escolar.
Técnica de screening para saber si el niño tiene alguna dificultad o no en el aprendizaje. Para chicos entre
5 años y medio y 12 años.
El modelo teórico que subyace es la teoría del procesamiento de la información.
Se usan dígitos porque las palabras pueden estar unidas a significaciones personales.
Cómo trabaja el chico en tareas de memoria inmediata (el estímulo se quita). Es la memoria que usa
cotidianamente y sobre todo en la escuela (como copiar del pizarrón).
Se suele usar en primer grado para tener un pantallazo de cómo está el chico en procesamiento de estímulos
y memoria de corto plazo por ejemplo.
Utiliza percentil (No tienen media ni desvío, entre los parámetros 30 y 70 está el término medio). Para los
tres antes se usaba el puntaje z.

INTELIGENCIA. Teorías de la inteligencia y las aptitudes.


Definiciones de inteligencia. Hay desacuerdo entre los distintos autores y corrientes de la definición de
inteligencia. Vernon pensó que era necesario identificar tres amplios grupos de definiciones: las biológicas,
que consideran que la inteligencia se relaciona con la adaptación al ambiente (ponen el acento en la
adaptación del organismo al ambiente, por ejemplo Piaget con la adaptación y asimilación, lo que traemos
los humanos al momento del nacimiento); las psicológicas, que representan el enfoque cuantitativo o
psicométrico, donde el énfasis se encuentra en la medición de la inteligencia para comparar y diferenciar
entre individuos (cómo podemos hacer para diferenciar qué tiene de peculiar cada ser humano en el uso de
su inteligencia respecto del otro, diferencias individuales); y la operacional, que define a la inteligencia en
términos de las pruebas diseñadas para medirla (definen inteligencia como aquello que los test miden, porque
a partir de 1905 empiezan a aparecer los primeros test en el mundo, que se diseñan por necesidades
prácticas de la escuela y el ejército, no sabe qué mide los test de inteligencia, no hay fundamentación teórica
(se empieza a construir teoría para fundamentar los instrumentos existentes a partir de 1923)).

Las teorías de la inteligencia se basan en los análisis de puntuaciones de un gran número de individuos,
en diversas pruebas de inteligencia, a través del uso de una técnica estadística denominada análisis
factorial. El AF implica la correlación de las puntuaciones de una gran muestra de sujetos para determinar si
las puntuaciones en ciertas pruebas se relacionan con las de otras. Entre más parecidas son las puntuaciones
en dos o más pruebas (mayor sea la correlación) más probable será que estas pruebas detecten la misma
capacidad básica (o factor). Dentro de la corriente de teorías psicológicas encontramos dos enfoque
factoriales (utilizan el diseño factorial como técnica de análisis de datos). Si se encuentra que las
puntuaciones de las personas en x cantidad de pruebas se correlacionan en gran medida, entonces se puede
inferir que las x pruebas miden la misma capacidad y que los individuos defieren de acuerdo con qué tanto o
qué tan poco tienen de esa capacidad en particular. Sin embargo, si existe poca relación entre las puntuaciones
de las x pruebas, entonces cada una de ellas puede estar midiendo una capacidad diferente y cuando se
compara a los individuos se debe analizar cada capacidad por separado.

24
Psicométricas

Estos dos resultados hipotéticos corresponden a dos teorías de la inteligencia, la primera de las cuales se
denomina “línea de Londres” y se asocia con Spearman, Burt y Vernon, en contraste con el enfoque
estadounidense de Thurstone y Guilford.

Línea londinense/inglesa. Es más antigua en el tiempo. Acepta el concepto de inteligencia desde lo


teórico y empírico.
- Teoría de los dos factores de Spearman. Mediante un estudio con AF concluyó que toda actividad
intelectual incluye tanto un factor general (g) y un factor específico, y que las diferencias entre individuos
se pueden atribuir en gran medida a las diferencias en su g (que es innata).
Teoría bifactorial o ecléptica de los dos factores. Usa el AF como método de estudio intentando armar un
cuerpo teórico unificando representantes de todo lo que había hasta ese momento. Bifactorial porque
empieza hablando de dos factores (después agrega un tercero). Son el factor general de inteligencia (factor
g), los factores específicos (e/s) y los factores no intelectuales.
Factor g: energía mental que permite que nuestra inteligencia funcione. Es constante
intraindividualmente, y variable interindividualmente (cada uno tiene distintas proporciones de g, pero se
mantiene siempre igual dentro de cada persona). La manera de medirlo es a través de habilidades
específicas (no se puede medir directamente). Es único, es un factor g. Habla de una inteligencia en general.
Adentro del factor g hay dos capacidades: la capacidad reproductiva (capacidad de reproducir
conocimientos que adquirimos, capacidad de traer a la CC algún aprendizaje previo. Tiene que ver con la
memoria a corto y largo plazo y con el procesamiento de información), y la capacidad eductiva (capacidad
para inferir relaciones entre ítems de información. Una vez que captó la relación para él, la tendencia
automática es intentar establecer un ítem correlativo. Nos permite cualquier tipo de razonamiento abstracto).
Estas dos se separan con fines teóricos, pero en la práctica están conectadas, trabajando en interjuego
(puede haber actividades principalmente de una u otra, o mitad y mitad).
Factor e: son múltiples, no hay uno solo. Son variables intra e inter individualmente (hay distintos factores
e que el compañero y en distinto grado, y al interior de uno también son variables). Los factores e son las
habilidades (pequeñas tareas) específicas que componen la inteligencia (habilidades/ aptitudes/
capacidades). Las habilidades son potencialmente infinitas y dependen del ambiente (biológico) y del
interjuego con g (interjuego con el ambiente, donde se haya recibido mayor estimulación). Podemos evaluar
estas habilidades en los test de inteligencia. Por ejemplo el WISC (múltiples subtest que implican
determinadas habilidades. El g estaría representado por el CI de escala completa).
Factor no intelectual de la inteligencia: uno rinde mejor en aquellas actividades que más le gustan, en las
que fue más estimulado en su historia personal, en las que nos cansamos menos, etc . Son infinitos, son
cualquier cuestión no intelectual que afecte el rendimiento intelectual (lo afectivo, emocional, físico,
gustos, intereses).
Los test de Binet y de Wechsler son test de inteligencia general, posicionados en este modelo.

TEST DE MATRICES PROGRESIVAS DE RAVEN. El test de matrices progresivas, escala general


mide la capacidad eductiva. La capacidad eductiva ha sido caracterizada como parte esencial de las
habilidades cognitivas de los seres humanos y se define como la aptitud para establecer relaciones y
formular correlatos, a partir de ítems de información; tales relaciones no aparecen como inmediatamente
evidentes ante los ojos de quien observa y deben ser extraídas partiendo desde una organización mental del
material que el sujeto está obligado a realizar como paso previo. La educción se vincula con la capacidad
intelectual para la comparación de formas y con el razonamiento analógico, con una total independencia
respecto de los conocimientos adquiridos. La contrapartida, aunque complementaria de la capacidad
eductiva, es la capacidad reproductiva, caracterizada como la habilidad para apelar a los conocimientos
acumulados, más vinculada con la memoria de largo plazo, al enciclopedismo y a las habilidades académicas
que clásicamente se fomentan en las instituciones educativas.
Comparada con otros conceptos relacionados, la educción muestra un estrecho parentesco con la
inteligencia fluida, en tanto que la capacidad reproductiva parece aproximarse a la inteligencia
cristalizada. Cattell teorizó sobre la inteligencia fluida y cristalizada en los siguientes términos: un factor g
incluía la actividad en la que el juicio se vuelve cristalizado, como el vocabulario, la habilidad numérica,
mientras que un segundo factor g para la aptitud fluida incluía series y analogías.

25
Psicométricas

La habilidad fluida puede medirse por medio de reactivos no verbales que, por ende, se hallan menos
impregnados de influencias y significados culturales. Por esto, el test de matrices es un test de reducida
influencia cultural.
En función de sus características psicométricas formales, se define como un test normativo, de administración
individual o colectiva, y por ello, autoadministrable, de elección múltiple y sin tiempo límite en su versión
original. Consiste en 60 problemas repartidos en cinco series de 12 elementos cada una. Cada ítem incluye
un estímulo geométrico gestáltico-lacunario con 6 u 8 opciones de respuesta, donde solo una es
completamente correcta.
El test de matrices progresivas de Raven intenta medir la capacidad eductiva (si bien no la puede medir de
forma pura) (lo mismo que la inteligencia fluida, poder abstraer y captar relaciones entre objetos, lógica,
flexibilidad). Se diferencia de la capacidad reproductiva (inteligencia verbal, cristalizada). El estímulo es
una gestalt, una totalidad organizada de una configuración visual, que tiene un objeto. Uno tiene que captar
las leyes de esta gestalt eductivamente y luego de haber establecido las relaciones de esta gestalt, tratar de
emitir el ítem correlativo. Intenta aproximarse al factor g, se infiere, no se puede ver.
Escala coloreada: niños hasta 11 años, ancianos y sujetos con sospecha de retraso mental.
Escala general: personas entre 12 y 65 años.
Escala avanzada: cuando hay sospecha de talento (en inteligencia fluida).

PRUEBA STANFORD-BINET. El gobierno francés comisionó a Binet para diseñar una prueba que pudiera
identificar aquellos niños que no se beneficiarían de la escolaridad habitual debido a su inteligencia inferior.
Introduce la noción de CI. Se le pide que invente una manera de conocer la inteligencia de los niños al entrar
en la primaria en Francia. Buscaban agrupar a los chicos según un mismo nivel de inteligencia para que los
docentes pudieran seguir un ritmo de aprendizaje sin perjudicar a nadie. Propósitos prácticos y sin teoría de
base. Crea el primer test de inteligencia para niños.
La prueba Stanford-Binet se basa en la suposición de que la capacidad mental va de acuerdo con el
desarrollo, es decir, incrementa con la edad a través de la infancia y por tanto consiste de varias escalas
relacionadas con la edad.
El concepto de edad mental es útil en cuanto a que proporciona una evaluación absoluta del nivel de
desarrollo intelectual del niño, pero en sí mismo no dice nada acerca de qué tan brillante, promedio o torpe es
el niño; para establecer esto se debe comparar la edad mental del niño con su edad cronológica. Por esto
Stern introdujo el concepto de cociente de inteligencia, en el cual la edad mental se expresa como una
razón de la edad cronológica multiplicada por 100 para producir un número completo. El primer CI fue un
CI de razón, de manera que, donde la EM y la EC son las mismas, el CI es 100 (es el promedio).
De esto se debe pensar que para que el CI permanezca estable a través del tiempo, la EM debe incrementar al
mismo paso que la EC. Sin embargo, el concepto de EM no se aplica más allá de los 18 años, dado que la
capacidad mental en general se desarrolla hasta ese momento.
Piensa la inteligencia como una agrupación de distintas habilidades. Cada ítem valía un mes. Los meses
acumulados eran su puntaje. Este concepto era la edad mental. Binet hacía una división, un cociente entre la
edad mental y la edad cronológica. Si ambos coinciden, el cociente va a dar 100, si la edad mental es mayor
a la cronológica, va a ser más de 100, va a rendir más de lo que se espera para su edad. Suponía que la
edad mental y la cronológica aumentaban al mismo ritmo, lo que es falso.

WISC Y WAIS. Otra figura importante en las pruebas de inteligencia es Wechsler, quien desarrolló la
prueba de inteligencia adulta más utilizada, la Wecshler Adult Intelligence Scale (WAIS). También construyó
la Wechsler Intelligence Scale for Children (WISC), para niños.
Las pruebas Wechsler no utilizan el concepto de EM y en su lugar utilizan un CI de desviación que expresa
el resultado de la prueba como una puntuación estándar, es decir, le expresa al examinador a qué tantas
desviaciones estándar se encuentra la puntuación del examinado por arriba o por debajo de su grupo de edad.
La inteligencia puede manifestarse de muchas formas, por eso Wechsler la concibe como una entidad
compleja y global, como la capacidad del individuo de actuar deliberadamente, pensar racionalmente y
relacionarse eficazmente con su medio. La capacidad intelectual es solo un aspecto de la inteligencia.

26
Psicométricas

EL WISC es un instrumento de administración individual para evaluar la capacidad intelectual de


niños de 6 años a 16 años y 11 meses de edad. Consta de varios subtests, cada uno de los cuales mide
una faceta (capacidades, habilidades) diferente de la inteligencia.
Los subtests están organizados en dos grupos: los subtests verbales y los perceptuales-motores o de
ejecución. Se administran alternadamente a fin de ayudar a mantener el interés del niño durante el examen. El
desempeño del niño en estos diversos subtests arroja tres puntajes compuestos. La suma de los puntajes
transformados en los subtests verbales da el puntaje de CI verbal, y la suma de los puntajes transformados de
los subtests de ejecución da el puntaje de CI de ejecución. Los puntajes de los subtests verbales y de
ejecución se combinan para producir el puntaje de CI de la escala completa. El desempeño del niño se
resume en estos tres puntajes compuestos, que proveen estimaciones de la capacidad intelectual del
individuo.
Además pueden calcularse cuatro puntajes índice: comprensión verbal (ICV), organización perceptual
(IOP), ausencia de distractibilidad (IAD), velocidad de procesamiento (IVP). Al igual que el CI, tienen
una media de 100 y una DE de 15.
Las escalas Wechsler están destinadas a medir las dimensiones tanto globales (factor g o inteligencia general)
como específicas.
Wechsler. 1939. Impone su versión del coeficiente intelectual. Expresar la posición del sujeto en cuanto a
su rendimiento intelectual en relación con la curva normal (población de chicos de la misma edad). Media
de 100 para mantener la tradición de Binet, desvío establecido en 15. Entre 85 y 115 está la inteligencia
promedio (para diagnosticar un retraso intelectual tiene que puntuar menos de 70, y además tiene que haber
un criterio de invalidación de la vida cotidiana). Escala verbal (inteligencia verbal del sujeto, capacidad
para manipular signos y símbolos, inteligencia cristalizada) y escala de ejecución (capacidad del sujeto para
manipular objetos concretos, inteligencia fluida). Está separado en la teoría, en la práctica todo se
entremezcla, hay interrelación entre ambos. Está también la escala social, aunque no le da un coeficiente
intelectual.
WISC evalúa capacidad intelectual (o inteligencia, verbal y de ejecución) de niños de entre 6 años a 16 años
y 11 meses. Vamos a obtener un CI de la escala verbal, un CI de la escala de ejecución y un CI de la escala
completa, y 4 puntajes índices, con la administración de 13 subtest. (El test recibe la crítica de estar muy
arraigado a la cultura occidental).
El WAIS es la versión de adultos (a partir de 17 años).

Línea estadounidense/americana. Es más contemporánea (desde 1938). Se opone al concepto de


inteligencia desde el punto de vista teórico, habla de habilidades, aptitudes. No hablan de inteligencia
porque cada uno tiene distintas habilidades, que son diferentes de los otros. Habilidades independientes unas
de otras.
- Habilidades primarias de Thurstone. Encontró que no todas las pruebas mentales se correlacionaban de
igual manera sino que parecían formar siete factores o agrupamientos distintos que denominó habilidades
mentales primarias. Consideraba a g como un gran promedio de correlaciones positivas para una batería
particular de pruebas, o sea que cambia de acuerdo a la batería que se utilice. Las habilidades mentales son
independientes y no se correlacionan. De la misma manera que no existe una capacidad general. Thurstone
crea test de habilidades, por ejemplo el TAD (test de aptitudes diferenciales), que tiene 7 test, cada uno con
su puntuación, y no hay puntaje total (como sí en el WISC). Interesa el rendimiento de cada test por
separado.
- Modelo de la “estructura del intelecto” de Guilford. Rechaza por completo la noción de un factor general
de inteligencia. Clasificó a la tarea cognoscitiva a lo largo de tres dimensiones principales: contenido,
operaciones y productos. Identificó cuatro tipos de contenido, cinco de operaciones y seis de productos que,
multiplicados juntos, rinden un total de 120 capacidades mentales distintas. Guilford dice que las
habilidades pueden entenderse en términos de contenido, da 120 tipos de habilidades.

Modelos alternativos de la inteligencia a escuela inglesa (inteligencia) vs. escuela americana


(habilidades):
- Cattell y Horn afirman que el factor g se puede subdividir en dos dimensiones principales: inteligencia
fluida y cristalizada. La inteligencia fluida es la capacidad para resolver problemas abstractos de relación,

27
Psicométricas

del tipo que no se enseña, esencialmente no verbal y que está relativamente libre de influencias culturales.
Involucra la capacidad de solucionar problemas que requieren adaptación y flexibilidad al enfrentarse con
estímulos novedosos con los que el sujeto no está familiarizado. Los subtests de ejecución mantienen una
correspondencia con las capacidades fluidas. Inteligencia fluida (equivalente a CI de ejecución. Relacionado
con cuestiones no verbales, hay relativa independencia de la cultura. Relacionado con la flexibilidad y la
adaptabilidad de los sujetos, con la creatividad, con la capacidad de solucionar problemas. Independencia
del campo). Es equivalente descriptivamente a la capacidad eductiva, es la capacidad para establecer
relaciones, capacidad de abstracción.
La inteligencia cristalizada incrementa a través del ciclo vital y es un reflejo de la experiencia acumulativa de
aprendizaje del individuo. Implica la comprensión de las relaciones o la solución de problemas que dependen
del conocimiento que se adquiere como resultado de la escolaridad y otras experiencias vitales. Está
relacionada con las habilidades y el conocimiento adquiridos, cuyo desarrollo depende en gran medida de la
exposición a la cultura. Incluye funciones cognoscitivas sobreaprendidas y bien establecidas. Se refiere al
funcionamiento intelectual en tareas que dependen del entrenamiento previo, el tipo de educación recibida y el
nivel cultural en general. Los subtests verbales mantienen una correspondencia con las capacidades
cristalizadas. Inteligencia cristalizada (CI verbal, relacionado con habilidades y conocimientos ya
adquiridos, en relación a lo cultural, y al tipo de educación recibida. Dependencia del campo). Misma
descripción que la capacidad reproductiva.
Las personas independientes del campo logran percibir parte de un campo como separado del resto del
contexto, en lugar de percibirlo sumergido en él. Estas personas se caracterizan por ser flexibles en
situaciones que requieren solucionar problemas, tienden a imponer una estructura cuando se relacionan con
materiales perceptuales y verbales desorganizados, tienen una orientación impersonal, están interesados en lo
abstracto y teórico y utilizan la intelectualización como mecanismo de defensa especializado. Funcionan de
manera más autónoma con respecto a los otros que las personas dependientes del campo. Los niños con un
estilo independiente del campo tienen mayor facilidad para la lectura y la aritmética.
Dependientes del campo son aquellas personas que fracasan en las tareas antes mencionadas, porque el
campo ejerce un poder muy grande sobre la posibilidad de percibir sus componentes. Estas personas tienen
mayor sensibilidad a los aspectos sociales de su entorno, tienden a manejarse dentro de los parámetros
sociales, no estructuran los estímulos espontáneamente sino que los dejan como están, se sienten atraídas por
la gente y les gusta estar con otros, son más exitosos socialmente, tienen un concepto corporal global más que
diferenciado y utilizan como mecanismo de defensa predominante la represión.
- La teoría triárquica de la inteligencia humana de Sternberg. Tiene un enfoque desde el procesamiento
de información. Inteligencia exitosa. Inteligencia que nos da resultado tener en la vida cotidiana. Podemos
hablar de tres tipos de inteligencia: analítica (corresponde al grupo de habilidades que permiten que el ser
humano establezca relaciones entre conceptos (fluida) y a partir de ahí pueda construir nuevos
conocimientos, trayendo conocimientos viejos (cristalizada), hay un interjuego entre la inteligencia fluida y
la cristalizada, habilidades que se fomentan en la cultura occidental, se evalúa en los test tradicionales, es lo
que la sociedad pretende de los individuos que educa); inteligencia práctica (capacidad de resolver
problemas en la vida cotidiana); inteligencia creativa (la utilizamos ocasionalmente cuando creamos
soluciones novedosas). Estas dos últimas no se evalúan en los test de inteligencia, por eso critica los test,
porque solo evalúan la parte analítica, olvidando lo pragmático y lo creativo.
- Gardner propuso su teoría de las inteligencias múltiples. Se basa en tres principios fundamentales: la
inteligencia no es una sola cosa, una unidad, sino un conjunto de inteligencias múltiples, cada una de las
cuales es un sistema por derecho propio (en oposición de “la inteligencia”); cada inteligencia es independiente
de todas las otras; y las inteligencias interactúan. Gardner (80) habló de las inteligencias múltiples, de siete
inteligencias (lingüística, lógico-matemática, espacial, corporal-cinética, musical, interpersonal,
intrapersonal). Cada persona posee las 7 inteligencias. Que las inteligencias se desarrollen o no, depende de
3 factores: dotación biológica, historia de vida personal y antecedentes culturales e históricos. Se busca la
misma crítica que Sternberg, en un informe hay que ser preciso en cuanto a qué habilidad o qué porción de
la inteligencia evaluamos.
PERSONALIDAD. ¿De qué manera difieren las teorías de personalidad? Una definición de la personalidad
podría ser: aquellos aspectos relativamente estables y duraderos de los individuos que los distinguen de otras
personas y que los hacen únicos, pero que al mismo tiempo permiten una comparación entre individuos.

28
Psicométricas

Dos enfoques principales de la evaluación de la personalidad:


- Enfoque nomotético: descripción de la personalidad comparando a los sujetos con las mismas
características sociográficas (captar diferencias individuales, técnicas psicométricas). La personalidad
consiste de rasgos o características permanentes. Estos psicólogos se interesan en la personalidad en
general y pertenecen a la tradición psicométrica y se conocen como teóricos de tipos y rasgos. Se preocupan
por identificar patrones, estilos o pautas comunes en las personas que fueran la razón de determinados estilos
de comportamiento, intentan aislar un conjunto de rasgos o dimensiones que diferenciaban a los individuos.
Hacen gran uso de los cuestionarios de personalidad y los resultados de estos se analizan mediante la técnica
estadística de AF. Al tratar de establecer factores en términos de los cuales se pueda comparar a todas las
personas, adoptan un enfoque nomotético y las principales figuras son Eysenck y Cattell. El estudio de
cómo y cuánto de un individuo en particular es parecido o difiere de los demás, es lo que constituye al
enfoque analítico factorial/psicométrico/enfoque nomotético.
- Enfoque ideográfico: captar descriptivamente de lo que caracteriza a una persona, descripción exhaustiva
de rasgos de personalidad (descripción al interior del sujeto, técnicas proyectivas). Los que piensan que la
personalidad es el estudio de individuos únicos de cada individuo, representan el enfoque ideográfico.
Aquello que no se tiene en común con ningún otro individuo es lo que hace que las personas sean únicas y
esta es una expresión del enfoque ideográfico que intenta descubrir las “normas idiosincrásicas”. Las líneas
más clásicas consideraban a la personalidad única e irrepetible y basaban sus conclusiones en el estudio
intensivo de pocos sujetos. El propósito era entender las causas del funcionamiento psicológico de una
persona en determinada situación. Este concepto está relacionado con la personalidad como psicología de lo
individual, de lo singular y no puede ser entendido por leyes generales.
Cubriendo los dos enfoques, también contamos con las entrevistas (también con informantes claves del
sujeto) y la observación del sujeto mientras hace la evaluación.

Clasificación de los instrumentos psicométricos de evaluación de variables de la personalidad (hay


variables independientes para cada variable de la personalidad):
Clasificación metodológica: proyectivos vs. Psicométricos.
- Los métodos proyectivos se basan en los postulados psicoanalíticos, valiéndose del mecanismo defensivo de
la proyección que, utilizado en combinación con estímulos y consignas poco estructurados, supone una
respuesta que se asume como indicador de la dinámica de la personalidad profunda.
- Los métodos psicométricos para evaluar la personalidad se distinguen porque pueden basarse en diversos
modelos, además de ser altamente estructurados, con respuestas cerradas y preestablecidas. Se ha aceptado
que no es posible trabajar con indicadores de la personalidad objetiva del examinado, sino con autoinformes
sobre su personalidad percibida. Esto significa por un lado, que es el propio sujeto quien responde sobre
cómo él mismo cree que es o se comporta habitualmente, antes que sobre cómo realmente es o se conduce.
Estos autoinformes pueden adquirir un formato de inventarios, cuestionarios o checklists. Los checklists son
listados de adjetivos que, según el evaluado, definen su personalidad, su estilo o sus comportamientos
habituales, preferencias, o síntomas, entre otras posibilidades, y que también prevén una respuesta cerrada.
Formatos de inventarios (listados de comportamientos, intereses, hábitos, costumbres, gustos, síntomas,
malestares, de una persona. Se componen de afirmaciones. Respuestas con verdadero-falso o escala lickert
(frecuencia)), cuestionarios (listados, pero en lugar de presentar afirmaciones, presenta preguntas) y
checklist (listados de adjetivos sueltos, se responde con qué precisión lo describe cada adjetivo). Como puede
advertirse, en virtud del carácter estructurado de la tarea planteada, las respuestas pueden ser dicotómicas o
politómicas –dos alternativas o más-, pero nunca abiertas.
Clasificación según base de diseño, según diseño del instrumento (construcción y validación). Según
la manera en que los diseñadores de un instrumento hayan generado ideas para redactar los ítems que
suponen indicadores del constructo evaluado, es frecuente dividirlos en basados en un diseño racional o
en uno empírico.
- El diseño racional, o teórico, encuentra su apoyo en la literatura científica disponible, redactándose
entonces el contenido de los ítems a partir de determinadas propuestas teóricas vinculadas a cierto
modelo que intente explicar la personalidad humana, complementariamente integradas con hallazgos recientes
en relación a la puesta a prueba de tales postulados mediante investigaciones debidamente documentadas en
publicaciones de actualización científica en el área, avaladas en metodologías precisas y actualizadas.

29
Psicométricas

Se trata de modelos teóricos explicativos de la personalidad. Dentro de este enfoque se destaca el modelo
de Millon que propone un continuo entre la personalidad normal y la patológica. Millon propone que la
personalidad puede representarse mediante tres dimensiones en su segundo modelo. Estas dimensiones
(actividad/pasividad; fuente de refuerzo instrumental y placer/dolor) dan lugar a tipos básicos de
personalidad, también llamados prototipos o estilos. Los prototipos son teóricos y difícilmente pueda
ubicarse a una persona en un prototipo. Los estilos de personalidad son el resultado de disposiciones
biológicas que traen los sujetos, en combinación con experiencias de aprendizaje que se desarrollan en
diferentes contextos familiares y educativos. Esta teoría permite entender tanto los estilos sanos como los
patológicos. Este modelo derivó en instrumentos para la evaluación de la personalidad tanto normal
como patológica. Racional: basado en consulta de bibliografía, literatura científica (teorías y modelos)
- Un diseño empírico hace foco en el ámbito de aplicación de la psicología y busca generar los ítems a
partir de los vectores que los actores del fenómeno en estudio, o bien los expertos en tal fenómeno
consideran relevantes a la luz de la práctica profesional cotidiana. Así, este tipo de instrumentos recoge ideas
para formular reactivos interrogando en profundidad a potenciales evaluados (pacientes que padezcan
determinado trastorno de personalidad si se trata de psicopatologías, por ejemplo) sobre sus principales
características, síntomas, hábitos, preferencias, temores, malestares, entre otros. Y es a partir de este criterio
empírico que las puntuaciones a los ítems se asignarán de acuerdo con la concordancia entre las respuestas
brindadas por el sujeto según indique el criterio empírico consensuado para la redacción de los elementos
acordados. Empírica: sustentarse en un trabajo de campo (si tiene como objetivo diagnóstico de
psicopatologías, se va a buscar información en hospitales, psicólogos, psiquiatras, historias clínicas,
enfermos, familiares, etc.)
Es posible entender la estructura de la personalidad mediante el análisis empírico de los datos obtenidos con
instrumentos de medida ya existentes y no a través de la exploración de nuevos conceptos y teorías. Se
considera que los factores extraídos por técnicas estadísticas multivariadas representan diferentes aspectos de
los constructos, tal como estos existen o se expresan en la realidad. Las diferencias individuales entre las
personas son explicadas por un puñado de rasgos o dimensiones psicológicas. Dentro de estos modelos
tenemos las aproximaciones de Cattel, quien fuera uno de los pioneros de la aproximación analítico-factorial
para establecer las dimensiones de la personalidad. Eysenck, también enrolado en esta tradición, ha
seleccionado 3 dimensiones fundamentales que explican la personalidad: Neuroticismo, Introversión-
Extroversión y Psicoticismo.
El modelo más representativo de este enfoque es la teoría de los Cinco Factores de la Personalidad (Big
Five). En los años 80 se demostró que las dimensiones de la personalidad podían ser explicadas por cinco
grandes factores que agrupaban las fuentes de variación de todas las conductas humanas. Esta aproximación
descansa en la hipótesis léxica que sostiene que las diferencias entre las personas han sido codificadas en el
lenguaje cotidiano. Solo basta con aplicar refinados procedimientos psicométricos a aquellos descriptores que
emplean los individuos para autodescribirse para lograr reflejar la estructura latente de la personalidad. Así,
para este enfoque las cinco dimensiones de la personalidad son Neuroticismo, Extroversión, Apertura a la
experiencia (plasticidad, flexibilidad), Afabilidad (agradabilidad) y Responsabilidad. Los autores
defensores de este abordaje han verificado que esta estructura de cinco factores es robusta a través del tiempo
(McCrae y Costa).
Modelo de los 5 factores. Supone que la personalidad está formada por cinco factores; Es empírico y
taxonómico (permite clasificar a las personas); Enfoque léxico y nomotético (busca poder captar diferencias
individuales de un sujeto respecto de su grupo, psicométrico) (se le dio a expertos y después a muestras
multitudinarias de personas listas de adjetivos que podían describir la personalidad, e iban seleccionando
adjetivos que servían para hablar de las personas cuando las conocemos. De 12000 quedaron 2500
adjetivos. Esto está basado en análisis factorial, ver si se encontraba correlación entre los ítems (busca ver si
se encontraban grupos de adjetivos en un mismo sentido); Aproximación analítico-factorial (recavar validez
de constructo sobre los instrumentos, sirve también para validar modelos teóricos, si las hipótesis se
corroboran con las respuestas de los sujetos); No había teoría, pero de lo que salió después apareció una
teoría. Los cinco factores se encuentran de modo empírico.
En ambos casos los métodos de análisis psicométrico más comúnmente empleados para analizar evidencias de
validez de constructo son el análisis factorial y estudios de grupos contrastados (por ejemplo pacientes vs.
no-pacientes, extrovertidos vs. intovertidos).

30
Psicométricas

Clasificación según análisis de datos para evaluar la validez (de constructo)


- Grupos contrastados: capacidad de discriminación, si podemos separar dos grupos que deberían estar
separados, distinta puntuación para introvertidos que para extrovertidos.
- Análisis factorial: cálculo de correlaciones múltiples.

Clasificación según sus objetivos: screening vs. Diagnóstico. Según sus propósitos los inventarios o
cuestionarios de personalidad pueden perseguir el fin de evaluar la personalidad “normal” o patológica. Esta
decisión dependerá, naturalmente del enfoque teórico empleado, centrándose en si se trata de una descripción
de estilos o de repertorios de comportamientos habituales en la mayoría de las situaciones cotidianas, o de si
se busca distinguir la presencia e importancia de cierta configuración sintomática o disfuncional. No obstante,
la clasificación más extendida suele circunscribirse a los instrumentos que evalúan psicopatología, que se
dividen en escalas de diagnóstico vs. escalas de screening.
- Los instrumentos de screening se dirigen a la detección de indicadores de riesgo psicopatológico, como
por ejemplo, sintomatología leve o moderada, que no implique ningún grado de invalidación del sujeto en su
vida cotidiana, o sintomatología significativa aún no detectada por otros medios. Un screening positivo no
necesariamente sugiere un diagnóstico positivo. Eso se dirime en la siguiente fase, de diagnóstico.
Con el fin de que en el cribado no surjan casos falsos negativos –que padezcan el trastorno pero que en el
screening no surjan como en riesgo- el instrumento se diseña especialmente para que posea una alta
sensibilidad (eleva los puntajes de riesgo ante sintomatología escasa o leve) y baja especificidad (no posee
capacidad para discriminar entre tipos diferentes de trastornos). Un cribado debe ser breve, de administración
sencilla y de rápida evaluación para que una gran cantidad de sujetos pueda ser examinada en lapsos acotados
y para que su derivación a diagnóstico, de ser necesaria, sea rápida y eficiente.
- Las herramientas de diagnóstico apuntan a la identificación y descripción de un cuadro clínico en su fase
aguda o en cuanto a su cronicidad, mediante la identificación de síntomas con significación clínica, esto es
que su frecuencia de aparición o bien su intensidad impliquen en el sujeto o en su alrededor algún grado de
malestar apreciable, o importen algún tipo o grado de invalidación considerable en el desarrollo de sus
actividades habituales. Las puntuaciones aportadas por las diferentes subescalas deberán interpretarse en el
sentido de arribar a dirimir la presencia-ausencia del trastorno, o bien a un diagnóstico diferencial sobre el
tipo de desorden presente, por supuesto en el marco de la información brindada por el instrumento junto con
la entrevista y el resto de la batería diagnóstica.
Deben tener alta especificidad (para captar sutilezas que diferencien entre los trastornos) y baja sensibilidad
(para no generar casos falsos positivos). Dada su especificidad, estas herramientas son más extensas para
incluir mayor cantidad de síntomas en sus ítems, por lo que su administración y evaluación insumirá más
tiempo y deberá ser considerada a la luz de una batería completa que incluya una entrevista y una adecuada
anamnesis, como mínimo. Otra razón para que estos instrumentos sean más extensos es que suelen incluir lo
que se conoce como escalas de validez del protocolo individual que se está evaluando. Ellas se dirigen a
disminuir el efecto que determinados estilos de respuesta del individuo pueden tener sobre las
puntuaciones obtenidas, en el sentido de distorsionarlas generando un diagnóstico equivocado. Los
instrumentos existentes en el mercado prevén diferentes combinaciones de escalas de validez, tales como
impresión positiva (intento de brindar una imagen completamente sana y ajustada, habitual en evaluaciones
laborales), impresión negativa (frecuente en evaluaciones de adolescentes que no han solicitado una consulta
y que desean oponerse pasivamente al trabajo de diagnostico, o en pacientes obsesivos graves con autocrítica
y autoexigencia exacerbadas), inconsistencia (responder contradictoriamente a la sucesión de ítems por falta
de atención, de comprensión lectora o de interés), exageración o minimización de sintomatología (común
entre personas que piden una inimputabilidad ante un delito o una licencia laboral por razones psiquiátrica,
respectivamente), simulación de sintomatología (frecuente en situaciones judiciales), tendencia a la
aquiescencia o no aquiescencia (a estar sistemáticamente de acuerdo o en desacuerdo con los propuesto en las
afirmaciones o preguntas, característico de ciertos subgrupos culturales donde la simpatía y complacencia o el
pensamiento cuestionador son un valor destacable), defensividad (tendencia a no percibir sintomatología,
conflictos o situaciones de riesgo, ansiedad o estrés, muchas veces por razones defensivas), entre otras. Estas
escalas permiten, según el caso, invalidar protocolos con respuestas excesivamente distorsionadas o añadir su
interpretación a la lectura general del perfil clínico.
Clasificación según objetivos de la evaluación (ser utilizado en qué tipo de situaciones)

31
Psicométricas

Estilos o tipos de personalidad: describir dimensiones de la personalidad en términos adaptativos, no


buscar diagnósticos ni psicopatologías.
Patología:
Instrumentos de screening, rastrillaje. Detectar riesgo psicopatológico (no psicopatología, no
permite diagnóstico diferencial). Riesgo significa que hay cierto malestar psicopatológico. Se usa para
evaluar a varias personas a la vez. Son cortos, son hipersensibles y poco específicos (suelen dar falsos
positivos), no tiene escalas de validez. Los instrumentos de screening siguen los criterios de construcción
empíricos, porque quieren captar los síntomas que la gente más frecuentemente lleva a consulta (y esto varía
con los tiempos).
Instrumentos de diagnóstico. Son poco sensibles pero muy específicos y tienen escalas de
validez.

Existe como desventaja que las personas se den cuenta de lo que intentamos evaluar y que cambie la
sinceridad, que no hayan opciones suficientes que describan una variable de personalidad. Para
contrarrestar esto tenemos las escalas de validez (no validez de los inventarios, sino la validez del protocolo
de lo que la persona respondió), las observaciones, las entrevistas, la pericia del evaluador de que verifique
que el sujeto puede responder el instrumento y las técnicas proyectivas.
Propósitos de las escalas de validez: detectar la consistencia de la respuesta (si el sujeto fue coherente o no
al interior de su patrón de respuestas, porque no entendió la consigna, el vocabulario, puso cruces en
cualquier lado, estaba desorientado por drogas, alcohol, etc., con un alto grado de inconsistencia se
invalida, las escalas de consistencia son las únicas que hacen invalidar), defensividad (el sujeto se muestra
defensivo, negador), distorsión deliberada (mentir a propósito), deseabilidad social, etc.

Instrumentos de Screening de psicopatología.


- SCL 90 R (Derogatis, adaptación de la UBA 1998). 13 a 65 años. Formado por escala lickert de 5
opciones. Pregunta por malestares en la última semana. (Un test-retest tendría que ser con muy poco tiempo,
a la mañana y a la tarde). Se maneja con puntaje t. Tiene 90 ítems y 9 escalas. (Reemplazado por el LSB-50).
- LSB-50 (Rivera, adaptación UBA 2013). Listado de síntomas breve. 13 a 65 años. Lickert de 5 opciones.
50 ítems. Pregunta por las últimas semanas. Se maneja con percentiles (solo interesan los puntajes altos,
mayores a 85). Como es un autorreporte, tiene dos escalas de validez, minimización y magnificación. Evalúa
síntomas psicológicos.
Su aplicación tarda entre 5 y 10 minutos e identifica síntomas psicológicos y psicosomáticos con propósitos
de cribaje de riesgo. Distingue síntomas de primer rango, que resultan más discriminativos desde el punto de
vista crítico, generando un índice de riesgo psicopatológico y tres índices generales que cada uno indica
diferentes aspectos del sufrimiento psicopatológico general. Cuenta con 9 escalas clínicas y, a pesar de
apuntar al rastrillaje, añade dos escalas de validez, magnificación y minimización, que permiten dar cuenta de
sujetos que tienden a la exageración o la minimización de patología.
Objetivo: screening, identificación y valoración de síntomas psicológicos y psicosomáticos; Para adultos y
adolescentes; Autoadministrable, de forma individual o colectiva; Formato de respuesta: Escala likert de 5
puntos (nada, poco, moderadamente, bastante, mucho); Tipo de puntaje: percentiles (Se considera
sintomatología psicopatológica a partir del P85, que se corresponde con el puntaje T60).
- La escala de sucesos de vida. Escala de 50 ítems, tiene sucesos de vida, si alguno le ocurrió lo marca con
una x, y dice cuánto le sigue afectando hoy. Tiene como fin derivar en una entrevista posterior
semiestructurada.
Evalúa la percepción subjetiva del impacto de sucesos o acontecimientos del ciclo vital personal para
relacionarla con malestares psicológicos. También las competencias, capacidades y recursos con los que una
persona cuenta para poder afrontar situaciones estresantes.
El hecho de conseguir o dejar un empleo, el graduarse, el nacimiento de hermanos, la muerte del padre, son
sucesos demarcadores en el ciclo vital e implican cambios y transiciones. Esos hechos externos se relacionan
con cambios internos más profundos. Un suceso de la vida es capaz de alterar o modificar la salud psicofísica.
50 ítems que se responden con una escala de 1 a 5 puntos, indicando si el suceso que se nombra ha tenido para
la persona ningún impacto emocional (1) a mucho (5). Las escalas son: familia, salud, trabajo, problemas
personales, escuela, afectos y pareja, y legal.

32
Psicométricas

Instrumentos de diagnóstico psicopatológico (trabajar con entrevistas y técnicas proyectivas también).


- MMPI. Consiste en 228 ítems, compuesto por escalas sustantivas estructuradas en tres niveles que implican
visiones más globales o más particulares o específicas. Tiene escalas de validez. Si bien sus virtudes son
reconocidas, no se dispone aún de una versión adaptada a la Argentina (del MMPI-2-RF). Enfoque empírico
(1939 había poca teoría estructurada de la personalidad). Está basado en las categorías diagnósticas de la
psiquiatría clásica (Krapelin).
MMPI-2 (adaptado, pero los baremos son viejos) / MMPI-2RF (no adaptado acá)
- BDI II (Beck. 2005). Específico para trastorno de depresión.
- PAI (Morey. 1991, 2007, adaptación UBA 2013). Versiones para adultos (desde 18 años) y otra para
adolescentes (12 a 18 años). Evalúa rasgos de personalidad patológica. Lickert de 4 opciones. Tiene escalas,
subescalas y escalas de validez (impresión negativa, impresión positiva, infrecuencia, inconsistencia).
Versión larga de 344 ítems y versión abreviada de 165 ítems. Utiliza puntaje t (t mayor a 60 indica rasgo
psicopatológico presente).
EL PAI contabiliza una versión recientemente adaptada a nuestro medio. Consta de 4 escalas de validez, 11
clínicas, 5 de consideraciones para el tratamiento y 2 de relaciones interpersonales. Ello significa que a la par
del diagnóstico brinda la posibilidad de diseñar intervenciones terapéuticas personalizadas e informadas. Su
uso es admisible en situaciones clínicas, forenses, laborales y educativas.
El diseño de ítems y escalas se desarrolló en base a un criterio mixto, racional y empírico. Estos
procedimientos posibilitaron el desarrollo de escalas útiles para arribar a diagnósticos según los lineamientos
del DSM.

Instrumentos de diagnóstico no psicopatológico.


- MIPS. Inventario de estilos de personalidad de Millon. Para la evaluación de la personalidad normal en
términos de estilos se destaca el MIPS, que operacionaliza el constructo en términos en 24 dimensiones que
se agrupan en pares psicométricos complementarios, distribuidos en tres grandes áreas definidas como
Metas Motivacionales, Modos Cognitivos y Conductas Interpersonales. Estos vectores permiten
caracterizar la personalidad en términos no psicopatológicos según la manera en que cada individuo
persigue metas eludiendo el displacer y la frustración, cómo interactúa con su entorno en cuanto a toma de
decisiones, construcción de conocimientos y creencias, elaboración de juicios y conclusiones, y cómo
establece relación con otras personas en términos simétricos o asimétricos. Puesto que se trata de una
herramienta de diagnóstico porque si bien no pretende evaluar patologías sí busca una descripción
exhaustiva del estilo predominante, incorpora escalas de validez (impresión positiva, impresión negativa y
consistencia) en pos de contemplar posibles sesgos o peculiaridades en las respuestas.
Millon considera que la personalidad es el patrón complejo de características psicológicas en su mayor parte
ICC, que no pueden ser erradicadas fácilmente y que se expresan de modo automático en muchos
comportamientos. Ellas emergen de una compleja matriz de disposiciones biológicas y aprendizajes
experienciales, y comprenden la característica distintiva de aquellos modos de percibir, sentir, pensar y
afrontar la realidad de los individuos.
La teoría de Millon se ubica en el enfoque teórico politaxonómico. Desde el punto de vista teórico, los estilos
de personalidad no son meramente la forma en que las personas se comportan, es decir, las conductas,
sino que también se incorporan dentro de los estilos las formas en que las personas captan y procesan la
información. La consideración de la personalidad debe tomar a la persona total, también las metas o
aspiraciones que las personas tienen en la vida (las conductas y rasgos toman dimensión según el lugar
hacia donde están dirigidas). El eje de su teoría es la intersección entre modos cognitivos, metas
motivacionales y conductas intepersonales, que son el reflejo de la historia de transacciones entre el
individuo y su ambiente a lo largo de la vida. El resultado es el estilo de personalidad dominante.
Millon es el creador de una serie de inventarios que evalúan personalidad psicopatológica y no
psicopatológica.
Dice que la personalidad humana normal se puede describir según tres vectores: metas motivacionales
(cómo cada uno se acerca a los objetivos que se plantea, y cómo evita los obstáculos), modos cognitivos
(cómo proceso la información, cómo aprendo, cómo tomo decisiones, cómo formo juicios), y conductas
interpersonales (cómo me relaciono con los otros, con las relaciones simétricas y las asimétricas). Estos

33
Psicométricas

vectores se operacionalizan en el MIPS, en 24 escalas, divididas en 12 pares dicotómicos (las escalas van
de a pares opuestos, por ejemplo extroversión-introversión, o discrepancia-conformismo). Tiene 3 escalas de
validez. Es un inventario que evalúa personalidad no psicopatológica, estilos de personalidad normal.
Es para adultos entre 18 y 65 años (la personalidad se hace fija al final de la adolescencia).
Está adaptado al país (Millon tiene inventarios de personalidad psicopatológica pero no están adaptados ni
validados).
Trabaja con puntajes de prevalencia (por debajo de 50 desestimamos el rasgo, por arriba está presente,
cuánto más cerca de 100 más acentuado; Tiene un valor de corte en 50. Interesa saber si el rasgo que mide
cada subescala está presente o ausente. Pp 49 o menos rasgo ausente; pp 50 o más rasgo presente: entre 50
y 69 el rasgo está presente, entre 70 y 89 está exacerbado, y entre 90 y 100 es un rasgo prototípico (la
persona se define bastante por ese rasgo).

SOVI y DAT se utilizan en orientación vocacional. Interesa saber los intereses vocacionales de la persona y
cuáles son sus aptitudes (habilidad para desarrollar alguna capacidad).
- DAT (Test de Aptitudes Diferenciales). Se utiliza con adolescentes finalizando el secundario que requieran
orientación vocacional (entre 15 y 20 años aprox., el manual no especifica). Tiene 8 subtest (velocidad de
procesamiento, razonamiento espacial, razonamiento mecánico, ortografía y lenguaje, razonamiento verbal,
cálculo, razonamiento abstracto), todos con tiempo límite, y se puede administrar solo algunos.
Utiliza percentiles (un percentil por cada escala).
- CIP (cuestionario de intereses profesionales, versión en papel y lápiz)/ SOVI (Sistema de orientación
vocacional informatizado, versión informatizada). Evalúa intereses profesionales. Se fundamenta en que los
intereses medidos por un test son más estables en el tiempo. Tiene 15 escalas, entre ellas: cálculo, físico-
química, construcción, asistencial-educacional, artístico-plástica, artística-musical. Tiene 150 ítems con 3
opciones de respuesta. No hay puntaje total, se calcula un percentil por escala. Percentil alto indica alto
interés.

34

También podría gustarte