Está en la página 1de 42

CURSO BÁSICO DE PSICOMETRÍA

Cap 1: Psicometría, evaluación psicológica y ámbitos de aplicación

1.1. La evaluación psicológica


Es un proceso de toma de decisiones, puesto que el propósito de la misma es recomendar un camino de acción
determinado en virtud de los objetivos perseguidos por la evaluación (el evaluador no toma esta decisión, recomienda).
Si tenemos en cuenta que la psicología como disciplina aplicada se desarrolla principalmente en los contextos clínico,
laboral, educativo y forense, entre otros, la evaluación psicológica como subdisciplina englobada en la psicología
aplicada, también tiene lugar en los mismos ámbitos. En el ámbito de aplicación (contextos en los que puede
desempeñarse el psicólogo, ejerciendo su rol profesional, aplicando conocimientos técnicos que derivan de teorías y de
investigaciones empíricas, psicólogo con el rol de usuario de técnicas, aplicador, administrador o evaluador), en tanto
proceso de toma de decisiones, la evaluación psicológica implica una instancia consultiva, en la que el psicólogo será
convocado para reunir toda la información o indicadores disponibles referidos a un problema, a una pregunta o tema
dado, y en base a ello efectuará recomendaciones dirigidas a resolver o mejorar el problema, en la que la decisión estará
en manos de otra persona (quien ha solicitado la evaluación). Si se trabaja en el ámbito de investigación (contexto en el
que la Psicología se desarrolla como disciplina científica, generando nuevos conocimientos en forma permanente;
conocimientos que serán transferidos al ámbito de aplicación), la tarea de evaluación se relacionará con recabar datos
o indicadores que den cuenta de aquel fenómeno que se quiere investigar.
La evaluación psicológica es un proceso de toma de decisiones. Se usa en la psicología aplicada y está dirigida a la
solución de problemas personales, institucionales, grupales, comunitarios, sociales o ambientales. Psicólogo y
consultante toman decisiones (qué test a utilizar, cursos de acción posibles para solucionar el problema, etc.; y si seguir
lo recomendado o no). Evaluar implica categorizar, evaluar y contrastar datos referidos a atributos del sujeto y/o de la
situación o interacción (evaluamos atributos psicológicos de una persona). Para desarrollar esta actividad es necesaria
la aplicación de un modelo teórico que será de utilidad para comprender o analizar el fenómeno concreto que es objeto
de nuestra atención, los instrumentos son coherentes con una teoría. El psicólogo evaluador podrá posicionarse en
diversos modelos teóricos alternativos para leer e interpretar el fenómeno que está estudiando o analizando, no
existiendo un único marco posible que sustente las concusiones a las que se arribe. De esta manera, se pueden distinguir
tres tipos principales de modelos en los que podemos basarnos: los centrados en el sujeto, los que ubican el énfasis en
las variables situacionales y los que colocan el acento en las interacciones entre sujeto y medio.

1.2. Evaluación psicológica y Psicometría.


Existe otra inserción posible para el psicólogo investigador, y ella es especializarse en el diseño, construcción y
adaptación de técnicas de evaluación psicológica (área de la psicometría). Los tests serán un fin en sí mismos, son el
producto de un desarrollo tecnológico derivado de un modelo teórico, y su construcción será utilizada más tarde por los
profesionales que trabajan en el ámbito de aplicación en su quehacer diario. La psicometría es solo del ámbito de
investigación, no existe en el ámbito de aplicación (donde hay un psicólogo evaluador que solo usa el instrumento), el
psicólogo psicometrista juzga la calidad de los instrumentos y los mejora, construye instrumentos psicométricos. Se
define a la psicometría como la disciplina que tiene por finalidad el desarrollo de modelos (preferentemente, pero no
de manera exclusiva) cuantitativos que permitan “transformar” o codificar los fenómenos o los hechos en datos,
diseñando métodos adecuados para la aplicación de tales modelos con el fin de determinar las diferencias individuales
de los sujetos en cuanto a sus atributos, sus propiedades o sus rasgos.
Es posible detectar y describir diferencias entre los sujetos mediante el empleo de conceptos operacionalizados en
forma cualitativa, semicuantitativa u ordinal, o cuantitativa. Caracterizamos la medición como un proceso de asignación
de números o símbolos a atributos de los sujetos siguiendo una serie de reglas para representar la presencia o ausencia
del atributo medido, su cualidad, jerarquía o cantidad. Una escala se define como un conjunto de números o símbolos
cuyas propiedades modelan propiedades empíricas de los sujetos a los que esos números o símbolos son asignados,
cada valor asignado responderá a una propiedad que se obtendrá del comportamiento del sujeto.

Niveles de medición:
En el nivel cuantitativo o métrico pueden distinguirse las escalas de intervalos y las escalas de cocientes o razones.
Ambas implican la noción de cuantificación (establecer la cantidad del atributo que el sujeto posee). Dentro de este
nivel podemos encontrar:
El nivel intervalar supone la igualdad de intervalos entre números: cada unidad de esta escala es exactamente igual a
cualquier otra unidad; además, al igual que en el nivel de medición ordinal, no existe un punto cero absoluto, sino uno
1
arbitrario. (Por ejemplo la temperatura o el CI, que por cuestiones éticas nadie obtiene cero). El nivel de medición de
cocientes o razones posee todas las características y facilidades nombradas para el nivel de intervalos, pero su punto
cero no es arbitrario, sino absoluto; ello significa que no ha sido convencionalmente establecido, sino que
verdaderamente implica ausencia del atributo medido.

Nivel ordinal: Más allá de la cuantificación, también medimos cuando asignamos números de tal forma que éstos
reflejen un ordenamiento o jerarquía entre los sujetos, resultante de la aplicación de algún criterio clasificatorio. Este
escalamiento ordinal, jerárquico o semicuantitativo, en que el número es utilizado para identificar cada categoría, se
usa para dar cuenta del ordenamiento o posición del sujeto en el rasgo medido, sin implicar una unidad de medición.
De esta manera, no se conoce la cantidad absoluta del atributo, sino que solamente se puede establecer qué sujetos se
ubican en la misma categoría, qué otras personas caen en la categoría superior o inferior y qué categoría implica más
del atributo respecto de cual otra.

Refiriéndonos al nivel de medición cualitativo o nominal, utilizamos este tipo de escala cuando aludimos a la presencia
o ausencia de un atributo (síntoma presente o ausente, acierto o error en un test de desempeño) o al referirnos al tipo
o clase específica de un atributo dado (tipo de estructura, tipo de neurosis). En este tipo de escala se trata de establecer
la pertenencia de un sujeto a una categoría en virtud de un atributo dado que la determina, sin implicar una jerarquía
entre los individuos. El número utilizado para identificar cada categoría solo nombra o nomina la etiqueta de la categoría
sin indicar un ordenamiento.
El hecho de que trabajemos en uno u otro nivel de medición, y por lo tanto de análisis, se relacionará con el interés
particular del evaluador, con las características de la variable que se está estudiando y con el tipo de escala al que el
instrumento empleado es capaz de llegar. En muchos casos, es posible medir una misma variable en varios niveles de
medición. La manera en que se diseñe una categorización será arbitrariamente establecida por el evaluador o
investigador, aunque debe fundamentarse en razones teóricas, técnicas o evolutivas, acompañándose de una clara
división de las categorías que deben ser mutuamente excluyentes (un mismo individuo no puede ser ubicado en más de
una categoría a la vez), y no debe dejar ningún individuo por fuera.

1.3. Los instrumentos psicométricos.


Una técnica, prueba, test, escala o instrumento psicométrico se define como un dispositivo o procedimiento en el que
se obtiene una muestra de comportamiento de un examinado en un dominio específico, subsiguientemente evaluado y
puntuado usando procedimientos estandarizados, y que cuenta con evidencias empíricas sobre la validez y la
confiabilidad de los resultados que arroja. Un test es un dispositivo o procedimiento, que implica un proceso,
determinadas coordenadas de administración y de evaluación.
Se trata de un procedimiento estandarizado, ya que se tipifica de manera explícita, puntualizando específicamente un
dispositivo o un método de trabajo (qué tipo de materiales deben utilizarse, qué consignas, qué ítems o estímulos, en
qué tiempos de administración se trabajará, si habrá o no tiempo límite, de qué forma se entregará el material, qué
actitud asumirá el examinador frente al sujeto, qué criterios se emplearán para puntuar los resultados, etc.). Este
2
conjunto de procedimientos se ha especificado y estandarizado al momento en que el test ha sido validado y han sido
calculadas sus normas, y debe respetarse al pie de la letra cada vez que se administre.
No solo los procedimientos de examen se tipifican y se hacen constantes, sino que también se realiza con las formas de
puntuación y con las condiciones de interpretación de las respuestas brindadas por los examinados. También es
importante que, teniendo en cuenta los sentimientos de temor, ansiedad, aburrimiento, entre otros que suelen
presentarse en los evaluados, el evaluador intente mantener un clima de trabajo cómodo, relajado, que promueva la
colaboración y la motivación del examinado. Acá es adecuado el concepto de rapport, entendido como los esfuerzos
puestos en juego por el evaluador para generar en el evaluado una actitud general de cooperación, despertar su interés
y motivación y estimularlo a responder a los tests y entrevistas de la mejor manera posible.
Las condiciones del test buscan lograr que el examinado emita una serie de comportamientos reducidos a un área
específica de todos los comportamientos que habitualmente genera. Esto implica que un test evalúa una muestra de
todos sus comportamientos posibles, reducidos a un área específica. El modelo teórico también circunscribirá y definirá
los comportamientos, pues toda teoría implica un recorte dado de la realidad.
Los autores de la técnica deben diseñar y llevar a cabo estudios empíricos que den idea al usuario de dos cuestiones
básicas: si el test evalúa aquello que dice medir (validez) y si aporta resultados en las que se pueda confiar, con un error
de medición predecible y determinable (confiabilidad).

El psicólogo dispone de un arsenal de pruebas que le permiten recoger la información necesaria. Ellas son las técnicas
psicométricas, las proyectivas y las entrevistas. En la tarea de evaluación se trabaja integrando la información que deriva
de las tres fuentes.

Técnicas psicométricas Técnicas proyectivas


Cuentan con consignas, estímulos y alternativas de Las consignas y estímulos que disparan las asociaciones o
respuesta altamente estructurados. Se trabaja con respuestas comportamentales en las técnicas proyectivas
materiales e instrucciones fuertemente poseen escasa estructuración y están pensados de manera
estructurados, así como con opciones de respuesta tan amplia que, potencialmente, pueden propiciar un
preestablecidas y/o con criterios de puntuación repertorio de respuestas que tiende a infinito. Poco o nada
minuciosamente definidos. Son muy estructurados, estructurado (“dibuje lo que quiera”)
respuestas predeterminadas, consigna específica
(sí/no, verdadero/falso)
Se basan en el principio de la proyección (mecanismo con
el que contamos los seres humanos para hacer frente a la
ansiedad, estrés, y situaciones conflictivas o críticas).
Pueden fundamentarse en diversos marcos teóricos, Todas tienen un marco teórico en común, el PSA
entre los que el PSA es solo una de las alternativas (interpretación desde Freud, Klein, Anna Freud). Modelos
posibles. Multiplicidad de modelos posibles (social, psicoanalíticos (no Lacan)
PSA, cognitivo, conductual, sistémico)
Aíslan atributos diversos, valorándolos de a uno a la Ponen la evaluación de la personalidad como un todo
vez
Críticas: da mucha cantidad de información pero con Críticas: da menos información pero con más profundidad,
poca profundidad, son muy estructuradas son poco estructurados, no suelen acompañarse de validez
y confiabilidad

1.4. Los test como operacionalizaciones de constructos teóricos.


Todo test se basa en un modelo dado. Ese marco teórico que fundamenta la técnica apela a diversos conceptos o
constructos (construcciones ideales, formuladas para explicar determinados aspectos o fenómenos de la realidad). Por
ejemplo, la ansiedad no es observable, perceptible ni pasible de ser medida; como concepto, no tiene existencia real,
sino ideal. Lo que tiene existencia real y es apreciable mediante los sentidos, observable o medible, son sus
manifestaciones o indicadores (signos y síntomas de la ansiedad, aquellos indicios que se pueden observar, oír o tocar,
y los que el sujeto que los experimenta puede informarnos).
Una vez que se ha definido y descripto este concepto desde un modelo teórico, se procede a operacionalizarlo, que
implica “bajar” su definición abstracta a la empiria mediante la identificación de indicadores observables que den cuenta
de la ocurrencia de este fenómeno en la realidad. Todo constructo teórico implica una definición teórica o conceptual,
y una operacional. Mediante esa prueba empírica la teoría se corrobora o no con datos de la realidad, conformándose
o debiendo reformularse a la luz de esos datos reales.
3
Podemos entender los instrumentos psicométricos como un conjunto de indicadores de un concepto o constructo
teórico; ese conjunto de indicadores observables o medibles son los ítems, elementos o reactivos del test.
Los ítems de un test son la mínima unidad distinguible en él, consistentes en cada una de las pequeñas tareas o
actividades que el individuo debe realizar para responder a la consigna. El total de los ítems forma la escala o prueba.
Dos o más subescalas forman la escala total o instrumento psicométrico.
Los modelos teóricos tienen constructos o conceptos psicológicos (no son entes reales, la ciencia se maneja con entes
ideales. Los conceptos psicológicos son construidos, no existen en la naturaleza, no se pueden tocar, coherentemente
con un modelo teórico). Para poder observar ese concepto en el comportamiento de las personas tenemos que
operacionalizar el concepto (buscar indicadores comportamentales observables). En el caso de los test, los ítems son los
indicadores del constructo, la operacionalización, la bajada empírica.

1.5. La noción de escalamiento.


Una prueba psicométrica supone:

1) Una colección de indicadores relativos a un dominio de comportamiento precisamente definido (es un procedimiento
estandarizado: un test se toma siempre igual, con las mismas condiciones, con la misma colección de indicadores (ítems)
de un dominio de comportamiento).

2) La medición de un rasgo o atributo de un sujeto, operacionalizado desde un modelo teórico.

3) La noción de escalamiento, que significa la posibilidad de convertir o traducir las respuestas brindadas por los sujetos
a una puntuación, las respuestas de los sujetos las codificamos (asignamos números de manera arbitraria) según una
puntuación que será interpretado teóricamente. Las respuestas brindadas por un sujeto, que se codificarán en una
forma preestablecida y de manera pautada o estructurada, se agruparán para ser resumidas en una puntuación final
que brindará una idea general sobre el conjunto de las respuestas. Las respuestas del sujeto quedarán registradas en lo
que llamaremos protocolo. El examinador codificará esas contestaciones según el sistema tipificado en el manual para,
finalmente obtener una puntuación global que, desde el punto de vista estadístico y metodológico, es un índice,
(puntuación construida que servirá para resumir la serie de respuestas dadas por el sujeto).

4) Capacidad para discriminar diferencias individuales entre las personas en cuanto al rasgo o atributo medido, es decir,
de discriminar. Se trata de diferenciar en forma adecuada entre sujetos que poseen el atributo analizado en gran medida
respecto de quienes lo poseen en un grado más bajo o directamente no lo poseen.

5) Estudios de validez y confiabilidad verificadas empíricamente (calidad del instrumento)

6) El test contará con ciertas propiedades o características formales, los materiales empleados, la forma de
administración, el uso de tiempo límite o no, la base sobre la que se comparan las respuestas o el desempeño del sujeto
evaluado, entre otros aspectos.

 Objetivo de la pesquisa: puede hablarse de tests de diagnóstico y de tests de screening. Los test de diagnóstico
intentan brindar al usuario una evaluación detallada y pormenorizada de una situación, un atributo o estado o rasgo
dado. Nos darán mucha más información, más profunda y pormenorizada, sobre la variable que se esté evaluando.
Sus tiempos de administración y evaluación serán mayores. Serán menos sensibles pero muy específicas. Los test
de screening, rastrillaje o despistaje son de administración y evaluación breve y sencilla porque se trabaja con un
gran número de personas en un corto lapso. Se usan para detectar riesgo; es decir que dan una evaluación poco
detallada, preliminar y que debe profundizarse. Una vez localizados ciertos casos mediante el instrumento de
despistaje, se vuelve a examinar a esos sujetos con técnicas de diagnóstico que brindarán una información más
acabada y completa, permitiendo confirmar los resultados iniciales o descartarlos (falso positivo).

 Materiales y medios empleados: hay tests de lápiz y papel, de materiales manipulables, de estímulo oral y respuesta
oral, de estímulo gráfico y respuesta oral, y de estímulo oral y respuesta escrita, entre otros.

 Forma de administración: existen dos grupos de instrumentos: los de administración individual (requieren la
interacción personalizada de un examinador con un examinado) y los autoadministrables (diseñados para que sus

4
consignas, sus materiales y sus ítems sean tan claros que el sujeto sea capaz de dar respuesta a ellos sin o con poca
ayuda, lo que permite que sea administrada en forma individual o colectiva).

 Objeto de la evaluación: suele hablarse de tests de habilidades, de potencia, de personalidad, entre otros. Esta
categorización alude al gran grupo de conceptos o variables al que pertenece el constructo que se quiere evaluar.

 Tipo de respuesta: las pruebas psicométricas pueden ser de formato dicotómico (decidir la respuesta entre dos
opciones polares, si-no o verdadero-falso), likert (implica un ordenamiento de las opciones según un gradiente que
va desde la máxima aceptación al máximo rechazo, o viceversa; también puede plantearse likerts en términos de
frecuencia de aparición temporal de los comportamientos u otras alternativas de categorización), de diferencial
semántico (forma de respuesta que prevé una escala, generalmente de 7 o 9 puntos, en cuyos extremos se ubican
dos adjetivos o expresiones con significados contrapuestos, y se solicita al examinado que marque en qué punto de
ese continuo ubica su parecer con respecto a aquella variable que se está evaluando), de opción múltiple, de
resolución de tareas específicas (se pide al sujeto que realice una producción determinada, como copiar tarjetas,
dibujar bajo determinadas condiciones, resolver un laberinto o un rompecabezas, recordar palabras y repetirlas,
etc. Aunque las respuestas quedan registradas, suelen recodificarse según criterios diversos, por ejemplo como
éxito-fallo), de valoración de éxito o error, entre otras.

 Formato: las técnicas pueden dividirse en inventarios (listados de afirmaciones que el sujeto debe leer y responder,
verdadero-falso por ejemplo), cuestionarios (listados de preguntas que el sujeto debe responder según un formato
preestablecido, sí-no, o grados de conformidad o frecuencia), escalas clásicas (suelen identificarse con tests de
rendimiento que se componen, por ejemplo, de tareas que el sujeto debe resolver o de preguntas que debe
contestar para reflejar algún conocimiento o respuesta), encuestas (tienen un formato similar al de los inventarios
y se utilizan para recolectar opiniones o actitudes de las personas sobre algún tema en especial), protocolos de
entrevistas dirigidas (listados de preguntas preestablecidas que se hacen oralmente al sujeto en una administración
individual y que deben responderse oralmente) y protocolos de observación (u hojas de registro, son también
formularios preimpresos que establecen qué aspectos específicos deben observarse en determinados
comportamientos o interacciones, en los que el examinador va codificando en una forma abreviada y rápida los
atributos que son objetos de su evaluación), tests de desempeño (inteligencia, memoria, etc.), entre otros.

 Uso del tiempo: existen técnicas que no fijan un límite temporal para finalizar la tarea, sino que permiten que el
examinado trabaje libremente y a su ritmo. Otras establecen un límite preciso luego del cual se suspende la tarea,
llegando hasta el punto al que se haya arribado en la actividad. Otros tests permiten que se trabaje libremente pero
toman nota del tiempo para valorarlo en una forma determinada.

 Desempeño del sujeto evaluado: podemos clasificar los instrumentos psicométricos en tests normativos y test de
criterio o de dominio. La primera modalidad de valoración de los resultados corresponde a las técnicas psicométricas
que se rigen por baremos o normas estadísticas, llamados tests normativos. Ellas comparan el rendimiento o
respuestas de una persona individual con el rendimiento promedio registrado por una muestra normativa o de
tipificación, es decir, por un grupo de individuos homogéneos al examinado, según edad, sexo, hábitat y otras
condiciones que pudieran afectar a la variable evaluada. Así, el baremo es un cuadro de doble entrada en el que se
consignan el promedio de las puntuaciones obtenidas por esa muestra de sujetos y su dispersión o desviación típica
(es decir, su distancia relativa respecto de la media). El baremo permite que el examinador valore el desempeño de
un sujeto a la luz del desempeño promedio observado por sujetos semejantes a él. Los test de criterio o de dominio,
en cambio, no emplean normas para comparar el desempeño o respuestas del individuo, sino que las valora según
un criterio previamente establecido. Es decir que, por ejemplo, en una prueba elaborada para evaluar la presencia
de síntomas depresivos, se determinará si las respuestas coinciden con el listado de síntomas de depresión que se
ha tomado como base para comparar (por ejemplo, el DSM). Los test psicométricos se dividen en test normativos
(se basan en normas estadísticas o baremos, que sirven para comparar las respuestas del sujeto con sujetos
similares, homogéneos), y test de criterio (no tienen baremos. Se ve si las respuestas son suficientes para llegar a
un diagnóstico (comparamos con un modelo teórico o descriptivo)).

7) Estar enmarcado dentro del área de la evaluación psicológica, cobrando valor en virtud del interjuego que sea posible
establecer entre los resultados que arroje y el resto del material que se valorará (otros resultados derivados de otras
técnicas psicométricas, proyectivas, entrevistas, etc.), sin perder de vista el objetivo final de este proceso: la
5
construcción de una descripción exhaustiva tendiente a generar una recomendación que llevará a tomar una decisión
determinada.

Cap 2: La validez y los instrumentos psicométricos.

2.1. El concepto de validez


Existen tres elementos fundamentales que permiten juzgar la calidad de una técnica psicométrica: su capacidad
discriminativa, que se refiere a la capacidad de un instrumento (en realidad, a la capacidad de sus ítems) para captar
diferencias individuales en la variable que está siendo medida; la confiabilidad de una prueba se refiere a la confianza
que podemos tener en los resultados que arroja. Se dirige a valorar cuánto error existe en la medición; y se alude a la
validez mediante la pregunta referida a qué mide la técnica y cómo lo mide, que esa herramienta sirva para medir
aquello que intenta medir.
Ya no hablamos de discriminación, confiabilidad y validez como atributos inherentes al test, ya que ello crea cierta
sensación de invariabilidad, de permanencia o de fijeza; actualmente nos referimos a la confiabilidad y validez de los
resultados arrojados por el test, así como a la capacidad discriminativa de sus ítems en tales o cuales sujetos, que poseen
tales y cuales características determinadas (ya no se trata de la validez del test, sino de evidencias de validez de tal o
cual tipo, aportadas por tal o cual investigación desarrollada sobre tales o cuales sujetos. Diferenciación que implica que
la validez ya no es considerada un atributo estático de la escala, sino que es pensada como un resultado que corresponde
a una investigación científica realizada en un momento concreto y con personas reales y concretas, por lo que sus
resultados son provisorios y sujetos a refutación y verificación constantes; y al diferenciarse varios tipos de validez de
las puntuaciones obtenidas por medio de una técnica, no se puede concluir si una escala es válida o no, sino que debe
afirmarse que se han obtenido evidencias de validez de tal o cual tipo en las puntuaciones derivadas de tal o cual
instrumento en tales sujetos y bajo determinadas condiciones). La validez tiene que quedar demostrada con
investigaciones (no es fija, está sujeta a determinadas condiciones, por eso se habla de evidencia sobre la validez de los
resultados). Los estudios de validez deberán repetirse toda vez que se varíe la población sobre la que se ha trabajado.

Distintos tipos de validez. Es posible distinguir cuatro grandes áreas en las que pueden categorizarse las distintas aristas
del término validez: el área del contenido, el área empírica, el área teórica y el área formal.

2.2. Validez de contenido.


Se refiere a la verificación de que la muestra de ítems incluida en el test cubra todos los aspectos o dimensiones
relevantes de la variable en estudio o a ser medida. Para comprender este concepto, debemos pensar que los ítems que
se han redactado o ideado para formar parte de un instrumento psicométrico son solo una muestra de todos los ítems
posibles. De todos los posibles, los finalmente incluidos deberán integrar una muestra representativa de todos los ítems
posibles. Los finalmente incluidos tienen que cumplir con el criterio fundamental de no haber descuidado ninguna de
las dimensiones de la variable.
6
Esta tarea debe ser desempeñada por los diseñadores originales del instrumento y posteriormente controlada en
aquella instancia que se conoce como juicio experto (que está destinado a trabajar sobre los aspectos de la validez que
se relacionan con el contenido de los ítems, y también se la emplea como instancia de reformulación de consignas y
demás cuestiones a ajustarse). El juicio experto es un procedimiento mediante el que los autores del test convocan a un
pequeño grupo de expertos en el tema que se quiere evaluar mediante esa nueva escala. Los expertos revisarán el
contenido y la redacción de cada ítem y su adecuación con respecto a cada dimensión prevista por la teoría, efectuando
críticas a algunos de ellos, mostrando su conformidad con respecto a otros, sugiriendo modificaciones en otros casos.
Cada uno trabajará de forma independiente y hará llegar su evaluación a los autores que sopesarán el dictamen de cada
uno de los expertos en base al conjunto de todos los dictámenes, efectuando sobre los ítems propuestos aquellas
modificaciones que hayan sido sugeridas por la mayoría. Los expertos son psicólogos que se especializan en el tema, se
fijan que los ítems estén bien operacionalizados según el modelo teórico. Ítems con 75 u 80% de aprobación se quedan,
los otros no.

2.3. Validez empírica o de criterio.


Se relaciona con que sea en base a estudios de campo realizados con rigor metodológico y sobre personas concretas, y
el término remite a un tipo de evidencia que se vincula con el uso práctico que puede darse al test, en base a los
resultados que arroja, es decir, en base a qué mide y cómo mide en la práctica. Involucra una metodología de
investigación que trabajará utilizando lo que se conoce como criterio externo, que es una medida de la misma variable
que el instrumento intenta medir, obtenida en forma independiente al instrumento externa a él, cuyas evidencias de
validez deberán estar previamente establecidas, además de ser coherentes con la base teórica que sustenta la prueba
ya que si no, no serían comparables. Esta medición externa permite verificar empíricamente si la prueba brinda
información semejante a ella. Siempre, para la validez empírica, se trabaja en forma externa a la técnica. El criterio
externo seleccionado deberá estar sustentado en el mismo marco teórico, y operacionalizado de forma similar, que el
instrumento cuyos resultados se quieren validar. Tiene un propósito aplicado o empírico. Es la pregunta de qué
información me da el instrumento. Es sinónimo de criterio externo, que se dé la misma información, pero por otro medio
que ya esté demostrado.

Se divide en:
La validez concurrente: Para que estemos seguros de que un nuevo test nos permite acceder a cierta información que
necesitamos conocer, debemos poder corroborar que arroja esa misma información o los mismos resultados que
podríamos obtener por otros medios (criterio externo). Aplicación de dos técnicas independientes que miden el mismo
constructo a los mismos sujetos y se mide la correlación de los resultados.
Para comparar dos vías de evaluación: se empleará un coeficiente de correlación para valorar el grado en que ambos
caminos de evaluación se hallan asociados, es decir, coinciden. El coeficiente de correlación es un índice que nos informa
el grado de covariación o asociación entre dos variables, tratándose de una correlación directa (de signo positivo)
cuando ambas variables aumentan o disminuyen juntas, y siendo la correlación inversa (de signo negativo) cuando al
aumentar una de las variables, la otra disminuye o viceversa. Independientemente del signo o sentido de la correlación,
el grado de asociación entre las variables consideradas será mayor cuanto más se acerque su coeficiente a 1; será menor
cuanto más cerca de cero se ubique.
En el caso de un estudio de validez concurrente, si este coeficiente es positivo y elevado, estará indicando que ambas
mediciones (criterio y escala) realizadas a una única muestra de sujetos arrojan resultados similares, por lo que será
prácticamente lo mismo medir la variable deseada mediante la prueba o mediante el criterio. Aquel estudio ha arrojado
evidencias de validez empírica o de criterio, de tipo concurrente. Esta expresión significa que técnica psicométrica y
criterio concurren juntos, en un mismo sentido, arrojando idénticos resultados (o similares). El coeficiente de correlación
más usual en este tipo de estudios es el r de pearson].

La validez predictiva: Posee una lógica similar a la de la validez concurrente, trabajando con un criterio externo y un
coeficiente de correlación. La validez predictiva trabaja a futuro y con un criterio externo a predecirse, diferente de la
variable medida en el aquí y ahora por el test. Un estudio destinado a aportar evidencias de validez predictiva se basa
en la idea de intentar verificar que el instrumento (administrado en el presente) resulte un buen predictor de otra
variable (relacionada teóricamente con la que se ha medido, pero distinta) cuyo comportamiento futuro interesa
estimar.
La diferencia lógica entre validación concurrente y predictiva no se basa en el tiempo sino en los objetivos de la
evaluación: mientras que la primera es la elegida cuando la prueba va a emplearse para efectuar diagnósticos del estado
actual, la segunda lo será cuando el instrumento busque predecir resultados futuros; es decir que el uso de la escala en
7
el ámbito de aplicación o de investigación será el criterio decisorio que permitirá dirimir qué tipo de estudio de
validación se empleará. Si predice otra información sobre otra variable (por ejemplo, el bender mide maduración viso-
motriz, variable que se relaciona con el aprendizaje a leer y escribir). Medición de otra variable relacionada con la que
el test mide (criterio externo).

La validez retrospectiva: Se vincula con la correlación verificada entre los resultados de un test administrado en un
momento determinado y un criterio externo medido con antelación a la aplicación del instrumento psicométrico.

Otra manera posible para examinar la validez: Otra manera es efectuar un estudio por grupos contrastados. El objetivo
consiste en demostrar que las puntuaciones arrojadas adquieren valores predecibles en función de la pertenencia de
los individuos a un grupo dado. Cuando un criterio determinado ha sido establecido de antemano pueden validarse los
resultados aportados por una escala que evalúe esa variable, de manera que el grupo de pacientes con tal diagnóstico
deberían puntuar significativamente más alto que otro grupo de no-pacientes, utilizados en esta hipotética investigación
como grupo de comparación. Si la escala está midiendo correctamente el constructo que se ha propuesto, debería ser
capaz de discriminar fácilmente quiénes son aquellas personas que presentan esta clase de pensamientos y quienes no;
este tipo de diseños de investigación contribuye a aportar evidencias acerca de la validez de constructo de una prueba,
aunque también, indirectamente, brinda evidencias de validez empírica. Si el test me resulta útil para discriminar si el
sujeto necesita tratamiento o si no. Usa un grupo con, por ejemplo, trastorno de ansiedad ya diagnosticados y otros sin.
Toma el test a todos, evaluando sin saber quién está en cada grupo, para ver si los diferencia.

2.4. Validez teórica o de constructo.


Los aspectos teóricos de la validez se circunscriben a que se sea capaz de aportar evidencias de que la operacionalización
del constructo ha sido efectuada en forma coherente con el modelo teórico y cubriendo todos los aspectos o
dimensiones incluidos en él. La validez teórica, se dedicará a responder a la pregunta de si esta técnica mide
efectivamente aquello que dice medir, según tal o cual modelo teórico y por lo tanto, si la misma es una adecuada
operacionalización de un constructo teórico dado, derivado de ese modelo.
Teniendo en cuenta que siempre hay algún grado de subjetividad, la validación de constructo se define como un proceso
continuo (durable en el tiempo, requiere de investigaciones desarrolladas y renovadas en forma permanente) por medio
del que se realizan múltiples investigaciones con el fin de poner a prueba diferentes hipótesis sobre la estructura interna
del constructo, así como de sus relaciones con otras variables o constructos. También se la puede definir como el grado
en que un test mide un constructo, en tanto es una buena operacionalización del mismo.

Los procedimientos más frecuentes para aportar evidencias de validez de constructo:


Estudios evolutivos: Si una teoría y/o resultados empíricos de distintas investigaciones postulan que, por ejemplo, a
medida que un niño crece y madura, se acrecienta su capacidad para efectuar algún tipo de actividad dada, un test que
intente medir esa capacidad, debería corroborar esto mediante sus resultados.

Estudios clínicos: Con una lógica similar de razonamiento se procede cuando se usan estudios clínicos si el constructo a
ser evaluado implica algún tipo de patología. Por ejemplo, los resultados aportados por el instrumento en pacientes
psicóticos deberían ser significativamente distintos de aquellos obtenidos por sujetos no psicóticos.

Análisis factorial: Es un procedimiento de análisis multivariante de los datos que permite analizar la variable, tal como
ha sido medida por medio de un test en una muestra de sujetos dada, determinando qué dimensiones podrían aislarse
en la misma. El análisis factorial es definido como un método de reducción de datos por el que es posible disminuir la
cantidad de datos a ser analizados o tenidos en cuenta.
El análisis factorial se maneja por medio del cálculo de múltiples coeficientes de correlación entre las respuestas de
todos los sujetos incluidos en la muestra a cada uno de los ítems del test.
Este cálculo de múltiples coeficientes de correlación entre todas las combinaciones posibles de respuestas emitidas por
los sujetos incluidos en la muestra implica intentar conocer qué grado de asociación, relación o covariación tiene el total
de las respuestas de todos los sujetos en todos los ítems de la escala (cómo se asocian, los contenidos a los que ellos
aluden). La correlación calculada no nos informará sobre los contenidos presentes en las formulaciones de los reactivos,
pero sí nos hablará de su asociación y de su semejanza.
El análisis factorial detecta, según el grado de asociación entre las respuestas a los ítems, si dos reactivos distintos
guardan entre sí algún grado de asociación. De esta forma, aquellos elementos que hayan registrado entre sí elevados
grados de asociación se agruparan bajo lo que llamamos un factor, dimensión o variable latente.
8
Si la cantidad de factores aislados o identificados y sus contenidos coinciden con la cantidad e identificación de las
dimensiones previstas en la teoría, entonces, podrá decirse que el test es una adecuada operacionalización de tal marco
teórico, o que mide tal variable según tal teoría x. Si el análisis factorial aísla un número distinto de dimensiones que las
previstas en el modelo, o el mismo número pero con distintos contenidos, entonces deberá revisarse el instrumento a
fin de detectar errores técnicos, teóricos y/o metodológicos. Método que intenta establecer correlaciones múltiples
entre las respuestas de los sujetos, para determinar de qué modo se agrupan las respuestas.

Evidencia de validez convergente y discriminante: En todo proceso de validación de constructo de un test interesa
conocer si se han podido recoger evidencias de validez convergente y discriminante, es decir, evidencias de que el
constructo medido por el instrumento converge en el mismo sentido que otra evidencia relacionada por similitud, y a la
vez, que aparece evidencia discriminante, que se distingue teóricamente del concepto medido. Las evidencias de validez
convergente son aquellas que se recogen cuando los resultados de un estudio de validez de constructo convergen en
un mismo sentido, verificando la relación entre constructos vinculados teóricamente. En el caso de las evidencias de
validez discriminante, existirán tales resultados cuando obtengamos coeficientes de correlación relativamente bajos
entre dimensiones o constructos diferentes del que se desea medir, que el modelo ha concebido como relacionados
teóricamente pero con una frecuencia de aparición conjunta en la realidad muy escasa.

2.5. Validez de facies o aparente.


Se evalúa con estudio piloto.
La validez aparente tiene que ver con que el instrumento resulte válido a los ojos del examinado, ya que si los materiales,
la consigna, el estilo de respuesta o las condiciones propuestas para el examen dejan de aparecer como serias o
adecuadas a su edad o sus características, podría suceder que los sujetos vieran afectada su actitud de respuesta. Este
aspecto es vigilado en el proceso de elaboración y adaptación de las escalas psicométricas indirectamente en diversos
momentos: redacción de ítems, juicio experto, administración piloto.

Validez ecológica: Si el test está adaptado a diferentes poblaciones y diferentes contextos.

9
2.6. Sesgo y error sistemático.
El sesgo es un concepto relacionado con el de validez, se define como un error constante o sistemático como opuesto
al aleatorio o azaroso, que impide la medición precisa e imparcial del constructo a evaluarse. Por acción de este sesgo,
la probabilidad de éxito no es independiente del subgrupo poblacional al que pertenece el examinado. Eso significa que,
aunque el instrumento haya sido estandarizado para un grupo poblacional dado, un subgrupo dentro de ese grupo
mayor generará, probablemente, respuestas atípicas o no exitosas por acción de la pertenencia a ese subgrupo
(conectada con la generación de un error sistemático) y no por otras razones.
Ese error sistemático, dado por cualquier componente inherente a la prueba, se da siempre de la misma manera y en el
mismo sentido toda vez que el instrumento se administra a algún integrante de ese subgrupo.
Un test que funciona en forma diferencial en un subgrupo de población dado deja de arrojar resultados válidos para los
miembros de ese subgrupo, ya que estas personas obtienen puntuaciones distintas en la medición de la variable por
factores ajenos a ella (por ejemplo, si se mide inteligencia mediante videojuegos, quienes no tengan acceso a ellos
puntuarán más bajo pero por su poca accesibilidad a los juegos y no por ser menos inteligentes).

Cap 4: Confiabilidad y error de medición.

4.1. Confiabilidad.
No solo es importante seleccionar adecuadamente el tipo de puntuaciones que el instrumento ha de brindar, es
necesario también proveer evidencia empírica sobre la calidad de las mismas, lo cual se lleva a cabo poniendo a prueba
la consistencia y precisión de los puntajes (confiabilidad) y analizando la bondad de dichos puntajes para aportar
información pertinente de la variable que se intenta medir (validez).
Si se acepta la posibilidad de medir en psicología, es necesario asumir dos supuestos: existen puntajes verdaderos, que
reflejan puntualmente la realidad, que miden de un modo exacto, sin error; y siempre que se realizan mediciones
pueden cometerse errores.
La distinción entre un puntaje teorizado, ideal, que llamaremos verdadero, y otro concreto, que llamaremos obtenido
(el que resulta de la aplicación de una técnica psicométrica) es fundamental ya que uno de los objetivos más importantes
de la psicometría es determinar la puntuación verdadera. Esta puntuación se define como lo que queda de la puntuación
observada u obtenida a través de un test, una vez eliminados los errores de medida. Podemos formalizar este enunciado
así: PV (puntaje verdadero obtenido en un test por un sujeto) = PO (puntaje obtenido a través de una técnica) + (-) e
(error posible que se esté cometiendo al medir). Nunca vamos a conocer el PV por el error de medición. Esa puntuación
verdadera se estima, nunca se conoce. En la mayoría de los instrumentos el error ya está calculado.
En las mediciones indirectas de fenómenos intangibles (como son la mayoría de las que se realizan en psicología) el
puntaje verdadero no puede ser concretamente calculado, por lo que solo puede inferirse su valor hipotético. Por esto,
el objetivo de los estudios que se realizan sobre la precisión de las puntuaciones obtenidas a través de un instrumento
es controlar y calcular el margen de error. La confiabilidad es la confianza que podemos tener en la medición de un
instrumento, en los resultados que brinda el test, al medir el constructo. Para entender el concepto de confiabilidad, este
está atado al error de medición.

10
4.2. Tipos de error.
Se puede dividir las fuentes de error en dos categorías según el tipo de error que generan: sistemáticos o asistemáticos.
Errores sistemáticos. Las fuentes de error sistemáticos son aquellas que desplazan las puntuaciones en cierta dirección,
generando una puntuación sistemáticamente elevada o baja. Suelen denominarse también errores constantes. El error
sistemático, a pesar de introducir diferencias en el resultado de la medición, no cambia la variabilidad, la distribución
de las puntuaciones de un grupo de sujetos en la variable que se está evaluando. Los instrumentos que conllevan este
tipo de error sistemático sobreestiman (o subestiman) el atributo evaluado. Los errores sistemáticos pueden ser
detectados a través del análisis de la validez del instrumento.

Error sistemático de construcción del instrumento: Error relacionado con situaciones de error en la construcción del
instrumento mismo (por ejemplo, si hay una consigna poco clara, o materiales que no son pertinentes para determinada
cultura). Esto es cuando por ejemplo se pregunta mal en los ítems, afecta respuestas, por lo tanto afecta la validez de
los resultados. Son errores de simple detección y simple solución. El error afecta a todos los que responden.
- Sesgo/error sistemático para un subgrupo poblacional. Entra en la misma categoría que el anterior porque ambos son
sistemáticos, es decir que se produce siempre igual. Afecta a un pequeño grupo de población, por variables ajenas a la
variable evaluada (por ejemplo con materiales que no son culturalmente adaptados a ellos, generalmente por escasa
familiaridad o pertinencia de los materiales). Estos dos errores sistemáticos afectan la validez.

Errores no sistemáticos: Son aquellos que no tienen posibilidad de ser controlados, impredecibles o aleatorios, ya que
son generados por las variaciones cuya causa es el azar. Los estudios sobre la confiabilidad se ocupan de los errores
asistemáticos. Las fuentes de error pueden haber sido generadas en la etapa de construcción de la técnica, en la
administración, en la puntuación y en la interpretación de los resultados arrojados por la misma. Las fuentes de error
que pueden ocurrir durante la administración de la técnica son aquellas que tienen cierta influencia en cambios azarosos
en la atención o motivación del sujeto examinado (desgano, ansiedad, experiencias anteriores), las variables
relacionadas con las condiciones ambientales (temperatura, ruido, iluminación), y las variables relacionadas con el
examinador (su estilo, su comportamiento, si implica su subjetividad).
También llamado error de medición. Es un error azaroso, que no siempre afecta las mediciones de la misma manera, es
ineludible, está siempre. No asumirlo como negativo, tengo que saber que está para prevenir errores. Es la contracara
del concepto de confiabilidad. Existen tres fuentes posibles, que producen error (variables que hacen que el examinado
rinda mejor o peor): el examinado, el examinador y el ambiente. Afecta la confiabilidad.

4.3. Confiabilidad de las puntuaciones.


Podemos definir confiabilidad como la consistencia, o mejor, la coherencia de los puntajes obtenidos por los mismos
individuos en distintas ocasiones o con diferentes conjuntos de ítems equivalentes. Los estudios de la confiabilidad se
han desarrollado para responder interrogantes sobre la precisión de los puntajes obtenidos a través de la aplicación de
una técnica psicométrica.
Hay diferentes tipos o grados de confiabilidad, el coeficiente de confiabilidad informa el grado de precisión del
instrumento.

Coeficiente de correlación. Un coeficiente de correlación expresa el grado de correspondencia, o relación, o covariación,


entre dos conjuntos de puntuaciones. Permite establecer el grado de asociación entre dos variables (medidas en un
nivel de intervalos o de razón). Cuando la correlación entre dos variables es perfecta, el coeficiente de correlación (r de
pearson) es igual a uno (r=1, r=-1). Cuando no existe asociación alguna, es cero.

4.5. El coeficiente de confiabilidad.


Se trata de un número que indica en qué medida una técnica es confiable. El coeficiente es un número cuyo valor mínimo
es cero (lo que indicaría la inexistencia de varianza verdadera, ya que toda es varianza de error), y su valor máximo es
igual a uno (lo que indicaría que no hay error, todo es varianza verdadera).
Cuánto más cercano a uno sea el valor del coeficiente de confiabilidad, más confiable será el instrumento del cual se
obtuvieron las puntuaciones; por el contrario, cuanto más cercano a cero es dicho coeficiente, menos confiable será el
mismo.

4.6. Procedimientos empíricos para estimar el coeficiente de confiabilidad. Tipos de confiabilidad.


Si en dos ocasiones se administra una técnica a un mismo grupo de sujetos, obteniendo de este modo dos conjuntos de
medidas, el instrumento pocas veces proporcionará exactamente el mismo resultado, y esto es debido a la incidencia
11
de factores aleatorios. El hecho de que las mediciones repetidas a los mismos sujetos no muestren los mismos resultados
revela falta de confiabilidad en el instrumento (error de medición). Las mediciones repetidas también suelen mostrar
consistencias, por lo cual, las consistencias entre la primera y la segunda medición van a representar la varianza
verdadera.
Existen diferentes métodos que permiten calcular empíricamente el coeficiente de confiabilidad, y cada uno de ellos,
de acuerdo a las características del diseño, permite delimitar de manera adecuada algún aspecto sobre la confiabilidad
de los puntajes arrojados por la técnica de medición en cuestión.
A partir de la implementación de estos métodos empíricos, se obtienen coeficientes de confiabilidad, algunos más
sensibles a la consistencia entre los ítems, otros a la estabilidad temporal del puntaje, o a la confiabilidad del evaluador,
entre otras alternativas.
Cada método involucra diferente pasos para hallar el coeficiente de confiabilidad, pero en todos los procedimientos es
necesario disponer de al menos dos conjuntos de medidas paralelas de los mismos sujetos, para luego calcular entre
ellas, el coeficiente de confiabilidad de la técnica.
La correlación de pearson es una medida que indica el grado de relación que existe entre dos conjuntos de datos,
provenientes de dos variables. Cuanto más cercano a uno sea el coeficiente hallado, indicará que el primer conjunto de
medidas es parecido al segundo (que no hubieron errores que modificaran los resultados); por el contrario, cuanto más
cercano a cero sea ese valor, indicará más discrepancia (presencia de errores) entre las dos mediciones, es decir, menos
confiabilidad del instrumento (el error lo afecta en gran medida). Mientras que el coeficiente de Pearson puede asumir
valores entre -1 y +1, el coeficiente de confiabilidad solo asume valores entre 0 y 1:

Coeficiente de Lectura de la correlación hallada Lectura (interpretación psicométrica)


correlación r de del coeficiente de confiabilidad
Pearson
+1 Correlación positiva perfecta (cuando Nunca alcanza este valor, ninguna
aumenta una, aumenta la otra o cuando una técnica arroja puntajes perfectos
disminuye, disminuye la otra)
+0.90 Correlación positiva muy fuerte Técnica muy confiable
+0.75 Correlación positiva considerable Adecuada
+0.50 Correlación positiva media Regular (no cumple requisitos
científicos)
+0.10 Correlación positiva débil Baja confiabilidad
0 No existe correlación alguna entre las Medición contaminada de error, no
variables confiable

Métodos que requieren repetidas aplicaciones: Dos aplicaciones del test a una misma muestra. Es importante que un
instrumento arroje mediciones estables en el tiempo. Una forma de estimar la confiabilidad de un instrumento de
medición consiste en usar el mismo instrumento en una muestra de sujetos, en dos momentos, es decir, con un lapso
de tiempo entre ambas administraciones. Con estos métodos se estima el coeficiente de confiabilidad que permite
medir la estabilidad de las puntuaciones obtenidas.

Test-retest: El objetivo de este método es medir la estabilidad de las puntuaciones sabiendo que conforme transcurre
el tiempo las personas cambian. La fuente de falta de confiabilidad que identifica este método son las fluctuaciones
temporales aleatorias, que influyen tanto en las condiciones de administración como en las condiciones de los
examinados.
Etapas: Aplicar y evaluar la técnica a una muestra de sujetos; lapso de tiempo (justificado según las características de la
variable); aplicar y evaluar la técnica a la misma muestra de sujetos; calcular la correlación (r) entre las puntuaciones
obtenidas en ambas ocasiones; interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones).
La aplicación de este método implica una clara distinción entre la posibilidad de cambios reales en las puntuaciones de
la variable, esperables desde el punto de vista teórico y aquellos otros cambios, indicados en las puntuaciones del test,
pero debidos a fuentes de error inherentes al instrumento de medición, a su falta de precisión.
Atiende estabilidad temporal. Mediante la repetición en los mismos sujetos, si la medición en ambas mediciones es
similar, a una muestra de sujetos con un intervalo de tiempo entre la primera toma y la segunda toma. No se puede
hacer esto cuando hay posibilidad de aprendizaje, de memoria, cuando se mide estado de ánimo que cambia. Se calcula
el r de pearson; para decir que el test es confiable en términos de estabilidad temporal, el r debería ser alto (cercano a
1).
12
Formas paralelas o alternativas (con intervalo): La evaluación de la variable no conserva las mismas características
cuando un test es administrado en una segunda oportunidad, ya que las respuestas a algunos ítems pueden verse
afectadas por factores tales como la experiencia previa con los reactivos del instrumento (aprendizaje y memoria), la
falta de novedad, la memoria o la fatiga.
Este procedimiento es utilizado cuando se necesita minimizar el efecto de la memoria del contenido de otra prueba
aplicada con anterioridad. Se procede entonces a elaborar formas equivalentes y se las aplica a los mismos sujetos en
dos oportunidades, con un intervalo de tiempo entre ambas administraciones.
Las formas paralelas deben ser similares en contenido, instrucciones y duración, pero también deben ser equivalentes,
tanto en las medidas y varianzas de las puntuaciones que arrojan como en los anides de dificultad y discriminación de
los ítems.
Este procedimiento controla dos fuentes de confiabilidad, las fluctuaciones temporales aleatorias, y además la
inconsistencia de las respuestas a diferentes muestras de ítems, ya que hay cambios en los reactivos del instrumento
administrado en cada sesión.
Etapas: administrar una forma de test a una muestra de sujetos; lapso de tiempo (justificado); administrar la forma
paralela del test a los mismos sujetos; calcular la correlación (r) entre las puntuaciones obtenidas con una forma y con
la otra; interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y muestreo de contenido).
Consistencia, estabilidad temporal. Se usa r de pearson, tiene que ser cercano a 1.

Métodos que requieren una sola aplicación a una muestra:


División por mitades: El que utiliza este método tiene como objetivos el escrutinio de los ítems que conforman la prueba
y el análisis de las relaciones entre ellos. El procedimiento empírico aporta información para estimar el grado de
consistencia interna del instrumento.
Etapas: aplicar la técnica a una muestra de sujetos; dividir el conjunto de ítems en dos mitades homogéneas (en cuanto
a contenido y dificultad); calcular la correlación (r) entre las puntuaciones obtenidas en las dos mitades en las que ha
quedado dividida la técnica; ajustar la confiabilidad de la mitad de la prueba usando la fórmula de Spearman-Brown;
interpretar el coeficiente hallado (consistencia de las respuestas a lo largo del test).
Existen diversas formas adecuadas para lograr dos mitades homogéneas, una forma aceptable es asignar a cada ítem, a
una mitad o a la otra, al azar. Otra modalidad consiste en dividirlos en números pares e impares, de modo que los ítems
quedan ordenados según su dificultad creciente. O dividir la prueba por contenidos, de modo que cada mitad del test
contenga ítems equivalentes en cuanto al contenido y la dificultad. Las mitades deben ser similares en cuanto a formato,
número de ítems y estadísticos; deben ser homogéneas.
Consistencia interna, homogeneidad. Se usa r de pearson, tiene que ser cercano a 1 (si hace falta, cada escala dividirla
por separado).

Formas paralelas o alternativas (sin intervalo): No hay lapso de tiempo entre administraciones. Se aplican ambas
formas (que deben ser equivalentes) en la misma sesión, a la misma muestra de sujetos, una después de la otra.
Identifica la presencia de inconsistencias en las respuestas a diferentes muestras de ítems.
Etapas: aplicar las dos formas a una muestra de sujetos (sin intervalo de tiempo entre ambas); calcular la correlación (r)
entre las puntuaciones obtenidas por la misma muestra en una y otra forma; interpretar el coeficiente hallado
(consistencia de las puntuaciones). Consistencia. Se usa r de pearson, tiene que ser cercano a 1.

Coeficiente alfa de Cronbach: Puede ser utilizado en reactivos no dicotómicos (por ejemplo en escalas Likert). Es en la
actualidad el estadístico preferido para obtener una estimación de la confiabilidad de la consistencia interna (entre los
ítems de una técnica).
Etapas: aplicar la técnica a una muestra de sujetos; calcular el coeficiente alfa entre las puntuaciones obtenidas en los
distintos ítems; interpretar el coeficiente hallado.
Consistencia interna. Consistencia, homogeneidad. Que los ítems evalúen cosas parecidas, que haya una coherencia
lógica, que los ítems pregunten cuestiones del mismo tema. Implica una sola aplicación del instrumento a una muestra.
Se correlacionan todas las respuestas de todos los sujetos y se evalúa mediante el cálculo de un alfa de cronbach. Espero
que sea mayor a 0,70.

Confiabilidad entre evaluadores: Una técnica psicométrica confiable debe arrojar los mismos resultados
independientemente de quien lleve a cabo la evaluación, ya que la medición es estandarizada e implica uniformidad
tanto en las condiciones de administración como en las de evaluación. Este método indica las fluctuaciones en las
puntuaciones según el evaluador.
13
Etapas: administrar la técnica a una muestra de sujetos; evaluar las técnicas administradas (evaluador A); evaluar las
técnicas administradas (evaluador B); calcular la correlación (r) entre los puntajes asignados por evaluador A y evaluador
B; interpretar el coeficiente hallado.
Consistencia entre evaluadores, criterios de evaluación (Coeficiente de correlación. Más cercano a +1, más confiabilidad).

4.7. Error típico de medida.


El coeficiente de confiabilidad ayuda al autor o adaptador de una técnica a construir un instrumento de medición
adecuado, mientras que al administrador lo ayuda a valorar cuándo una técnica es adecuada para evaluar una variable
de su interés. El error se refiere al componente de la puntuación obtenida por un sujeto en una técnica psicométrica,
que no está en relación con la evaluación del atributo en cuestión.
Cuanto mayor es el coeficiente de confiabilidad, menor será el error típico de medición.

Niveles de significación e intervalo de confianza: No es posible calcular el error de una determinada medición (porque
no se conoce el valor verdadero), pero calculando el desvío estándar de los errores se puede conocer la posibilidad de
que el error se encuentre entre dos determinados, y calculables, valores. A estos dos valores, uno por encima del puntaje
obtenido y otro por debajo del mismo, con su correspondiente probabilidad, se los conoce como intervalo de confianza
(el intervalo de confianza permite estimar con una determinada probabilidad entre qué puntajes estaría el valor
verdadero). Así, por ejemplo, obtenido un determinado puntaje producto de una medición, se puede asegurar con el
68% de certidumbre que el puntaje verdadero estaría entre un desvío estándar de error por encima y uno por debajo
de dicho puntaje. Por ejemplo, si a un niño se la administra un test y obtiene 100 puntos, y la fórmula del error da que
este es 4, con un 68% de certeza, el valor verdadero estaría entre los valores 96 y 104 puntos, ya que estos toman en
cuenta un DE de error por encima y por debajo del puntaje obtenido. De la misma forma, podría indicarse que si el
resultado de la medición fue de 100 puntos, se puede asegurar con un 95% de certeza, que el valor verdadero estaría
entre los valores 92 y 108, que señalan los dos DE de error por encima y por debajo del valor medido.
A medida que aumentamos la seguridad, la confianza en la evaluación, aumenta también el intervalo (distancia entre
puntajes mínimo y máximo).
El intervalo de confianza me sirve para tener idea del margen de variación entre el que oscilarían los puntajes verdaderos
de un sujeto. El error siempre existe, el puntaje verdadero se estima, mediante los intervalos de confianza.

Cap 3: Las puntuaciones de los test.

3.1. Los puntajes brutos.


Numerales y niveles de medición: Los numerales son símbolos numéricos, mientras que el número es la cantidad que
estos símbolos representan. Si los signos numéricos se asignan a las distintas modalidades que puede tener una variable
no cuantitativa, estos símbolos solo funcionan como numerales y en este caso no tiene sentido hacer operaciones
matemáticas entre ellos. Solo si los numerales guardan una relación fija cuantitativa entre ellos permiten realizar las
operaciones matemáticas básicas y se llamarán números.

Los numerales pueden representar cualidades o cantidades pudiéndose distinguir:


 Numerales nominales: Solo sirven para nombrar las distintas modalidades de la variable. A esta medición se la
denomina cualitativa. Este uso es el que da lugar al nivel de medición nominal (clasificación).
 Numerales ordinales: Aquí podemos posicionar las modalidades de la variable. A esta medición se la denomina
semi-cuantitativa. En este caso el nivel de medición es el ordinal.
 Numerales cardinales: Aquí se cuantifican las modalidades de la variable, el numeral es un número. La medición es
cuantitativa. De acuerdo a este nivel es que quedan definidos los niveles de medición de razones e intervalar, que
solo difieren en la naturaleza de su cero, por ello puede tratárselos indistintamente como un único nivel de medición
denominado escalar.

14
Mediciones psicológicas: En la ciencia al realizar una medición debe especificarse no solo el valor medido sino también
el error con que este se calcula. Dicho error tiene relación con la facilidad de acceso a la información sobre lo que quiere
medirse. Desde este punto de vista, las mediciones pueden clasificarse en directas e indirectas.
Mediciones directas serán aquellas donde el fenómeno a medir pueda observarse a través de los sentidos, se puede
“contar”, calcular, no hace falta hacer ninguna inferencia, o bien se puede comparar lo que desea medir con un objeto
o fenómeno similar. En este tipo de medidas el error puede no existir, y si existe suele ser sencillo de calcular.
En las mediciones indirectas el fenómeno a medir no puede evaluarse en forma directa sino que se hace necesario el
uso de un instrumento para “materializarlo” y de este modo asignarle números. Conviene distinguir dos tipos, por un
lado los fenómenos tangibles, como suelen ser las variables físicas o psicofísicas y en los que al error que se podría
cometer con una medición directa se le debe agregar el error que introduce el instrumento. Por otro lado, los fenómenos
intangibles, en los que se infiere su misma existencia de los indicadores que se le atribuyen en su operacionalización. En
estos casos, el error se maximiza, es decir, al error cometido por el instrumento en esta asignación, deberá agregársele
el producido en su operacionalización y validación.

Cuatro aspectos que se deben tener en cuenta en el proceso constructivo de instrumentos cuantitativos o semi-
cuantitativos:
1. Cómo se operacionaliza el constructo: relevar cuales son las conductas o cogniciones observables que dan cuenta del
mismo (indicadores) y lo distinguen de otros.
2. Cómo se fomenta que las conductas a evaluar se manifiesten, y cómo se les asignan números que representen ya sea
su intensidad o frecuencia o, al menos, su presencia-ausencia.
3. Cómo operar con esos números para lograr, en lo posible, que sean la expresión cuantitativa y/o cualitativa más
acabada posible del constructo que se pretende medir.
4. Cómo transformar los números obtenidos en resultados que sean significativos para su interpretación.

Conductas Cuantificación de las Cuantificación de (Puntaje bruto) Comparación con (Puntaje transformado)
observables conductas observables conjuntos de respuestas referencias poblacionales

El puntaje bruto: Referiremos como variable psicológica a los fenómenos de interés de la psicología que tienen
variabilidad, que se manifiestan con más de una modalidad, sean estas cualitativas o cuantitativas. El escalamiento es
la posibilidad de convertir o traducir las respuestas brindadas por los sujetos a una puntuación. Es un conjunto de
números asignados unívocamente a una variable psicológica, y para ser unívocos deben ser exclusivos (que cada una de
las modalidades solo pueda ser representada por un numeral) y exhaustivos (que todas las modalidades posibles tengan
asignado un numeral).
Una vez asignados los numerales a los ítems es deseable operar sobre ellos de forma tal de obtener otros nuevos que
tengan una significación más robusta e isomorfa con la variable que se quiere evaluar. Así, si se determinó que un
conjunto de respuestas están evaluando la misma variable, podríamos por ejemplo sumar los números que les
asignamos a cada una de ellas para obtener un nuevo valor que represente el total del conjunto. Debe tenerse en cuenta
que para poder sumar o hacer otras operaciones matemáticas entre los numerales asignados a las respuestas, será
preciso que cumplan los siguientes requisitos: cuantifiquen la misma variable; lo estén haciendo siguiendo las mismas
reglas; y que los números asignados representen valoraciones isomorfas de la variable.
Si se logran estos requisitos, este nuevo número, representará la cantidad/cualidad/frecuencia de la variable y que ha
sido el resultado de este proceso de medición, se lo denomina puntaje bruto, crudo o directo. El PB es, entonces, un
número que representa una cuantificación de la variable o constructo a medir. Es en general, el resultado final de la
escala de medición.

Nivel de medición del puntaje bruto: El nivel de medición que puede ser utilizado en los numerales obtenidos por la
combinación de varios ítems guarda relación con el nivel de medición que poseían los ítems a combinar y con la forma
de hacerlo.
Gran parte de los instrumentos de medición psicológica obtiene su puntaje bruto como resultado de la simple suma de
números asignados a las respuestas de los reactivos que miden la misma variable, o de su conteo. No obstante, ésta no
es la única alternativa, pudiéndose utilizar operaciones matemáticas más complejas.

Valoración del puntaje bruto: El puntaje bruto suele ser poco claro para la evaluación por parte del usuario de la técnica,
ya que si bien cuantifica o cualifica el constructo, por sí mismo no ofrece suficiente información con respecto a la

15
magnitud de la medida obtenida. Para comprender si el puntaje bruto es alto, bajo o intermedio se requiere de un
sistema de referencia externo, generalmente una comparación con los valores que comúnmente obtienen los demás
sujetos.
La dificultad principal para la comprensión del significado de este número radica en que en psicología no existen
unidades de medición como en las ciencias exactas. Lo que se estila hacer para valorar el puntaje bruto es compararlo
con otros valores que permitan contextualizarlo. Los valores más utilizados para contextualizar los puntajes brutos son
las frecuencias (absolutas, relativas, acumuladas, mediana), la media (o promedio) y el desvío estándar, obtenidos del
conjunto de datos de una población.
Cuando a estos valores se los utiliza para convertir los puntajes brutos en otros, a los últimos se los conoce como
puntajes transformados. Éstos ya no son producto de la cuantificación directa del constructo a medir, sino que se trata
de nuevos números, fruto de la comparación de los puntajes brutos con referencias poblacionales. Estos números no
expresan cuánto de la variable puntuó el examinado, sino cuánto puntuó en relación a los demás. Tenemos dos puntajes:
puntaje bruto y el puntaje transformado. La mayoría de técnicas tienen ambos, pero no todas (las que solo tienen PB
no tienen baremos o normas, como la entrevista; es para los test de criterio, o para los test normativos, pero en este
caso solo como medio para llegar al PT). El puntaje transformado sirve para comparar sujetos con la población
sociodemográfica igual a él.
A su vez, los puntajes transformados pueden clasificarse en dos grandes tipos: las medidas de posición (me indican
posición del sujeto dentro del grupo normativo, del baremo: percentil y el puntaje prevalente) y los puntajes estándar
(puntajes que me indican distancia a la media: z, t, CI, equivalente).

3.2. Medidas de posición.


Lo ideal para establecer comparaciones y valorar el puntaje obtenido por un sujeto es hacerlo con los puntajes de la
población, entendiendola como el conjunto de todos los sujetos con los que se desea comparar al primero. A los valores
estadísticos que se obtienen de esos puntajes (mediana, desvío estándar, etc.) se los llama parámetros; es decir, lo ideal
sería comparar el puntaje del sujeto a examinar con estos parámetros.
En la gran mayoría de los casos es muy poco práctico o imposible, lograr obtener los puntajes de toda la población para
realizar dicha comparación, sea porque ésta es muy numerosa o inaccesible o porque es muy caro el proceso; por ello
es necesario recurrir a subconjuntos de la población llamados muestras.

Muestreo: Al calcular los estadísticos de estas muestras, utilizando recursos de la rama de la estadística llamada
estadística inferencial, se pueden estimar los parámetros. Lo más importante para que estos parámetros estén
adecuadamente estimados, es haberlos calculado con muestras representativas de la población.
El usuario de una técnica debe tener conocimientos sobre la validez de los resultados que obtiene, y por ello conocer
juiciosamente el ajuste de los valores obtenidos de las muestras que tienen los manuales frente a una determinada
medición. Al menos, debe asegurarse que el sujeto a examinar sea similar a los que conformaron la muestra. Cuánto
más parecido sea el examinado a los sujetos que conformaron la muestra, menos error de medición habrá, y se
obtendrán resultados más ajustados desde un punto de vista métrico.

Organización de los puntajes: frecuencias: Una vez que se ha seleccionado la muestra, se administra el instrumento en
cuestión a todos sus integrantes, y se calculan los resultados obtenidos por cada uno de los sujetos. Con esos puntajes,
se calculan los estadísticos y se estiman los parámetros. Estos valores son presentados en los manuales para uso del
evaluador, en forma de tablas que permiten la conversión de los puntajes brutos a puntajes transformados. Dichas
tablas reciben el nombre de baremos o normas estadísticas.
A las cantidades de casos correspondientes a cada uno de los distintos puntajes se las denomina frecuencia absoluta de
dicho puntaje. Estas frecuencias (n° de casos) se expresan con la letra “n”, y cada puntaje (la variable psicológica) se lo
expresa con la letra “x”. A la cantidad total de datos que conforman la muestra se denomina con la letra “N”.
Se denomina frecuencia relativa a la frecuencia absoluta dividida la cantidad total de datos que conforma la muestra, y
se expresa con la letra “p”. Ésta expresa que proporción hay de determinado puntaje respecto del total de puntajes o
datos que conforman la muestra. Para mayor claridad, a la frecuencia relativa se la multiplica por 100, obteniendo
entonces la frecuencia relativa porcentual. La frecuencia arroja información sobre qué tan recurrente o común es ese
puntaje.

Distribución de frecuencias: mediana: Una manera de mejorar el ordenamiento de los datos cuando se trabaja con una
variable de nivel ordinal, intervalar o de cocientes, es utilizar las frecuencias acumuladas. Para ello se ordenan los
resultados de menor a mayor y se calcula la frecuencia obtenida por cada uno de ellos. Se llamará frecuencia acumulada
16
a la frecuencia que tiene un determinado puntaje más las frecuencias que tienen todos los resultados menores a él, es
decir, se calculan la cantidad de datos que se hallaron con el valor en cuestión o con valores inferiores. A partir de esto
se pueden calcular las frecuencias acumuladas porcentuales, que indican el porcentaje de puntajes brutos es igual o
menor al que corresponde a dicha frecuencia acumulada porcentual.
Todos los puntajes transformados llamados medidas de posición se basan en las frecuencias acumuladas porcentuales.
Los más destacados en la Psicología son el Percentil, el Decil y el Cuartil; en general a este tipo de medidas se las
denomina cuantiles o fractiles.

Percentil: La mediana es el valor que divide al conjunto de los datos en dos mitades con la misma cantidad de datos. Se
puede calcular también el puntaje que corresponde a la mediana de cada mitad, quedando dividido en cuatro partes los
datos originales, con un 25% de los puntajes en cada una de ellas.
Si se deseara dividir la distribución en 100 partes en cada una de las cuales se encuentre la misma cantidad de casos,
hacen falta 99 valores. Esos puntajes que dividen la distribución en 100 partes con el 1% de los casos en cada una de
ellas se denominan percentiles. El percentil expresa qué porcentaje de mediciones de la muestra tiene por debajo o en
el mismo valor cada puntaje bruto.
El percentil es usual por sus ventajas. La primera es ser un valor fácil y claro de interpretar, ya que su número indica el
porcentaje de sujetos de la muestra que obtuvieron el mismo valor o menor en la variable medida. Otro es que no es
difícil hacer un listado de puntajes brutos, asignarle a cada uno el percentil correspondiente y presentarlo como una
tabla, un baremo. El Baremo muestra las correspondencias entre los puntajes brutos y los percentiles.
A veces, el percentil no refleja las variaciones de puntajes, ya que no varía en determinados puntajes. Esto es una
limitación de las medidas de posición en general. Esto, sumado al hecho de no asignar un valor en forma unívoca a cada
estado medido, hace que este tipo de medidas pierdan el carácter de escala (la escala de medición tiene una relación
unívoca entre un puntaje y una modalidad).
Otra limitación es que difícilmente los baremos incluyen los 99 valores, por lo que al pasar los puntajes brutos a
percentiles se puede producir una pérdida del rango de amplitud del instrumento, lo cual puede llevar a errores de
lectura a utilizarlos.
Los extremos percentilares no representan el mínimo ni el máximo de la variable que el instrumento puede evaluar,
sino los mínimos y máximos de la comparación con la muestra; el percentil no es un porcentaje, sino una medida de
posición, por lo cual nunca es mayor a 99 (o 100 en caso de la frecuencia acumulada); el rango percentilar indica el
porcentaje de sujetos de la muestra que ha sido superado por el número del percentil, pero no necesariamente que el
complemento a 100 de ese número lo supera. Por ejemplo, un sujeto que sacó un percentil de 90 ha superado en su
puntuación al 90% de la muestra, pero no se puede afirmar que es superado por el 10%, solo se puede indicar que está
entre el 10% de los sujetos que han superado al 90% de la muestra.
El puntaje transformado no indica distancia a la media, son los puntajes de posición (ubica posición de los sujetos
respecto del grupo, pero no conocemos el valor de la media): el percentil, que se mueve entre 1 y 99. Se simboliza, por
ejemplo, como p1. Significa el porcentaje al que el sujeto supera a la muestra. p99 significa que el sujeto supera al 99%
de los sujetos de la muestra de la población. Entre los parámetros p30 y p70 encontramos las puntuaciones que están
en el medio. Es una medida poco precisa. Por debajo de 30 están los percentiles inferiores al término medio. Hay pocos
cortes (en el medio, inferior o superior). Se sigue usando esta medición porque es fácil de entender. Bender, DFH, VADS
y Raven utilizan percentiles; y el puntaje de prevalencia, que sus valores se usan mucho para personalidad. Tiene un
valor mínimo de cero y un valor máximo de 100. En el pp 50 se traza una línea imaginaria. Entre 0 y 50, el sujeto no
presenta ese rasgo como principal. Entre 50 y 100 está presente, y cuanto más cercano a 100, más se ve.

Decil y cuartil: Los deciles son puntajes análogos a los percentiles, pero en lugar de tener un rango de 99 posiciones,
tienen uno de 9. Estos nueve valores son aquellos que dividen a los datos en 10 conjuntos de igual cantidad, y se
obtienen también de las frecuencias acumuladas. Estos puntajes comparten las mismas ventajas y desventajas que los
percentiles, siendo aún más fácil de calcularlos. Al tener solo 9 valores, su utilización se restringe a medidas más gruesas
que en las que se utilizan los percentiles. Multiplicando los deciles por 10 se obtendrá su rango percentilar.
Los cuartiles son otra medida de posición pero menos usual en evaluación psicológica, ya que sirven para dar resultados
muy “gruesos”. Dividen los resultados solo en cuatro agrupamientos de igual cantidad de datos, basándose en los
percentiles 25, 50 y 75, a los que se los llama primer, segundo, tercer y cuarto cuartil. En general son medidas que son
más útiles para trabajar con datos estadísticos o tomar decisiones sobre muestras, que en la construcción de
instrumentos de evaluación.

17
3.3. Puntajes estándar.
Los puntajes estándar se obtienen mediante un cálculo matemático por el que se logra comparar el puntaje bruto
evaluado en un sujeto con el valor medio y el desvío estándar previamente calculados en una muestra. Un aspecto
importante a destacar de los puntajes estándar es que como se obtienen de una fórmula matemática aplicada a los
puntajes brutos, a cada uno de estos le corresponde un único puntaje estándar. Es decir, los puntajes transformados, a
diferencia de las medidas de posición, mantienen el aspecto unívoco que caracteriza a las escalas de medición.

Puntaje diferencial: uso de la media: Los puntajes brutos arrojan muy poca información sobre su magnitud, cosa que
dificulta su valoración al evaluador, pero ésta mejora si cada puntaje bruto obtenido es comparado con el valor
promedio de una población, permitiendo valorar si ese puntaje es alto o bajo o, al menos, si es mayor o menos que el
promedio.
Para obtener el puntaje medio, llamado media o promedio es necesario, primero, administrar el instrumento a una
muestra de sujetos y obtener los puntajes de cada uno de los individuos que la componen. Hecho esto, la media se
obtiene sumando todos los puntajes y dividiendo el resultado de esa suma por la cantidad de sujetos evaluados.
Estadísticamente se la expresa como X y su fórmula de cálculo es:

PB
X = ---------
N

Si al puntaje bruto obtenido por un sujeto se le resta el valor de la media, se obtiene un nuevo puntaje cuyo valor indica
cuán apartado del valor promedio está el puntaje bruto en cuestión. Este nuevo puntaje que combina el puntaje bruto
con la media se denomina puntaje diferencial, y tiene la propiedad de que cuanto más grande es su valor, mayor será la
distancia del puntaje bruto respecto del valor promedio; tiene a su vez la propiedad de que cuando el puntaje bruto en
cuestión vale cero, éste coincide con la media.

Pd = PB – X

Si el puntaje bruto de un sujeto fuera superior al valor promedio, el puntaje diferencial que le corresponderá será un
valor positivo. Por el contrario, si el puntaje diferencial es negativo, indica que el puntaje bruto es inferior al puntaje
medio.
La ventaja es que informan si la medida está por encima o por debajo de la media con solo ver su signo; también
indican, con su valor absoluto, que tan lejos se está del valor promedio. Sin embargo, la dificultad que tienen es que
mantienen la limitación de los puntajes brutos respecto de la valoración de su magnitud.
Una forma usual de poder observar la magnitud que representa ese puntaje diferencial consiste en referirla a (dividirla
por) un valor conocido y estable, obteniendo de esta forma los puntajes diferenciales relativos. Para mayor claridad, a
la proporción obtenida de esa división se la multiplica por 100, obteniéndose los puntajes diferenciales relativos
porcentuales.

Puntaje z: uso de media y desvío estándar:

El puntaje diferencial ofrece más información que el puntaje bruto. Sin embargo, calcularlo a partir de la media, no es
lo óptimo ya que la media es un valor que no ofrece información sobre cuán cercanos o alejados a ella están los valores.
Este tipo de puntajes nada indica sobre si el valor con el que se obtuvo es común o atípico. Además la media es un valor
que se ve sensiblemente afectado por la variación de los valores extremos.
Para superar las limitaciones que tiene el uso de la media como cociente para dividir los puntajes diferenciales, se usa,
entonces, otro estadístico que toma en cuenta la dispersión que tienen los valores respecto de la media.
Para obtenerlo se parte de los puntajes diferenciales que indican la distancia que tiene cada puntaje bruto respecto de
la media, y un promedio de ellos seria una forma razonable de obtener una medida de cuan dispersos o alejados están
estos valores.
El promedio de los puntajes diferenciales se calcula, sumando todos y dividiéndolos por la cantidad total de puntajes
sumados. Se expresa en la siguiente fórmula.

Pd = ∑(𝑃𝐵 − 𝑋)= ∑ 𝑃𝑑
N N
18
El problema que se presenta al calcular el promedio de esta manera es que, por una de las propiedades de la media, la
sumatoria de los puntajes diferenciales vale 0, y por lo tanto también su promedio.
Una de las maneras sencillas de salvar esta dificultad para obtener una medida promedio de los puntajes diferenciales,
es elevar al cuadrado los puntajes diferenciales, promediarlos y luego calcular su raíz cuadrada. Al elevar al cuadrado
cualquier numero, se obtiene siempre un numero positivo, y hacer un promedio de números positivos asegura que el
resultado no podrá ser igual a cero.
∑(𝑝𝑏 − 𝑋)2 ∑ 𝑃𝑑2
s=√ =√
𝑁 𝑁

Este estadístico recibe el nombre de desvío estándar(s), o desvío típico, y es la raíz cuadrada del promedio de los
puntajes diferenciales elevados al cuadrado. Es una medida que varía de acuerdo a cuan dispersos estén los puntajes
brutos respecto de la media. Si el valor es muy pequeño indicará que la muestra está agrupada alrededor de la media;
valores más elevados implican mayor lejanía de los PB con respecto al promedio.
Si bien el desvío estándar (s) tiene también algunas limitaciones para describir la muestra, es un valor fácil de calcular y
sensible a la distribución de los resultados, que ha mostrado en la práctica ser muy útil para usarse como valor estable
de referencia.
En síntesis, si en lugar de dividir los puntajes diferenciales por la media se los divide por el desvío estándar, se obtiene
un puntaje que aporta más información que los que han sido referidos. A este puntaje se lo denomina puntaje z y se lo
calcula de la siguiente manera.
𝑃𝑑 𝑃𝐵−𝑋
z= 𝑠 = z= 𝑠

El puntaje z tiene gran difusión en los instrumentos de evaluación psicológica. Sus propiedades son:

-Cuando el PB obtenido en una medición es igual al valor de la media, z valdrá cero.


- Si z es un valor positivo entonces el PB con el que se calculó es mayor a la media, y si es negativo, dicho PB es menor a
la media.
- El número z indica cuán alejado o cercano a la media está un PB en unidades de desvío estándar (s).

El puntaje z es un puntaje transformado, dentro de los puntajes estándar, que puede obtenerse a partir de un PB, cuando
se conocen la media y el desvío estándar (s) de los puntajes obtenidos previamente en una muestra o en una población.
Este puntaje es un número que puede ser positivo o negativo, e indica cuán cercano o lejano al valor promedio de la
muestra está el PB.
Si bien el puntaje z ofrece más información para el evaluador que el PB y diferencial, no está aún claro que tan alto, bajo
o medio es un puntaje z determinado.
En los puntajes z a menos de 3 desvíos y a más de 3 desvíos son muy poco frecuentes.

Curva normal (Gauss). Inteligencia, memoria, atención, ansiedad, responden a la curva normal. La curva significa que la
mayoría de los sujetos obtuvieron puntajes por el medio. A esta curva normal se la puede dividir en intervalos, en
regiones. En la CN la media está en el medio (es simétrica). (Los puntajes que dan distancia a la media son más precisos).
Arbitrariamente, se fijó en la media el punto 0 y cada intervalo desviado vale 1 punto (hacia la derecha tengo +1, hacia
la izquierda tengo -1). Desde -1 a +1 hay un rendimiento promedio. En +2 hay rendimientos superiores a la media. Entre
-1 y -2 hay rendimientos inferiores a la media, entre -2 y -3 hay rendimientos muy inferiores a la media. Este es el puntaje
z.

Puntaje t
Si bien el puntaje z, comparado con el PB, aporta ventajas para la interpretación, el hecho de que sus valores suelan
tener decimales y que arrojen puntajes con signo positivo y negativo, complican su facilidad de lectura.
Para simplificar la interpretación de los puntajes estándar, numerosos instrumentos utilizan variantes del z, que pueden
calcularse con simples operaciones matemáticas. Todas estas variantes se obtienen sumando una constante para
trasladar el valor medio desde el cero hasta un nuevo valor, y multiplicar la puntuación z por otra constante que lo eleva.
Una de estas alternativas es el puntaje t que se obtiene:
19
𝑃𝐵−𝑋
T= 50+10z T=50+( ) 𝑥 10
𝑠

T no es más que el puntaje z al que se lo ha multiplicado por 10 y se le ha sumado un valor de 50. De esta forma un valor
de z=0, se convierte en un puntaje de T=50.
Con el puntaje T se logran perfiles más acotados y fáciles de leer, eliminando zonas de puntajes muy poco frecuentes
que no agregan significación psicológica.

Puntaje CI
Las escalas Wechsler de inteligencia, para niños y adultos, expresan sus resultados principales en puntajes
transformados, llamados coeficientes intelectuales (CI verbal, CI de ejecución, CI de escala completa) y puntajes índice
(I de comprensión verbal, I de organización perceptual, I de velocidad y precisión e I de ausencia de distractibilidad e I
de memoria operativa).
Todos comparten las mismas características como puntajes transformados, usando una media de 100 puntos y un desvió
estándar de 15.
La forma de obtener los CI y los puntajes índices es análoga al puntaje T, cambiando las constantes de 50 por 100 y de
10 a 15. La fórmula de conversión será:
CI= 100+15z I= 100+15z
Con el objetivo de facilitar la lectura de los CI, las escalas Wechsler proponen rangos o intervalos de interpretación, que
se seleccionaron teniendo en cuenta la frecuencia con la que los sujetos pueden obtener distintos valores de CI.
CI 69 y menos 70-79 80-89 90-109 110-119 120-129 130 y más
Interpretación Deficiente Limítrofe Media baja Promedio Media alta Superior Muy superior

Además, existe otro test de inteligencia, el test Stanford-Binet, que utiliza también puntajes CI. Su media es de 100, pero
su desvió estándar es de 16 puntos.
CI=100+16z
Esta técnica, en sus orígenes, solo estaba destinada a niños y utilizaba un cociente intelectual, es decir que su obtención
se calculaba dividiendo la edad mental del sujeto por la edad cronológica del examinado, y al valor así obtenido se lo
multiplicaba por 100. Pero su utilización cayó en desuso frente a las ventajas de calcularlo como coeficiente de la manera
indicada.

Puntajes equivalentes
Las escalas Wechsler obtienen sus valores de CI y de puntajes índice de una combinatoria de puntajes obtenidos a través
de los distintos subtest que las componen. Como resultado de la puntuación de cada subtest se obtienen los
correspondientes PB que se han de convertir en un puntaje transformado que permita su comparación, además de
permitir su agrupamiento en los puntajes índice y en los CI. Cada uno de estos puntajes transformados es también una
variante del puntaje z llamado puntaje equivalente, con una media de 10 puntos y un desvío estándar de 3. Un valor por
encima de la media en un desvío, o más, se considera elevado, una fortaleza, mientras que un valor por debajo se lo
denomina debilidad.

3.4. Puntajes y distribución normal.


Distribución normal
Si se grafica los datos de las frecuencias, donde en el eje vertical se indique el valor de la frecuencia y en el horizontal el
valor del puntaje, se obtiene un gráfico de distribución de frecuencias donde la cantidad de frecuencias más elevadas
está en la parte central y van disminuyendo hacia los extremos de los puntajes. Este tipo de distribución de frecuencias
es uno de los más comunes, y se presentan en muchísimas medidas, tanto psicológicas como de otro tipo. Se llama
distribución de frecuencias normal, o distribución normal, también conocida como curva o campana de Gauss.

Características de la distribución teórica normal


- La altura de la curva en cada punto que la compone representa la densidad de frecuencia, es decir, la frecuencia de la
variable que se está graficando en la curva dividida la frecuencia máxima.

20
- La curva es asintótica tanto hacia los valores mayores como los menores, es decir la altura nunca llega a cero y no toca
el eje de las abscisas.
- La media y la mediana coinciden en el mismo valor que se encuentran en el centro de la distribución. La curva es
simétrica.
- Hay dos puntos destacados en la curva (uno por debajo del centro y otro encima) en el cual esta pasa de convexa a
cóncava. Estos puntos se corresponden con un desvío estándar por encima o uno por debajo del valor central.
- Al valor central se le asignó arbitrariamente el valor de cero y al punto que le corresponde al desvió estándar la unidad,
es decir el valor uno. Adoptada esta convención, el cero estará en el centro y la unidad de la curva es el desvío estándar.
- Puede demostrarse que para un determinado valor de la variable, el área de la curva que queda hacia su izquierda
(valores mínimos) representa la frecuencia acumulada que hay por debajo del mismo, es decir, esa área es proporcional
a la cantidad de medidas que han obtenido dicho puntaje o puntajes menores. Así mismo, el área de la curva que queda
hacia la derecha representa la frecuencia de las medidas que han obtenido más de ese valor.
-De la misma manera, el área que queda encerrada entre dos valores distintos es proporcional al porcentual de casos o
valores que hay entre esos dos puntajes.

Equivalencias entre medidas estándar y de posición


Cuando la distribución de frecuencias es normal, cada puntaje normalizado (z, T, CI, etc) dejará por debajo de sí un
exacto valor del área de la curva, área que indica el porcentaje de casos que queda por debajo de ese valor. Como el
porcentaje de casos que queda por debajo de un valor se corresponde con el percentil, siempre que la distribución sea
normal es posible hallar la correspondencia exacta entre estos y los puntajes estándar.
Los percentiles correspondientes a los puntajes z menores a -3 se corresponden con el percentil 1, de la misma forma
que para los puntajes z mayores a 3 coinciden con el percentil 99.
Del mismo modo, los percentiles correspondientes a los CI con valores de 70 y 130 dejan solo un 1% de puntajes por
encima y por abajo respectivamente, marcando prácticamente los extremos de la escala.

Comparación de escalas con distribución no normal


Algunos instrumentos trata de medir varias dimensiones de características no normales por medio de un conjunto de
escalas. En tales casos, siendo escalas que dan cuenta de constructos clínicos, es decir no normales, el mismo puntaje
estándar puede tener una significación muy distinta si se obtuvo en una escala que en otra. Cada escala arroja un puntaje
transformado y por lo tanto presenta una distribución de frecuencias distinta, lo que hace que un mimo puntaje no
signifique lo mismo es una escala y en otra.
Esta dificultad para interpretar perfiles realizados con variables de distribuciones de frecuencias muy distintas entre sí
(y no normales) se suelen subsanar de dos maneras. La primera de ellas es interpretando el puntaje escala por escala e
integrando la información a posteriori; esto requiere un conocimiento profundo del significado del puntaje en cada
escala, por lo que suele hacerse con el auxilio de un manual. La segunda forma es haciendo alguna modificación de estos
puntajes para que sean más comparables. Esta última opción es la que da lugar a los tres puntajes transformados cuyo
objetivo es normalizar, homogenizar o equiparar resultados en escalas con distribuciones de frecuencia que
originalmente tienen una distribución muy distinta a la normal.

Puntaje T normalizado
Es utilizado en el SCL 90-R. Se obtiene normalizando la distribución de frecuencias de cada una de las escalas de las
nueve dimensiones primarias que lo conforman.
Para construir los puntajes normalizados se procede del siguiente modo:
1- A partir de cada uno de los PB se calcula el percentil o frecuencia acumulada que le corresponde.
2- Se le asigna a ese percentil el puntaje T que le correspondería de acuerdo a la curva normal.

Características del puntaje T estandarizado:


-Valor medio: 50
-Desvío estándar: 10
-A cada valor de T le corresponde el percentil de una distribución normal.

La mayoría de los instrumentos que utilizan estos puntajes permiten obtener un perfil gráfico que expresa los puntajes
del sujeto en cada escala.

Puntaje T uniforme
21
Es otra variante del T lineal y es utilizado tanto en el MMPI-2 como en el MMPI-A.
Sus características son:
-Valor medio=50
-Desvío estándar=10
-A cada valor de T le corresponde un percentil similar que el de las otras escalas que lo utilizan.

Puntajes de prevalencia (pp)


Son propuestos en los instrumentos de Millon. Usan un puntaje que es una variante que combina la distribución de
frecuencias con tasas de prevalencias poblacionales de los constructos a evaluar. Se usa el término prevalencia para
indicar la frecuencia (generalmente relativa y porcentual) que tiene determinado constructo en una población, es decir
qué proporción o porcentaje de sujetos poseen ese rasgo (o trastorno) en el total de la población.
Los puntajes de prevalencia son sencillos de obtener y tienen como finalidad facilitar la lectura e interpretación de los
perfiles. Se consiguen postulando el rango que tendrán los valores transformados y un punto de corte a partir del cual
se considera que el rasgo está presente. En el MIPS se utiliza un rango de 0 a 100 y el punto de corte a partir del cual se
considera presente el rasgo es 50. Son valores elegidos por convención. El puntaje de prevalencia es categorial: a partir
del valor 50 hacia arriba se dará una medida de la presencia y por debajo de 49, será una medida de la ausencia del
mismo constructo.
Los puntajes de prevalencia obtenidos de esta forma quedan caracterizados de la siguiente manera:
-Rango= 0-100 puntos.
-Punto de corte (ausencia-presencia de rasgo): 49: Esto implica que con 50 o más puntos el rasgo se encuentra presente.
-Bandas en presencia de rasgo:
-Entre pp: 50-69 puntuaría el 50% de la gente con el rasgo presente.
-Entre; 70-89 puntuaría el 34% de sujetos que se caracterizan por tener más conductas prototípicas del rasgo.
-Entre pp: 90-100 puntuaría el 16% con el rasgo prototípico.
-Bandas de ausencia de rasco: estas bandas se usan para contrastar los valores de dos escalas bipolares antitéticas.
Cuando una de ellas dio su puntaje por encima de 50 (presencia del rasgo) se observa la escala complementaria, y si
esta da por debajo de 50 se usan las siguientes bandas para ver el contraste con la primera.
-Entre pp: 49 y 30 puntuaría el 50% de la gente.
-Entre pp: 29 y 10 puntuaría el 34% de la gente.
-Entre pp: 9 y 0 puntuaría el 16% restante.

Cap. 5: Construcción y adaptación de técnicas psicométricas.

5.1. Pasos para la construcción de una técnica psicométrica.


El proceso de construcción de una técnica psicométrica es un proceso complejo y no lineal, que requiere de
conocimientos exhaustivos tanto de la variable psicológica a evaluar como de las variadas técnicas de análisis de datos.
Es analizado en dos fases: una primera de diseño, en donde se delinean los aspectos iniciales y basales del desarrollo
del instrumento (1. Definir la finalidad de la técnica; 2. Marco teórico, definición del constructo; 3. Aspectos de diseño
preliminares), y una segunda de construcción, donde se materializa el instrumento (4. Preparación y análisis de ítems;
5. Estudio de la calidad psicométrica; 6. Normas; 7. Publicación).
A través de la publicación (habitualmente un manual), el autor de la técnica, en este caso quien ha elaborado el test
psicométrico, brinda, además de la fundamentación teórica del instrumento, la información esencial necesaria para su
aplicación, calificación y evaluación, el número y naturaleza de las personas en las que se establecieron las normas, así
como los métodos utilizados para estudiar la confiabilidad y la validez. El usuario de una técnica psicométrica debe poder
interpretar y valorar esta información.

Etapa 1. Definir la finalidad de la técnica.


Por el análisis de cómo se crean las distintas técnicas psicométricas, se permite establecer dos tipos de propósitos en
sus constructores. Por un lado se encuentran aquellos que elaboraron un test respondiendo a necesidades concretas de
un ámbito de aplicación particular. Por otro lado, se encuentran los investigadores que han elaborado instrumentos en
el marco de desarrollos teóricos.
Más allá de cuál de estos dos propósitos (u otros) movilicen al futuro elaborador de la prueba, este se encontrará
inmediatamente ante una variedad de interrogantes vinculados con la finalidad del instrumento, que deben
responderse para guiar el proceso de diseño y construcción. Algunos de los interrogantes son, ¿cuál es el objetivo de la
22
prueba?, ¿qué es lo que la prueba medirá de acuerdo a su diseño?, ¿cuáles son las necesidades de realizarla?, ¿hay otras
pruebas que evalúen lo mismo, y qué ventajas y desventajas tendrá sobre ellas?, ¿quién la usará?, ¿qué capacitación
necesita para aplicarla?, ¿a quién se aplicará?, ¿cuáles son las características de la población destino como su rango de
edades, nivel cultural?, ¿qué beneficios les acarreará esta prueba?, ¿hay algún potencial daño que pueda ocurrir por la
aplicación de esta prueba?.
Definir la finalidad de la técnica implica identificar las variables a medir y la población a la cual se dirige la evaluación.
El profesional tiene que atender y profundizar el marco teórico y la definición de la variable que fundamenta su
construcción, ya que solo con esta información puede valorar el tipo de decisiones que podrá tomar con las
puntuaciones obtenidas, lo que supone también saber elegir entre varias opciones cual es el instrumento más adecuado
a sus objetivos.

Etapa 2. Marco teórico. Definición del constructo.


La elaboración de un instrumento científico, implica la perspectiva de un marco conceptual (marco teórico o corriente
psicológica amplia) que aporta información para la interpretación de las puntuaciones. Dicho marco, no puede quedar
reducido a un conjunto de definiciones de conceptos. El constructor de una técnica, no solo tiene que definir los
conceptos implicados, sino las relaciones lógicas de éstos con un marco teórico o una corriente psicológica más amplia.
El atributo psicológico en cuestión no puede captarse por sí mismo sin la mediación de un proceso intelectivo que dé
cuenta de su sostén teórico. La base empírica que toda técnica psicométrica aporta, debe ser interpretada a través de
la teoría.
El constructor de un instrumento científico debe dar cuenta de la representación teórica del constructo que se pretende
evaluar. La definición de la variable a medir, evitará la omisión de aspectos importantes del atributo o la inclusión de
otros poco relevantes.

Etapa 3. Aspectos de diseño preliminares.


Esta etapa tiene como objetivo especificar a priori las principales restricciones con las que deberá operar el instrumento,
tales como el tiempo de administración, los materiales a emplear, las situaciones y características de los sujetos a los
cuales está destinado el test.
Lo principal a considerar es: el tipo de test (basados en criterios o en normas), el formato (escala, cuestionario,
inventario, entrevista), tipo de consigna (oral o escrita, explicaciones, necesidad de ejemplos o entrenamientos), tipo
de respuesta (dicotómica, likert, diferencial semántico), características de los sujetos a examinar (edades, nivel de
instrucción, nivel de comprensión lectora, nivel intelectual), modalidad de administración (individual, colectiva,
autoadministrable, interactiva por computadora), tiempo de administración (con o sin tiempo límite, una única sesión
o varias), forma de aplicación (oral o escrita, de lápiz y papel, manipulativo o de ejecución), tipo de exigencia (velocidad
o potencia, grado o dificultad), evaluación (manual o computarizada).
Por otro lado, las decisiones relacionadas con el formato de los ítems, implican una tarea clave en el proceso de
operacionalización del constructo, que comienza a realizarse en esta fase de diseño pero que se plasma en la práctica
en la etapa siguiente.

Etapa 4. Preparación y análisis de ítems.


A partir de esta etapa comienza la fase de construcción del instrumento propiamente dicha, es decir, que la definición
teórica del constructo debe derivar en una operacional, entendiendo a esta como una definición concreta de la variable
psicológica a evaluar, lo cual implica una revisión de las manifestaciones del constructo susceptibles de ser medidas.
El constructor de una técnica, tiene que exponer claramente las relaciones existentes entre la variable y sus
manifestaciones observables, es decir, debe justificar que las respuestas solicitadas a los sujetos garantizan una medida
relevante de la variable en cuestión.
Identificados los indicadores prácticos del constructo a medir a través de las definiciones operacionales, se hace
necesario generar los estímulos que los fomenten, es decir los ítems cuya respuesta sea una manifestación observable
de la variable a medir.
Sea cual fuere la variable que mida, una técnica psicométrica está formada por un cierto número de elementos llamados
reactivos o ítems, que aplicados al examinado fomentan en este algún tipo de comportamiento como respuesta,
vinculado al constructo que desea medir. La calidad de cada uno de ellos, contribuye a la calidad del test en su totalidad.

Las tareas implicadas en esta etapa pueden ser divididas en por lo menos cuatro momentos, con un orden lógico y no
necesariamente cronológico, por lo que la información obtenida en cualquiera de ellos puede ocasionar un cambio en
el plan original.
23
Paso A: Planeamiento y confección de los ítems, consignas y formato de respuestas: La confección de ítems tiene que
estar guiada por la teoría, ya que solo así se podrá elaborar un test con validez de constructo.
La construcción propiamente dicha del test comienza al diseñar un conjunto numeroso de ítems, generalmente mucho
mayor que la longitud prevista de la técnica (los ítems deben recoger información adecuada y representativa del
atributo). Este proceso implica determinar las posibles manifestaciones de la variable y debe ser realizado por expertos,
ya que supone una discusión teórica.
En principio, el constructor de la técnica debe especificar un plan para el desarrollo de esta etapa en su conjunto y
explicitar los criterios con los que llevará a cabo la selección y/o diseño de los ítems que serán incluidos en el
instrumento. Luego, debe identificar los observables representativos del constructo, del atributo de interés, y, si este
tiene varios aspectos, deberá establecer las proporciones de ítems que evaluarán cada uno de ellos. Así, los ítems que
a partir de la teoría o de la experiencia práctica han sido hallados como más prototípicos de la variable a medir, deberán
tener una representación mayor en el puntaje final, que aquellos que son más accesorios. Cada ítem de una técnica
psicométrica debe ser diseñado para inferir, a través de la respuesta que den los sujetos, una justa medida del atributo
a evaluar, ya que este es el primer resguardo de su validez teórica y de contenido.
En los casos en que el constructo fuera multidimensional, debe informarse que dimensiones tiene la variable y que
conjuntos de ítems componen cada una de ellas, además de especificar si la técnica arrojará un puntaje único y/o varios.
En el caso de que se ofreciera un puntaje único, producto de la combinación de varios, es necesario fundamentar cómo
es que se integran los puntajes parciales para lograrlo. Las decisiones sobre la naturaleza de los materiales estímulo y
las posibilidades de respuesta del examinado deben también fundamentarse y justificarse en virtud de los objetivos de
evaluación previamente planteados.
Antes de que los especialistas en el tema comiencen a producir e inventar un gran número de ítems, debe seleccionarse
el formato y el método de escalamiento que se usará en la respuesta. Para la elección del formato de las respuestas,
conviene tener en cuenta la diferencia que hay en el diseño de ítems, en pruebas que miden:
- Inteligencia o aptitudes: tienen como objetivo evaluar el rendimiento de los sujetos, y para ello se utilizan técnicas de
recolección de datos muy variadas. Los ítems pueden tener distintos grado de dificultad y la evaluación implica, en
términos generales, valorar la adecuación de la respuesta del sujeto respecto a la establecida como adecuada, aunque
también puede evaluarse el tiempo de ejecución y el tipo de error cometido entre otras posibilidades. Entre las múltiples
decisiones que debe tomar el constructor de un test de este tipo, está la elección del tipo de respuesta que se le solicitará
al sujeto examinado, si este debe construirla o seleccionarla a partir de alternativas entre otras alternativas.
- Aspectos de personalidad, intereses y actitudes: Utiliza frecuentemente el formato de cuestionarios e inventarios que
evalúan valoraciones de los sujetos, respecto a características o conductas personales, ideas o creencias con que se
describen. Los ítems que los conforman se caracterizan porque suelen realizarse comenzando por una breve descripción
de dichas valoraciones y luego presentar dos o más respuestas alternativas, solicitando al sujeto que categorice o valore
un orden (ítem dicotómico, ítem con tres alternativas, ítems con criterios de valoración).

Respecto al escalamiento de las respuestas, es de particular importancia la selección del nivel de medición, tanto de
cada uno de los ítems como de la variable en su conjunto, ya que esto define las posibilidades que tendrá el tratamiento
posterior de los resultados.
Una vez definidos el tipo de ítem y su formato de respuesta, el especialista procede a generar gran cantidad de ellos,
que suelen ser mucho mayor al que finalmente conformará la prueba. La siguiente tarea implica someterlos a un
minucioso análisis crítico o a un sistema de jueces, o a ambos.
Si bien los reactivos fueron desarrollados por expertos y psicómetras, es menester que puedan superar el examen crítico
y pormenorizado sobre su calidad y ajuste por parte de otros jueces, que puedan determinar su adecuación a la teoría
e indicar cuales son los más adecuados y los que deberían desecharse. Si bien una vez finalizado el instrumento se harán
los correspondientes estudios de validez y confiabilidad, la validez conceptual, de contenido y aparente comienzan a ser
evaluadas en este momento. También se deberá agregar la consigna general y/o particulares, el procedimiento de
corrección, los cuales también pasarán por la vista de los jueces, complementando la estandarización de una primera
versión de la técnica que será administrada a una muestra piloto.

Paso B. Estudio pre-piloto: Se trata de un ensayo, generalmente realizado en pequeños grupos de sujetos similares a los
que está destinada la técnica, y que tiene como objetivo identificar ítems débiles o defectuosos, elementos con
significado ambiguo, así como estimar la adecuación del lenguaje y las dificultades de comprensión. El objetivo básico
es analizar, con cierto detalle, el contenido de la técnica, y por ello con frecuencia se anexa un cuestionario donde se
solicita a los sujetos que realicen comentarios sobre la técnica en general y sobre el comportamiento de los reactivos
en particular. A su vez, los examinadores a cargo, registran puntualmente los efectos de las condiciones de
24
administración, los problemas y las dificultades observadas. El estudio prepiloto permite desechar o corregir los ítems
que habían sido incorporados a la primera versión, considerándose una buena práctica en el desarrollo de los
instrumentos. Como resultado de este paso queda conformada la versión del instrumento, que se probará en “el campo”
que se denomina como versión piloto.
Paso C. Muestra piloto de sujetos/ítems preseleccionados. El diseño de esta actividad implica una estimación previa del
tamaño y de la delimitación de las precisas características de la población a la cual está dirigida la técnica, como los
criterios de decisión sobre el número y composición de la muestra representativa de la misma. También requiere la
versión piloto del instrumento, ya obtenida en el paso anterior, que irá modificándose sucesivamente a partir de los
hallazgos que se logren en estos ensayos. Se trata de administrar la versión piloto a la muestra representativa de la
población a la que va dirigida al instrumento, de forma tal de evaluar el funcionamiento del mismo y obtener un conjunto
de resultados concretos que permitan cuantificar y cualificar las características de los ítems. A partir de esos resultados,
se pueden tomar decisiones ya fundamentadas en la práctica, que incluyen la modificación, inclusión o exclusión de los
ítems, modificación de la consigna, entre otras. El conjunto de procedimientos formales para hallar esta información se
conoce como “análisis de ítems”, siendo estos muy variados en función tanto de la técnica en cuestión como de las
características de sus resultados.
A través del análisis de ítems se pueden obtener numerosos índices que facilitan la visualización de las propiedades de
los ítems, algunos de los cuales son generales para todas las técnicas y otros específicos.Dentro de los índices generales
más usuales para el análisis de los ítems se destacan los destinados a evaluar el poder discriminativo del ítem, y aquellos
que describen el grado de relación entre la respuesta al elemento y algún criterio de interés, sea este interno o externo
al propio test (índices de discriminación, de homogeneidad, de confiabilidad y validez del ítem).
En síntesis, las puntuaciones obtenidas en las administraciones realizadas en una o más muestras piloto, permiten
establecer definitivamente cuestiones específicas de la administración (consignas, materiales, tiempo) y a su vez
determinar objetivamente las características de los ítems que pasarán a constituir la versión definitiva del instrumento.

Algunas de sus características de los índices son:


-Poder discriminativo del ítem: implica estudiar si un ítem capta diferencias entre los sujetos y si la diferencia medida se
debe a diferencias reales en el constructo a evaluar (o se debe a la influencia de variables improcedentes).
El propósito del test en su totalidad y de cada ítem en particular es proporcionar información sobre las diferencias
individuales en el constructo que el test pretende medir, por lo que la utilidad del test se maximiza cuando más elevado
es el poder de discriminación que tienen sus ítems.
Para hallar el poder discriminativo del ítem, se suele recurrir a los índices correlaciónales de discriminación, que
constituyen un grupo de índices que se basan en la correlación entre la puntuación alcanzada por el sujeto en el ítem y
la puntuación total en el criterio. Cuanto mayor sea dicho coeficiente, mejor será la discriminación del ítem. Los
elementos con bajo poder de discriminación, normalmente se eliminan.
-Sesgo de los ítems: Se considera que un ítem está sesgado cuando arroja puntuaciones significativamente diferentes
en grupos específicos de examinados que, teóricamente, forman parte de la misma población a la que se va a aplicar el
test.
La existencia o no de sesgo se establece determinando si los parámetros de los ítems varían o no a través de los
subgrupos.
-Dificultad del ítem: En el caso de pruebas donde interesa evaluar aptitudes, los ítems han de elegirse teniendo en
cuenta su dificultad para ser respondidos adecuadamente.
-Confiabilidad y validez de los ítems: Es factible calcular la confiabilidad y la validez de cada uno de los ítems, aplicando
coeficientes de correlación adecuados a las características de la prueba piloto y de los ítems en cuestión,
seleccionándose los elementos con mayor nivel de calidad.
-Relación entre los ítems: El análisis factorial es un método frecuentemente utilizado en el análisis de los ítems, y se
trata, de un méto que permite determinar el nivel de relación que existe entre las respuestas a los ítems, y con esos
resultados identificar conjuntos de reactivos que tienen algo en común, a los que se llamarán factores. Este tipo de
análisis permite encontrar evidencia empírica de hipótesis teóricas del funcionamiento de los ítems y depurar aquellos
que tengan una baja correlación con los otros reactivos que previamente se consideraban estar evaluando lo mismo.

Paso D. Versión definitiva de la técnica: Una vez seleccionados los ítems que se consideran idóneos para la formación
del test, se estudian las características de este y se aplican técnicas para su estandarización definitiva, que incluirá el
formato, las consignas, cuales reactivos la compondrían, las normas y los estudios de calidad psicométrica.

25
Como normas nos referimos a aquellos valores que deberán calcularse para que el usuario final pueda lograr una
correcta valoración e interpretación de los resultados de la aplicación. Para obtenerlos, el instrumento es aplicado a una
muestra representativa de aquella población a la que va dirigido, la que se denomina grupo normativo.
El tratamiento de los ítems es una de las etapas más complejas y largas, y que amaerita el mayor cuidado por parte del
constructor.

Etapa 5. Estudio de la calidad psicométrica.


Las dos cualidades de un instrumento psicométrico en las que el investigador y el usuario deben interesarse
especialmente son la confiabilidad y la validez.
Respecto a la confiabilidad, las pruebas que miden aptitudes suelen alcanzar una mayor que las que miden aspectos de
la personalidad. Esto suele deberse a que es más sencillo evaluar una aptitud que una actitud.
En cuanto a los estudios de validez, generalmente en las pruebas de aptitud también es más sencillo encontrar criterios
externos cuatificables. Por su lado, las técnicas que evalúan características de personalidad, intereses o actitudes, en
general, ponen el énfasis en la validez de contenido, de constructo, y con frecuencia analizan los puntajes a través del
análisis factorial.

5.2. La adaptación de los test.


Estudios que deben realizarse para ajustar una prueba original proveniente de un determinado medio sociocultural y
adaptarlo a otro. Cuando un investigador adecua una técnica en uso desde el punto de vista de su ajuste cultural, realiza
una adaptación del test en sentido estricto, mientras que cuando la actualiza, realiza también una adaptación pero en
este caso se denomina revisión. Ambas están imbricadas, toda adaptación involucra siempre atender las especificidades
de una comunidad así como el carácter cambiante de esta.
Es importante remarcar que las diferencias culturales no se refieren a las que hay entre naciones ni etnias, ya que dentro
de un mismo país, incluso dentro de una misma ciudad, barrio o institución, pueden hallarse patrones conductuales que
definen distintos grupos culturales y subculturas.
Si no se puede lograr un test libre de influencia cultural, lo deseable es que sea culturalmente justo, es decir que haya
igualdad de posibilidades entre todos los grupos con el evaluados, sobre todo los minoritarios.
Mientras que valorar el grado de actualización de una técnica es relativamente sencillo, por el contrario relevar el ajuste
temporal de un instrumento es un proceso más complejo.

Aspectos émicos y éticos.


Se denomina éticos a aquellos constructos o aspectos de los mismos, ideas e instrumentos, que tienen y han demostrado
características universales, mientras que los aspectos denominados émicos son aquellos vinculados o utilizables en solo
uno o pocos grupos culturales.
La consideración de este tema no implica juicios valorativos, su objetivo es destacar la importancia de analizar el grado
de universalidad del constructo o instrumento en cuestión y de demostrarlo con datos empíricos. Así por ejemplo, un
constructo como inteligencia tiene un importante valor ético, debido a su universalidad: en casi todas las culturas existe
alguna concepción de la capacidad de los sujetos, pero también posee alguna valoración distintiva de cada cultura en
particular (valor émico). Es necesario crear instrumentos éticos que midan los conceptos de una forma culturalmente
relevante (émicos).
Quien adapta una técnica debe ser un “mediador” entre culturas, y debe considerar detalladamente las características
del instrumento original para adecuarlas a la nueva cultura en cuestión.
Marín propone tres tipos de equivalencias a tomar en cuenta en esta adaptación de un constructo: las equivalencias
conceptuales o de constructo, lingüísticas, y métricas (y agregamos la equivalencia de formato). Las conceptuales
refieren a si el constructo existe en la cultura donde se desea utilizar la técnica en cuestión, y en tal caso, si la forma de
valorarlo es la misma que en la cultura de origen. Esta equivalencia nos lleva a preguntarnos por la validez cultural del
constructo y del instrumento que lo mide, si, por ejemplo, el comportamiento valorado como inteligente tiene los
mismos indicadores en la cultura origen que en la que se adapta el test (hacen al concepto teórico, que se haya hecho
investigaciones que el fenómeno a estudiar es equivalente en las dos culturas). Las lingüísticas refieren a la redacción de
los ítems y consignas, a su traducción y al empleo de términos que tengan significados iguales o lo más parecidos posible
a los originarios. Está hermanada con la conceptual, ya que la traducción del instrumento, deberá tener en cuenta los
giros idiomáticos, la idiosincrasia, las creencias y los valores puestos en juego en los reactivos. Para realizarla, se suele
recurrir a las traducciones por consenso (varios expertos), a personas bilingües y luego se realizan las pruebas piloto
necesarias para garantizar la correcta equivalencia (hacen a las traducciones, a los modismos regionales, también a las
imágenes). Las métricas refieren al calibrado, tanto al valor con que se pondera cada ítem (si se debe mantener,
26
cambiar), como a la adecuación de las normas, la revaluación de los estudios de validez y confiabilidad y la revisión de
la cantidad de factores que componen el instrumento, entre otras posibilidades (confiabilidad, validez, baremos). Las
de formato refieren a los aspectos formales del instrumento que puedan afectar la forma de responder de los sujetos,
como ser la utilización del tiempo, el tipo de formato de las respuestas.
En síntesis, se requiere establecer la validez cultural del constructo, la validez lingüística y/o gráfica de su expresión en
el test, la validez del formato seleccionado y la validez métrica.

Sesgo y equidad
El problema del sesgo apunta a la cuestión de si las diferencias entre grupos encontradas en los resultados de los test
reflejan diferencias reales en la variable medidas entre los grupos, o si estas son causadas por fuentes sistemáticas de
variación ajenas al constructo que mide el test. El propósito de las investigaciones sobre el sesgo es separar las
diferencias reales de las artefactuales (generadas por el propio instrumento de medida).

ENTREVISTA. EED-I. Es un instrumento psicométrico de criterio, no usa baremo.


La entrevista es un encuentro de dos o más personas en un lugar determinado, para tratar de resolver algún asunto. Es
una técnica que servirá en el contexto de un psicodiagnóstico para revelar y relevar datos acerca del consultante. Es la
técnica de mayor aproximación al estudio del comportamiento humano y la más utilizada ya que facilita obtener datos
de una mayor riqueza y amplitud en relación con cualquier otra técnica de evaluación.
Hay diferentes etapas dentro del proceso psicodiagnóstico: Primer contacto, en forma personal o por teléfono y la
entrevista inicial con el paciente; administración de la batería diagnóstica; devolución de la información oral al paciente
(y/o padres); informe escrito al profesional que lo ha derivado.

Momentos de la entrevista.
Preentrevista. Se inicia con el pedido de consulta y finaliza con la apertura de la entrevista inicial. Se evalúan los
datos que se obtuvieron de la persona antes de contactarse con el entrevistador, es la primera información que
obtenemos acerca del consultante (en relación al derivante y al pedido, los datos provenientes de nuestra primera
impresión). Es personal o telefónico, pero siempre breve. A partir de estos conocimientos mínimos se elaboraran
estrategias para lograr un mejor acercamiento y poder formular hipótesis sobre la situación que nos servirán para
comenzar a trabajar.
Apertura. En el momento del encuentro entre las dos personas se produce un incremento de ansiedad (que no
va a dejar de existir, pero hay que conocer que existe).
- Establecimiento del encuadre. Consiste en el mantenimiento de ciertas constantes durante el proceso, lo que permite
que las variables participantes sean la personalidad del entrevistado y su problemática. Las variables a ser mantenidas
constantes son: ámbito físico donde el proceso formal tendrá lugar, tiempo total aproximado, duración de cada
encuentro, fijación de honorarios, rol del profesional y rol del consultante. Se conversa en la primera entrevista sobre
esto, y sobre los objetivos generales y las diferentes actividades que se realizarán. - Instalación del rapport. Un buen
rapport es el logro de un adecuado clima de trabajo, cálido, amable y ameno, respetando los estilos personales de
ambos. Es el esfuerzo del examinador por despertar el interés del sujeto, obtener su cooperación y asegurar que sigue
las instrucciones tipificadas del test.
Acontecer propiamente dicho. Debe ajustarse a las motivaciones y fines de la entrevista, a los objetivos
específicos de la misma. En esta etapa transcurre la entrevista y el material que se obtenga nos servirá para acercarnos
al futuro trabajo con el paciente.
Cierre. Está condicionado a cómo se haya logrado el objetivo propuesto. En general, dejamos abiertos algunos
temas, para seguir conversando acerca de ellos en futuras entrevistas y para ser pensadas fuera de la consulta.
Posentrevista. Es el momento de elaboración del material obtenido durante la entrevista. Los resultados de esta
elaboración son devueltos en forma gradual durante las entrevistas siguientes, a la vez que resultan de fundamental
importancia en la elección de las técnicas por ser administradas.

Clasificación. El grado de estructuración de las entrevistas variará de acuerdo con las diferentes combinaciones posibles
de realizar:
Abierta o libre. El entrevistador asume un rol poco participativo, en la cual la consigna es que el entrevistado
exprese lo que quiera, que tenga la libertad de hablar de lo que desee, sin limitarlo.
Cerrada. Las preguntas han sido establecidas con anterioridad, así como el orden y la manera de plantearlas. El
rol del entrevistador es directivo, guiando a través de preguntas al entrevistado para obtener datos sobre su historia.

27
Semidirigida. En esta modalidad se alternan secuencias no directivas que permiten que el entrevistado se
exprese libremente y secuencias directivas en las que las intervenciones tienen como finalidad esclarecer algunos puntos
que han quedado confusos o que no fueron referidos por el entrevistado. Este tipo de técnica se utiliza en la entrevista
inicial de todo proceso psicodiagnóstico.

La entrevista con niños. Los niños pequeños se expresan por intermedio de los dibujos, juegos, movimientos corporales
y algunas formas verbales. El juego en los niños puede ser instrumentado tanto para diagnóstico como en un proceso
psicoterapéutico.
El evaluador de niños y adolescentes precisa de una específica preparación y de una experiencia profesional
pluridisciplinar que incluya conocimientos evolutivos, psicopatológicos, de tratamiento, etc., y que debe estar dotado
de una gran sensibilidad diagnóstica para apreciar, en el proceso de evaluación, las variabilidades que puedan darse
vinculadas a factores de edad, socioculturales, fenómenos educativos, situaciones específicas, y que deban ser
interpretadas con valor diagnóstico propio u accidental.
Hay que actuar con prudencia para diferenciar entre el cambio generado por el propio desarrollo, el causado por
variables accidentales, el desencadenado por la acción educativa planificada y el provocado por la específica acción
terapéutica.
Una parte de la información proviene del propio niño (información acerca de sus problemas y autoinformes) y una
mayor parte de información es aportada por los padres o por los educadores, además de la información obtenida
mediante pruebas objetivas.

MINIBATERÍA PSICOEDUCACIONAL KOPPITZ. Apta para niños en edad escolar (6 años a 11 años y 11 meses). Es posible
usarla para una investigación epidemiológica o screening, para captar posibles riesgos en poblaciones grandes en cuanto
a variables psicoeducativas (como integración y aprendizaje, riesgos de disfunción en el aula), o como parte de una
evaluación psicoeducacional individual. Los tres instrumentos son capaces de detectar problemas vinculados a la
escolaridad, en la primaria, que dependen del desarrollo neurológico y de la estimulación ambiental. Da una idea general
de cómo está el chico para atravesar su proceso de aprendizaje.

BENDER. Maduración visomotriz en la infancia y pre-pubertad: el Test Guestáltico Visomotor de Bender. Indicadores de
disfunción neurológica e indicadores emocionales.
El test de Bender consiste en nueve figuras que son presentadas una por vez para ser copiadas por el sujeto en una hoja
en blanco. Wertheimer había usado esos diseños para demostrar los principios de la psicología de la gestalt en relación
con la percepción. Bender adaptó estas figuras y las usó como un test visomotor. Al hacer esto, aplicó la psicología de
la gestalt al estudio de la personalidad y la práctica clínica. Bender señala que la percepción y la reproducción de las
figuras gestálticas está determinada por principios biológicos de acción sensorio-motriz que varían en función de: el
patrón de desarrollo y nivel de maduración de cada individuo, y su estado patológico funcional u orgánicamente
inducido. Se basa en la teoría gestaltica, porque las figuras son las que usaba Wertheimer para probar las leyes de la
gestalt. En la mayoría de las culturas se aprende a leer y escribir a partir de los 5, 6 años. Para ello se necesitan
configuraciones gestálticas.
La mayoría de los niños pueden copiar los nueve dibujos del Bender sin errores alrededor de los once años. Bender
adopta un encuadre evolutivo al analizar los protocolos infantiles, y efectúa una evaluación clínica en el caso de
protocolos de pacientes adultos.
El protocolo del Bender puede evaluar madurez perceptiva, posible deterioro neurológico y ajuste emocional. Test de
Bender (1938). Evalúa madurez viso-motriz (capacidad de que una persona pueda percibir el dibujo como un todo, captar
visualmente una gestalt y su configuración, y para reproducirla gráficamente como tal, y poder iniciar y detener una
acción a voluntad), ajuste emocional, indicadores de posible disfunción neurológica. En adultos se evalúa más como test
proyectivo (se supone que ya tienen maduración viso-motriz).
Koppitz intenta distinguir entre distorsiones en el Bender que reflejan inmadurez o disfunción perceptiva, y aquellas que
no están relacionadas con la edad y la percepción sino que reflejan factores emocionales y actitudes. La estadística dice
a qué edad qué error debería haber desaparecido. Si no desaparece, es un indicador de posible daño neurológico (no
sirve en edades tempranas, porque es esperable que cometan errores madurativos). Hay errores que se repiten y que no
son madurativos, son los relacionados con el ajuste emocional, no dependen de la edad.
El sistema de maduración consiste en 30 ítem de puntaje mutuamente excluyentes, los cuales se computan como
presentes o ausentes. Todos los puntos obtenidos se suman en un puntaje compuesto. Desde que se computan los
errores, un puntaje alto indica un pobre desempeño, en tanto que un puntaje bajo refleja una buena actuación. Se

28
buscan errores en lugar de aciertos. Buscamos 4 errores: rotación, integración de la forma, perseveración, distorsión de
la forma.
No se puede ni debe efectuar un diagnóstico de lesión cerebral solamente sobre la base del puntaje obtenido, de una
sola desviación en el test, o de un solo rasgo de conducta. Pero si uno toma en cuenta todos estos factores
combinadamente, entonces aumenta la validez de esta prueba como instrumento diagnóstico. Todos los diagnósticos
de lesión cerebral basados en el Bender deben ser considerados como hipótesis que luego hay que verificar
confrontándola con datos de la historia clínica, examen médico y otras pruebas psicológicas.
Tiene validez predictiva (a un año). Se usa el análisis de correlación entre el rendimiento en el bender y las notas (menos
errores en el bender, mejores notas). Utiliza percentil.

DFH. La maduración conceptual en la infancia y pubertad: el Test del Dibujo de la Figura Humana. Indicadores
madurativos según Goodenough y Harris. Indicadores de disfunción neurológica e indicadores emocionales según
Koppitz.
Dibujo de la figura humana. Técnica de screening que se toma en niños de edad escolar. Evalúa madurez conceptual (se
relaciona con la madurez intelectual), posible daño neurológico y ajuste emocional. Es útil para el aprendizaje escolar.
Busca aciertos, cuántos detalles tiene el dibujo. A mayor puntaje, mayor madurez conceptual (capacidad de abstraer y
generalizar conceptos). Utiliza percentiles.
Hay un enfoque psicométrico (evolución, maduración conceptual, capacidad creciente, de formulas conceptos concretos
a abstractos) y un enfoque proyectivo (clínico en adultos).
También evalúa indicadores emocionales. En este caso, algunos ítems dependen de la edad, lo madurativo, y otros no.
Los ítems nos van a indicar las ansiedades, los miedos, las actitudes, las preocupaciones. Para que un signo emocional
esté presente tiene que cumplir tres criterios: validez clínica (que el ítem esté presente en chicos con problemas
emocionales y no esté presente en chicos sin desajuste emocional), que sea inusual o raro (hay una reducida frecuencia
de aparición en los niños normales), y que no esté relacionado con la edad ni la maduración (que la frecuencia de
ocurrencia no vaya apareciendo con la edad).
También da indicadores de posible disfunción neurológica. Si hay detalles que a x edad deberían aparecer y no aparecen.
La figura del examinador ejerce una mínima influencia, el entrenamiento artístico, lo escolar y lo emocional tampoco
generan diferencias significativas.

VADS. Escala visual y auditiva de dígitos. La memoria de corto plazo y el procesamiento de la información.
Koppitz elaboró el VADS, compuesto de 26 tarjetas impresas con dígitos. Nos da 11 puntajes, incluyendo evaluaciones
del proceso auditivo y visual, así como memoria auditiva y visual, integración intersensorial e intrasensorial. Los cuatros
subtests del VADS son:
1) auditivo-oral (A-O): se nombran oralmente los dígitos y se pide su repetición oral. Evalúa integración auditiva,
conservación de una secuencia y su evocación.
2) visual-oral (V-O): se muestran los dígitos y se pide su repetición oral. Evalúa integración visual-oral-memoria.
3) auditivo-gráfico (A-G): se nombran oralmente los dígitos y se pide su reproducción gráfica. Evalúa la capacidad de
procesar, establecer una secuencia y evocar estímulos auditivos y trasladarlos a símbolos escritos.
4) visual-gráfico (V-G): se muestran las tarjetas y se pide su reproducción gráfica. Evalúa integración intrasensorial entre
percepciones visuales y expresión gráfica.
Evalúa procesamiento de la información en tareas de memoria inmediata (corto plazo) con estímulo auditivo y visual y
respuesta oral y gráfica, integración intra e intersensorial, disfunciones visuales o auditivas severas, estrategias y
habilidades cognitivas necesarias para el aprendizaje escolar.
Técnica de screening para saber si el niño tiene alguna dificultad o no en el aprendizaje. Para chicos entre 5 años y medio
y 12 años.
El modelo teórico que subyace es la teoría del procesamiento de la información.
Se usan dígitos porque las palabras pueden estar unidas a significaciones personales.
Cómo trabaja el chico en tareas de memoria inmediata (el estímulo se quita). Es la memoria que usa cotidianamente y
sobre todo en la escuela (como copiar del pizarrón).
Se suele usar en primer grado para tener un pantallazo de cómo está el chico en procesamiento de estímulos y memoria
de corto plazo por ejemplo.
Utiliza percentil (No tienen media ni desvío, entre los parámetros 30 y 70 está el término medio). Para los tres antes se
usaba el puntaje z.

29
TEST DE MATRICES PROGRESIVAS DE RAVEN. El test de matrices progresivas, escala general mide la capacidad eductiva.
La capacidad eductiva ha sido caracterizada como parte esencial de las habilidades cognitivas de los seres humanos y se
define como la aptitud para establecer relaciones y formular correlatos, a partir de ítems de información; tales
relaciones no aparecen como inmediatamente evidentes ante los ojos de quien observa y deben ser extraídas partiendo
desde una organización mental del material que el sujeto está obligado a realizar como paso previo. La educción se
vincula con la capacidad intelectual para la comparación de formas y con el razonamiento analógico, con una total
independencia respecto de los conocimientos adquiridos. La contrapartida, aunque complementaria de la capacidad
eductiva, es la capacidad reproductiva, caracterizada como la habilidad para apelar a los conocimientos acumulados,
más vinculada con la memoria de largo plazo, al enciclopedismo y a las habilidades académicas que clásicamente se
fomentan en las instituciones educativas.
Comparada con otros conceptos relacionados, la educción muestra un estrecho parentesco con la inteligencia fluida, en
tanto que la capacidad reproductiva parece aproximarse a la inteligencia cristalizada. Cattell teorizó sobre la inteligencia
fluida y cristalizada en los siguientes términos: un factor g incluía la actividad en la que el juicio se vuelve cristalizado,
como el vocabulario, la habilidad numérica, mientras que un segundo factor g para la aptitud fluida incluía series y
analogías.
La habilidad fluida puede medirse por medio de reactivos no verbales que, por ende, se hallan menos impregnados de
influencias y significados culturales. Por esto, el test de matrices es un test de reducida influencia cultural.
En función de sus características psicométricas formales, se define como un test normativo, de administración individual
o colectiva, y por ello, autoadministrable, de elección múltiple y sin tiempo límite en su versión original. Consiste en 60
problemas repartidos en cinco series de 12 elementos cada una. Cada ítem incluye un estímulo geométrico gestáltico-
lacunario con 6 u 8 opciones de respuesta, donde solo una es completamente correcta.
El test de matrices progresivas de Raven intenta medir la capacidad eductiva (si bien no la puede medir de forma pura)
(lo mismo que la inteligencia fluida, poder abstraer y captar relaciones entre objetos, lógica, flexibilidad). Se diferencia
de la capacidad reproductiva (inteligencia verbal, cristalizada). El estímulo es una gestalt, una totalidad organizada de
una configuración visual, que tiene un objeto. Uno tiene que captar las leyes de esta gestalt eductivamente y luego de
haber establecido las relaciones de esta gestalt, tratar de emitir el ítem correlativo. Intenta aproximarse al factor g, se
infiere, no se puede ver.
Escala coloreada: niños hasta 11 años, ancianos y sujetos con sospecha de retraso mental.
Escala general: personas entre 12 y 65 años.
Escala avanzada: cuando hay sospecha de talento (en inteligencia fluida).

TEORÍAS DE LA INTELIGENCIA Y LAS APTITUDES.

Teorías clásicas de la inteligencia


Definiciones de inteligencia
Hay desacuerdo entre los distintos autores y corrientes de la definición de inteligencia, esto se debe a que este fue un
campo en el que se ha trabajado mucho.
Una de ellas, es propuesta por Vernon en 1969. Este autor pensó que era necesario identificar tres amplios grupos de
definiciones, es decir, de categorías en las que se podían agrupar las distintas definiciones de inteligencia. Por un lado,
las biológicas o de adaptación al ambiente, que consideran que la inteligencia se relaciona con la adaptación al
ambiente, es decir, ponen el acento en la adaptación del organismo al ambiente, (por ejemplo Piaget con la adaptación
y asimilación, lo que traemos los humanos al momento del nacimiento) buscando determinar cuáles son aquellos puntos
en común que tienen todos los organismos humanos para adaptarse al ambiente. Buscan leyes generales y no
diferencias individuales. Por otro lado, las psicológicas, que representan el enfoque cuantitativo o psicométrico, donde
el énfasis se encuentra en la medición de la inteligencia para comparar y diferenciar entre individuos (cómo podemos
hacer para diferenciar qué tiene de peculiar cada ser humano en el uso de su inteligencia respecto del otro, diferencias
individuales). Éstas no ponen el acento en lo biológico ni en el aprendizaje, sino en su interrelación. Trataban de definir
las habilidades específicas de la inteligencia. Y por último, las operacionales, que define a la inteligencia en términos de
lo que resulta de las pruebas diseñadas para medirla (definen inteligencia como aquello que los test miden, porque a
partir de 1905 empiezan a aparecer los primeros test en el mundo, que se diseñan por necesidades prácticas de la
escuela y el ejército). No existía una teoría de la inteligencia robusta, entonces se buscaban soluciones prácticas. Se
empezaron a construir teorías para fundamentar los instrumentos existentes a partir de 1923.

30
Dos grandes líneas que trabajan con enfoques factoriales
Las teorías de la inteligencia se basan en los análisis de puntuaciones de un gran número de individuos, en diversas
pruebas de inteligencia, a través del uso de una técnica estadística denominada análisis factorial. El AF implica la
correlación de las puntuaciones de una gran muestra de sujetos para determinar si las puntuaciones en ciertas pruebas
se relacionan con las de otras. Entre más parecidas son las puntuaciones en dos o más pruebas (mayor sea la correlación)
más probable será que estas pruebas detecten la misma capacidad básica (o factor). Dentro de la corriente de teorías
psicológicas encontramos dos enfoque factoriales (utilizan el diseño factorial como técnica de análisis de datos). Si se
encuentra que las puntuaciones de las personas en x cantidad de pruebas se correlacionan en gran medida, entonces
se puede inferir que las x pruebas miden la misma capacidad y que los individuos defieren de acuerdo con qué tanto o
qué tan poco tienen de esa capacidad en particular. Sin embargo, si existe poca relación entre las puntuaciones de las x
pruebas, entonces cada una de ellas puede estar midiendo una capacidad diferente y cuando se compara a los individuos
se debe analizar cada capacidad por separado.
Estos dos resultados hipotéticos corresponden a dos teorías de la inteligencia, la primera se denomina “línea de
Londres” y se asocia con Spearman, Burt y Vernon, en contraste con el enfoque estadounidense de Thurstone y Guilford.

Línea londinense/inglesa: Es más antigua en el tiempo. Acepta el concepto de inteligencia desde lo teórico y empírico.
Teoría de los dos factores de Spearman: También llamada Teoría Bifactorial o Ecléctica de los Dos Factores (aunque
luego fueron tres factores). Se desarrolló entre 1905 y 1938. Los test de Binet y de Wechsler son test de inteligencia
general, posicionados en este modelo.
Intenta aunar en una sola teoría los modelos que hasta ese momento la filosofía había legado a la psicología. Toma de
la filosofía tres modelos clásicos, con respecto a los términos gubernamentales:
- Monárquicos: La inteligencia estaba comandada por un solo factor
- Oligárquicas: La inteligencia estaba comandada por algunos factores.
- Anárquica: Negaban toda posibilidad de gobierno de la inteligencia individual. Así como un sujeto tenía habilidades
absolutamente brillantes y desarrolladas, también tenía habilidades absolutamente torpes.

Creó el Análisis Factorial. De las respuestas de los sujetos, Spearman aisló dos factores, aunque luego pasaron a
constituir tres factores.
1) Factor General (g) de la inteligencia: Es homologable a cierta cuestión energética. Se trata de la energía mental que
permite que nuestra inteligencia funcione, es decir, que las neuronas puedan transmitir el impulso nervioso. Cuanta
mayor cantidad de “g” tiene una persona, más inteligente es.
Es constante intraindividualmente (fuerte componente biológico y hereditario), y variable interindividualmente
(variable respecto de otras personas). Es decir, que cada uno tiene distintas proporciones de g, pero éste, se mantiene
siempre igual dentro de cada persona.
La manera de medirlo es a través de habilidades específicas (no se puede medir directamente). Habla de una inteligencia
en general.
A partir de esto, el propósito de Spearman va a ser captar cuanto variables eran los sujetos, unos de otros, según su “g”.
Adentro del factor g hay dos capacidades. Por un lado la capacidad reproductiva, que se trata de la capacidad de
reproducir conocimientos adquiridos mediante aprendizaje, es decir, la capacidad de traer a la conciencia algún
aprendizaje previo. Tiene que ver con la memoria a corto y largo plazo y con el procesamiento de información. Por otro
lado, la capacidad eductiva, que se trata de la capacidad humana para inferir relaciones entre ítems de información, es
decir, la capacidad de captar una configuración gestáltica a partir de determinados ítems de información.
La primera ley de esta capacidad eductiva tiene que ver con que los humanos tratamos de establecer leyes y relaciones
entre ítems de información. La segunda ley, tiene que ver con que somos capaces de emitir ítems correlativos de
acuerdo a esas leyes construidas. Una vez que captó la relación para él, la tendencia automática es intentar establecer
un ítem correlativo.
Esta capacidad, nos permite cualquier tipo de razonamiento abstracto.
Estas dos se separan con fines teóricos, pero en la práctica están conectadas, trabajando en interjuego (puede haber
actividades principalmente de una u otra, o mitad y mitad). Ambas intervienen en cualquier actividad mental.

2) Factor específico (e): Son múltiples, no hay uno solo. Son habilidades pequeñas que se distinguen dentro de un
constructo general de inteligencia. Cada sujeto posee un repertorio diferente. Son variables intra e inter individualmente
(hay distintos factores e que el compañero y en distinto grado, y al interior de uno también son variables). Las
habilidades son potencialmente infinitas y dependen del ambiente (biológico) y del interjuego con g (interjuego con el
ambiente, donde se haya recibido mayor estimulación). Es decir, que son capaces de poseer infinitas capacidades pero
31
con restricciones ambientales y culturales. Podemos evaluar estas habilidades en los test de inteligencia. Por ejemplo el
WISC (múltiples subtests que implican determinadas habilidades. El g estaría representado por el CI de escala completa).

3) Factor no intelectual de la inteligencia: Uno rinde mejor en aquellas actividades que más le gustan, en las que fue más
estimulado en su historia personal, en las que nos cansamos menos, etc. Son infinitos, son cualquier cuestión no
intelectual que afecte el rendimiento intelectual (lo afectivo, emocional, físico, gustos, intereses). Inciden tanto o más
que “g” o “e” en la capacidad intelectiva. Cuestiones motivacionales o de tolerancia a la fatiga son puntos importantes
en estos factores. Se trata de aspectos y circunstancias de la vida que afectan a la inteligencia.

Línea americana (estadounidense): Es más contemporánea, y se impuso desde 1938. Se opone al concepto de
inteligencia desde el punto de vista teórico, habla de habilidades, aptitudes. No hablan de inteligencia porque cada uno
tiene distintas habilidades, que son diferentes de los otros. Habilidades independientes unas de otras.

Habilidades primarias de Thurstone: Va a hablar de habilidades mentales primarias, negando la posibilidad de hablar
conceptualmente de inteligencia. Según este autor, las habilidades eran independientes de un factor general (g) que las
aunara, por lo tanto, no era relevante establecer un concepto de inteligencia.
Además va a postular que existe un desarrollo de las habilidades, que es específico de cada persona (hay un perfil de
habilidades en cada uno de los sujetos), y éste es desparejo intrasubjetivamente (hay habilidades que son más
sobresalientes que otras).
Entonces, tomando el concepto de “factores específicos” de Spearman, centró sus estudios en siete habilidades
mentales primarias (que se relacionan con los siete subtests que presenta el Test de Aptitudes Diferenciales).
Por otro lado, afirmaba que las habilidades mentales son independientes y no se correlacionan. Esto quedó demostrado
en los casos en que determinadas personas mostraban un aplanamiento de sus habilidades en su mayoría, y el desarrollo
de una o un par de ellas de manera sobresalientes (los llamados idiotas sabios). Estas observaciones llevaban a concluir
que las habilidades son independientes unas de otras, y por lo tanto, no hay ningún factor común, ningún factor g que
las reuna.
Teniendo en cuenta esto, los test elaborados para medirlas son baterías de test que no llegan a ninguna puntuación
total, sino que dan puntuaciones individuales, una por cada habilidad posible. Thurstone crea test de habilidades, por
ejemplo el TAD (test de aptitudes diferenciales), que tiene 7 test, cada uno con su puntuación, y donde no hay puntaje
total (como sí en el WISC). Interesa el rendimiento de cada test por separado.

Modelo de la “estructura del intelecto” de Guilford: Complejiza la teoría desarrollada por Thurstone. Rechaza por
completo la noción de un factor general de inteligencia y sostiene la idea de la independencia presente entre las
habilidades mentales.
Clasificó a la tarea cognoscitiva a lo largo de tres dimensiones principales: contenido, operaciones y productos. Identificó
cuatro tipos de contenido, cinco de operaciones y seis de productos que, multiplicados juntos, rinden un total de 120
capacidades mentales distintas. Es decir, que en sus concepciones va a tener en cuenta una cantidad mayor de
habilidades.

Teorías modernas de la inteligencia


Modelos alternativos y modernos de la inteligencia
Se trata de modelos alternativos a las concepciones clásicas tanto en relación con el CI, como con el factor “g”.
Estos modelos integran los procesos cognitivos y los emocionales, es decir, tratan también de la interfase entre la
cognición y la emoción, que eran aspectos que no se tomaban en cuenta en las concepciones clásicas.
Son concepciones más dinámicas. La inteligencia se puede entrenar y mejorar.

Crítica al modelo clásico de la inteligencia basada en el CI:


- Los test clásicos miden la inteligencia de forma descontextualizada. No predicen el éxito en la vida diaria.
- No tiene una teoría sólida que los sostenga (tienen un criterio empírico).
- Crean artificialmente la correlación entre CI y rendimiento académico.
- Consideran que la inteligencia es heredada y poco modificable, relativamente estable y prácticamente libre de
influencias ambientales.

32
Inteligencia fluida vs. Inteligencia cristalizada de Cattell y Horn: Se desarrolla entre 1963 y 1968. Se entiende a esta
dicotomía como dos componentes fundamentales de la inteligencia. Al principio lo pensaban como opuestos, luego
pasaron a pensarlo como complementario.
Estos autores, afirmaban que el factor g se puede subdividir en dos dimensiones principales: inteligencia fluida y
cristalizada.
La inteligencia fluida es la capacidad para resolver problemas abstractos de relación, del tipo que no se enseña,
esencialmente no verbal y que está relativamente libre de influencias culturales. Involucra la capacidad de solucionar
problemas que requieren adaptación y flexibilidad al enfrentarse con estímulos novedosos con los que el sujeto no está
familiarizado. Los subtests de ejecución mantienen una correspondencia con las capacidades fluidas. Está relacionada
con cuestiones no verbales, hay relativa independencia de la cultura. Relacionado con la flexibilidad y la adaptabilidad
de los sujetos, con la creatividad, con la capacidad de solucionar problemas. Es equivalente descriptivamente a la
capacidad eductiva, es la capacidad para establecer relaciones, capacidad de abstracción.
Para que se desarrolle la inteligencia fluida, primero se debe desarrollar la inteligencia cristalizada.
La inteligencia cristalizada incrementa a través del ciclo vital y es un reflejo de la experiencia acumulativa de aprendizaje
del individuo. Implica la comprensión de las relaciones o la solución de problemas que dependen del conocimiento que
se adquiere como resultado de la escolaridad y otras experiencias vitales. Está relacionada con las habilidades y el
conocimiento adquiridos, cuyo desarrollo depende en gran medida de la exposición a la cultura. Incluye funciones
cognoscitivas sobre-aprendidas y bien establecidas. Se refiere al funcionamiento intelectual en tareas que dependen
del entrenamiento previo, el tipo de educación recibida y el nivel cultural en general. Los subtests verbales mantienen
una correspondencia con las capacidades cristalizadas. Se asemeja a lo que se conoce como capacidad reproductiva en
Spearman.

Estas inteligencias están en permanente relación cuando un ser humano aprende destrezas cognitivas y luego las pone
en práctica. Este modelo se ha impuesto en la actualidad por ser la más reciente.

La teoría triárquica de la inteligencia humana o Modelo de la Inteligencia exitosa de Sternberg: Tiene un enfoque
desde el procesamiento de información. Inteligencia que nos da resultado tener en la vida cotidiana.
Este autor va a hablar de tres aristas de la inteligencia que formarían parte de lo que llama como Inteligencia Exitosa, es
decir, la habilidad para adaptarse, seleccionar o modelar el ambiente. Una persona puede ser inteligente en resolver
problemas abstractos, concretos o para tareas nóveles que impliquen una función creativa.
Entonces, por un lado, está la inteligencia analítica que refiere a aquella parte de la inteligencia que tiene que ver con
todas las funciones que en nuestra sociedad occidental se catalogan como funciones inteligentes y se entrenan en las
instituciones escolares. Se trata de las destrezas que aprendemos a lo largo de todo nuestro proceso educativo formal.
Son las que los test de inteligencia evalúan principalmente en detrimento de las dos aristas siguientes.
Por otro lado, está la inteligencia práctica que refiere a aquella porción de la inteligencia que tiene que ver con la
resolución de problemas de la vida cotidiana.
Y por último, la inteligencia creativa que tiene que ver con aquellas personas que consideramos creativos, es decir,
cuando solucionamos determinados problemas de una manera poco convencional o creativa. Hay grados de esta
inteligencia, pero existe en todos. La utilizamos ocasionalmente cuando creamos soluciones novedosas.
Se necesita el balance de las tres habilidades para alcanzar el éxito en la vida cotidiana. La persona inteligente es aquella
que capitaliza sus propias fortalezas y compensa sus debilidades.

La verdadera importancia de esta teoría radica en que es en sí misma una crítica a los test de inteligencia. Porque lo que
dice es que estos test solo evalúan la inteligencia analítica dejando de lado la práctica y la creativa.
Esto quiere decir, que el test de inteligencia no mide toda la inteligencia, sino solo su porción analítica.

Este autor va a hacer un gran hincapié en la Inteligencia Práctica, y en diferenciarla del problema académico.
Los problemas académicos estudiados están bien definidos; poseen solo una respuesta correcta, que es conocida a priori
por quien formula el problema; generalmente tienen solo un método adecuado para arribar al resultado concreto; hay
un sujeto que formula el problema y conoce su respuesta y otro que lleva adelante el proceso de resolución; no tiene
interés intrínseco, requiere motivación extrínseca; son problemas formulados para propiciar situaciones de aprendizaje
y generalmente son artificiales.
Los problemas prácticos, tienen una definición pobre, porque faltan datos o requiere reformulación. Tienen muchas
respuestas válidas que no son conocidas en forma previa. Se puede arribar a la solución por diferentes métodos. El

33
mismo sujeto lo formula, lo resuelve y arriba a la solución. El interés es intrínseco, el problema es un desafío para el
propio sujeto. Y tiene que ver con los problemas de la vida cotidiana.

Teoría de las inteligencias múltiples, de Gardner: Se formuló en 1983. La inteligencia es la habilidad para resolver
problemas en distintos campos y generar productos socialmente valorados. La inteligencia se puede ver en el producto
que yo hago y que otro valora.
Se basa en tres principios fundamentales: la inteligencia no es una sola cosa, una unidad, sino un conjunto de
inteligencias múltiples, cada una de las cuales es un sistema por derecho propio (en oposición de “la inteligencia”); cada
inteligencia es independiente de todas las otras; y las inteligencias interactúan.
Gardner habló de las inteligencias múltiples, específicamente de siete inteligencias (lingüística, lógico-matemática,
espacial, corporal-cinética, musical, interpersonal, intrapersonal). Que las inteligencias se desarrollen o no, depende de
3 factores: dotación biológica, historia de vida personal y antecedentes culturales e históricos.
- Inteligencia Lingüística: Sensibilidad a los sonidos, los significados y palabras.
- Inteligencia Lógico-matemática: Habilidad para el razonamiento. Habilidad para trabajar con sistemas numéricos y
lógicos.
- Inteligencia Espacial: Capacidad para percibir el mundo visual y espacial y poder efectuar transformaciones de las
percepciones iniciales.
- Inteligencia Corporal-Kinética: Habilidad para controlar los movimientos del cuerpo y manejar objetos con destreza.
- Inteligencia Musical: Habilidad para producir y apreciar ritmo, tono y timbre.
- Inteligencia Interpersonal: Capacidad para responder de manera adecuada a los estados de ánimo y motivaciones de
los demás.
- Inteligencia Intrapersonal: Acceso a los sentimientos propios. Conocimiento de las propias fortalezas y debilidades.

No todos aprendemos por los mismos canales, ya que tenemos distintas Inteligencias Múltiples. Las inteligencias pueden
cambiar, no son fijas y son entrenables hasta cierto punto.
Las inteligencias trabajan juntas de manera compleja. Para la ejecución de una tarea se requieren varias inteligencias.
Las escuelas del futuro deberían tomar en cuenta a estas Inteligencias Múltiples.
El autor, busca llamar la atención acerca de que los test de inteligencia no miden toda la inteligencia, sino algunas de
ellas, dejando de lado a otras que son igual o más importantes en el desarrollo de la vida cotidiana. Plantea que en un
informe hay que ser preciso en cuanto a qué habilidad o qué porción de la inteligencia evaluamos.

Test de Coeficiente Intelectual (CI):


Noción de CI
Responde actualmente a la concepción introducida en 1939 por Weschler.
Indica distancia a la media. Tiene media 100 y desvío típico 15. Nos indica si cada puntuación corresponde al desempeño
de un individuo promedio, superior al promedio o inferior.
El primer CI de la historia, fue el coeficiente resultante de un cociente, creado por Binet en 1905.

Prueba Stanford-Binet
Binet fue un médico francés a cargo del Ministerio de Educación de su país. En 1905, es consultado por una necesidad
práctica que existía en el sistema educativo francés, que consistía en intentar dividir a los niños de modo tal que al iniciar
su escolaridad primaria, se pudieran formar clases de niños con ritmos de aprendizaje parejos. El gobierno francés
comisionó a Binet para diseñar una prueba que pudiera identificar aquellos niños que no se beneficiarían de la
escolaridad habitual debido a su inteligencia inferior. Es decir, se le pide que invente una manera de conocer la
inteligencia de los niños al entrar en la primaria en Francia. Buscaban agrupar a los chicos según un mismo nivel de
inteligencia para que los docentes pudieran seguir un ritmo de aprendizaje sin perjudicar a nadie. Propósitos prácticos
y sin teoría de base. Es así como crea el primer test de inteligencia para niños, reuniendo por sentido común, una serie
de tareas heterogéneas que eran académicas y de ingenio. Las planteó a niños de entre 5 y 7 años, y luego amplió este
test, llegando a edades superiores. Es importante destacar que este test apareció por una necesidad práctica, y por lo
tanto, no tenía una teoría robusta de donde sostenerse.
La prueba Stanford-Binet se basa en la suposición de que la capacidad mental va de acuerdo con el desarrollo, es decir,
incrementa con la edad a través de la infancia y por tanto consiste de varias escalas relacionadas con la edad. Benet
conceptualizó la noción de un puntaje transformado denominado cociente intelectual. Por cada ítem bien resuelto, el
niño en lugar de obtener un punto, obtenía un mes en términos de edad mental. La edad mental se define como la
34
cantidad de ítems bien resueltos en un test de inteligencia de Binet. Al finalizar la toma del test, el niño se encontraba
con cierta cantidad de meses sumados, que a su vez podían convertirse en años. Entonces, la obtención del cociente
intelectual tiene que ver con que el puntaje total de la edad mental se dividía por la edad cronológica del niño, y se lo
multiplicaba por 100, para que el número fuera mayor.
El primer CI fue un CI de razón, de manera que, donde la EM y la EC son las mismas, el CI es 100 (es el promedio). Es
decir, que el niño prototípico en que su edad mental y su edad cronológica eran las mismas, obtenía un cociente de 100,
lo que marcaba una puntuación promedio.
Este fue el primer cociente intelectual de la historia, pero que funcionó hasta el año 1939, en que aparece Weschler
proponiendo un nuevo coeficiente intelectual, ya no en términos de cociente.

Test de inteligencia de Wechsler


David Wechsler fue quien desarrolló la prueba de inteligencia adulta más utilizada, la Wechsler Adult Intelligence Scale
(WAIS). También construyó la Wechsler Intelligence Scale for Children (WISC), para niños.
Todo lo que Binet hizo anteriormente con el coeficiente intelectual en términos de cociente, sirvió hasta el año 1939.
Éste no tenía ningún sentido, ni fisiológico ni matemático.
La evolución de la inteligencia en el ciclo vital está muy lejos de ser una función lineal o línea recta, sino más bien es una
curva que guarda la misma forma en casos de inteligencia promedio y superior o inferior al término medio. Esto da
cuenta de que no puede haber una relación directa entre la edad mental y la edad cronológica.
Es a partir de esto, que el autor, propone abandonar el uso del coeficiente intelectual en términos de cociente, y propone
el Coeficiente Intelectual (CI) en términos de distancia a la media o en términos de desviación estándar. Las pruebas
Wechsler no utilizan el concepto de EM y en su lugar utilizan un CI de desviación que expresa el resultado de la prueba
como una puntuación estándar, es decir, le expresa al examinador a qué tantas desviaciones estándar se encuentra la
puntuación del examinado por arriba o por debajo de su grupo de edad.
Este coeficiente es el que se sigue usando hasta el día de hoy.
La inteligencia puede manifestarse de muchas formas, por eso Wechsler la concibe como una entidad compleja y global,
como la capacidad del individuo de actuar deliberadamente, pensar racionalmente y relacionarse eficazmente con su
medio. La inteligencia puede ser, o bien una suma de habilidades específicas o bien una configuración gestáltica de estas
habilidades específicas. Estas habilidades específicas, se podían agrupar en tres grandes grupos:
- La inteligencia verbal: está representada por todas aquellas habilidades en donde los seres humanos son capaces de
manipular signos y símbolos. Es decir, las habilidades que tienen que ver con palabras, letras, números e íconos no
verbales.
- La inteligencia ejecutiva: están dadas por la manipulación de objetos concretos.
- La inteligencia social: tiene que ver con la capacidad de solucionar problemas sencillos en la vida cotidiana.

Estas nociones de habilidades específicas, fueron tomadas de las conceptualizaciones de Thorndike, que consideraba
que la inteligencia estaba formada por los aspectos verbales, ejecutivos y sociales, en donde todas se encuentran en un
interjuego.

EL WISC es un instrumento de administración individual para evaluar la capacidad intelectual de niños de 6 años a 16
años y 11 meses de edad. Consta de varios subtests, cada uno de los cuales mide una faceta (capacidades, habilidades)
diferente de la inteligencia.
Los subtests están organizados en dos grupos: los subtests verbales y los perceptuales-motores o de ejecución. Se
administran alternadamente a fin de ayudar a mantener el interés del niño durante el examen. El desempeño del niño
en estos diversos subtests arroja tres puntajes compuestos. La suma de los puntajes transformados en los subtests
verbales da el puntaje de CI verbal, y la suma de los puntajes transformados de los subtests de ejecución da el puntaje
de CI de ejecución. Los puntajes de los subtests verbales y de ejecución se combinan para producir el puntaje de CI de
la escala completa. El desempeño del niño se resume en estos tres puntajes compuestos, que proveen estimaciones de
la capacidad intelectual del individuo.
Además pueden calcularse cuatro puntajes índice: comprensión verbal (ICV), organización perceptual (IOP), ausencia de
distractibilidad (IAD), velocidad de procesamiento (IVP). Al igual que el CI, tienen una media de 100 y un desvío de 15.
Las escalas Wechsler están destinadas a medir las dimensiones tanto globales (factor g o inteligencia general) como
específicas.
En el modelo de WISC III, la inteligencia verbal y la ejecutiva estaban medidas por medio de CI, en términos de distancia
a la media en escalas verbales y ejecutivas. Hasta ese modelo, se buscaba operacionalizar la teoría de Spearman. Es así
como las habilidades específicas eran evaluadas por subtests.
35
En el modelo de WISC IV, Wechsler deja de trabajar con la división entre la escala verbal y la escala ejecutiva, e incorpora
aportes de la neuropsicología y de la teoría CHC (Inteligencia fluida e Inteligencia cristalizada de Cattel, Horn y Carroll).

TEORÍAS DE LA PERSONALIDAD
La personalidad implica un estudio sistemático de las diferencias individuales, en tanto patrones de conocimiento, de
comportamiento y emociones. Se trata de aquellos aspectos relativamente estables y duraderos de los individuos que
los distinguen de otras personas y que los hacen únicos, pero que al mismo tiempo permiten una comparación entre
individuos.
Existen distintas tradiciones para abordar su estudio:
 Abordaje clínico/idiográfico:
Hace especial énfasis en la personalidad como singularidad, teniendo una concepción organísmica u holística. Se
preocupa por entender los principios de funcionamiento que son comunes a todas las personas, y en especial a aquello
que hacen a la singularidad propia de cada sujeto.
Desde este abordaje se considera que cada individuo es un ser singular, único e irrepetible, y se hace una descripción
exhaustiva de sus rasgos de personalidad. Los autores representantes de esta línea de pensamiento, tales como Freud,
Rogers y Kelly, basaban sus afirmaciones en el estudio clínico e intensivo de pocos sujetos, generalmente pacientes que
estaban realizando algún tratamiento psicoterapéutico. Este estudio con cantidad reducida de sujetos es lo que da el
carácter idiográfico. El propósito era entender las causas del funcionamiento psicológico de una persona en determinada
situación. Este concepto está relacionado con la personalidad como psicología de lo individual, de lo singular y no puede
ser entendido por leyes generales.
Una definición clásica de personalidad desde esta tradición plantea que la personalidad es la configuración única que
toma en el transcurso de la historia de un individuo, el conjunto de los sistemas responsables de su conducta. Desde
esta perspectiva clásica, la personalidad era sinónimo de psiquismo y se destacaba el influjo de los vectores internos en
la determinación tanto de actos, como de emociones y pensamientos
 Abordaje correlacional/Enfoque nomotético:
Desde esta tradición, autores tales como Cattel y Eynseck en el siglo XX, se ocuparon de identificar los patrones comunes
de comportamiento en las personas. Estos autores se interesaron en la personalidad en general, pertenecen a la
tradición psicométrica y se conocen como teóricos de tipos y rasgos. Se los llamaba autores “rasguistas” porque
intentaron aislar un conjunto de dimensiones que diferenciaban a los sujetos, entendiendo que la personalidad consistía
de rasgos o características permanentes. Si bien los seres humanos difieren en sus comportamientos no difieren al azar,
ni de modo incoherente. Es así que se preocuparon por identificar patrones, estilos o pautas comunes en las personas
que fueran la razón de determinados estilos de comportamiento.
Mediante el estudio de muchos sujetos, intentaron establecer las regularidades del comportamiento tomando como
unidad de análisis los rasgos psicológicos. Los rasgos son tendencias latentes que predisponen a los humanos a
comportarse de determinado modo, son los responsables de las diferencias individuales entre las personas y predicen
la conducta individual en diferentes situaciones. La consideración de los rasgos supone consistencia y estabilidad.
Se trata de un modelo nomotético (ley) porque la consideración de rasgos psicológicos desde este enfoque suponía
cierta consistencia y estabilidad. La consistencia se refiere a cierta regularidad de la conducta en circunstancias
diferentes y la estabilidad hace alusión a la estabilidad temporal de las conductas de un mismo individuo. Dicho de otro
modo, las personas son las mismas a lo largo del tiempo y en Ios diferentes contextos en los que se desenvuelven.
El estudio de cómo y cuánto de un individuo en particular es similar o difiere de los demás, es lo que constituye al
enfoque analítico factorial/psicométrico/enfoque nomotético.
 Abordaje correlacional/Enfoque léxico
Este enfoque plantea que el lenguaje es la base de quienes somos y que las palabras son importantes para entender la
personalidad. Todas las diferencias individuales entre las personas están codificadas en el lenguaje natural; es en ese
vocabulario natural que se representan los atributos de la personalidad.
En un principio Allport y Odbert seleccionaron del diccionario 18000 palabras con significación psicológica que
representaban las diferencias individuales entre las personas y las clasificaron en distintas categorías. Luego de un
tiempo, al analizar esas palabras mediante análisis factorial se obtuvieron cinco dimensiones de la personalidad. Es aquí
que se incluye el modelo de los cinco rasgos de la personalidad. Fue Goldberg en 1980 el primero en utilizar el nombre
Big Five para denominar esas agrupaciones de personalidad; años siguientes con mayor investigación del tema se

36
concluyó que, esas dimensiones resultaron ser las mismas en distintos países, contextos y para diferentes grupos de
edades. Hoy en día, este es un modelo aceptado internacionalmente para evaluar la personalidad.
Cinco rasgos de la personalidad según el Big Five: Neuroticismo-Extroversión-Apertura a la experiencia-Afabilidad-
Responsabilidad.
 Abordaje experimental
Aquí importan las leyes generales que guían la conducta humana y que son aplicables a todos los individuos. Autores
como Dollar y Miller enfatizan en los universales que rigen el comportamiento.

El gran problema de la conceptualización de la personalidad es el tipo de unidades de análisis que debemos tomar en
cuenta para su estudio.

Considerando el marco teórico subyacente a las teorías de la personalidad, nos podemos encontrar con:
-Enfoque empírico: Estas aproximaciones postulan que es posible entender la estructura de la personalidad mediante el
análisis empírico de los datos obtenidos con instrumentos de medida ya existentes y no a través de la exploración de
nuevos conceptos y teorías. Se considera que los factores o clusters extraídos por técnicas estadísticas multivariadas
representan diferentes aspectos de los constructos, tal como estos existen o se expresan en la realidad. Los enfoques
del rasgo comentados se ubican dentro de estos modelos. Las diferencias individuales entre las personas son explicadas
por un puñado de rasgos o dimensiones psicológicas. Dentro de estos modelos tenemos las aproximaciones de Cattel,
quien fuera uno de los pioneros de la aproximación analítico-factorial para establecer las dimensiones de la
personalidad; Eysenck, también enrolado en esta tradición, ha seleccionado 3 dimensiones fundamentales que explican
la personalidad: Neuroticismo, Introversión-Extroversión y Psicoticismo.
El modelo más representativo de este enfoque es la teoría de los Cinco Factores de la Personalidad (Big Five), el cual es
un modelo empírico y taxonómico ya que permite clasificar a las personas. En los años 80 se demostró que las
dimensiones de la personalidad podían ser explicadas por cinco grandes factores que agrupaban las fuentes de variación
de todas las conductas humanas. Esta aproximación descansa en la hipótesis léxica que sostiene que las diferencias
entre las personas han sido codificadas en el lenguaje cotidiano. Solo basta con aplicar refinados procedimientos
psicométricos a aquellos descriptores que emplean los individuos para autodescribirse para lograr reflejar la estructura
latente de la personalidad. Así, para este enfoque las cinco dimensiones de la personalidad son Neuroticismo,
Extroversión, Apertura a la experiencia (plasticidad, flexibilidad), Afabilidad (agradabilidad) y Responsabilidad. Los
autores defensores de este abordaje han verificado que esta estructura de cinco factores es robusta a través del tiempo
(McCrae y Costa).
Para evaluar dimensionalmente cómo puntúa una persona en cada uno de los 5 rasgos y sus facetas propuestos por el
Big Five, se propone el test llamado PID-5. Este instrumento es autoadministrable, es de libre uso y tiene tanto una
versión abreviada (screening) como una versión larga (instrumento diagnóstico) ambas validadas para población
argentina.
-Enfoque téorico: El diseño racional, o teórico, encuentra su apoyo en la literatura científica disponible, redactándose
entonces el contenido de los ítems a partir de determinadas propuestas teóricas vinculadas a cierto modelo que intente
explicar la personalidad humana, complementariamente integradas con hallazgos recientes en relación a la puesta a
prueba de tales postulados mediante investigaciones debidamente documentadas en publicaciones de actualización
científica en el área, avaladas en metodologías precisas y actualizadas. Este enfoque teórico aborda conceptos de
naturaleza inferencial. Se trata de modelos teóricos explicativos de la personalidad. Dentro de los modelos teóricos que
toman en cuenta pocas unidades de análisis se encuentran las taxonomías de origen psicodinámico.
En este punto merece destacarse el modelo de personalidad de Millon, que vendría a ser un enfoque teórico/explicativo
politaxonómico que se basa en la construcción de un edificio taxonómico teórico que permita clasificar los distintos tipos
de personalidad y sus desordenes en una misma teoría que prevea una explicación acabada del fenómeno u objeto de
estudio. Se halla orientado hacia la explicación teórica de los constructos y hacia la descripción y sistematización de
variables.
Millon plantea que la personalidad es un patrón altamente complejo de rasgos cognitivos, afectivos y conductuales, que
persisten durante largos períodos de tiempo. Propone que los rasgos de la personalidad surgen de un interjuego entre
las disposiciones biológicas que los individuos traen y el aprendizaje de experiencias en las primeras etapas del ciclo
vital. En función de estas interrelaciones surgen formas relativamente estables (estilos) de pensar, percibir, sentir y
afrontar situaciones y vincularse con otros seres humanos. Los niños exhiben conductas que se transforman en hábitos
que son más o menos estables según la influencia del ambiente. Estos hábitos se convierten en disposiciones estables y
consistentes a través de los diferentes contextos, comenzando a mostrar un grupo repetitivo de hábitos catalogados

37
como rasgos psicológicos, dando lugar de esta forma a un patrón de personalidad. Este patrón se cristaliza durante la
adolescencia y la temprana adultez, tornándose en un patrón permanente de comportamientos altamente resistentes
y poco modificables.
Así a partir de los aspectos biológicos temperamentales y las experiencias con el ambiente puede delimitar un patrón
distintivo de interacciones interpersonales y relativamente fijas que se puede categorizar como personalidad. Cabe
destacar que la personalidad no es temperamento en tanto a aspectos biológicamente determinados de la personalidad,
y tampoco es carácter, comprendido como una dimensión valorativa de la personalidad que alude a la internalización
de ciertos valores morales (principios éticos).
Millon va a entender a la personalidad normal como un estilo distintivo de funcionamiento adaptativo que un organismo
exhibe en sus vínculos en sus contextos habituales. Existe una capacidad para relacionarse con el entorno de manera
flexible y adaptativa, la percepción subjetiva de sí mismo es esencialmente positiva y constructiva y los patrones de
conducta manifiesta son promotores de salud. En cambio, cuando estos estilos se vuelven no adaptativos debido a
desequilibrios y conflictos para afrontar algunas demandas del contexto, se habla de trastornos de personalidad. Aquí
la persona no puede afrontar las responsabilidades de la vida diaria, es inflexible y exhibe conductas desadaptativas;
tanto la percepción de sí mismo como del contexto es esencialmente frustrante, y los patrones de conducta manifiestos
tienen efectos perjudiciales para la salud.
Entonces, los principios básicos de la personalidad para Millon consisten en que la normalidad y la anormalidad son
conceptos relativos y pueden ser mejor descriptos como contiuos o gradientes más que como entidades discretas.
Además plantea una continuidad sindrómica, diciendo que los trastornos de la personalidad son entidades dinámicas y
la conducta patológica se desarrolla y se forma según los mismos principios y mecanismos que están involucrados en el
desarrollo de la personalidad normal; lo que ocurre es una continua patologización de las estructuras básicas en función
de experiencias ambientales vividas tempranamente en las cuales no se pudo afrontar las demandas cambiantes del
entorno. Por lo tanto, el de Millon, es un modelo integrador entre la personalidad normal y la patológica, proponiendo
una continuidad entre las mismas.
El autor afirma que la personalidad tiene aspectos manifiestos y latentes y se deben tomar en cuenta ambos aspectos
para la construcción de una taxonomía, que permita clasificar y explicar la personalidad normal, los estilos y sus
trastornos. Millon propone que la personalidad puede representarse mediante dos dimensiones ontogonales (4x2) en
su primer modelo y mediante tres dimensiones (5x2) en su segundo modelo. Estas dimensiones (actividad/pasividad;
fuente de refuerzo instrumental y placer/dolor) dan lugar a tipos básicos de personalidad, también llamados prototipos
o estilos. Las personas no se patologizan al azar, sino que los estilos tienen una función esencialmente adaptativa en
relación con el contexto y serían el equivalente del sistema inmunológico en el plano psicológico. Este modelo derivó
en instrumentos para la evaluación de la personalidad tanto normal como patológica y sirvió además para su
intervención.
-La personalidad patológica
El concepto de trastornos de personalidad surge en el año 1980 de la mano de las nosologías internacionales de
clasificación (DSM III), ocupando en el sistema de clasificación psicopatológica un lugar destacado, conocido como "Eje
II". Si bien los criterios estandarizados para evaluar diferentes psicopatologías comenzaron a utilizarse en los años 50
con el surgimiento de las nosologías DSM, no fue sino hasta los años 80 cuando se popularizó este sistema entre los
clínicos. El surgimiento de estas metodologías para evaluar "la psicopatología" tuvo su origen en la baja confiabilidad
que tenían los diagnósticos clínicos desde principios del siglo XX y en la amplia oferta de sistemas nosológicos de
clasificación y categorización de la personalidad. El sistema propuesto por el DSM III era esencialmente categorial. Esto
es, existe una serie de criterios determinados para determinar si una persona en cuestión "tiene" un trastorno de
personalidad. Si el clínico puede detectar que el evaluado "cumple" con una serie de criterios mínimos, puede decir que
registra tal o cual trastorno de personalidad. En términos generales el EJE II revolucionó el sistema clasificatorio que
hasta ese entonces se basaba solo en cuestiones sintomáticas (ahora reservadas al Eje I). El Eje II es un eje estrictamente
psicológico que denota un patrón permanente tanto de características internas (por ejemplo afectividad lábil, cognición
desajustada) como de comportamientos (pobre control de impulsos) que se apartan de lo esperado para la cultura en
la que se desenvuelve el sujeto en cuestión. Este patrón es inflexible, lábil y se extiende a una amplia gama de situaciones
personales y sociales.
El problema del DSM en esta década de desarrollo estuvo basado en dos cuestiones:
1) El excesivo énfasis en la entrevista clínica verbal para la evaluación de un trastorno de personalidad que tenía
características de difícil evaluación mediante este procedimiento;
2) El hincapié en el sistema categorial de clasificación que da a entender que los individuos se ubican solo en un cuadro
psicopatológico.

38
La evidencia tanto empírica como clínica ha demostrado que la psicopatología de las personas no se ajustaba a los
modelos teóricos categoriales. Las personas en términos generales presentan trastornos combinados y si bien pueden
tener una patología base suelen exhibir rasgos patológicos de otros trastornos vecinos (comorbilidad). Asimismo los
trastornos de personalidad tienen diferente grado de severidad, situación no contemplada en los sistemas categoriales.
A esto se suma la imposibilidad de "diagnosticar" a los pacientes con cuadros psicopatológicos "raros" o poco frecuentes,
dificultad que suele zanjarse con el uso indiscriminado de la etiqueta "trastorno de la personalidad sin especificar".
Este eje de críticas y el pretendido ateoricismo (presencia de etiquetas que resumen las características generales de las
personas) del DSM IV, dio lugar a una revisión. La nueva versión de los trastornos de personalidad propone un sistema
de clasificación híbrido que tome en cuenta tanto los aspectos categoriales y dimensionales. En la nueva
conceptualización las características centrales de un trastorno de la personalidad se centra en un déficit en el
funcionamiento de la personalidad (self e interpersonal) y la presencia de rasgos psicopatológicos. La primera
característica es de corte dimensional y la segunda conserva la estructura de los rasgos ya presente en las versiones
anteriores. La única salvedad es que reduce los tipos de trastornos de 10 a 5.
Esta versión renovada de los trastornos de personalidad reúne la psicología clásica personológica, especialmente en la
versión del modelo de los cinco factores con la psicopatología. Cabe destacar que estas líneas de abordaje en la
psicología contemporánea clásicamente funcionaron de modo separado. Se augura así un nuevo camino para el vínculo
entre los trastornos de la personalidad y la personalidad normal, ya augurado por otros investigadores hace más de 30
años.
-Métodos para la evaluación de la personalidad
Clasificación metodológica: proyectivas vs psicométricas
- Los métodos proyectivos: Se basan en los postulados psicoanalíticos, valiéndose del mecanismo defensivo de la
proyección que, utilizado en combinación con estímulos y consignas poco estructurados, supone una respuesta que se
asume como indicador de la dinámica de la personalidad profunda.
- Los métodos psicométricos: Pueden basarse en diversos modelos, son altamente estructurados, con respuestas
cerradas y preestablecidas y se lleva a cabo una evaluación por dimensiones de la personalidad. Se ha aceptado que no
es posible trabajar con indicadores de la personalidad objetiva del examinado, sino con autoinformes o autoreportes
sobre su personalidad percibida. Esto significa por un lado, que es el propio sujeto quien responde sobre cómo él mismo
cree que es o se comporta habitualmente, antes que sobre cómo realmente es o se conduce. Estos autoinformes pueden
adquirir un formato de inventarios (listado de afirmaciones o preguntas con respuestas con verdadero-falso o escala
lickert), cuestionarios (preguntas con respuestas cerradas) o checklists (listados de adjetivos que, según el evaluado,
definen su personalidad, su estilo o sus comportamientos habituales, preferencias, o síntomas, entre otras posibilidades,
y que también prevén una respuesta cerrada). En todos los casos es obligatoria la consecución de estudios que pongan
a prueba las propiedades psicométricas de la herramienta, tales como análisis de evidencias de validez aparente, de
contenido, empírica y de constructo, así como estudios de confiabilidad en términos de consistencia interna y de
estabilidad temporal, junto con estudios sobre la capacidad discriminativa de los reactivos.
Clasificación según base de diseño: clave empírica de criterio vs criterio racional
El diseño racional encuentra su apoyo en la literatura científica disponible, redactándose entonces el contenido de los
ítems a partir de determinadas propuestas teóricas vinculadas a cierto modelo que intente explicar la personalidad
humana, complementariamente integradas con hallazgos recientes en relación a la puesta a prueba de tales postulados
mediante investigaciones debidamente documentadas en publicaciones de actualización científica en el área, avaladas
en metodologías precisas y actualizadas.
Un diseño de clave empírica, en cambio, hace foco en el ámbito de aplicación de la psicología y buscar generar los ítems
a partir de los vectores que los actores del fenómeno en estudio, o bien los expertos en tal fenómeno consideran
relevantes a la luz de la práctica profesional cotidiana. Así, este tipo de instrumentos recoge ideas para formular
reactivos interrogando en profundidad a potenciales evaluados (pacientes que padezcan determinado trastorno de
personalidad si se trata de psicopatologías, por ejemplo) sobre sus principales características, síntomas, hábitos,
preferencias, temores, malestares, entre otros. Alternativamente, esta información puede ser brindada por expertos
(psicólogos clínicos o investigadores que estudian la personalidad "normal" o patológica) o incluso a partir de historias
clínicas o informes de familiares o allegados a pacientes con determinados diagnósticos. Y es a partir de este criterio
empírico que las puntuaciones a los ítems se asignarán de acuerdo con la concordancia entre las respuestas brindadas
por el sujeto según indique el criterio empírico consensuado para la redacción de los elementos acordados.
En ambos casos los métodos de análisis psicométrico más comúnmente empleados para analizar evidencias de validez
de constructo son el análisis factorial y estudios de grupos contrastados (por ejemplo de pacientes vs no-pacientes, o
de extrovertidos vs intovertidos, o de psicóticos vs neuróticos).
Clasificación según sus objetivos: Screening vs. Diagnóstico.
39
Según sus propósitos los inventarios o cuestionarios de personalidad pueden perseguir el fin de evaluar la personalidad
“normal” o patológica. Esta decisión dependerá, naturalmente del enfoque teórico empleado, centrándose en si se trata
de una descripción de estilos o de repertorios de comportamientos habituales en la mayoría de las situaciones
cotidianas, o de si se busca distinguir la presencia e importancia de cierta configuración sintomática o disfuncional. No
obstante, la clasificación más extendida suele circunscribirse a los instrumentos que evalúan psicopatología, que se
dividen en escalas de diagnóstico vs escalas de screening.
- Los instrumentos de screening se dirigen a la detección de indicadores de riesgo psicopatológico, como por ejemplo,
sintomatología leve o moderada, que no implique ningún grado de invalidación del sujeto en su vida cotidiana, o
sintomatología significativa aún no detectada por otros medios. Un screening positivo no necesariamente sugiere un
diagnóstico positivo. Eso se dirime en la siguiente fase, de diagnóstico.
Con el fin de que en el cribado no surjan casos falsos negativos –que padezcan el trastorno pero que en el screening no
surjan como en riesgo- el instrumento se diseña especialmente para que posea una alta sensibilidad (eleva los puntajes
de riesgo ante sintomatología escasa o leve) y baja especificidad (no posee capacidad para discriminar entre tipos
diferentes de trastornos). Un cribado debe ser breve, de administración sencilla y de rápida evaluación para que una
gran cantidad de sujetos pueda ser examinada en lapsos acotados y para que su derivación a diagnóstico, de ser
necesaria, sea rápida y eficiente.
- Las herramientas de diagnóstico apuntan a la identificación y descripción de un cuadro clínico en su fase aguda o en
cuanto a su cronicidad, mediante la identificación de síntomas con significación clínica, esto es que su frecuencia de
aparición o bien su intensidad impliquen en el sujeto o en su alrededor algún grado de malestar apreciable, o importen
algún tipo o grado de invalidación considerable en el desarrollo de sus actividades habituales. Las puntuaciones
aportadas por las diferentes subescalas deberán interpretarse en el sentido de arribar a dirimir la presencia-ausencia
del trastorno, o bien a un diagnóstico diferencial sobre el tipo de desorden presente, por supuesto en el marco de la
información brindada por el instrumento junto con la entrevista y el resto de la batería diagnóstica.
Deben tener alta especificidad (para captar sutilezas que diferencien entre los trastornos) y baja sensibilidad (para no
generar casos falsos positivos). Dada su especificidad, estas herramientas son más extensas para incluir mayor cantidad
de síntomas en sus ítems, por lo que su administración y evaluación insumirá más tiempo y deberá ser considerada a la
luz de una batería completa que incluya una entrevista y una adecuada anamnesis, como mínimo. Otra razón para que
estos instrumentos sean más extensos es que suelen incluir lo que se conoce como escalas de validez del protocolo
individual que se está evaluando. Ellas se dirigen a disminuir el efecto que determinados estilos de respuesta del
individuo pueden tener sobre las puntuaciones obtenidas, en el sentido de distorsionarlas generando un diagnóstico
equivocado. Los instrumentos existentes en el mercado prevén diferentes combinaciones de escalas de validez, tales
como impresión positiva (intento de brindar una imagen completamente sana y ajustada, habitual en evaluaciones
laborales), impresión negativa (frecuente en evaluaciones de adolescentes que no han solicitado una consulta y que
desean oponerse pasivamente al trabajo de diagnóstico, o en pacientes obsesivos graves con autocrítica y autoexigencia
exacerbadas), inconsistencia (responder contradictoriamente a la sucesión de ítems por falta de atención, de
comprensión lectora o de interés), exageración o minimización de sintomatología (común entre personas que piden una
inimputabilidad ante un delito o una licencia laboral por razones psiquiátrica, respectivamente), simulación de
sintomatología (frecuente en situaciones judiciales), tendencia a la aquiescencia o no aquiescencia (a estar
sistemáticamente de acuerdo o en desacuerdo con los propuesto en las afirmaciones o preguntas, característico de
ciertos subgrupos culturales donde la simpatía y complacencia o el pensamiento cuestionador son un valor destacable),
defensividad (tendencia a no percibir sintomatología, conflictos o situaciones de riesgo, ansiedad o estrés, muchas veces
por razones defensivas), entre otras. Estas escalas permiten, según el caso, invalidar protocolos con respuestas
excesivamente distorsionadas o añadir su interpretación a la lectura general del perfil clínico.
Instrumentos para la evaluación de la personalidad "normal"
 MIPS: Para la evaluación de la personalidad normal en términos de estilos se destaca el MIPS, que operacionaliza
el constructo en términos en 24 dimensiones que se agrupan en pares psicométricos complementarios,
distribuidos en tres grandes áreas definidas como Metas Motivacionales, Modos Cognitivos y Conductas
Interpersonales. Estos vectores permiten caracterizar la personalidad en términos no psicopatológicos según la
manera en que cada individuo persigue metas eludiendo el displacer y la frustración, cómo interactúa con su
entorno en cuanto a toma de decisiones, construcción de conocimientos, creencias, elaboración de juicios y
conclusiones, y cómo establece relación con otras personas en términos simétricos o asimétricos. Puesto que
se trata de una herramienta de diagnóstico porque si bien no pretende evaluar patologías sí busca una
descripción exhaustiva del estilo predominante, incorpora escalas de validez (impresión positiva, impresión
negativa y consistencia) en pos de contemplar posibles sesgos o peculiaridades en las respuestas. Trabaja con

40
puntuaciones de prevalencia y es ampliamente usado en el ámbito laboral, ya que está diseñado para población
adulta y hace foco en los prototipos de funcionamiento habitual.
Trabaja con puntajes de prevalencia (por debajo de 50 desestimamos el rasgo, por arriba está presente, cuánto
más cerca de 100 más acentuado). Tiene un valor de corte en 50. Interesa saber si el rasgo que mide cada
subescala está presente o ausente. Pp 49 o menos rasgo ausente; pp 50 o más rasgo presente: entre 50 y 69 el
rasgo está presente, entre 70 y 89 está exacerbado, y entre 90 y 100 es un rasgo prototípico (la persona se
define bastante por ese rasgo).
 NEO PI-R (Costa & McCrae, 1992): Se basa en el modelo de los Cinco Grandes Factores de la personalidad antes
detallados (neuroticismo, extroversión, apertura, afabilidad, responsabilidad) siendo factible descomponer
cada uno en seis facetas, que resultan en 35 puntuaciones para interpretar los resultados con mayor precisión.
La adaptación disponible, de 240 elementos, cuenta con análisis de calidad técnica y un baremo español
obtenido a partir de 12000 casos, pero esta versión no sido adaptada en el país.
 DAT (Test de Aptitudes Diferenciales). Se utiliza con adolescentes finalizando el secundario que requieran
orientación vocacional (entre 15 y 20 años aproximadamente). Tiene 8 subtest (velocidad de procesamiento,
razonamiento espacial, razonamiento mecánico, ortografía y lenguaje, razonamiento verbal, cálculo,
razonamiento abstracto), todos con tiempo límite, y se puede administrar solo algunos.
Utiliza percentiles (un percentil por cada escala).
 CIP (cuestionario de intereses profesionales, versión en papel y lápiz)/ SOVI (Sistema de orientación vocacional
informatizado, versión informatizada). Evalúa intereses profesionales. Se fundamenta en que los intereses
medidos por un test son más estables en el tiempo. Tiene 15 escalas, entre ellas: cálculo, físico-química,
construcción, asistencial-educacional, artístico-plástica, artística-musical. Tiene 150 ítems con 3 opciones de
respuesta. No hay puntaje total, se calcula un percentil por escala. Percentil alto indica alto interés.
Instrumentos para la evaluación de la personalidad patológica
 MMPI-2-RF : Basa su tradición en los conocidos MMPI y MMPI-2 de extendido uso en nuestro país pero
actuahnente ya superados por la versión RF y por otras escalas que cuentan con revisiones más actualizadas. El
MMPT-2-RF, surgido como instancia superadora de las limitaciones del MMPI-2, consiste en un conjunto menor
de elementos que sus antecesores, 338 en total, compuesto por escalas sustantivas estructuradas en tres niveles
que implican visiones más globales o más particulares o específicas. Sus tres escalas de segundo orden
circunscriben grandes áreas problemáticas, en tanto que las nueve escalas clínicas re-estructuradas describen
las esferas que suelen mostrarse más afectadas en las consultas de una gran mayoría de pacientes. Por otro
lado, las escalas de problemas específicos, que brindan información sumamente fina y desagregada del caso, se
dividen en escalas somáticas/cognitivas y de internalización. Se agregan dos escalas de intereses y cinco de
personalidad psicopatológica. Finalmente sus nueve escalas de validez pretenden constituirse en un punto
fuerte de la herramienta, siendo capaces de detectar ausencia· de respuesta al contenido, exageración y
minimización. Si bien sus virtudes son reconocidas, no se dispone aún de una versión adaptada a la Argentina.
 PAI: Los análisis de calidad psicométrica se encuentran en proceso, de modo que será posible en el corto lapso
emplearlo para el diagnóstico psicopatológico en población adulta local. Consta de cuatro escalas de validez,
once clínicas, cinco de consideraciones para el tratamiento y dos de relaciones interpersonales. Ello significa
que a la par del diagnóstico brinda la posibilidad de diseñar intervenciones terapéuticas personalizadas e
informadas. Su uso es admisible en situaciones clínicas, forenses y laborales, además de ser aplicable en
determinadas circunstancias educativas que requieran una comprensión psicopatológica de la problemática en
análisis. Su interpretación resulta muy sencilla y su aplicación, breve (344 ítems), Existe una versión adolescente
que está siendo adaptada también a nuestro medio para su empleo en el ámbito de aplicación en un futuro
próximo.
-Instrumentos de Screening de psicopatología.
 SCL 90 R: Se aplica en personas de 13 a 65 años. Formado por escala lickert de 5 opciones. Pregunta por
malestares en la última semana. (Un test-retest tendría que ser con muy poco tiempo, a la mañana y a la tarde).
Se maneja con puntaje t. Tiene 90 ítems y 9 escalas. (Reemplazado por el LSB-50).
 LSB-50 : Listado de síntomas breve. 13 a 65 años. Lickert de 5 opciones. 50 ítems. Pregunta por las últimas
semanas. Se maneja con percentiles (solo interesan los puntajes altos, mayores a 85). Como es un autorreporte,
tiene dos escalas de validez, minimización y magnificación. Evalúa síntomas psicológicos.Su aplicación tarda
entre 5 y 10 minutos e identifica síntomas psicológicos y psicosomáticos con propósitos de cribaje de riesgo.
Distingue síntomas de primer rango, que resultan más discriminativos desde el punto de vista crítico, generando

41
un índice de riesgo psicopatológico y tres índices generales que cada uno indica diferentes aspectos del
sufrimiento psicopatológico general. Cuenta con 9 escalas clínicas y, a pesar de apuntar al rastrillaje, añade dos
escalas de validez, magnificación y minimización, que permiten dar cuenta de sujetos que tienden a la
exageración o la minimización de patología.

42

También podría gustarte