Resumen Psicometricas Liporace - Doc Versión 1

Psicométricas
Curso básico de Psicometría.
Psicometría, evaluación psicológica y ámbitos de aplicación.

1.1. La evaluación psicológica. Es un proceso de toma de decisiones, puesto que
el propósito de la misma es recomendar un camino de acción determinado en
virtud de los objetivos perseguidos por la evaluación (el evaluador no toma esta
decisión, recomienda).
Si tenemos en cuenta que la psicología como disciplina aplicada se desarrolla
principalmente en los contextos clínico, laboral, educativo y forense, entre otros,
la evaluación psicológica como subdisciplina englobada en la psicología aplicada,
también tiene lugar en los mismos ámbitos. En el ámbito de aplicación (contextos
en los que puede desempeñarse el psicólogo, ejerciendo su rol profesional,
aplicando conocimientos técnicos que derivan de teorías y de investigaciones
empíricas, psicólogo con el rol de usuario de técnicas, aplicador, administrador o
evaluador), en tanto proceso de toma de decisiones, la evaluación psicológica
implica una instancia consultiva, en la que el psicólogo será convocado para
reunir toda la información o indicadores disponibles referidos a un problema, a
una pregunta o tema dado, y en base a ello efectuará recomendaciones dirigidas a
resolver o mejorar el problema, en la que la decisión estará en manos de otra
persona (quien ha solicitado la evaluación). Si se trabaja en el ámbito de
investigación (contexto en el que la Psicología se desarrolla como disciplina
científica, generando nuevos conocimientos en forma permanente; conocimientos
que serán transferidos al ámbito de aplicación), la tarea de evaluación se
relacionará con recabar datos o indicadores que den cuenta de aquel fenómeno
que se quiere investigar.
La evaluación psicológica es un proceso de toma de decisiones. Se usa en la
psicología aplicada y está dirigida a la solución de problemas personales,
institucionales, grupales, comunitarios, sociales o ambientales. Psicólogo y
consultante toman decisiones (qué test a utilizar, cursos de acción posibles para
solucionar el problema, etc.; y si seguir lo recomendado o no). Evaluar implica
categorizar, evaluar y contrastar datos referidos a atributos del sujeto y/o de la
situación o interacción (evaluamos atributos psicológicos de una persona).
La evaluación psicológica es una tarea de la psicología aplicada dirigida a la
solución de problemas personales, institucionales, grupales, comunitarios,
sociales o ambientales. Para desarrollar esta actividad es necesaria la aplicación
de un modelo teórico que será de utilidad para comprender o analizar el
fenómeno concreto que es objeto de nuestra atención, los instrumentos son
coherentes con una teoría.
1
Psicométricas
1.2. Evaluación psicológica y Psicometría. Existe otra inserción posible para el

psicólogo investigador, y ella es especializarse en el diseño, construcción y
adaptación de técnicas de evaluación psicológica (área de la psicometría). Los
tests serán un fin en sí mismos, son el producto de un desarrollo tecnológico
derivado de un modelo teórico, y su construcción será utilizada más tarde por los
profesionales que trabajan en el ámbito de aplicación en su quehacer diario. La
psicometría es solo del ámbito de investigación, no existe en el ámbito de
aplicación (donde hay un psicólogo evaluador que solo usa el instrumento), el
psicólogo psicometrista juzga la calidad de los instrumentos y los mejora,
construye instrumentos psicométricos. Se define a la psicometría como la
disciplina que tiene por finalidad el desarrollo de modelos (preferentemente,
pero no de manera exclusiva) cuantitativos que permitan “transformar” o
codificar los fenómenos o los hechos en datos, diseñando métodos adecuados
para la aplicación de tales modelos con el fin de determinar las diferencias
individuales de los sujetos en cuanto a sus atributos, sus propiedades o sus
rasgos.
Es posible detectar y describir diferencias entre los sujetos mediante el empleo
de conceptos operacionalizados en forma cualitativa, semicuantitativa u
ordinal, o cuantitativa. - Caracterizamos la medición como un proceso de
asignación de números o símbolos a atributos de los sujetos siguiendo una serie
de reglas para representar la presencia o ausencia del atributo medido, su
cualidad, jerarquía o cantidad. - Una escala se define como un conjunto de
números o símbolos cuyas propiedades modelan propiedades empíricas de los
sujetos a los que esos números o símbolos son asignados, cada valor asignado
responderá a una propiedad que se obtendrá del comportamiento del sujeto.
Niveles de medición:
En el nivel cuantitativo o métrico pueden distinguirse las escalas de intervalos y
las escalas de cocientes o razones. Ambas implican la noción de cuantificación
(establecer la cantidad del atributo que el sujeto posee). El nivel intervalar
supone la igualdad de intervalos entre números: cada unidad de esta escala es
exactamente igual a cualquier otra unidad; además, al igual que en el nivel de
medición ordinal, no existe un punto cero absoluto, sino uno arbitrario. (Por
ejemplo la temperatura o el CI, que por cuestiones éticas nadie obtiene cero). El
nivel de medición de cocientes o razones posee todas las características y
facilidades nombradas para el nivel de intervalos, pero su punto cero no es
arbitrario, sino absoluto; ello significa que no ha sido convencionalmente
establecido, sino que verdaderamente implica ausencia del atributo medido.
Cuantitativo (cuantos síntomas tiene, cuántos errores cometió en un test). Puede
ser de intervalo (cero arbitrario) o de razones/cociente (cero absoluto que
implica ausencia del atributo).
2
Psicométricas
Más allá de la cuantificación, también medimos cuando asignamos números de

tal forma que éstos reflejen un ordenamiento o jerarquía entre los sujetos,
resultante de la aplicación de algún criterio clasificatorio. Este escalamiento
ordinal, jerárquico o semicuantitativo, en que el número es utilizado para
identificar cada categoría, se usa para dar cuenta del ordenamiento o posición
del sujeto en el rasgo medido, sin implicar una unidad de medición. De esta
manera, no se conoce la cantidad absoluta del atributo, sino que solamente se
puede establecer qué sujetos se ubican en la misma categoría, qué otras
personas caen en la categoría superior o inferior y qué categoría implica más del
atributo respecto de cual otra. (Por ejemplo escolaridad siendo 1 primaria
incompleta… etc.; o al clasificar la gravedad de un episodio depresivo mayor en
leve, moderado o severo, lo que implica un ordenamiento del atributo gravedad
del trastorno; o en escalas de actitudes, intereses, comportamientos o inventarios
de personalidad que se brinda un formato de respuesta likert, donde se elegirá una
respuesta que indicará su grado de conformidad o la frecuencia con la que se
presentan los fenómenos descriptos en la formulación del ítem). Ordinal o
semicuantitativo (no sabemos cantidad de síntomas, pero sabemos si es leve,
moderada, o severa, podemos ordenar).
Refiriéndonos al nivel de medición cualitativo o nominal, utilizamos este tipo de
escala cuando aludimos a la presencia o ausencia de un atributo (síntoma
presente o ausente, acierto o error en un test
de desempeño) o al referirnos al tipo o clase
específica de un atributo dado (tipo de
estructura, tipo de neurosis). En este tipo de
escala se trata de establecer la pertenencia
de un sujeto a una categoría en virtud de
un atributo dado que la determina, sin
implicar una jerarquía entre los individuos.
El número utilizado para identificar cada categoría solo nombra o nomina la
etiqueta de la categoría sin indicar un ordenamiento. Nominal o cualitativo (tiene
el síntoma o no lo tiene, y cuál, pero no sé cantidad de síntomas ni gravedad).
El hecho de que trabajemos en uno u otro nivel de medición, y por lo tanto de
análisis, se relacionará con el interés particular del evaluador, con las
características de la variable que se está estudiando y con el tipo de escala al que
el instrumento empleado es capaz de llegar. En muchos casos, es posible medir
una misma variable en varios niveles de medición. La manera en que se diseñe
una categorización será arbitrariamente establecida por el evaluador o
investigador, aunque debe fundamentarse en razones teóricas, técnicas o
evolutivas, acompañándose de una clara división de las categorías que deben
3
Psicométricas
ser mutuamente excluyentes (un mismo individuo no puede ser ubicado en más
de una categoría a la vez), y no debe dejar ningún individuo por fuera.
1.3. Los instrumentos psicométricos. Una técnica, prueba, test, escala o

instrumento psicométrico se define como un dispositivo o procedimiento en el
que se obtiene una muestra de comportamiento de un examinado en un
dominio específico, subsiguientemente evaluado y puntuado usando
procedimientos estandarizados, y que cuenta con evidencias empíricas sobre
la validez y la confiabilidad de los resultados que arroja. Un test es un
dispositivo o procedimiento, que implica un proceso, determinadas coordenadas
de administración y de evaluación.
Procedimiento que se ha estandarizado: se ha tipificado de manera explícita,
puntualizando específicamente un dispositivo o un método de trabajo: qué tipo de
materiales deben utilizarse, qué consignas, qué ítems o estímulos, en qué tiempos
de administración se trabajará, si habrá o no tiempo límite, de qué forma se
entregará el material, qué actitud asumirá el examinador frente al sujeto, qué
criterios se emplearán para puntuar los resultados, etc. Este conjunto de
procedimientos se ha especificado y estandarizado al momento en que el test ha
sido validado y han sido calculadas sus normas, y debe respetarse al pie de la letra
cada vez que se administre.
No solo los procedimientos de examen se tipifican y se hacen constantes, sino
que también se realiza con las formas de puntuación y con las condiciones de
interpretación de las respuestas brindadas por los examinados. También es
importante que, teniendo en cuenta los sentimientos de temor, ansiedad,
aburrimiento, entre otros que suelen presentarse en los evaluados, el evaluador
intente mantener un clima de trabajo cómodo, relajado, que promueva la
colaboración y la motivación del examinado. Acá es adecuado el concepto de
rapport, entendido como los esfuerzos puestos en juego por el evaluador para
generar en el evaluado una actitud general de cooperación, despertar su
interés y motivación y estimularlo a responder a los tests y entrevistas de la
mejor manera posible.
“…una muestra de comportamiento en un dominio específico”: el sujeto recibe
una consigna que le indica qué se espera de él (responder preguntas, armar un
rompecabezas, hacer un dibujo), y al responder a dichas instrucciones, generará un
conjunto de comportamientos que el evaluador registrará (respuestas a las
preguntas, el armado concreto de rompecabezas en un tiempo dado, el dibujo
queda registrado en papel). Las condiciones del test buscan lograr que el
examinado emita una serie de comportamientos reducidos a un área específica de
todos los comportamientos que habitualmente genera. Esto implica que un test no
evalúa todo el comportamiento de una persona, son una muestra de todos sus
4
Psicométricas
comportamientos posibles, reducidos a un área específica. El modelo teórico

también circunscribirá y definirá los comportamientos, pues toda teoría
implica un recorte dado de la realidad. Obtenemos una muestra de
comportamiento (solo una muestra, por ejemplo de inteligencia).
Los autores de la técnica deben diseñar y llevar a cabo estudios empíricos que den
idea al usuario de dos cuestiones básicas: si el test evalúa aquello que dice medir
(validez) y si aporta resultados en las que se pueda confiar, con un error de
medición predecible y determinable (confiabilidad).
El psicólogo dispone de un arsenal de pruebas que le permiten recoger la

información necesaria. Ellas son las técnicas psicométricas, las proyectivas y las
entrevistas. En la tarea de evaluación se trabaja integrando la información que
deriva de las tres fuentes.
Técnicas psicométricas Técnicas proyectivas
Cuentan con consignas, estímulos y Las consignas y estímulos que disparan
alternativas de respuesta las asociaciones o respuestas
altamente estructurados. Se trabaja comportamentales en las técnicas
con materiales e instrucciones proyectivas poseen escasa
fuertemente estructurados, así como estructuración y están pensados de
con opciones de respuesta manera tan amplia que, potencialmente,
preestablecidas y/o con criterios de pueden propiciar un repertorio de
puntuación minuciosamente respuestas que tiende a infinito. Poco o
definidos. Son muy estructurados, nada estructurado (“dibuje lo que
respuestas predeterminadas, quiera”)
consigna específica (sí/no,
verdadero/falso)
Se basan en el principio de la
proyección (mecanismo con el que
contamos los seres humanos para hacer
frente a la ansiedad, estrés, y
situaciones conflictivas o críticas).
Pueden fundamentarse en diversos Todas tienen un marco teórico en
marcos teóricos, entre los que el común, el PSA (interpretación desde
PSA es solo una de las alternativas Freud, Klein, Anna Freud). Modelos
posibles. Multiplicidad de modelos psicoanalíticos (no Lacan)
posibles (social, PSA, cognitivo,
conductual, sistémico)
Aíslan atributos diversos, Ponen la evaluación de la personalidad
valorándolos de a uno a la vez como un todo
Críticas: da mucha cantidad de Críticas: da menos información pero
5
Psicométricas
información pero con poca con más profanidad, son poco

profundidad, son muy estructuradas estructurados, no suelen acompañarse
de validez y confiabilidad
1.4. Los test como operacionalizaciones de constructos teóricos. Todo test se

basa en un modelo dado. Ese marco teórico que fundamenta la técnica apela
a diversos conceptos o constructos (construcciones ideales, formuladas para
explicar determinados aspectos o fenómenos de la realidad). Por ejemplo, la
ansiedad no es observable, perceptible ni pasible de ser medida; como concepto,
no tiene existencia real, sino ideal. Lo que tiene existencia real y es apreciable
mediante los sentidos, observable o medible, son sus manifestaciones o
indicadores (signos y síntomas de la ansiedad, aquellos indicios que se pueden
observar, oír o tocar, y los que el sujeto que los experimenta puede informarnos).
Una vez que se ha definido y descripto este concepto desde un modelo teórico,
se procede a operacionalizarlo; operacionalizar un concepto o definirlo
operacionalmente implica “bajar” su definición abstracta a la empiria
mediante la identificación de indicadores observables que den cuenta de la
ocurrencia de este fenómeno en la realidad. Todo constructo teórico implica
una definición teórica o conceptual, y una operacional. Mediante esa prueba
empírica la teoría se corrobora o no con datos de la realidad, conformándose o
debiendo reformularse a la luz de esos datos reales.
Podemos entender los instrumentos psicométricos como un conjunto de
indicadores de un concepto o constructo teórico; ese conjunto de indicadores
observables o medibles son los ítems, elementos o reactivos del test.
Los ítems de un test son la mínima unidad distinguible en él, consistentes en
cada una de las pequeñas tareas o actividades que el individuo debe realizar para
responder a la consigna. Estas actividades pueden consistir en efectuar un dibujo,
efectuar piezas, elegir la opción correcta, preferida o más frecuente, etc. El total
de los ítems forma la escala o prueba. Dos o más subescalas forman la escala
total o instrumento psicométrico.
Los modelos teóricos tienen constructos o conceptos psicológicos (no son entes
reales, la ciencia se maneja con entes ideales. Los conceptos psicológicos son
construidos, no existen en la naturaleza, no se pueden tocar, coherentemente con
un modelo teórico). Para poder observar ese concepto en el comportamiento de
las personas tenemos que operacionalizar el concepto (buscar indicadores
comportamentales observables). En el caso de los test, los ítems son los
indicadores del constructo, la operacionalización, la bajada empírica. Un test
psicológico es la operacionalización de conceptos según un modelo teórico.
6
Psicométricas
1.5. La noción de escalamiento. Una prueba psicométrica supone: una

colección de indicadores relativos a un dominio de comportamiento
precisamente definido (Es un procedimiento estandarizado: un test se toma
siempre igual, con las mismas condiciones, con la misma colección de
indicadores (ítems) de un dominio de comportamiento), e implica: la medición de
un rasgo o atributo de un sujeto, operacionalizado desde un modelo teórico; la
noción de escalamiento (significa la posibilidad de convertir o traducir las
respuestas brindadas por los sujetos a una puntuación, las respuestas de los
sujetos las codificamos (asignamos números de manera arbitraria) según una
puntuación que será interpretado teóricamente); capacidad para discriminar
diferencias individuales entre las personas; validez y confiabilidad verificadas
empíricamente (calidad del instrumento); determinados atributos formales; estar
enmarcado dentro del área de la evaluación psicológica.
Las respuestas brindadas por un sujeto, que se codificarán en una forma
preestablecida y de manera pautada o estructurada, se agruparán para ser
resumidas en una puntuación final que brindará una idea general sobre el conjunto
de las respuestas. Las respuestas del sujeto quedarán registradas en lo que
llamaremos protocolo. El examinador codificará esas contestaciones según el
sistema tipificado en el manual para, finalmente obtener una puntuación global
que, desde el punto de vista estadístico y metodológico, es un índice, (puntuación
construida que servirá para resumir la serie de respuestas dadas por el sujeto).
Otro problema que debe atenderse es que el instrumento sea realmente capaz de
captar las diferencias individuales que existen entre las distintas personas en
cuanto al rasgo o atributo medido, es decir, de discriminar.
El test contará con ciertas propiedades o características formales, los
materiales empleados, la forma de administración, el uso de tiempo límite o no, la
base sobre la que se comparan las respuestas o el desempeño del sujeto evaluado,
entre otros aspectos.
Formas de clasificación de los test:

Refiriéndonos al objetivo de la pesquisa, puede hablarse de tests de
diagnóstico y de tests de screening. Los test de diagnóstico intentan brindar al
usuario una evaluación detallada y pormenorizada de una situación, un atributo o
estado o rasgo dado. Nos darán mucha mas información, más profunda y
pormenorizada, sobre la variable que se esté evaluando. Sus tiempos de
administración y evaluación serán mayores. Serán menos sensibles pero muy
específicas. Los test de screening, rastrillaje o despistaje son de administración y
evaluación breve y sencilla porque se trabaja con un gran número de personas
en un corto lapso. Se usan para detectar riesgo; es decir que dan una evaluación
poco detallada, preliminar y que debe profundizarse. Una vez localizados
7
Psicométricas
ciertos casos mediante el instrumento de despistaje, se vuelve a examinar a esos

sujetos con técnicas de diagnóstico que brindarán una información más acabada y
completa, permitiendo confirmar los resultados iniciales o descartarlos (falso
positivo).
En cuanto a los materiales y medios empleados, hay tests de lápiz y papel,
de materiales manipulables, de estímulo oral y respuesta oral, de estímulo
gráfico y respuesta oral, y de estímulo oral y respuesta escrita, entre otros.
En relación con la forma de administración, existen dos grupos de
instrumentos: los de administración individual (requieren la interacción
personalizada de un examinador con un examinado) y los autoadministrables
(diseñados para que sus consignas, sus materiales y sus ítems sean tan claros que
el sujeto sea capaz de dar respuesta a ellos sin o con poca ayuda, lo que permite
que sea administrada en forma individual o colectiva).
Con respecto al objeto de la evaluación, suele hablarse de tests de
habilidades, de potencia, de personalidad, entre otros. Esta categorización
alude al gran grupo de conceptos o variables al que pertenece el constructo que se
quiere evaluar.
Tomando como criterio clasificatorio el tipo de respuesta, las pruebas
psicométricas pueden ser de formato dicotómico (decidir la respuesta entre dos
opciones polares, si-no o verdadero-falso), likert (implica un ordenamiento de las
opciones según un gradiente que va desde la máxima aceptación al máximo
rechazo, o viceversa; también puede plantearse likerts en términos de frecuencia
de aparición temporal de los comportamientos u otras alternativas de
categorización), de diferencial semántico (forma de respuesta que prevé una
escala, generalmente de 7 o 9 puntos, en cuyos extremos se ubican dos adjetivos o
expresiones con significados contrapuestos, y se solicita al examinado que marque
en qué punto de ese continuo ubica su parecer con respecto a aquella variable que
se está evaluando), de opción múltiple, de resolución de tareas específicas (se
pide al sujeto que realice una producción determinada, como copiar tarjetas,
dibujar bajo determinadas condiciones, resolver un laberinto o un rompecabezas,
recordar palabras y repetirlas, etc. Aunque las respuestas quedan registradas,
suelen recodificarse según criterios diversos, por ejemplo como éxito-fallo), de
valoración de éxito o error, entre otras.
Según su formato, las técnicas pueden dividirse en inventarios (listados de
afirmaciones que el sujeto debe leer y responder, verdadero-falso por ejemplo),
cuestionarios (listados de preguntas que el sujeto debe responder según un
formato preestablecido, sí-no, o grados de conformidad o frecuencia), escalas
clásicas (suelen identificarse con tests de rendimiento que se componen, por
ejemplo, de tareas que el sujeto debe resolver o de preguntas que debe contestar
para reflejar algún conocimiento o respuesta), encuestas (tienen un formato
8
Psicométricas
similar al de los inventarios y se utilizan para recolectar opiniones o actitudes de

las personas sobre algún tema en especial), protocolos de entrevistas dirigidas
(listados de preguntas preestablecidas que se hacen oralmente al sujeto en una
administración individual y que deben responderse oralmente) y protocolos de
observación (u hojas de registro, son también formularios preimpresos que
establecen qué aspectos específicos deben observarse en determinados
comportamientos o interacciones, en los que el examinador va codificando en una
forma abreviada y rápida los atributos que son objetos de su evaluación), tests de
desempeño (inteligencia, memoria, etc.), entre otros.
En cuanto al uso del tiempo, existen técnicas que no fijan un límite
temporal para finalizar la tarea, sino que permiten que el examinado trabaje
libremente y a su ritmo. Otras establecen un límite preciso luego del cual se
suspende la tarea, llegando hasta el punto al que se haya arribado en la actividad.
Otros tests permiten que se trabaje libremente pero toman nota del tiempo
para valorarlo en una forma determinada.
Enfocándonos en la base sobre la que se valoran o comparan las respuestas o
desempeño del sujeto evaluado, podemos clasificar los instrumentos
psicométricos en tests normativos y test de criterio o de dominio. La primera
modalidad de valoración de los resultados corresponde a las técnicas
psicométricas que se rigen por baremos o normas estadísticas, llamados tests
normativos. Ellas comparan el rendimiento o respuestas de una persona
individual con el rendimiento promedio registrado por una muestra
normativa o de tipificación, es decir, por un grupo de individuos homogéneos al
examinado, según edad, sexo, hábitat y otras condiciones que pudieran afectar a la
variable evaluada. Así, el baremo es un cuadro de doble entrada en el que se
consignan el promedio de las puntuaciones obtenidas por esa muestra de sujetos y
su dispersión o desviación típica (es decir, su distancia relativa respecto de la
media). El baremo permite que el examinador valore el desempeño de un
sujeto a la luz del desempeño promedio observado por sujetos semejantes a
él.
Los test de criterio o de dominio, en cambio, no emplean normas para
comparar el desempeño o respuestas del individuo, sino que las valora según
un criterio previamente establecido. Es decir que, por ejemplo, en una prueba
elaborada para evaluar la presencia de síntomas depresivos, se determinará si las
respuestas coinciden con el listado de síntomas de depresión que se ha tomado
como base para comparar (por ejemplo, el DSM).
Los test psicométricos se dividen en test normativos (se basan en normas
estadísticas o baremos, que sirven para comparar las respuestas del sujeto con
sujetos similares, homogéneos), y test de criterio (no tienen baremos. Se ve si las
9
Psicométricas
respuestas son suficientes para llegar a un diagnóstico (comparamos con un

modelo teórico o descriptivo)).
Debe tenerse presente que todo instrumento tiene su sentido en tanto esté
enmarcado en un proceso de evaluación psicológica, cobrando valor en virtud
del interjuego que sea posible establecer entre los resultados que arroje y el
resto del material que se valorará (otros resultados derivados de otras técnicas
psicométricas, proyectivas, entrevistas, etc.), sin perder de vista el objetivo final
de este proceso: la construcción de una descripción exhaustiva tendiente a
generar una recomendación que llevará a tomar una decisión determinada.
La validez y los instrumentos psicométricos.

2.1. Existen tres elementos fundamentales que permiten juzgar la calidad de una
técnica psicométrica: su capacidad discriminativa, con la que nos referimos a
la capacidad de un instrumento para captar diferencias individuales en la
variable que está siendo medida; la confiabilidad de una prueba se refiere a la
confianza que podemos tener en los resultados que arroja. Se dirige a valorar
cuánto error existe en la medición; y se alude a la validez mediante la pregunta
referida a qué mide la técnica y cómo lo mide, que esa herramienta sirva para
medir aquello que intenta medir.
10
Psicométricas
Ya no hablamos de discriminación, confiabilidad y validez como atributos

inherentes al test, ya que ello crea cierta sensación de invariabilidad, de
permanencia o de fijeza; actualmente nos referimos a la confiabilidad y validez
de los resultados arrojados por el test, así como a la capacidad discriminativa de
sus ítems en tales o cuales sujetos, que poseen tales y cuales características
determinadas (ya no se trata de la validez del test, sino de evidencias de validez de
tal o cual tipo, aportadas por tal o cual investigación desarrollada sobre tales o
cuales sujetos. Diferenciación que implica que la validez ya no es considerada un
atributo estático de la escala, sino que es pensada como un resultado que
corresponde a una investigación científica realizada en un momento concreto
y con personas reales y concretas, por lo que sus resultados son provisorios y
sujetos a refutación y verificación constantes; y
al diferenciarse varios tipos de validez de las
puntuaciones obtenidas por medio de una
técnica, no se puede concluir si una escala es
válida o no, sino que debe afirmarse que se
han obtenido evidencias de validez de tal o
cual tipo en las puntuaciones derivadas de tal
o cual instrumento en tales sujetos y bajo
determinadas condiciones). La validez tiene
que quedar demostrada con investigaciones (no es fija, está sujeta a determinadas
condiciones, por eso se habla de evidencia sobre la validez de los resultados). Los
estudios de validez deberán repetirse toda vez que se varíe la población sobre
la que se ha trabajado.
Distintos tipos de validez. Es posible distinguir cuatro grandes áreas en las que
pueden categorizarse las distintas aristas del término validez: el área del
contenido, el área empírica, el área teórica y el área formal.
Validez de contenido. Se evalúa con el juicio experto. Los jueces valoran a

qué escala pertenece cada ítem. Jueces que identificaron la escala, dividido el
total de jueces, es igual al Aiken. Calculo un Aiken para cada ítem del test.
Esperamos que el Aiken sea mayor a .75, .80).
Se refiere a la verificación de que la muestra de ítems incluida en el test cubra
todos los aspectos o dimensiones relevantes de la variable en estudio o a ser
medida. Para comprender este concepto, debemos pensar que los ítems que se han
redactado o ideado para formar parte de un instrumento psicométrico son solo una
muestra de todos los ítems posibles. De todos los posibles, los finalmente
incluidos deberán integrar una muestra representativa de todos los ítems
posibles. Los finalmente incluidos tienen que cumplir con el criterio fundamental
11
Psicométricas
de no haber descuidado ninguna de las dimensiones de la variable. Esta tarea

debe ser desempeñada por los diseñadores originales del instrumento y
posteriormente controlada en aquella instancia que se conoce como juicio
experto (que está destinado a trabajar sobre los aspectos de la validez que se
relacionan con el contenido de los ítems, y también se la emplea como instancia de
reformulación de consignas y demás cuestiones a ajustarse). El juicio experto es
un procedimiento mediante el que los autores del test convocan a un pequeño
grupo de expertos en el tema que se quiere evaluar mediante esa nueva
escala. Los expertos revisarán el contenido y la redacción de cada ítem y su
adecuación con respecto a cada dimensión prevista por la teoría, efectuando
críticas a algunos de ellos, mostrando su conformidad con respecto a otros,
sugiriendo modificaciones en otros casos. Cada uno trabajará de forma
independiente y hará llegar su evaluación a los autores que sopesarán el dictamen
de cada uno de los expertos en base al conjunto de todos los dictámenes,
efectuando sobre los ítems propuestos aquellas modificaciones que hayan sido
sugeridas por la mayoría.
Se pregunta si el contenido de los ítems es coherente con el modelo teórico (y
además si estamos preguntando por todas las dimensiones del modelo, por
ejemplo, si la teoría tiene dimensiones cognitiva, fisiológica y motriz, ¿evalúa las
tres o no?). El procedimiento que se hace para validar el contenido de un test se
llama juicio experto (expertos miran el contenido de un test según la teoría). Los
expertos son psicólogos que se especializan en el tema, se fijan que los ítems
estén bien operacionalizados según el modelo teórico. Ítems con 75 u 80% de
aprobación se quedan, los otros no.
Validez teórica o de constructo. Se evalúa con: análisis factorial (ver
como se agrupan los ítems. Calculo estadístico que da las escalas y cómo están
constituidas); convergente/ divergente (ver qué ocurre con otros constructos.
Evalúo con r de pearson, valores cercanos a 1 me dan validez convergente,
valores cercanos a -1 me dan validez divergente); grupos contrastados.
Los aspectos teóricos de la validez se circunscriben a que se sea capaz de aportar
evidencias de que la operacionalización del constructo ha sido efectuada en
forma coherente con el modelo teórico y cubriendo todos los aspectos o
dimensiones incluidos en él. Es el tipo principal de evidencia de validez (teórica,
estructural o de constructo), se dedicará a responder a la pregunta de si esta
técnica mide efectivamente aquello que dice medir, según tal o cual modelo
teórico y por lo tanto, si la misma es una adecuada operacionalización de un
constructo teórico dado, derivado de ese modelo.
Teniendo en cuenta que siempre hay algún grado de subjetividad, la validación de
constructo se define como un proceso continuo (durable en el tiempo, requiere de
investigaciones desarrolladas y renovadas en forma permanente) por medio del
12
Psicométricas
que se realizan múltiples investigaciones con el fin de poner a prueba

diferentes hipótesis sobre la estructura interna del constructo, así como de sus
relaciones con otras variables o constructos. También se la puede definir como
el grado en que un test mide un constructo, en tanto es una buena
operacionalización del mismo. ¿El test es una adecuada operacionalización del
constructo teórico? Miramos si lo que los sujetos responden en la práctica
corrobora lo que dice la teoría. Investigación empírica donde se aplica el test a
una muestra representativa para ver si las hipótesis de la teoría están bien. Se
miran las respuestas de los sujetos en la empiria, en la realidad.
Procedimientos más frecuentes para aportar evidencias de validez de
constructo. Se produce mediante alguno de los siguientes procedimientos:
- Estudios evolutivos. Si una teoría y/o resultados empíricos de distintas
investigaciones postulan que, por ejemplo, a medida que un niño crece y madura,
se acrecienta su capacidad para efectuar algún tipo de actividad dada, un test que
intente medir esa capacidad, debería corroborar esto mediante sus resultados.
- Estudios clínicos. Con una lógica similar de razonamiento se procede cuando se
usan estudios clínicos si el constructo a ser evaluado implica algún tipo de
patología. Por ejemplo, los resultados aportados por el instrumento en pacientes
psicóticos deberían ser significativamente distintos de aquellos obtenidos por
sujetos no psicóticos.
- Análisis factorial. Es un procedimiento de análisis multivariante de los datos
que permite analizar la variable, tal como ha sido medida por medio de un test en
una muestra de sujetos dada, determinando qué dimensiones podrían aislarse en la
misma. El análisis factorial es definido como un método de reducción de datos
por el que es posible disminuir la cantidad de datos a ser analizados o tenidos
en cuenta.
El análisis factorial se maneja por medio del cálculo de múltiples coeficientes de
correlación entre las respuestas de todos los sujetos incluidos en la muestra a
cada uno de los ítems del test.
Este cálculo de múltiples coeficientes de correlación entre todas las
combinaciones posibles de respuestas emitidas por los sujetos incluidos en la
muestra implica intentar conocer qué grado de asociación, relación o
covariación tiene el total de las respuestas de todos los sujetos en todos los
ítems de la escala (cómo se asocian, los contenidos a los que ellos aluden). La
correlación calculada no nos informará sobre los contenidos presentes en las
formulaciones de los reactivos, pero sí nos hablará de su asociación y de su
semejanza.
El análisis factorial detecta, según el grado de asociación entre las respuestas
a los ítems, si dos reactivos distintos guardan entre sí algún grado de
asociación. De esta forma, aquellos elementos que hayan registrado entre sí
13
Psicométricas
elevados grados de asociación se agruparan bajo lo que llamamos un factor,

dimensión o variable latente.
Si la cantidad de factores aislados o identificados y sus contenidos coinciden
con la cantidad e identificación de las dimensiones previstas en la teoría,
entonces, podrá decirse que el test es una adecuada operacionalización de tal
marco teórico, o que mide tal variable según tal teoría x. Si el análisis factorial
aísla un número distinto de dimensiones que las previstas en el modelo, o el
mismo número pero con distintos contenidos, entonces deberá revisarse el
instrumento a fin de detectar errores técnicos, teóricos y/o metodológicos. Método
que intenta establecer correlaciones múltiples entre las respuestas de los sujetos,
para determinar de qué modo se agrupan las respuestas.
- Evidencia de validez convergente y discriminante. En todo proceso de
validación de constructo de un test interesa conocer si se han podido recoger
evidencias de validez convergente y discriminante, es decir, evidencias de que el
constructo medido por el instrumento converge en el mismo sentido que otra
evidencia relacionada por similitud, y a la vez,
que aparece evidencia discriminante, que se
distingue teóricamente del concepto medido.
Las evidencias de validez convergente son
aquellas que se recogen cuando los resultados
de un estudio de validez de constructo
convergen en un mismo sentido, verificando
la relación entre constructos vinculados
teóricamente. En el caso de las evidencias de
validez discriminante, existirán tales resultados cuando obtengamos coeficientes
de correlación relativamente bajos entre dimensiones o constructos diferentes
del que se desea medir, que el modelo ha concebido como relacionados
teóricamente pero con una frecuencia de aparición conjunta en la realidad muy
escasa.
Validez empírica (o validez de criterio). Uso un criterio externo (otro test

u otra medida relacionada con mi test), correlaciono con r de pearson, espero
que se aproxime a 1.
Se relaciona con que sea en base a estudios de campo realizados con rigor
metodológico y sobre personas concretas, y el término remite a un tipo de
evidencia que se vincula con el uso práctico que puede darse al test, en base a los
resultados que arroja, es decir, en base a qué mide y cómo mide en la práctica.
Involucra una metodología de investigación que trabajará utilizando lo que se
conoce como criterio externo (es una medida de la misma variable que el
instrumento intenta medir, obtenida en forma independiente al instrumento
14
Psicométricas
(externa a él), cuyas evidencias de validez deberán estar previamente

establecidas, además de ser coherentes con la base teórica que sustenta la
prueba ya que sino, no serían comparables. Esta medición externa permite
verificar empíricamente si la prueba brinda información semejante a ella.
Siempre, para la validez empírica, se trabaja en forma externa a la técnica. El
criterio externo seleccionado deberá estar sustentado en el mismo marco teórico,
y operacionalizado de forma similar, que el instrumento cuyos resultados se
quieren validar. Tiene un propósito aplicado o empírico. Es la pregunta de qué
información me da el instrumento. ¿El test reemplaza a otra información sobre
la misma variable? ¿El test y el criterio dan la misma información? Es sinónimo
de criterio externo, que se de la misma información, pero por otro medio que ya
esté demostrado. (Por ejemplo, demostrar que el test de bender da la misma
información que si ves al niño en la escuela durante 6 semanas). Se divide en:
- La validez concurrente. Para que estemos seguros de que un nuevo test nos
permite acceder a cierta información que necesitamos conocer, debemos poder
corroborar que arroja esa misma información o los mismos resultados que
podríamos obtener por otros medios (criterio externo). Aplicación de dos
técnicas independientes que miden el mismo constructo a los mismos sujetos y se
mide la correlación de los resultados.
- La validez predictiva. Posee una lógica similar a la de la validez concurrente,
trabajando con un criterio externo y un coeficiente de correlación. La validez
predictiva trabaja a futuro y con un criterio externo a predecirse, diferente de
la variable medida en el aquí y ahora por el test. Un estudio destinado a aportar
evidencias de validez predictiva se basa en la idea de intentar verificar que el
instrumento (administrado en el presente) resulte un buen predictor de otra
variable (relacionada teóricamente con la que se ha medido, pero distinta) cuyo
comportamiento futuro interesa estimar.
La diferencia lógica entre validación concurrente y predictiva no se basa en el
tiempo sino en los objetivos de la evaluación: mientras que la primera es la
elegida cuando la prueba va a emplearse para efectuar diagnósticos del estado
actual, la segunda lo será cuando el instrumento busque predecir resultados
futuros; es decir que el uso de la escala en el ámbito de aplicación o de
investigación será el criterio decisorio que permitirá dirimir qué tipo de estudio de
validación se empleará. Si predice otra información sobre otra variable (por
ejemplo, el bender mide maduración viso-motriz, variable que se relaciona con el
aprendizaje a leer y escribir). Medición de otra variable relacionada con la que
el test mide (criterio externo).
- La validez retrospectiva. Se vincula con la correlación verificada entre los
resultados de un test administrado en un momento determinado y un criterio
externo medido con antelación a la aplicación del instrumento psicométrico.
15
Psicométricas
[Para comparar dos vías de evaluación: se empleará un coeficiente de

correlación para valorar el grado en que ambos caminos de evaluación se
hallan asociados, es decir, coinciden. El coeficiente de correlación es un índice
que nos informa el grado de covariación o asociación entre dos variables,
tratándose de una correlación directa (de signo positivo) cuando ambas
variables aumentan o disminuyen juntas, y siendo la correlación inversa (de
signo negativo) cuando al aumentar una de las variables, la otra disminuye o
viceversa. Independientemente del signo o sentido de la correlación, el grado de
asociación entre las variables consideradas será mayor cuanto más se acerque
su coeficiente a 1; será menor cuanto más cerca de cero se ubique.
En el caso de un estudio de validez concurrente, si este coeficiente es positivo
y elevado, estará indicando que ambas mediciones (criterio y escala)
realizadas a una única muestra de sujetos arrojan resultados similares, por lo
que será prácticamente lo mismo medir la variable deseada mediante la prueba o
mediante el criterio. Aquel estudio ha arrojado evidencias de validez empírica o de
criterio, de tipo concurrente. Esta expresión significa que técnica psicométrica y
criterio concurren juntos, en un mismo sentido, arrojando idénticos resultados (o
similares). El coeficiente de correlación más usual en este tipo de estudios es el r
de pearson].
- Otra manera posible para examinar la validez de los resultados obtenidos
mediante un test es efectuar un estudio por grupos contrastados. El objetivo
consiste en demostrar que las puntuaciones arrojadas adquieren valores
predecibles en función de la pertenencia de los individuos a un grupo dado.
Cuando un criterio determinado ha sido establecido de antemano pueden validarse
los resultados aportados por una escala que evalúe esa variable, de manera que el
grupo de pacientes con tal diagnóstico deberían puntuar significativamente más
alto que otro grupo de no-pacientes, utilizados en esta hipotética investigación
como grupo de comparación. Si la escala
está midiendo correctamente el
constructo que se ha propuesto, debería
ser capaz de discriminar fácilmente
quiénes son aquellas personas que presentan
esta clase de pensamientos y quienes no;
este tipo de diseños de investigación
contribuye a aportar evidencias acerca de la
validez de constructo de una prueba,
aunque también, indirectamente, brinda
evidencias de validez empírica. Si el test me resulta útil para discriminar si el
sujeto necesita tratamiento o si no. Usa un grupo con, por ejemplo, trastorno de
16
Psicométricas
ansiedad ya diagnosticados y otros sin. Toma el test a todos, evaluando sin saber
quién está en cada grupo, para ver si los diferencia.
Validez de facies o validez aparente. Se evalúa con estudio piloto.

La validez aparente tiene que ver con que el instrumento resulte válido a los
ojos del examinado, ya que si los materiales, la consigna, el estilo de respuesta o
las condiciones propuestas para el examen dejan de aparecer como serias o
adecuadas a su edad o sus características, podría suceder que los sujetos vieran
afectada su actitud de respuesta. Este aspecto es vigilado en el proceso de
elaboración y adaptación de las escalas psicométricas indirectamente en diversos
momentos: redacción de ítems, juicio experto, administración piloto. Si el test
aparece como válido a los ojos del sujeto. Si el contenido, el material, etc., son
adecuados al sujeto. Toman el test a una muestra, preguntándoles qué no
entienden, qué les causa gracia.
- Validez ecológica. Si el test está adaptado a diferentes poblaciones y diferentes
contextos.
2.6. Sesgo y error sistemático. El sesgo es un concepto relacionado con el de

validez, se define como un error constante o sistemático como opuesto al
aleatorio o azaroso, que impide la medición precisa e imparcial del constructo
a evaluarse. Por acción de este sesgo, la probabilidad de éxito no es independiente
del subgrupo poblacional al que pertenece el examinado. Eso significa que,
aunque el instrumento haya sido estandarizado para un grupo poblacional dado, un
subgrupo dentro de ese grupo mayor generará, probablemente, respuestas atípicas
o no exitosas por acción de la pertenencia a ese subgrupo (conectada con la
generación de un error sistemático) y no por otras razones.
Ese error sistemático, dado por cualquier componente inherente a la prueba, se da
siempre de la misma manera y en el mismo sentido toda vez que el
instrumento se administra a algún integrante de ese subgrupo.
Un test que funciona en forma diferencial en un subgrupo de población dado deja
de arrojar resultados válidos para los miembros de ese subgrupo, ya que estas
personas obtienen puntuaciones distintas en la medición de la variable por factores
ajenos a ella (por ejemplo, si se mide inteligencia mediante videojuegos, quienes
no tengan acceso a ellos puntuarán más bajo pero por su poca accesibilidad a los
juegos y no por ser menos inteligentes).
Confiabilidad y error de medición.

4.1. Confiabilidad. No solo es importante seleccionar adecuadamente el tipo de
puntuaciones que el instrumento ha de brindar, es necesario también proveer
evidencia empírica sobre la calidad de las mismas, lo cual se lleva a cabo
17
Psicométricas
poniendo a prueba la consistencia y precisión de los puntajes (confiabilidad) y

analizando la bondad de dichos puntajes para aportar información pertinente de la
variable que se intenta medir (validez).
Si se acepta la posibilidad de medir en psicología, es necesario asumir dos
supuestos: existen puntajes verdaderos, que reflejan puntualmente la
realidad, que miden de un modo exacto, sin error; y siempre que se realizan
mediciones pueden cometerse errores.
La distinción entre un puntaje teorizado, ideal, que llamaremos verdadero, y
otro concreto, que llamaremos obtenido (el que resulta de la aplicación de una
técnica psicométrica) es fundamental ya que uno de los objetivos más importantes
de la psicometría es determinar la puntuación verdadera. Esta puntuación se define
como lo que queda de la puntuación observada u obtenida a través de un test, una
vez eliminados los errores de medida. Podemos formalizar este enunciado así: PV
(puntaje verdadero obtenido en un test por un sujeto) = PO (puntaje obtenido a
través de una técnica) + (-) e (error posible que se esté cometiendo al medir).
Nunca vamos a conocer el PV por el error de medición. Esa puntuación
verdadera se estima, nunca se conoce. En la mayoría de los instrumentos el error
ya está calculado.
En las mediciones indirectas de fenómenos intangibles (como son la mayoría de
las que se realizan en psicología) el puntaje verdadero no puede ser
concretamente calculado, por lo que solo puede inferirse su valor hipotético.
Por esto, el objetivo de los estudios que se realizan sobre la precisión de las
puntuaciones obtenidas a través de un instrumento es controlar y calcular el
margen de error. La confiabilidad es la confianza que podemos tener en la
medición de un instrumento, en los resultados que brinda el test, al medir el
constructo. Para entender el concepto de confiabilidad, este está atado al error
de medición.
4.2. Tipos de error. Se puede dividir las fuentes de error en dos categorías según
el tipo de error que generan: sistemáticos o asistemáticos.
Errores sistemáticos. Las fuentes de error sistemáticos son aquellas que
desplazan las puntuaciones en cierta dirección, generando una puntuación
sistemáticamente elevada o baja. Suelen denominarse también errores
constantes. El error sistemático, a pesar de introducir diferencias en el resultado de
la medición, no cambia la variabilidad, la distribución de las puntuaciones de un
grupo de sujetos en la variable que se está evaluando. Los instrumentos que
conllevan este tipo de error sistemático sobreestiman (o subestiman) el atributo
evaluado. Los errores sistemáticos pueden ser detectados a través del análisis
de la validez del instrumento.
18
Psicométricas
- Error sistemático de construcción del instrumento. Error relacionado con

situaciones de error en la construcción del instrumento mismo (por ejemplo, si
hay una consigna poco clara, o materiales que no son pertinentes para
determinada cultura). Esto es cuando por ejemplo se pregunta mal en los ítems,
afecta respuestas, por lo tanto afecta la validez de los resultados. Son errores de
simple detección y simple solución. El error afecta a todos los que responden.
- Sesgo/error sistemático para un subgrupo poblacional. Entra en la misma
categoría que el anterior porque ambos son sistemáticos, es decir que se produce
siempre igual. Afecta a un pequeño grupo de población, por variables ajenas a la
variable evaluada (por ejemplo con materiales que no son culturalmente
adaptados a ellos, generalmente por escasa familiaridad o pertinencia de los
materiales). Estos dos errores sistemáticos afectan la validez.
Errores no sistemáticos. Son aquellos que no tienen posibilidad de ser
controlados, impredecibles o aleatorios, ya que son generados por las
variaciones cuya causa es el azar. Los estudios sobre la confiabilidad se ocupan
de los errores asistemáticos. Las fuentes de error pueden haber sido generadas en
la etapa de construcción de la técnica, en la administración, en la puntuación y en
la interpretación de los resultados arrojados por la misma. Las fuentes de error que
pueden ocurrir durante la administración de la técnica son aquellas que tienen
cierta influencia en cambios azarosos en la atención o motivación del sujeto
examinado (desgano, ansiedad, experiencias anteriores), las variables relacionadas
con las condiciones ambientales (temperatura, ruido, iluminación), y las variables
relacionadas con el examinador (su estilo, su comportamiento, si implica su
subjetividad).
También llamado error de medición. Es un error azaroso, que no siempre afecta
las mediciones de la misma manera, es ineludible, está siempre. No asumirlo
como negativo, tengo que saber que está para prevenir errores. Es la contracara
del concepto de confiabilidad. Existen tres fuentes posibles, que producen error
(variables que hacen que el examinado rinda mejor o peor): el examinado, el
examinador y el ambiente. Afecta la confiabilidad.
4.3. Confiabilidad de las puntuaciones. Podemos definir confiabilidad como la

consistencia, o mejor, la coherencia de los puntajes obtenidos por los mismos
individuos en distintas ocasiones o con diferentes conjuntos de ítems
equivalentes. Los estudios de la confiabilidad se han desarrollado para responder
interrogantes sobre la precisión de los puntajes obtenidos a través de la aplicación
de una técnica psicométrica.
Hay diferentes tipos o grados de confiabilidad, el coeficiente de confiabilidad
informa el grado de precisión del instrumento.
19
Psicométricas
Coeficiente de correlación. Un coeficiente de correlación expresa el grado de

correspondencia, o relación, o covariación, entre dos conjuntos de puntuaciones.
Permite establecer el grado de asociación entre dos variables (medidas en un nivel
de intervalos o de razón). Cuando la correlación entre dos variables es perfecta, el
coeficiente de correlación (r de pearson) es igual a uno (r=1, r=-1). Cuando no
existe asociación alguna, es cero.
El coeficiente de confiabilidad. Se trata de un número que indica en qué medida

una técnica es confiable. El coeficiente es un número cuyo valor mínimo es cero
(lo que indicaría la inexistencia de varianza verdadera, ya que toda es varianza de
error), y su valor máximo es igual a uno (lo que indicaría que no hay error, todo es
varianza verdadera).
Cuánto más cercano a uno sea el valor del coeficiente de confiabilidad, más
confiable será el instrumento del cual se obtuvieron las puntuaciones; por el
contrario, cuanto más cercano a cero es dicho coeficiente, menos confiable
será el mismo.
4.6. Procedimientos empíricos para estimar el coeficiente de confiabilidad.

Tipos de confiabilidad. Si en dos ocasiones se administra una técnica a un mismo
grupo de sujetos, obteniendo de este modo dos conjuntos de medidas, el
instrumento pocas veces proporcionará exactamente el mismo resultado, y esto es
debido a la incidencia de factores aleatorios. El hecho de que las mediciones
repetidas a los mismos sujetos no muestren los mismos resultados revela falta de
confiabilidad en el instrumento (error de medición). Las mediciones repetidas
también suelen mostrar consistencias, por lo cual, las consistencias entre la
primera y la segunda medición van a representar la varianza verdadera.
Existen diferentes métodos que permiten calcular empíricamente el
coeficiente de confiabilidad, y cada uno de ellos, de acuerdo a las
características del diseño, permite delimitar de manera adecuada algún
aspecto sobre la confiabilidad de los puntajes arrojados por la técnica de
medición en cuestión.
A partir de la implementación de estos métodos empíricos, se obtienen
coeficientes de confiabilidad, algunos más sensibles a la consistencia entre los
ítems, otros a la estabilidad temporal del puntaje, o a la confiabilidad del
evaluador, entre otras alternativas.
Cada método involucra diferente pasos para hallar el coeficiente de confiabilidad,

pero en todos los procedimientos es necesario disponer de al menos dos
conjuntos de medidas paralelas de los mismos sujetos, para luego calcular
entre ellas, el coeficiente de confiabilidad de la técnica.
20
Psicométricas
La correlación de pearson es una medida que indica el grado de relación que

existe entre dos conjuntos de datos, provenientes de dos variables. Cuanto más
cercano a uno sea el coeficiente hallado, indicará que el primer conjunto de
medidas es parecido al segundo (que no hubieron errores que modificaran los
resultados); por el contrario, cuanto más cercano a cero sea ese valor,
indicará más discrepancia (presencia de errores) entre las dos mediciones, es
decir, menos confiabilidad del instrumento (el error lo afecta en gran
medida). Mientras que el coeficiente de Pearson puede asumir valores entre -1 y
+1, el coeficiente de confiabilidad solo asume valores entre 0 y 1:
Coeficiente Lectura de la correlación Lectura (interpretación
de hallada psicométrica) del coeficiente de
correlación confiabilidad
r de Pearson
+1 Correlación positiva perfecta Nunca alcanza este valor,
(cuando aumenta una, aumenta ninguna técnica arroja puntajes
la otra o cuando una disminuye, perfectos
disminuye la otra)
+0.90 Correlación positiva muy fuerte Técnica muy confiable
+0.75 Correlación positiva Adecuada
considerable
+0.50 Correlación positiva media Regular (no cumple requisitos
científicos)
+0.10 Correlación positiva débil Baja confiabilidad
0 No existe correlación alguna Medición contaminada de error,
entre las variables no confiable
Métodos que requieren repetidas aplicaciones, dos aplicaciones del test a

una misma muestra. Es importante que un instrumento arroje mediciones estables
en el tiempo. Una forma de estimar la confiabilidad de un instrumento de
medición consiste en usar el mismo instrumento en una muestra de sujetos, en dos
momentos, es decir, con un lapso de tiempo entre ambas administraciones. Con
estos métodos se estima el coeficiente de confiabilidad que permite medir la
estabilidad de las puntuaciones obtenidas.
- Test-retest. El objetivo de este método es medir la estabilidad de las
puntuaciones sabiendo que conforme transcurre el tiempo las personas cambian.
La fuente de falta de confiabilidad que identifica este método son las fluctuaciones
temporales aleatorias, que influyen tanto en las condiciones de administración
como en las condiciones de los examinados.
Etapas: Aplicar y evaluar la técnica a una muestra de sujetos; lapso de tiempo
(justificado según las características de la variable); aplicar y evaluar la técnica a
21
Psicométricas
la misma muestra de sujetos; calcular la correlación (r) entre las puntuaciones

obtenidas en ambas ocasiones; interpretar el coeficiente hallado (estabilidad
temporal de las puntuaciones).
La aplicación de este método implica una clara distinción entre la posibilidad de
cambios reales en las puntuaciones de la variable, esperables desde el punto de
vista teórico y aquellos otros cambios, indicados en las puntuaciones del test, pero
debidos a fuentes de error inherentes al instrumento de medición, a su falta de
precisión.
Atiende estabilidad temporal. Mediante la repetición en los mismos sujetos, si la
medición en ambas mediciones es similar, a una muestra de sujetos con un
intervalo de tiempo entre la primera toma y la segunda toma. No se puede hacer
esto cuando hay posibilidad de aprendizaje, de memoria, cuando se mide estado
de ánimo que cambia. Se calcula el r de pearson; para decir que el test es
confiable en términos de estabilidad temporal, el r debería ser alto (cercano a 1).
- Formas paralelas o alternativas (con intervalo). La evaluación de la variable
no conserva las mismas características cuando un test es administrado en una
segunda oportunidad, ya que las respuestas a algunos ítems pueden verse afectadas
por factores tales como la experiencia previa con los reactivos del instrumento
(aprendizaje y memoria), la falta de novedad, la memoria o la fatiga.
Este procedimiento es utilizado cuando se necesita minimizar el efecto de la
memoria del contenido de otra prueba aplicada con anterioridad. Se procede
entonces a elaborar formas equivalentes y se las aplica a los mismos sujetos en
dos oportunidades, con un intervalo de tiempo entre ambas administraciones.
Las formas paralelas deben ser similares en contenido, instrucciones y duración,
pero también deben ser equivalentes, tanto en las medidas y varianzas de las
puntuaciones que arrojan como en los anides de dificultad y discriminación de los
ítems.
Este procedimiento controla dos fuentes de confiabilidad, las fluctuaciones
temporales aleatorias, y además la inconsistencia de las respuestas a
diferentes muestras de ítems, ya que hay cambios en los reactivos del
instrumento administrado en cada sesión.
Etapas: administrar una forma de test a una muestra de sujetos; lapso de tiempo
(justificado); administrar la forma paralela del test a los mismos sujetos; calcular
la correlación (r) entre las puntuaciones obtenidas con una forma y con la otra;
interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y
muestreo de contenido).
Consistencia, estabilidad temporal. Se usa r de pearson, tiene que ser cercano a
1.
Métodos que requieren una sola aplicación a una muestra:
22
Psicométricas
- División por mitades. El que utiliza este método tiene como objetivos el
escrutinio de los ítems que conforman la prueba y el análisis de las relaciones
entre ellos. El procedimiento empírico aporta información para estimar el grado
de consistencia interna del instrumento.
Etapas: aplicar la técnica a una muestra de sujetos; dividir el conjunto de ítems en
dos mitades homogéneas (en cuanto a contenido y dificultad); calcular la
correlación (r) entre las puntuaciones obtenidas en las dos mitades en las que ha
quedado dividida la técnica; ajustar la confiabilidad de la mitad de la prueba
usando la fórmula de Spearman-Brown; interpretar el coeficiente hallado
(consistencia de las respuestas a lo largo del test).
Existen diversas formas adecuadas para lograr dos mitades homogéneas, una
forma aceptable es asignar a cada ítem, a una mitad o a la otra, al azar. Otra
modalidad consiste en dividirlos en números pares e impares, de modo que los
ítems quedan ordenados según su dificultad creciente. O dividir la prueba por
contenidos, de modo que cada mitad del test contenga ítems equivalentes en
cuanto al contenido y la dificultad. Las mitades deben ser similares en cuanto a
formato, número de ítems y estadísticos; deben ser homogéneas.
Consistencia interna, homogeneidad. Se usa r de pearson, tiene que ser cercano a
1 (si hace falta, cada escala dividirla por separado).
- Formas paralelas o alternativas (sin intervalo). No hay lapso de tiempo entre
administraciones. Se aplican ambas formas (que deben ser equivalentes) en la
misma sesión, a la misma muestra de sujetos, una después de la otra.
Identifica la presencia de inconsistencias en las respuestas a diferentes
muestras de ítems.
Etapas: aplicar las dos formas a una muestra de sujetos (sin intervalo de tiempo
entre ambas); calcular la correlación (r) entre las puntuaciones obtenidas por la
misma muestra en una y otra forma; interpretar el coeficiente hallado (consistencia
de las puntuaciones). Consistencia. Se usa r de pearson, tiene que ser cercano a 1.
- Coeficiente alfa de Cronbach. Puede ser utilizado en reactivos no dicotómicos
(por ejemplo en escalas Likert). Es en la actualidad el estadístico preferido para
obtener una estimación de la confiabilidad de la consistencia interna (entre los
ítems de una técnica).
Etapas: aplicar la técnica a una muestra de sujetos; calcular el coeficiente alfa
entre las puntuaciones obtenidas en los distintos ítems; interpretar el coeficiente
hallado.
Consistencia interna. Consistencia, homogeneidad. Que los ítems evalúen cosas
parecidas, que haya una coherencia lógica, que los ítems pregunten cuestiones
del mismo tema. Implica una sola aplicación del instrumento a una muestra. Se
correlacionan todas las respuestas de todos los sujetos y se evalúa mediante el
cálculo de un alfa de cronbach. Espero que sea mayor a 0,70.
23
Psicométricas
- Confiabilidad entre evaluadores. Una técnica psicométrica confiable debe

arrojar los mismos resultados independientemente de quien lleve a cabo la
evaluación, ya que la medición es estandarizada e implica uniformidad tanto en
las condiciones de administración como en las de evaluación. Este método indica
las fluctuaciones en las puntuaciones según el evaluador.
Etapas: administrar la técnica a una muestra de sujetos; evaluar las técnicas
administradas (evaluador A); evaluar las técnicas administradas (evaluador B);
calcular la correlación (r) entre los puntajes asignados por evaluador A y
evaluador B; interpretar el coeficiente hallado.
Consistencia entre evaluadores, criterios de evaluación (Coeficiente de
correlación. Más cercano a +1, más confiabilidad).
4.7. Error típico de medida. El coeficiente de confiabilidad ayuda al autor o

adaptador de una técnica a construir un instrumento de medición adecuado,
mientras que al administrador lo ayuda a valorar cuándo una técnica es adecuada
para evaluar una variable de su interés. El error se refiere al componente de la
puntuación obtenida por un sujeto en una técnica psicométrica, que no está en
relación con la evaluación del atributo en cuestión.
Cuanto mayor es el coeficiente de confiabilidad, menor será el error típico de
medición.
Niveles de significación e intervalo de confianza. No es posible calcular el error
de una determinada medición (porque no se conoce el valor verdadero), pero
calculando el desvío estándar de los errores se puede conocer la posibilidad
de que el error se encuentre entre dos determinados, y calculables, valores. A
estos dos valores, uno por encima del puntaje obtenido y otro por debajo del
mismo, con su correspondiente probabilidad, se los conoce como intervalo de
confianza (el intervalo de confianza permite estimar con una determinada
probabilidad entre qué puntajes estaría el valor verdadero). Así, por ejemplo,
obtenido un determinado puntaje producto de una
medición, se puede asegurar con el 68% de
certidumbre que el puntaje verdadero estaría entre
un desvío estándar de error por encima y uno por
debajo de dicho puntaje. Por ejemplo, si a un niño se la administra un test y
obtiene 100 puntos, y la fórmula del error da que este es 4, con un 68% de certeza,
el valor verdadero estaría entre los valores 96 y 104 puntos, ya que estos toman en
cuenta un DE de error por encima y por debajo del puntaje obtenido. De la misma
forma, podría indicarse que si el resultado de la medición fue de 100 puntos, se
puede asegurar con un 95% de certeza, que el valor verdadero estaría entre los
valores 92 y 108, que señalan los dos DE de error por encima y por debajo del
valor medido.
24
Psicométricas
A medida que aumentamos la seguridad, la confianza en la evaluación, aumenta

también el intervalo (distancia entre puntajes mínimo y máximo).
El intervalo de confianza me sirve para tener idea del margen de variación entre
el que oscilarían los puntajes verdaderos de un sujeto. El error siempre existe, el
puntaje verdadero se estima, mediante los intervalos de confianza.
Las puntuaciones de los test.

3.1. Los puntajes brutos.
Numerales y niveles de medición. Los numerales son símbolos numéricos,
mientras que el número es la cantidad que estos símbolos representan.
Mediciones psicológicas. En la ciencia al realizar una medición debe
especificarse no solo el valor medido sino también el error con que este se calcula.
Las mediciones pueden clasificarse en directas e indirectas. Mediciones directas
serán aquellas donde el fenómeno a medir pueda observarse a través de los
sentidos, se puede “contar”. El sexo, la edad, la cantidad de palabras que es capaz
de recordar son ejemplos. En este tipo de medidas el error puede no existir, y si
existe suele ser sencillo de calcular. En las mediciones indirectas el fenómeno a
medir no puede evaluarse en forma directa sino que se hace necesario el uso de un
instrumento para “materializarlo” y de este modo asignarle números.
Conductas observables  Cuantificación de las conductas observables 
Cuantificación de conjuntos de respuestas  (Puntaje bruto) 
Comparación con referencias poblacionales  (Puntaje transformado)
Desarrollaremos cómo se cuantifican los conjuntos de respuestas obteniendo el PB
y cómo se lo valora a través de los PT y los baremos.
El puntaje bruto. Referiremos como variable psicológica a los fenómenos de

interés de la psicología que tienen variabilidad, que se manifiestan con más de
una modalidad, sean estas cualitativas o cuantitativas. El escalamiento es la
posibilidad de convertir o traducir las respuestas brindadas por los sujetos a
una puntuación. Es un conjunto de números asignados unívocamente a una
variable psicológica, y para ser unívocos deben ser exclusivos (que cada una de
las modalidades solo pueda ser representada por un numeral) y exhaustivos (que
todas las modalidades posibles tengan asignado un numeral).
Una vez asignados los numerales a los ítems es deseable operar sobre ellos de
forma tal de obtener otros nuevos que tengan una significación más robusta e
isomorfa con la variable que se quiere evaluar. Así, si se determinó que un
conjunto de respuestas están evaluando la misma variable, podríamos por ejemplo
sumar los números que les asignamos a cada una de ellas para obtener un nuevo
valor que represente el total del conjunto. A este nuevo número, que sintetiza y
representa la cantidad/cualidad/frecuencia de la variable y que ha sido
25
Psicométricas
resultado de este proceso de medición, se lo denomina puntaje bruto, crudo o

directo. El PB es, entonces, un número que representa una cuantificación de
la variable o constructo a medir. Es en general, el resultado final de la escala de
medición.
Valoración del puntaje bruto. El puntaje bruto suele ser poco claro para la
evaluación por parte del usuario de la técnica, ya que si bien cuantifica o cualifica
el constructo, por sí mismo no ofrece suficiente información con respecto a la
magnitud de la medida obtenida. Para comprender si el puntaje bruto es alto,
bajo o intermedio se requiere de un sistema de referencia externo, generalmente
una comparación con los valores que comúnmente obtienen los demás sujetos.
Se utilizan valores (frecuencias, media, DE) para contextualizar los PB, obtenidos
del conjunto de datos de una población. Cuando a estos valores se los utiliza
para convertir los puntajes brutos en otros, a los últimos se los conoce como
puntajes transformados. Se trata de nuevos números, fruto de la comparación de
los puntajes brutos con referencias poblacionales. Estos números no expresan
cuánto de la variable puntuó el examinado, sino cuánto puntuó en relación a los
demás. Tenemos dos puntajes: puntaje bruto y el puntaje transformado. La
mayoría de técnicas tienen ambos, pero no todas (las que solo tienen PB no tienen
baremos o normas, como la entrevista; es para los test de criterio, o para los test
normativos, pero en este caso solo como medio para llegar al PT). El puntaje
transformado sirve para comparar sujetos con la población sociodemográfica
igual a él.
A su vez, los puntajes transformados pueden clasificarse en dos grandes tipos:
las medidas de posición (me indican posición del sujeto dentro del grupo
normativo, del baremo: percentil y el puntaje prevalente) y los puntajes
estándar (puntajes que me indican distancia a la media: z, t, CI, equivalente).
3.2. Medidas de posición. Lo ideal para establecer comparaciones y valorar el

puntaje obtenido por un sujeto es hacerlo con los puntajes de la población,
entendiendo esta como el conjunto de todos los sujetos con los que se desea
comparar al primero. A los valores estadísticos que se obtienen de esos puntajes
(mediana, desvío estándar, etc.) se los llama parámetros. Se recurre para la
comparación a subconjuntos de la población llamados muestras. Una vez que se ha
seleccionado la muestra, se administra el instrumento en cuestión a todos sus
integrantes, y se calculan los resultados obtenidos por cada uno de los sujetos. Con
ellos se calculan los estadísticos y se estiman los parámetros. Estos valores son
presentados en los manuales para uso del evaluador, en forma de tablas que
permiten la conversión de los puntajes brutos a puntajes transformados. Dichas
tablas reciben el nombre de baremos o normas estadísticas.
26
Psicométricas
Percentil. La mediana es el valor que divide al conjunto de los datos en dos

mitades con la misma cantidad de datos. Se puede calcular también el puntaje
que corresponde a la mediana de cada mitad, quedando dividido en cuatro partes
los datos originales, con un 25% de los puntajes en cada una de ellas.
Si se deseara dividir la distribución en 100 partes en cada una de las cuales se
encuentre la misma cantidad de casos, hacen falta 99 valores. Esos puntajes
que dividen la distribución en 100 partes con el 1% de los casos en cada una
de ellas se denominan percentiles. El percentil expresa qué porcentaje de
mediciones de la muestra tiene por debajo o en el mismo valor cada puntaje
bruto.
El percentil es usual por sus ventajas. La primera es ser un valor fácil y claro de
interpretar, ya que su número indica el porcentaje de sujetos de la muestra
que obtuvieron el mismo valor o menor en la variable medida. Otro es que no
es difícil hacer un listado de puntajes brutos, asignarle a cada uno el percentil
correspondiente y presentarlo como una tabla, un baremo. (Baremo: puntaje bruto
+ percentil). (Con el ejemplo, las personas que obtuvieron 16 puntos habrían
“superado en memoria” al 85% de la muestra).
A veces, el percentil no refleja las variaciones de puntajes. Esto es una
limitación de las medidas de posición en general. Esto, sumado al hecho de no
asignar un valor en forma unívoca a cada estado medido, hace que este tipo de
medidas pierdan el carácter de escala. Otra limitación es que difícilmente los
baremos incluyen los 99 valores, por lo que al pasar los puntajes brutos a
percentiles se puede producir una pérdida del rango de amplitud del
instrumento.
(Los extremos percentilares no representan el mínimo ni el máximo de la variable
que el instrumento puede evaluar, sino los mínimos y máximos de la comparación
con la muestra; el percentil no es un porcentaje, sino una medida de posición, por
lo cual nunca es mayor a 99 (o 100 en caso de la frecuencia acumulada); el rango
percentilar indica el porcentaje de sujetos de la muestra que ha sido superado por
el número del percentil, pero no necesariamente que el complemento a 100 de ese
número lo supera. Por ejemplo, un sujeto que sacó un percentil de 90 ha superado
en su puntuación al 90% de la muestra, pero no se puede afirmar que es superado
por el 10%, solo se puede indicar que está entre el 10% de los sujetos que han
superado al 90% de la muestra).
PT que no indica distancia a la media, son los puntajes de posición (ubica
posición de los sujetos respecto del grupo, pero no conocemos el valor de la
media): el percentil, que se mueve entre 1 y 99. Se simboliza, por ejemplo, como
p1. Significa el porcentaje al que el sujeto supera a la muestra. p99 significa que
el sujeto supera al 99% de los sujetos de la muestra de la población. Entre los
27
Psicométricas
parámetros p30 y p70 encontramos las puntuaciones que están en el medio. Es

una medida poco precisa. Por debajo de 30 están los percentiles inferiores al
término medio. Hay pocos cortes (en el medio, inferior o superior). Se sigue
usando esta medición porque es fácil de entender. Bender, DFH, VADS y Raven
utilizan percentiles; y el puntaje de prevalencia, que sus valores se usan mucho
para personalidad. Tiene un valor mínimo de cero y un valor máximo de 100. En
el pp 50 se traza una línea imaginaria. Entre 0 y 50, el sujeto no presenta ese
rasgo como principal. Entre 50 y 100 está presente, y cuanto más cercano a 100,
más se ve.
3.3. Puntajes estándar. Los puntajes estándar se obtienen mediante un cálculo

matemático por el que se logra comparar el puntaje bruto evaluado en un
sujeto con el valor medio y el desvío estándar previamente calculados en una
muestra. Los puntajes transformados, a diferencia de las medidas de posición,
mantienen el aspecto unívoco que caracteriza a las escalas de medición.
Puntaje z. El puntaje z tiene gran difusión en los instrumentos de

evaluación psicológica, y se calcula como (PB – media)/DE.
Cuando el PB obtenido en una medición es igual al valor de la media, z valdrá
cero. - Si z es un valor positivo entonces el PB con el que se calculó es mayor a la
media, y si es negativo, dicho PB es menor a la media. – El número z indica cuán
alejado o cercano a la media está un PB en unidades de DE (puntaje z=1, PB
ubicado el valor de un DE por encima de la media, z=-1, PB se corresponde a un
valor ubicado un DE por debajo de la media).
El puntaje z es un puntaje transformado (llamado puntaje estándar) que
puede obtenerse a partir de un PB, cuando se conocen la media y el DE de los
puntajes obtenidos previamente en una muestra. Este puntaje es un número
que puede ser positivo o negativo, e indica cuán cercano o lejano al valor
promedio de la muestra está el PB.
Curva normal (Gauss). Inteligencia, memoria, atención, ansiedad, responden a la
curva normal. La curva significa que la mayoría de los sujetos obtuvieron
puntajes por el medio. A esta curva normal se la puede dividir en intervalos, en
regiones. En la CN la media está en el medio (es simétrica). (Los puntajes que
dan distancia a la media son más precisos).
Arbitrariamente, se fijó en la media el punto 0 y cada intervalo desviado vale 1
punto (hacia la derecha tengo +1, hacia la izquierda tengo -1). Desde -1 a +1
hay un rendimiento promedio. En +2 hay rendimientos superiores a la media.
Entre -1 y -2 hay rendimientos inferiores a la media, entre -2 y -3 hay
rendimientos muy inferiores a la media. Este es el puntaje z.
28
Psicométricas
Para el DFH y el VADS, cuanto más puntúa mejor, debajo de -1 es inferior, y

arriba de 1 es superior. Para el Bender, cuantos más errores es peor, debajo de
-1 es superior, y arriba de 1 es inferior.
Puntaje t. Si bien el puntaje z, comparado con el PB, aporta ventajas para la
interpretación, el hecho de que sus valores suelan tener decimales y que arrojen
puntajes con signo positivo y negativo, complican su facilidad de lectura.
Para simplificar la interpretación de los puntajes estándar, numerosos instrumentos
utilizan variantes del z, que pueden calcularse con operaciones matemáticas.
Todas estas variantes se obtienen sumando una constante para trasladar el valor
medio desde el cero hasta un nuevo valor, y multiplicar la puntuación z por otra
constante que lo eleva. Una de estas alternativas es el puntaje t que se obtiene: T =
50 + [ (PB – media) / DE] x 10
Z -5 -4 -3 -2 -1 0 1 2 3 4 5
T 0 10 20 30 40 50 60 70 80 90 100
Otro PT que indica distancia a la media es el puntaje t, pero la media se fijó en
50 y el desvío se fijó en 10 (para que no hayan valores negativos). Los puntajes
medios están entre 40 y 60.
Puntaje CI. Las escalas Wechsler de inteligencia, para niños y adultos,
expresan sus resultados principales en puntajes transformados, llamados
coeficientes intelectuales (CI verbal, CI de ejecución, CI de escala completa) y
puntajes índice (I de comprensión verbal, I de organización perceptual, I de
velocidad y precisión e I de ausencia de distractibilidad).
Todos comparten las mismas características como puntajes transformados, usando
una media de 100 puntos y un DE de 15. Otro PT es el CI, con la misma lógica.
Pero la media vale 100 y el desvío vale 15. Los retrasos intelectuales se ubican
por debajo de 70.
Si una persona tiene un CI de 104, poner que la media es 100, el DE es 15, y que
entre los valores de 85 y 115 está el término medio, por lo que esa persona está
en término medio.
Además, existe otro test de inteligencia, el test Stanford-Binet, que utiliza
también puntajes CI. Su media es de 100, pero su DE es de 16 puntos. Esta
técnica, en sus orígenes, solo estaba destinada a niños y utilizaba un cociente
intelectual, es decir que su obtención se calculaba dividiendo la edad mental
del sujeto por la edad cronológica del examinado, y al valor así obtenido se lo
multiplicaba por 100.
Puntajes equivalentes. Las escalas Wechsler obtienen sus valores de CI y
de puntajes índice de una combinatoria de puntajes obtenidos a través de los
distintos subtest que las componen. Como resultado de la puntuación de cada
subtest se obtienen los correspondientes PB que se han de convertir en un
puntaje transformado que permita su comparación, además de permitir su
29
Psicométricas
agrupamiento en los puntajes índice y en los CI. Cada uno de estos puntajes
transformados es también una variante del puntaje z llamado puntaje
equivalente, con una media de 10 puntos y un DE de 3. Un valor por encima de
la media en un desvío, o más, se considera elevado, una fortaleza, mientras que un
valor por debajo de lo denomina debilidad. Otro PT es el puntaje equivalente, se
usa al interior de los test de inteligencia (WISC, subtest de habilidad por
habilidad). Media 10; desvío 3; Si en analogías obtuvo un puntaje equivalente de
6, si la media es 10 y el DE es 3, los valores de término medio están entre 7 y 13,
por lo que su rendimiento fue inferior.
3.4. Distribución normal. Si se grafica los datos de las frecuencias, donde en el

eje vertical se indique el valor de la frecuencia y en el horizontal el valor del
puntaje, se obtiene un gráfico de distribución de frecuencias donde la cantidad de
frecuencias más elevadas está en la parte central y van disminuyendo hacia los
extremos de los puntajes. Este tipo de distribución de frecuencias es uno de los
más comunes. Se llama distribución de frecuencias normal, o distribución normal.
También es llamada curva o campana de Gauss.
El área de los puntajes que está por debajo de un DE representa al 16% de los
puntajes, y por arriba de ese DE se ubica un 84%; El
área que se encuentra entre un DE por debajo y un DE
por arriba de la media implica el 68% de los puntajes;
El área que se encuentra entre dos DE por debajo y
dos DE por arriba de la media implica el 95% de los
puntajes; El área que se encuentra entre tres DE por debajo y tres DE por arriba de
la media implica el 99% de los puntajes.
Puntajes de prevalencia. Son propuestos en los instrumentos de Millon.

Usan un puntaje que es una variante que combina la distribución de frecuencias
con tasas de prevalencias poblacionales de los constructos a evaluar. Se usa el
término prevalencia para indicar la frecuencia (generalmente relativa y
porcentual) que tiene determinado constructo en una población, es decir qué
proporción o porcentaje de sujetos poseen ese rasgo (o trastorno) en el total de
la población.
Los puntajes de prevalencia son sencillos de obtener y tienen como finalidad
facilitar la lectura e interpretación de los perfiles. Se consiguen postulando el
rango que tendrán los valores transformados y un punto de corte a partir del
cual se considera que el rasgo está presente. En el MIPS se utiliza un rango de 0
a 100 y el punto de corte a partir del cual se considera presente el rasgo es 50. Son
valores elegidos por convención. El puntaje de prevalencia es categorial: a partir
30
Psicométricas
del valor 50 hacia arriba se dará una medida de la presencia y por debajo de
49, será una medida de la ausencia del mismo constructo.
Construcción y adaptación de técnicas psicométricas.

5.1. Pasos para la construcción de una técnica psicométrica. Es analizado en
dos fases: una primera de diseño, en donde se delinean los aspectos iniciales y
basales del desarrollo del instrumento (1. Definir la finalidad de la técnica; 2.
Marco teórico, definición del constructo; 3. Aspectos de diseño preliminares), y
una segunda de construcción, donde se materializa el instrumento (4.
Preparación y análisis de ítems; 5. Estudio de la calidad psicométrica; 6. Normas;
7. Publicación).
A través de la publicación (habitualmente un manual), el autor de la técnica, en
este caso quien ha elaborado el test psicométrico, brinda, además de la
fundamentación teórica del instrumento, la información esencial necesaria para su
aplicación, calificación y evaluación, el número y naturaleza de las personas en las
que se establecieron las normas, así como los métodos utilizados para estudiar la
confiabilidad y la validez.
Etapa 1. Definir la finalidad de la técnica. El investigador debe hacerse

preguntas vinculadas con la finalidad del instrumento, como ¿cuál es el objetivo
de la prueba? ¿Qué es lo que la prueba medirá de acuerdo a su diseño? ¿Cuáles
son las necesidades de realizarla? ¿Hay otras pruebas que evalúen lo mismo, y qué
ventajas y desventajas tendrá sobre ellas? ¿Quién la usará? ¿A quién se aplicará,
cuáles son las características de la población destino como su rango de edades,
nivel cultural? Etc. Definir la finalidad de la técnica implica identificar las
variables a medir y la población a la cual se dirige la evaluación.
Etapa 2. Marco teórico. Definición del constructo. La elaboración de un
instrumento científico, implica la perspectiva de un marco conceptual (marco
teórico o corriente psicológica amplia) que aporta información para la
interpretación de las puntuaciones. El atributo psicológico en cuestión no puede
captarse por sí mismo sin la mediación de un proceso intelectivo que de cuenta de
su sostén teórico. La base empírica que toda técnica psicométrica aporta, debe ser
interpretada a través de la teoría.
Etapa 3. Aspectos de diseño preliminares. Esta etapa tiene como objetivo
especificar a priori las principales restricciones con las que deberá operar el
instrumento. Lo principal a considerar es: El tipo de test (basados en criterios o
en normas), el formato (escala, cuestionario, inventario, entrevista), tipo de
consigna (oral o escrita, explicaciones, necesidad de ejemplos o entrenamientos),
tipo de respuesta (dicotómica, likert, diferencial semántico), características de
los sujetos a examinar (edades, nivel de instrucción, nivel de comprensión
31
Psicométricas
lectora, nivel intelectual), modalidad de administración (individual, colectiva,

autoadministrable, interactiva por computadora), tiempo de administración (con
o sin tiempo límite, una única sesión o varias), forma de aplicación (oral o
escrita, de lápiz y papel, manipulativo o de ejecución), tipo de exigencia
(velocidad o potencia, grado o dificultad), evaluación (manual o computarizada).
Por otro lado, las decisiones relacionadas con el formato de los ítems, implican
una tarea clave en el proceso de operacionalización del constructo, que comienza a
realizarse en esta fase de diseño pero que se plasma en la práctica en la etapa
siguiente.
Diseño: Definición de la finalidad del test (objetivos del instrumento, para qué lo
queremos construir): Análisis del rasgo o atributo (variable psicológica) (los
investigadores hacen una búsqueda bibliográfica, es el análisis racional (marco
teórico) y/o empírico (campo). Desde qué modelo evalúa); Aspectos formales (si
va a ser autoadministrable, figuras, preguntas, etc.)
Etapa 4. Preparación y análisis de ítems. A partir de esta etapa comienza
la fase de construcción del instrumento propiamente dicha, es decir que la
definición teórica del constructo debe derivar en una operacional, entendiendo
a esta como una definición concreta de la variable psicológica a evaluar, lo cual
implica una revisión de las manifestaciones del constructo susceptibles de ser
medidas.
Identificados los indicadores prácticos del constructo a medir a través de las
definiciones operacionales, se hace necesario generar los estímulos que los
fomenten, es decir los ítems cuya respuesta sea una manifestación observable
de la variable a medir.
Las tareas pueden ser divididas en por lo menos cuatro momentos, con un orden
lógico y no necesariamente cronológico, por lo que la información obtenida en
cualquiera de ellos puede ocasionar un cambio en el plan original.
- Paso A. Planeamiento y confección de los ítems. La confección de ítems tiene
que estar guiada por la teoría, ya que solo así se podrá elaborar un test con
validez de constructo.
La construcción propiamente dicha del test comienza al diseñar un conjunto
numeroso de ítems, generalmente mucho mayor que la longitud prevista de la
técnica (los ítems deben recoger información adecuada y representativa del
atributo).
En los casos en que el constructo fuera multidimensional, debe informarse que
dimensiones tiene la variable y que conjuntos de ítems componen cada una de
ellas, además de especificar si la técnica arrojará un puntaje único y/o varios. En el
caso de que se ofreciera un puntaje único, producto de la combinación de varios,
es necesario fundamentar como es que se integran los puntajes parciales para
lograrlo. Las decisiones sobre la naturaleza de los materiales estímulo y las
32
Psicométricas
posibilidades de respuesta del examinado deben también fundamentarse y

justificarse en virtud de los objetivos de evaluación previamente planteados.
Una vez definidos el tipo de ítem y su formato de respuesta, el especialista
procede a generar gran cantidad de ellos, que es mayor al que finalmente
conformará la prueba. La siguiente tarea implica someterlos a un minucioso
análisis crítico o a un sistema de jueces, o a ambos.
Si bien los reactivos fueron desarrollados por expertos y psicómetras, es menester
que puedan superar el examen crítico y pormenorizado sobre su calidad y ajuste
por parte de otros jueces, que puedan determinar su adecuación a la teoría e
indicar cuales son los más adecuados y los que deberían desecharse. Si bien una
vez finalizado el instrumento se harán los correspondientes estudios de validez y
confiabilidad, la validez conceptual, de contenido y aparente comienzan a ser
evaluadas en este momento. También se deberá agregar la consigna general y/o
particulares, el procedimiento de corrección, los cuales también pasarán por la
vista de los jueces, complementando la estandarización de una primera versión de
la técnica que será administrada a una muestra piloto.
- Paso B. Estudio prepiloto. Se trata de un ensayo, generalmente realizado en
pequeños grupos de sujetos similares a los que está dedicada la técnica, y que tiene
como objetivo identificar ítems débiles o defectuosos, elementos con significado
ambiguo, así como estimar la adecuación del lenguaje y las dificultades de
comprensión. Con frecuencia se anexa un cuestionario donde se solicita a los
sujetos que realicen comentarios sobre la técnica en general y sobre el
comportamiento de los reactivos en particular. A su vez, los examinadores a cargo,
registran los efectos de las condiciones de administración, los problemas y las
dificultades observadas. El estudio prepiloto permite desechar o corregir los ítems
que habían sido incorporados a la primera versión.
- Paso C. Muestra piloto de sujetos/ítems preseleccionados. Se trata de
administrar la versión piloto a la muestra representativa de la población a la que va
dirigida al instrumento, de forma tal de evaluar el funcionamiento del mismo y
obtener un conjunto de resultados concretos que permitan cuantificar y cualificar
las características de los ítems. A partir de esos resultados, se pueden tomar
decisiones ya fundamentadas en la práctica, que incluyen la modificación,
inclusión o exclusión de los ítems, modificación de la consigna, entre otras. El
conjunto de procedimientos formales para hallar esta información se conoce como
“análisis de ítems”. Dentro de los índices generales más usuales para el análisis de
los ítems se destacan los destinados a evaluar el poder discriminativo del ítem, y
aquellos que describen el grado de relación entre la respuesta al elemento y algún
criterio de interés, sea este interno o externo al propio test (índices de
discriminación, de homogeneidad, de confiabilidad y validez del ítem). Algunas
de sus características: Poder discriminativo del ítem, Sesgo de los ítems (Se
33
Psicométricas
considera que un ítem está sesgado cuando arroja puntuaciones significativamente

diferentes en grupos específicos de examinados que, teóricamente, forman parte
de la misma población a la que se va a aplicar el test), Confiabilidad y validez de
los ítems (es factible calcular la confiabilidad y la validez de cada uno de los
ítems, aplicando coeficientes de correlación adecuados a las características de la
prueba piloto y de los ítems en cuestión, seleccionándose los elementos con mayor
nivel de calidad), Relación entre los ítems (mediante AF, método que permite
determinar el nivel de relación que existe entre las respuestas a los ítems, y con
eso identificar conjuntos de reactivos que tienen algo en común, a los que se
llamarán factores).
En síntesis, las puntuaciones obtenidas en las administraciones realizadas en una o
más muestras piloto, permiten establecer definitivamente cuestiones específicas de
la administración (consignas, materiales, tiempo) y a su vez determinar
objetivamente las características de los ítems que pasarán a constituir la versión
definitiva del instrumento.
- Paso D. Versión definitiva de la técnica. Una vez seleccionados los ítems que
se consideran idóneos para la formación del test, se estudian las características de
este y se aplican técnicas para su estandarización definitiva, que incluirá el
formato, las consignas, cuales reactivos la compondrían, las normas y los estudios
de calidad psicométrica.
Etapa 5. Estudio de la calidad psicométrica. Las dos cualidades de un
instrumento psicométrico en las que el investigador y el usuario deben interesarse
especialmente son la confiabilidad y la validez. Los constructores de estas técnicas
suelen presentar distintos tipos de estudios para dar cuenta de la validez de las
puntuaciones.
Construcción (puesta en práctica de lo diseñado): Preparación de ítems (hay más
de los que quedan finalmente, se sabe que se van a perder en el proceso de
construcción. Los ítems se redactan, son sometidos a juicio experto (control de la
validez de contenido), hay un estudio piloto (control de la validez aparente);
Estandarización (que el test sea estándar, que se trabaje siempre de la misma
manera, para que las diferencias tengan que ver con diferencias individuales).
Con el instrumento como está, se hace una administración de tipificación, a una
muestra grande de una muestra representativa de la población a la que está
destinado. De ahí se hace un análisis de ítems (discriminación, dificultad). Se
hacen los estudios de validez que faltan y de confiabilidad. Se redactan las
normas (baremos o criterios) y los manuales).
5.2. La adaptación de los test. Estudios que deben realizarse para ajustar una
prueba original proveniente de un determinado medio sociocultural y
adaptarlo a otro. Cuando un investigador adecua una técnica en uso desde el
34
Psicométricas
punto de vista de su ajuste cultural, realiza una adaptación del test en sentido
estricto, mientras que cuando la actualiza, realiza también una adaptación pero en
este caso se denomina revisión. Ambas están imbricadas, toda adaptación
involucra siempre atender las especificidades de una comunidad así como el
carácter cambiante de esta.
Cuando el instrumento no se construye de cero, cuando se traslada culturalmente,
se hace lo mismo (solo no se hace la construcción de ítems de cero, pero sí se los
revisa).
Ninguna prueba puede ser aplicada universalmente, cada test tiende a favorecer a
las personas de la cultura en la que se ha creado. Ni en test verbales, ni en test no
verbales. Además, si las variables psicológicas resultan de la combinación de
comportamientos importantes dentro de una cultura, ¿para qué eliminar las
diferencias culturales?
Aspectos émicos y éticos. Se denomina éticos a aquellos constructos o aspectos
de los mismos, ideas e instrumentos, que tienen y han demostrado
características universales, mientras que los aspectos denominados émicos son
aquellos vinculados o utilizables en solo uno o pocos grupos culturales.
La consideración de este tema no implica juicios valorativos, su objetivo es
destacar la importancia de analizar el grado de universalidad del constructo o
instrumento en cuestión y de demostrarlo con datos empíricos. Así por ejemplo,
un constructo como inteligencia tiene un importante valor ético, debido a su
universalidad: en casi todas las culturas existe alguna concepción de la capacidad
de los sujetos, pero también posee alguna valoración distintiva de cada cultura en
particular (valor émico). Es necesario crear instrumentos éticos que midan los
conceptos de una forma culturalmente relevante (émicos).
Quien adapta una técnica debe ser un “mediador” entre culturas, y debe considerar
detalladamente las características del instrumento original para adecuarlas a la
nueva cultura en cuestión. Marín propone tres tipos de equivalencias a tomar en
cuenta en esta adaptación de un constructo: las equivalencias conceptuales o
de constructo, lingüísticas, y métricas (y agregamos la equivalencia de formato).
Las conceptuales refieren a si el constructo existe en la cultura donde se desea
utilizar la técnica en cuestión, y en tal caso, si la forma de valorarlo es la
misma que en la cultura de origen. Esta equivalencia nos lleva a preguntarnos
por la validez cultural del constructo y del instrumento que lo mide, si, por
ejemplo, el comportamiento valorado como inteligente tiene los mismos
indicadores en la cultura origen que en la que se adapta el test (hacen al concepto
teórico, que se haya hecho investigaciones que el fenómeno a estudiar es
equivalente en las dos culturas). Las lingüísticas refieren a la redacción de los
ítems y consignas, a su traducción y al empleo de términos que tengan
35
Psicométricas
significados iguales o lo más parecidos posible a los originarios. Está

hermanada con la conceptual, porque debe tener en cuenta los giros idiomáticos, la
idiosincrasia, las creencias y los valores puestos en juego en los reactivos. Para
realizarla, se suele recurrir a las traducciones por consenso (varios expertos), a
personas bilingües y luego se realizan las pruebas piloto necesarias para garantizar
la correcta equivalencia (hacen a las traducciones, a los modismos regionales,
también a las imágenes). Las métricas refieren al calibrado, tanto al valor con
que se pondera cada ítem (si se debe mantener, cambiar), como a la adecuación
de las normas, la revaluación de los estudios de validez y confiabilidad y la
revisión de la cantidad de factores que componen el instrumento, entre otras
posibilidades (confiabilidad, validez, baremos). Las de formato refieren a los
aspectos formales del instrumento que puedan afectar la forma de responder de
los sujetos, como ser la utilización del tiempo, el tipo de formato de las respuestas.
ENTREVISTA. EPED-I. Es un instrumento psicométrico de criterio, no usa
baremo.
La entrevista es un encuentro de dos o más personas en un lugar determinado, para
tratar de resolver algún asunto. Es una técnica que servirá en el contexto de un
psicodiagnóstico para revelar y relevar datos acerca del consultante. Es la
técnica de mayor aproximación al estudio del comportamiento humano y la más
utilizada ya que facilita obtener datos de una mayor riqueza y amplitud en
relación con cualquier otra técnica de evaluación.
Hay diferentes etapas dentro del proceso psicodiagnóstico: Primer contacto, en
forma personal o por teléfono y la entrevista inicial con el paciente;
administración de la batería diagnóstica; devolución de la información oral al
paciente (y/o padres); informe escrito al profesional que lo ha derivado.
Momentos de la entrevista.
Preentrevista. Se inicia con el pedido de consulta y finaliza con la apertura
de la entrevista inicial. Se evalúan los datos que se obtuvieron de la persona antes
de contactarse con el entrevistador, es la primera información que obtenemos
acerca del consultante (en relación al derivante y al pedido, los datos provenientes
de nuestra primera impresión). Es personal o telefónico, pero siempre breve. A
partir de estos conocimientos mínimos se elaboraran estrategias para lograr un
mejor acercamiento y poder formular hipótesis sobre la situación que nos servirán
para comenzar a trabajar.
Apertura. En el momento del encuentro entre las dos personas se produce
un incremento de ansiedad (que no va a dejar de existir, pero hay que conocer que
existe).
- Establecimiento del encuadre. Consiste en el mantenimiento de ciertas
constantes durante el proceso, lo que permite que las variables participantes sean
36
Psicométricas
la personalidad del entrevistado y su problemática. Las variables a ser mantenidas

constantes son: ámbito físico donde el proceso formal tendrá lugar, tiempo total
aproximado, duración de cada encuentro, fijación de honorarios, rol del
profesional y rol del consultante. Se conversa en la primera entrevista sobre esto, y
sobre los objetivos generales y las diferentes actividades que se realizarán. -
Instalación del rapport. Un buen rapport es el logro de un adecuado clima de
trabajo, cálido, amable y ameno, respetando los estilos personales de ambos. Es el
esfuerzo del examinador por despertar el interés del sujeto, obtener su cooperación
y asegurar que sigue las instrucciones tipificadas del test.
Acontecer propiamente dicho. Debe ajustarse a las motivaciones y fines de
la entrevista, a los objetivos específicos de la misma. En esta etapa transcurre la
entrevista y el material que se obtenga nos servirá para acercarnos al futuro trabajo
con el paciente.
Cierre. Está condicionado a cómo se haya logrado el objetivo propuesto. En
general, dejamos abiertos algunos temas, para seguir conversando acerca de ellos
en futuras entrevistas y para ser pensadas fuera de la consulta.
Posentrevista. Es el momento de elaboración del material obtenido durante
la entrevista. Los resultados de esta elaboración son devueltos en forma gradual
durante las entrevistas siguientes, a la vez que resultan de fundamental
importancia en la elección de las técnicas por ser administradas.
Clasificación. El grado de estructuración de las entrevistas variará de acuerdo

con las diferentes combinaciones posibles de realizar:
Abierta o libre. El entrevistador asume un rol poco participativo, en la cual
la consigna es que el entrevistado exprese lo que quiera, que tenga la libertad de
hablar de lo que desee, sin limitarlo.
Cerrada. Las preguntas han sido establecidas con anterioridad, así como el
orden y la manera de plantearlas. El rol del entrevistador es directivo, guiando a
través de preguntas al entrevistado para obtener datos sobre su historia.
Semidirigida. En esta modalidad se alternan secuencias no directivas que
permiten que el entrevistado se exprese libremente y secuencias directivas en las
que las intervenciones tienen como finalidad esclarecer algunos puntos que han
quedado confusos o que no fueron referidos por el entrevistado. Este tipo de
técnica se utiliza en la entrevista inicial de todo proceso psicodiagnóstico.
La entrevista con niños. Los niños pequeños se expresan por intermedio de los
dibujos, juegos, movimientos corporales y algunas formas verbales. El juego en
los niños puede ser instrumentado tanto para diagnóstico como en un proceso
psicoterapéutico.
El evaluador de niños y adolescentes precisa de una específica preparación y de
una experiencia profesional pluridisciplinar que incluya conocimientos evolutivos,
37
Psicométricas
psicopatológicos, de tratamiento, etc., y que debe estar dotado de una gran

sensibilidad diagnóstica para apreciar, en el proceso de evaluación, las
variabilidades que puedan darse vinculadas a factores de edad, socioculturales,
fenómenos educativos, situaciones específicas, y que deban ser interpretadas con
valor diagnóstico propio u accidental.
Hay que actuar con prudencia para diferenciar entre el cambio generado por el
propio desarrollo, el causado por variables accidentales, el desencadenado por la
acción educativa planificada y el provocado por la específica acción terapéutica.
Una parte de la información proviene del propio niño (información acerca de sus
problemas y autoinformes) y una mayor parte de información es aportada por los
padres o por los educadores, además de la información obtenida mediante pruebas
objetivas.
MINIBATERÍA PSICOEDUCACIONAL KOPPITZ. Apta para niños en edad

escolar (6 años a 11 años y 11 meses). Es posible usarla para una investigación
epidemiológica o screening, para captar posibles riesgos en poblaciones grandes
en cuanto a variables psicoeducativas (como integración y aprendizaje, riesgos
de disfunción en el aula), o como parte de una evaluación psicoeducacional
individual. Los tres instrumentos son capaces de detectar problemas vinculados a
la escolaridad, en la primaria, que dependen del desarrollo neurológico y de la
estimulación ambiental. Da una idea general de cómo está el chico para
atravesar su proceso de aprendizaje.
BENDER. Maduración visomotriz en la infancia y pre-pubertad: el Test

Guestáltico Visomotor de Bender. Indicadores de disfunción neurológica e
indicadores emocionales.
El test de Bender consiste en nueve figuras que son presentadas una por vez
para ser copiadas por el sujeto en una hoja en blanco. Wertheimer había usado
esos diseños para demostrar los principios de la psicología de la gestalt en
relación con la percepción. Bender adaptó estas figuras y las usó como un test
visomotor. Al hacer esto, aplicó la psicología de la gestalt al estudio de la
personalidad y la práctica clínica. Bender señala que la percepción y la
reproducción de las figuras gestálticas está determinada por principios biológicos
de acción sensorio-motriz que varían en función de: el patrón de desarrollo y nivel
de maduración de cada individuo, y su estado patológico funcional u
orgánicamente inducido. Se basa en la teoría gestaltica, porque las figuras son
las que usaba Wertheimer para probar las leyes de la gestalt. En la mayoría de
las culturas se aprende a leer y escribir a partir de los 5, 6 años. Para ello se
necesitan configuraciones gestálticas.
38
Psicométricas
La mayoría de los niños pueden copiar los nueve dibujos del Bender sin errores
alrededor de los once años. Bender adopta un encuadre evolutivo al analizar los
protocolos infantiles, y efectúa una evaluación clínica en el caso de protocolos
de pacientes adultos.
El protocolo del Bender puede evaluar madurez perceptiva, posible deterioro
neurológico y ajuste emocional. Test de Bender (1938). Evalúa madurez viso-
motriz (capacidad de que una persona pueda percibir el dibujo como un todo,
captar visualmente una gestalt y su configuración, y para reproducirla
gráficamente como tal, y poder iniciar y detener una acción a voluntad), ajuste
emocional, indicadores de posible disfunción neurológica. En adultos se evalúa
más como test proyectivo (se supone que ya tienen maduración viso-motriz).
Koppitz intenta distinguir entre distorsiones en el Bender que reflejan inmadurez o
disfunción perceptiva, y aquellas que no están relacionadas con la edad y la
percepción sino que reflejan factores emocionales y actitudes. La estadística dice
a qué edad qué error debería haber desaparecido. Si no desaparece, es un
indicador de posible daño neurológico (no sirve en edades tempranas, porque es
esperable que cometan errores madurativos). Hay errores que se repiten y que no
son madurativos, son los relacionados con el ajuste emocional, no dependen de la
edad.
El sistema de maduración consiste en 30 ítem de puntaje mutuamente
excluyentes, los cuales se computan como presentes o ausentes. Todos los
puntos obtenidos se suman en un puntaje compuesto. Desde que se computan los
errores, un puntaje alto indica un pobre desempeño, en tanto que un puntaje
bajo refleja una buena actuación. Se buscan errores en lugar de aciertos.
Buscamos 4 errores: rotación, integración de la forma, perseveración,
distorsión de la forma.
No se puede ni debe efectuar un diagnóstico de lesión cerebral solamente sobre la
base del puntaje obtenido, de una sola desviación en el test, o de un solo rasgo de
conducta. Pero si uno toma en cuenta todos estos factores combinadamente,
entonces aumenta la validez de esta prueba como instrumento diagnóstico. Todos
los diagnósticos de lesión cerebral basados en el Bender deben ser considerados
como hipótesis que luego hay que verificar confrontándola con datos de la historia
clínica, examen médico y otras pruebas psicológicas.
Tiene validez predictiva (a un año). Se usa el análisis de correlación entre el
rendimiento en el bender y las notas (menos errores en el bender, mejores notas).
Utiliza percentil.
DFH. La maduración conceptual en la infancia y pubertad: el T est del Dibujo de

la Figura Humana. Indicadores madurativos según Goodenough y Harris.
Indicadores de disfunción neurológica e indicadores emocionales según Koppitz.
39
Psicométricas
Dibujo de la figura humana. Técnica de screening que se toma en niños de edad

escolar. Evalúa madurez conceptual (se relaciona con la madurez intelectual),
posible daño neurológico y ajuste emocional. Es útil para el aprendizaje escolar.
Busca aciertos, cuántos detalles tiene el dibujo. A mayor puntaje, mayor
madurez conceptual (capacidad de abstraer y generalizar conceptos). Utiliza
percentiles.
Hay un enfoque psicométrico (evolución, maduración conceptual, capacidad
creciente, de formulas conceptos concretos a abstractos) y un enfoque proyectivo
(clínico en adultos).
También evalúa indicadores emocionales. En este caso, algunos ítems dependen
de la edad, lo madurativo, y otros no. Los ítems nos van a indicar las ansiedades,
los miedos, las actitudes, las preocupaciones. Para que un signo emocional esté
presente tiene que cumplir tres criterios: validez clínica (que el ítem esté presente
en chicos con problemas emocionales y no esté presente en chicos sin desajuste
emocional), que sea inusual o raro (hay una reducida frecuencia de aparición en
los niños normales), y que no esté relacionado con la edad ni la maduración (que
la frecuencia de ocurrencia no vaya apareciendo con la edad).
También da indicadores de posible disfunción neurológica. Si hay detalles que a x
edad deberían aparecer y no aparecen.
La figura del examinador ejerce una mínima influencia, el entrenamiento
artístico, lo escolar y lo emocional tampoco generan diferencias significativas.
VADS. Escala visual y auditiva de dígitos. La memoria de corto plazo y el

procesamiento de la información.
Koppitz elaboró el VADS, compuesto de 26 tarjetas impresas con dígitos. Nos
da 11 puntajes, incluyendo evaluaciones del proceso auditivo y visual, así como
memoria auditiva y visual, integración intersensorial e intrasensorial. Los cuatros
subtests del VADS son:
1) auditivo-oral (A-O): se nombran oralmente los dígitos y se pide su repetición
oral. Evalúa integración auditiva, conservación de una secuencia y su evocación.
2) visual-oral (V-O): se muestran los dígitos y se pide su repetición oral. Evalúa
integración visual-oral-memoria.
3) auditivo-gráfico (A-G): se nombran oralmente los dígitos y se pide su
reproducción gráfica. Evalúa la capacidad de procesar, establecer una secuencia y
evocar estímulos auditivos y trasladarlos a símbolos escritos.
4) visual-gráfico (V-G): se muestran las tarjetas y se pide su reproducción gráfica.
Evalúa integración intrasensorial entre percepciones visuales y expresión gráfica.
Evalúa procesamiento de la información en tareas de memoria inmediata (corto
plazo) con estímulo auditivo y visual y respuesta oral y gráfica, integración intra
40
Psicométricas
e intersensorial, disfunciones visuales o auditivas severas, estrategias y

habilidades cognitivas necesarias para el aprendizaje escolar.
Técnica de screening para saber si el niño tiene alguna dificultad o no en el
aprendizaje. Para chicos entre 5 años y medio y 12 años.
El modelo teórico que subyace es la teoría del procesamiento de la información.
Se usan dígitos porque las palabras pueden estar unidas a significaciones
personales.
Cómo trabaja el chico en tareas de memoria inmediata (el estímulo se quita). Es
la memoria que usa cotidianamente y sobre todo en la escuela (como copiar del
pizarrón).
Se suele usar en primer grado para tener un pantallazo de cómo está el chico en
procesamiento de estímulos y memoria de corto plazo por ejemplo.
Utiliza percentil (No tienen media ni desvío, entre los parámetros 30 y 70 está el
término medio). Para los tres antes se usaba el puntaje z.
INTELIGENCIA. Teorías de la inteligencia y las aptitudes.

Definiciones de inteligencia. Hay desacuerdo entre los distintos autores y
corrientes de la definición de inteligencia. Vernon pensó que era necesario
identificar tres amplios grupos de definiciones: las biológicas, que consideran
que la inteligencia se relaciona con la adaptación al ambiente (ponen el acento en
la adaptación del organismo al ambiente, por ejemplo Piaget con la adaptación y
asimilación, lo que traemos los humanos al momento del nacimiento); las
psicológicas, que representan el enfoque cuantitativo o psicométrico, donde el
énfasis se encuentra en la medición de la inteligencia para comparar y diferenciar
entre individuos (cómo podemos hacer para diferenciar qué tiene de peculiar
cada ser humano en el uso de su inteligencia respecto del otro, diferencias
individuales); y la operacional, que define a la inteligencia en términos de las
pruebas diseñadas para medirla (definen inteligencia como aquello que los test
miden, porque a partir de 1905 empiezan a aparecer los primeros test en el
mundo, que se diseñan por necesidades prácticas de la escuela y el ejército, no
sabe qué mide los test de inteligencia, no hay fundamentación teórica (se empieza
a construir teoría para fundamentar los instrumentos existentes a partir de
1923)).
Las teorías de la inteligencia se basan en los análisis de puntuaciones de un

gran número de individuos, en diversas pruebas de inteligencia, a través del
uso de una técnica estadística denominada análisis factorial. El AF implica la
correlación de las puntuaciones de una gran muestra de sujetos para determinar si
las puntuaciones en ciertas pruebas se relacionan con las de otras. Entre más
parecidas son las puntuaciones en dos o más pruebas (mayor sea la correlación)
41
Psicométricas
más probable será que estas pruebas detecten la misma capacidad básica (o factor).
Dentro de la corriente de teorías psicológicas encontramos dos enfoque
factoriales (utilizan el diseño factorial como técnica de análisis de datos). Si se
encuentra que las puntuaciones de las personas en x cantidad de pruebas se
correlacionan en gran medida, entonces se puede inferir que las x pruebas miden
la misma capacidad y que los individuos defieren de acuerdo con qué tanto o qué
tan poco tienen de esa capacidad en particular. Sin embargo, si existe poca
relación entre las puntuaciones de las x pruebas, entonces cada una de ellas puede
estar midiendo una capacidad diferente y cuando se compara a los individuos se
debe analizar cada capacidad por separado.
Estos dos resultados hipotéticos corresponden a dos teorías de la inteligencia, la
primera de las cuales se denomina “línea de Londres” y se asocia con Spearman,
Burt y Vernon, en contraste con el enfoque estadounidense de Thurstone y
Guilford.
Línea londinense/inglesa. Es más antigua en el tiempo. Acepta el concepto

de inteligencia desde lo teórico y empírico.
- Teoría de los dos factores de Spearman. Mediante un estudio con AF concluyó
que toda actividad intelectual incluye tanto un factor general (g) y un factor
específico, y que las diferencias entre individuos se pueden atribuir en gran
medida a las diferencias en su g (que es innata).
Teoría bifactorial o ecléptica de los dos factores. Usa el AF como método de
estudio intentando armar un cuerpo teórico unificando representantes de todo lo
que había hasta ese momento. Bifactorial porque empieza hablando de dos
factores (después agrega un tercero). Son el factor general de inteligencia
(factor g), los factores específicos (e/s) y los factores no intelectuales.
Factor g: energía mental que permite que nuestra inteligencia funcione. Es
constante intraindividualmente, y variable interindividualmente (cada uno tiene
distintas proporciones de g, pero se mantiene siempre igual dentro de cada
persona). La manera de medirlo es a través de habilidades específicas (no se
puede medir directamente). Es único, es un factor g. Habla de una inteligencia en
general.
Adentro del factor g hay dos capacidades: la capacidad reproductiva (capacidad
de reproducir conocimientos que adquirimos, capacidad de traer a la CC algún
aprendizaje previo. Tiene que ver con la memoria a corto y largo plazo y con el
procesamiento de información), y la capacidad eductiva (capacidad para inferir
relaciones entre ítems de información. Una vez que captó la relación para él, la
tendencia automática es intentar establecer un ítem correlativo. Nos permite
cualquier tipo de razonamiento abstracto). Estas dos se separan con fines
42
Psicométricas
teóricos, pero en la práctica están conectadas, trabajando en interjuego (puede

haber actividades principalmente de una u otra, o mitad y mitad).
Factor e: son múltiples, no hay uno solo. Son variables intra e inter
individualmente (hay distintos factores e que el compañero y en distinto grado, y
al interior de uno también son variables). Los factores e son las habilidades
(pequeñas tareas) específicas que componen la inteligencia (habilidades/
aptitudes/ capacidades). Las habilidades son potencialmente infinitas y
dependen del ambiente (biológico) y del interjuego con g (interjuego con el
ambiente, donde se haya recibido mayor estimulación). Podemos evaluar estas
habilidades en los test de inteligencia. Por ejemplo el WISC (múltiples subtest
que implican determinadas habilidades. El g estaría representado por el CI de
escala completa).
Factor no intelectual de la inteligencia: uno rinde mejor en aquellas actividades
que más le gustan, en las que fue más estimulado en su historia personal, en las
que nos cansamos menos, etc. Son infinitos, son cualquier cuestión no
intelectual que afecte el rendimiento intelectual (lo afectivo, emocional, físico,
gustos, intereses).
Los test de Binet y de Wechsler son test de inteligencia general, posicionados en
este modelo.
TEST DE MATRICES PROGRESIVAS DE RAVEN. El test de matrices

progresivas, escala general mide la capacidad eductiva. La capacidad eductiva
ha sido caracterizada como parte esencial de las habilidades cognitivas de los seres
humanos y se define como la aptitud para establecer relaciones y formular
correlatos, a partir de ítems de información; tales relaciones no aparecen como
inmediatamente evidentes ante los ojos de quien observa y deben ser extraídas
partiendo desde una organización mental del material que el sujeto está obligado a
realizar como paso previo. La educción se vincula con la capacidad intelectual
para la comparación de formas y con el razonamiento analógico, con una total
independencia respecto de los conocimientos adquiridos. La contrapartida,
aunque complementaria de la capacidad eductiva, es la capacidad
reproductiva, caracterizada como la habilidad para apelar a los conocimientos
acumulados, más vinculada con la memoria de largo plazo, al enciclopedismo y a
las habilidades académicas que clásicamente se fomentan en las instituciones
educativas.
Comparada con otros conceptos relacionados, la educción muestra un estrecho
parentesco con la inteligencia fluida, en tanto que la capacidad reproductiva
parece aproximarse a la inteligencia cristalizada. Cattell teorizó sobre la
inteligencia fluida y cristalizada en los siguientes términos: un factor g incluía la
actividad en la que el juicio se vuelve cristalizado, como el vocabulario, la
43
Psicométricas
habilidad numérica, mientras que un segundo factor g para la aptitud fluida incluía
series y analogías.
La habilidad fluida puede medirse por medio de reactivos no verbales que, por
ende, se hallan menos impregnados de influencias y significados culturales. Por
esto, el test de matrices es un test de reducida influencia cultural.
En función de sus características psicométricas formales, se define como un test
normativo, de administración individual o colectiva, y por ello,
autoadministrable, de elección múltiple y sin tiempo límite en su versión
original. Consiste en 60 problemas repartidos en cinco series de 12 elementos
cada una. Cada ítem incluye un estímulo geométrico gestáltico-lacunario con 6 u
8 opciones de respuesta, donde solo una es completamente correcta.
El test de matrices progresivas de Raven intenta medir la capacidad eductiva (si
bien no la puede medir de forma pura) (lo mismo que la inteligencia fluida, poder
abstraer y captar relaciones entre objetos, lógica, flexibilidad). Se diferencia de
la capacidad reproductiva (inteligencia verbal, cristalizada). El estímulo es una
gestalt, una totalidad organizada de una configuración visual, que tiene un
objeto. Uno tiene que captar las leyes de esta gestalt eductivamente y luego de
haber establecido las relaciones de esta gestalt, tratar de emitir el ítem
correlativo. Intenta aproximarse al factor g, se infiere, no se puede ver.
Escala coloreada: niños hasta 11 años, ancianos y sujetos con sospecha de
retraso mental.
Escala general: personas entre 12 y 65 años.
Escala avanzada: cuando hay sospecha de talento (en inteligencia fluida).
PRUEBA STANFORD-BINET. El gobierno francés comisionó a Binet para

diseñar una prueba que pudiera identificar aquellos niños que no se beneficiarían
de la escolaridad habitual debido a su inteligencia inferior. Introduce la noción de
CI. Se le pide que invente una manera de conocer la inteligencia de los niños al
entrar en la primaria en Francia. Buscaban agrupar a los chicos según un mismo
nivel de inteligencia para que los docentes pudieran seguir un ritmo de
aprendizaje sin perjudicar a nadie. Propósitos prácticos y sin teoría de base.
Crea el primer test de inteligencia para niños.
La prueba Stanford-Binet se basa en la suposición de que la capacidad
mental va de acuerdo con el desarrollo, es decir, incrementa con la edad a través
de la infancia y por tanto consiste de varias escalas relacionadas con la edad.
El concepto de edad mental es útil en cuanto a que proporciona una evaluación
absoluta del nivel de desarrollo intelectual del niño, pero en sí mismo no dice nada
acerca de qué tan brillante, promedio o torpe es el niño; para establecer esto se
debe comparar la edad mental del niño con su edad cronológica. Por esto
Stern introdujo el concepto de cociente de inteligencia, en el cual la edad mental
44
Psicométricas
se expresa como una razón de la edad cronológica multiplicada por 100 para
producir un número completo. El primer CI fue un CI de razón, de manera que,
donde la EM y la EC son las mismas, el CI es 100 (es el promedio).
De esto se debe pensar que para que el CI permanezca estable a través del tiempo,
la EM debe incrementar al mismo paso que la EC. Sin embargo, el concepto de
EM no se aplica más allá de los 18 años, dado que la capacidad mental en general
se desarrolla hasta ese momento.
Piensa la inteligencia como una agrupación de distintas habilidades. Cada ítem
valía un mes. Los meses acumulados eran su puntaje. Este concepto era la edad
mental. Binet hacía una división, un cociente entre la edad mental y la edad
cronológica. Si ambos coinciden, el cociente va a dar 100, si la edad mental es
mayor a la cronológica, va a ser más de 100, va a rendir más de lo que se espera
para su edad. Suponía que la edad mental y la cronológica aumentaban al
mismo ritmo, lo que es falso.
WISC Y WAIS. Otra figura importante en las pruebas de inteligencia es

Wechsler, quien desarrolló la prueba de inteligencia adulta más utilizada, la
Wecshler Adult Intelligence Scale (WAIS). También construyó la Wechsler
Intelligence Scale for Children (WISC), para niños.
Las pruebas Wechsler no utilizan el concepto de EM y en su lugar utilizan un CI
de desviación que expresa el resultado de la prueba como una puntuación
estándar, es decir, le expresa al examinador a qué tantas desviaciones estándar se
encuentra la puntuación del examinado por arriba o por debajo de su grupo de
edad.
La inteligencia puede manifestarse de muchas formas, por eso Wechsler la
concibe como una entidad compleja y global, como la capacidad del individuo de
actuar deliberadamente, pensar racionalmente y relacionarse eficazmente
con su medio. La capacidad intelectual es solo un aspecto de la inteligencia.
EL WISC es un instrumento de administración individual para evaluar la
capacidad intelectual de niños de 6 años a 16 años y 11 meses de edad. Consta
de varios subtests, cada uno de los cuales mide una faceta (capacidades,
habilidades) diferente de la inteligencia.
Los subtests están organizados en dos grupos: los subtests verbales y los
perceptuales-motores o de ejecución. Se administran alternadamente a fin de
ayudar a mantener el interés del niño durante el examen. El desempeño del niño en
estos diversos subtests arroja tres puntajes compuestos. La suma de los puntajes
transformados en los subtests verbales da el puntaje de CI verbal, y la suma de los
puntajes transformados de los subtests de ejecución da el puntaje de CI de
ejecución. Los puntajes de los subtests verbales y de ejecución se combinan para
producir el puntaje de CI de la escala completa. El desempeño del niño se
45
Psicométricas
resume en estos tres puntajes compuestos, que proveen estimaciones de la

capacidad intelectual del individuo.
Además pueden calcularse cuatro puntajes índice: comprensión verbal (ICV),
organización perceptual (IOP), ausencia de distractibilidad (IAD), velocidad
de procesamiento (IVP). Al igual que el CI, tienen una media de 100 y una DE
de 15.
Las escalas Wechsler están destinadas a medir las dimensiones tanto globales
(factor g o inteligencia general) como específicas.
Wechsler. 1939. Impone su versión del coeficiente intelectual. Expresar la
posición del sujeto en cuanto a su rendimiento intelectual en relación con la
curva normal (población de chicos de la misma edad). Media de 100 para
mantener la tradición de Binet, desvío establecido en 15. Entre 85 y 115 está la
inteligencia promedio (para diagnosticar un retraso intelectual tiene que puntuar
menos de 70, y además tiene que haber un criterio de invalidación de la vida
cotidiana). Escala verbal (inteligencia verbal del sujeto, capacidad para
manipular signos y símbolos, inteligencia cristalizada) y escala de ejecución
(capacidad del sujeto para manipular objetos concretos, inteligencia fluida). Está
separado en la teoría, en la práctica todo se entremezcla, hay interrelación entre
ambos. Está también la escala social, aunque no le da un coeficiente intelectual.
WISC evalúa capacidad intelectual (o inteligencia, verbal y de ejecución) de
niños de entre 6 años a 16 años y 11 meses. Vamos a obtener un CI de la escala
verbal, un CI de la escala de ejecución y un CI de la escala completa, y 4 puntajes
índices, con la administración de 13 subtest. (El test recibe la crítica de estar muy
arraigado a la cultura occidental).
El WAIS es la versión de adultos (a partir de 17 años).
Línea estadounidense/americana. Es más contemporánea (desde 1938). Se

opone al concepto de inteligencia desde el punto de vista teórico, habla de
habilidades, aptitudes. No hablan de inteligencia porque cada uno tiene distintas
habilidades, que son diferentes de los otros. Habilidades independientes unas de
otras.
- Habilidades primarias de Thurstone. Encontró que no todas las pruebas
mentales se correlacionaban de igual manera sino que parecían formar siete
factores o agrupamientos distintos que denominó habilidades mentales primarias.
Consideraba a g como un gran promedio de correlaciones positivas para una
batería particular de pruebas, o sea que cambia de acuerdo a la batería que se
utilice. Las habilidades mentales son independientes y no se correlacionan. De la
misma manera que no existe una capacidad general. Thurstone crea test de
habilidades, por ejemplo el TAD (test de aptitudes diferenciales), que tiene 7
46
Psicométricas
test, cada uno con su puntuación, y no hay puntaje total (como sí en el WISC).
Interesa el rendimiento de cada test por separado.
- Modelo de la “estructura del intelecto” de Guilford. Rechaza por completo la
noción de un factor general de inteligencia. Clasificó a la tarea cognoscitiva a lo
largo de tres dimensiones principales: contenido, operaciones y productos.
Identificó cuatro tipos de contenido, cinco de operaciones y seis de productos que,
multiplicados juntos, rinden un total de 120 capacidades mentales distintas.
Guilford dice que las habilidades pueden entenderse en términos de contenido, da
120 tipos de habilidades.
Modelos alternativos de la inteligencia a escuela inglesa (inteligencia) vs.

escuela americana (habilidades):
- Cattell y Horn afirman que el factor g se puede subdividir en dos
dimensiones principales: inteligencia fluida y cristalizada. La inteligencia
fluida es la capacidad para resolver problemas abstractos de relación, del tipo que
no se enseña, esencialmente no verbal y que está relativamente libre de influencias
culturales. Involucra la capacidad de solucionar problemas que requieren
adaptación y flexibilidad al enfrentarse con estímulos novedosos con los que el
sujeto no está familiarizado. Los subtests de ejecución mantienen una
correspondencia con las capacidades fluidas. Inteligencia fluida (equivalente a CI
de ejecución. Relacionado con cuestiones no verbales, hay relativa independencia
de la cultura. Relacionado con la flexibilidad y la adaptabilidad de los sujetos,
con la creatividad, con la capacidad de solucionar problemas. Independencia del
campo). Es equivalente descriptivamente a la capacidad eductiva, es la capacidad
para establecer relaciones, capacidad de abstracción.
La inteligencia cristalizada incrementa a través del ciclo vital y es un reflejo de la
experiencia acumulativa de aprendizaje del individuo. Implica la comprensión de
las relaciones o la solución de problemas que dependen del conocimiento que se
adquiere como resultado de la escolaridad y otras experiencias vitales. Está
relacionada con las habilidades y el conocimiento adquiridos, cuyo desarrollo
depende en gran medida de la exposición a la cultura. Incluye funciones
cognoscitivas sobreaprendidas y bien establecidas. Se refiere al funcionamiento
intelectual en tareas que dependen del entrenamiento previo, el tipo de educación
recibida y el nivel cultural en general. Los subtests verbales mantienen una
correspondencia con las capacidades cristalizadas. Inteligencia cristalizada (CI
verbal, relacionado con habilidades y conocimientos ya adquiridos, en relación a
lo cultural, y al tipo de educación recibida. Dependencia del campo). Misma
descripción que la capacidad reproductiva.
Las personas independientes del campo logran percibir parte de un campo como
separado del resto del contexto, en lugar de percibirlo sumergido en él. Estas
47
Psicométricas
personas se caracterizan por ser flexibles en situaciones que requieren solucionar

problemas, tienden a imponer una estructura cuando se relacionan con materiales
perceptuales y verbales desorganizados, tienen una orientación impersonal, están
interesados en lo abstracto y teórico y utilizan la intelectualización como
mecanismo de defensa especializado. Funcionan de manera más autónoma con
respecto a los otros que las personas dependientes del campo. Los niños con un
estilo independiente del campo tienen mayor facilidad para la lectura y la
aritmética.
Dependientes del campo son aquellas personas que fracasan en las tareas antes
mencionadas, porque el campo ejerce un poder muy grande sobre la posibilidad de
percibir sus componentes. Estas personas tienen mayor sensibilidad a los aspectos
sociales de su entorno, tienden a manejarse dentro de los parámetros sociales, no
estructuran los estímulos espontáneamente sino que los dejan como están, se
sienten atraídas por la gente y les gusta estar con otros, son más exitosos
socialmente, tienen un concepto corporal global más que diferenciado y utilizan
como mecanismo de defensa predominante la represión.
- La teoría triárquica de la inteligencia humana de Sternberg. Tiene un
enfoque desde el procesamiento de información. Inteligencia exitosa.
Inteligencia que nos da resultado tener en la vida cotidiana. Podemos hablar de
tres tipos de inteligencia: analítica (corresponde al grupo de habilidades que
permiten que el ser humano establezca relaciones entre conceptos (fluida) y a
partir de ahí pueda construir nuevos conocimientos, trayendo conocimientos
viejos (cristalizada), hay un interjuego entre la inteligencia fluida y la
cristalizada, habilidades que se fomentan en la cultura occidental, se evalúa en
los test tradicionales, es lo que la sociedad pretende de los individuos que educa);
inteligencia práctica (capacidad de resolver problemas en la vida cotidiana);
inteligencia creativa (la utilizamos ocasionalmente cuando creamos soluciones
novedosas). Estas dos últimas no se evalúan en los test de inteligencia, por eso
critica los test, porque solo evalúan la parte analítica, olvidando lo pragmático y
lo creativo.
- Gardner propuso su teoría de las inteligencias múltiples. Se basa en tres
principios fundamentales: la inteligencia no es una sola cosa, una unidad, sino un
conjunto de inteligencias múltiples, cada una de las cuales es un sistema por
derecho propio (en oposición de “la inteligencia”); cada inteligencia es
independiente de todas las otras; y las inteligencias interactúan. Gardner (80)
habló de las inteligencias múltiples, de siete inteligencias (lingüística, lógico-
matemática, espacial, corporal-cinética, musical, interpersonal, intrapersonal).
Cada persona posee las 7 inteligencias. Que las inteligencias se desarrollen o no,
depende de 3 factores: dotación biológica, historia de vida personal y
antecedentes culturales e históricos. Se busca la misma crítica que Sternberg, en
48
Psicométricas
un informe hay que ser preciso en cuanto a qué habilidad o qué porción de la
inteligencia evaluamos.
PERSONALIDAD. ¿De qué manera difieren las teorías de personalidad? Una
definición de la personalidad podría ser: aquellos aspectos relativamente estables y
duraderos de los individuos que los distinguen de otras personas y que los hacen
únicos, pero que al mismo tiempo permiten una comparación entre individuos.
Dos enfoques principales de la evaluación de la personalidad:
- Enfoque nomotético: descripción de la personalidad comparando a los sujetos
con las mismas características sociográficas (captar diferencias individuales,
técnicas psicométricas). La personalidad consiste de rasgos o características
permanentes. Estos psicólogos se interesan en la personalidad en general y
pertenecen a la tradición psicométrica y se conocen como teóricos de tipos y
rasgos. Se preocupan por identificar patrones, estilos o pautas comunes en las
personas que fueran la razón de determinados estilos de comportamiento, intentan
aislar un conjunto de rasgos o dimensiones que diferenciaban a los individuos.
Hacen gran uso de los cuestionarios de personalidad y los resultados de estos se
analizan mediante la técnica estadística de AF. Al tratar de establecer factores en
términos de los cuales se pueda comparar a todas las personas, adoptan un
enfoque nomotético y las principales figuras son Eysenck y Cattell. El estudio de
cómo y cuánto de un individuo en particular es parecido o difiere de los
demás, es lo que constituye al enfoque analítico factorial/psicométrico/enfoque
nomotético.
- Enfoque ideográfico: captar descriptivamente de lo que caracteriza a una
persona, descripción exhaustiva de rasgos de personalidad (descripción al
interior del sujeto, técnicas proyectivas). Los que piensan que la personalidad es
el estudio de individuos únicos de cada individuo, representan el enfoque
ideográfico. Aquello que no se tiene en común con ningún otro individuo es lo
que hace que las personas sean únicas y esta es una expresión del enfoque
ideográfico que intenta descubrir las “normas idiosincrásicas”. Las líneas más
clásicas consideraban a la personalidad única e irrepetible y basaban sus
conclusiones en el estudio intensivo de pocos sujetos. El propósito era entender las
causas del funcionamiento psicológico de una persona en determinada situación.
Este concepto está relacionado con la personalidad como psicología de lo
individual, de lo singular y no puede ser entendido por leyes generales.
Cubriendo los dos enfoques, también contamos con las entrevistas (también con
informantes claves del sujeto) y la observación del sujeto mientras hace la
evaluación.
49
Psicométricas
Clasificación de los instrumentos psicométricos de evaluación de variables de la

personalidad (hay variables independientes para cada variable de la
personalidad):
Clasificación metodológica: proyectivos vs. Psicométricos.
- Los métodos proyectivos se basan en los postulados psicoanalíticos, valiéndose
del mecanismo defensivo de la proyección que, utilizado en combinación con
estímulos y consignas poco estructurados, supone una respuesta que se asume
como indicador de la dinámica de la personalidad profunda.
- Los métodos psicométricos para evaluar la personalidad se distinguen porque
pueden basarse en diversos modelos, además de ser altamente estructurados, con
respuestas cerradas y preestablecidas. Se ha aceptado que no es posible trabajar
con indicadores de la personalidad objetiva del examinado, sino con autoinformes
sobre su personalidad percibida. Esto significa por un lado, que es el propio
sujeto quien responde sobre cómo él mismo cree que es o se comporta
habitualmente, antes que sobre cómo realmente es o se conduce. Estos
autoinformes pueden adquirir un formato de inventarios, cuestionarios o
checklists. Los checklists son listados de adjetivos que, según el evaluado, definen
su personalidad, su estilo o sus comportamientos habituales, preferencias, o
síntomas, entre otras posibilidades, y que también prevén una respuesta cerrada.
Formatos de inventarios (listados de comportamientos, intereses, hábitos,
costumbres, gustos, síntomas, malestares, de una persona. Se componen de
afirmaciones. Respuestas con verdadero-falso o escala lickert (frecuencia)),
cuestionarios (listados, pero en lugar de presentar afirmaciones, presenta
preguntas) y checklist (listados de adjetivos sueltos, se responde con qué
precisión lo describe cada adjetivo). Como puede advertirse, en virtud del carácter
estructurado de la tarea planteada, las respuestas pueden ser dicotómicas o
politómicas –dos alternativas o más-, pero nunca abiertas.
Clasificación según base de diseño, según diseño del instrumento
(construcción y validación). Según la manera en que los diseñadores de un
instrumento hayan generado ideas para redactar los ítems que suponen
indicadores del constructo evaluado, es frecuente dividirlos en basados en un
diseño racional o en uno empírico.
- El diseño racional, o teórico, encuentra su apoyo en la literatura científica
disponible, redactándose entonces el contenido de los ítems a partir de
determinadas propuestas teóricas vinculadas a cierto modelo que intente
explicar la personalidad humana, complementariamente integradas con hallazgos
recientes en relación a la puesta a prueba de tales postulados mediante
investigaciones debidamente documentadas en publicaciones de actualización
científica en el área, avaladas en metodologías precisas y actualizadas.
50
Psicométricas
Se trata de modelos teóricos explicativos de la personalidad. Dentro de este

enfoque se destaca el modelo de Millon que propone un continuo entre la
personalidad normal y la patológica. Millon propone que la personalidad puede
representarse mediante tres dimensiones en su segundo modelo. Estas
dimensiones (actividad/pasividad; fuente de refuerzo instrumental y placer/dolor)
dan lugar a tipos básicos de personalidad, también llamados prototipos o
estilos. Los prototipos son teóricos y difícilmente pueda ubicarse a una persona en
un prototipo. Los estilos de personalidad son el resultado de disposiciones
biológicas que traen los sujetos, en combinación con experiencias de aprendizaje
que se desarrollan en diferentes contextos familiares y educativos. Esta teoría
permite entender tanto los estilos sanos como los patológicos. Este modelo
derivó en instrumentos para la evaluación de la personalidad tanto normal
como patológica. Racional: basado en consulta de bibliografía, literatura
científica (teorías y modelos)
- Un diseño empírico hace foco en el ámbito de aplicación de la psicología y
busca generar los ítems a partir de los vectores que los actores del fenómeno
en estudio, o bien los expertos en tal fenómeno consideran relevantes a la luz
de la práctica profesional cotidiana. Así, este tipo de instrumentos recoge ideas
para formular reactivos interrogando en profundidad a potenciales evaluados
(pacientes que padezcan determinado trastorno de personalidad si se trata de
psicopatologías, por ejemplo) sobre sus principales características, síntomas,
hábitos, preferencias, temores, malestares, entre otros. Y es a partir de este criterio
empírico que las puntuaciones a los ítems se asignarán de acuerdo con la
concordancia entre las respuestas brindadas por el sujeto según indique el criterio
empírico consensuado para la redacción de los elementos acordados. Empírica:
sustentarse en un trabajo de campo (si tiene como objetivo diagnóstico de
psicopatologías, se va a buscar información en hospitales, psicólogos,
psiquiatras, historias clínicas, enfermos, familiares, etc.)
Es posible entender la estructura de la personalidad mediante el análisis empírico
de los datos obtenidos con instrumentos de medida ya existentes y no a través
de la exploración de nuevos conceptos y teorías. Se considera que los factores
extraídos por técnicas estadísticas multivariadas representan diferentes aspectos de
los constructos, tal como estos existen o se expresan en la realidad. Las diferencias
individuales entre las personas son explicadas por un puñado de rasgos o
dimensiones psicológicas. Dentro de estos modelos tenemos las aproximaciones
de Cattel, quien fuera uno de los pioneros de la aproximación analítico-factorial
para establecer las dimensiones de la personalidad. Eysenck, también enrolado en
esta tradición, ha seleccionado 3 dimensiones fundamentales que explican la
personalidad: Neuroticismo, Introversión-Extroversión y Psicoticismo.
51
Psicométricas
El modelo más representativo de este enfoque es la teoría de los Cinco

Factores de la Personalidad (Big Five). En los años 80 se demostró que las
dimensiones de la personalidad podían ser explicadas por cinco grandes factores
que agrupaban las fuentes de variación de todas las conductas humanas. Esta
aproximación descansa en la hipótesis léxica que sostiene que las diferencias entre
las personas han sido codificadas en el lenguaje cotidiano. Solo basta con aplicar
refinados procedimientos psicométricos a aquellos descriptores que emplean los
individuos para autodescribirse para lograr reflejar la estructura latente de la
personalidad. Así, para este enfoque las cinco dimensiones de la personalidad son
Neuroticismo, Extroversión, Apertura a la experiencia (plasticidad,
flexibilidad), Afabilidad (agradabilidad) y Responsabilidad. Los autores
defensores de este abordaje han verificado que esta estructura de cinco factores es
robusta a través del tiempo (McCrae y Costa).
Modelo de los 5 factores. Supone que la personalidad está formada por cinco
factores; Es empírico y taxonómico (permite clasificar a las personas); Enfoque
léxico y nomotético (busca poder captar diferencias individuales de un sujeto
respecto de su grupo, psicométrico) (se le dio a expertos y después a muestras
multitudinarias de personas listas de adjetivos que podían describir la
personalidad, e iban seleccionando adjetivos que servían para hablar de las
personas cuando las conocemos. De 12000 quedaron 2500 adjetivos. Esto está
basado en análisis factorial, ver si se encontraba correlación entre los ítems
(busca ver si se encontraban grupos de adjetivos en un mismo sentido);
Aproximación analítico-factorial (recavar validez de constructo sobre los
instrumentos, sirve también para validar modelos teóricos, si las hipótesis se
corroboran con las respuestas de los sujetos); No había teoría, pero de lo que
salió después apareció una teoría. Los cinco factores se encuentran de modo
empírico.
En ambos casos los métodos de análisis psicométrico más comúnmente empleados
para analizar evidencias de validez de constructo son el análisis factorial y
estudios de grupos contrastados (por ejemplo pacientes vs. no-pacientes,
extrovertidos vs. intovertidos).
Clasificación según análisis de datos para evaluar la validez (de constructo)
- Grupos contrastados: capacidad de discriminación, si podemos separar dos
grupos que deberían estar separados, distinta puntuación para introvertidos que
para extrovertidos.
- Análisis factorial: cálculo de correlaciones múltiples.
Clasificación según sus objetivos: screening vs. Diagnóstico. Según sus

propósitos los inventarios o cuestionarios de personalidad pueden perseguir el fin
de evaluar la personalidad “normal” o patológica. Esta decisión dependerá,
52
Psicométricas
naturalmente del enfoque teórico empleado, centrándose en si se trata de una

descripción de estilos o de repertorios de comportamientos habituales en la
mayoría de las situaciones cotidianas, o de si se busca distinguir la presencia e
importancia de cierta configuración sintomática o disfuncional. No obstante, la
clasificación más extendida suele circunscribirse a los instrumentos que evalúan
psicopatología, que se dividen en escalas de diagnóstico vs. escalas de screening.
- Los instrumentos de screening se dirigen a la detección de indicadores de
riesgo psicopatológico, como por ejemplo, sintomatología leve o moderada, que
no implique ningún grado de invalidación del sujeto en su vida cotidiana, o
sintomatología significativa aún no detectada por otros medios. Un screening
positivo no necesariamente sugiere un diagnóstico positivo. Eso se dirime en la
siguiente fase, de diagnóstico.
Con el fin de que en el cribado no surjan casos falsos negativos –que padezcan el
trastorno pero que en el screening no surjan como en riesgo- el instrumento se
diseña especialmente para que posea una alta sensibilidad (eleva los puntajes de
riesgo ante sintomatología escasa o leve) y baja especificidad (no posee capacidad
para discriminar entre tipos diferentes de trastornos). Un cribado debe ser breve,
de administración sencilla y de rápida evaluación para que una gran cantidad de
sujetos pueda ser examinada en lapsos acotados y para que su derivación a
diagnóstico, de ser necesaria, sea rápida y eficiente.
- Las herramientas de diagnóstico apuntan a la identificación y descripción de
un cuadro clínico en su fase aguda o en cuanto a su cronicidad, mediante la
identificación de síntomas con significación clínica, esto es que su frecuencia de
aparición o bien su intensidad impliquen en el sujeto o en su alrededor algún grado
de malestar apreciable, o importen algún tipo o grado de invalidación considerable
en el desarrollo de sus actividades habituales. Las puntuaciones aportadas por las
diferentes subescalas deberán interpretarse en el sentido de arribar a dirimir la
presencia-ausencia del trastorno, o bien a un diagnóstico diferencial sobre el tipo
de desorden presente, por supuesto en el marco de la información brindada por el
instrumento junto con la entrevista y el resto de la batería diagnóstica.
Deben tener alta especificidad (para captar sutilezas que diferencien entre los
trastornos) y baja sensibilidad (para no generar casos falsos positivos). Dada su
especificidad, estas herramientas son más extensas para incluir mayor cantidad de
síntomas en sus ítems, por lo que su administración y evaluación insumirá más
tiempo y deberá ser considerada a la luz de una batería completa que incluya una
entrevista y una adecuada anamnesis, como mínimo. Otra razón para que estos
instrumentos sean más extensos es que suelen incluir lo que se conoce como
escalas de validez del protocolo individual que se está evaluando. Ellas se dirigen
a disminuir el efecto que determinados estilos de respuesta del individuo
pueden tener sobre las puntuaciones obtenidas, en el sentido de
53
Psicométricas
distorsionarlas generando un diagnóstico equivocado. Los instrumentos

existentes en el mercado prevén diferentes combinaciones de escalas de validez,
tales como impresión positiva (intento de brindar una imagen completamente sana
y ajustada, habitual en evaluaciones laborales), impresión negativa (frecuente en
evaluaciones de adolescentes que no han solicitado una consulta y que desean
oponerse pasivamente al trabajo de diagnostico, o en pacientes obsesivos graves
con autocrítica y autoexigencia exacerbadas), inconsistencia (responder
contradictoriamente a la sucesión de ítems por falta de atención, de comprensión
lectora o de interés), exageración o minimización de sintomatología (común entre
personas que piden una inimputabilidad ante un delito o una licencia laboral por
razones psiquiátrica, respectivamente), simulación de sintomatología (frecuente en
situaciones judiciales), tendencia a la aquiescencia o no aquiescencia (a estar
sistemáticamente de acuerdo o en desacuerdo con los propuesto en las
afirmaciones o preguntas, característico de ciertos subgrupos culturales donde la
simpatía y complacencia o el pensamiento cuestionador son un valor destacable),
defensividad (tendencia a no percibir sintomatología, conflictos o situaciones de
riesgo, ansiedad o estrés, muchas veces por razones defensivas), entre otras. Estas
escalas permiten, según el caso, invalidar protocolos con respuestas excesivamente
distorsionadas o añadir su interpretación a la lectura general del perfil clínico.
Clasificación según objetivos de la evaluación (ser utilizado en qué tipo de
situaciones)
Estilos o tipos de personalidad: describir dimensiones de la personalidad en
términos adaptativos, no buscar diagnósticos ni psicopatologías.
Patología:
Instrumentos de screening, rastrillaje. Detectar riesgo
psicopatológico (no psicopatología, no permite diagnóstico diferencial). Riesgo
significa que hay cierto malestar psicopatológico. Se usa para evaluar a varias
personas a la vez. Son cortos, son hipersensibles y poco específicos (suelen dar
falsos positivos), no tiene escalas de validez. Los instrumentos de screening
siguen los criterios de construcción empíricos, porque quieren captar los
síntomas que la gente más frecuentemente lleva a consulta (y esto varía con los
tiempos).
Instrumentos de diagnóstico. Son poco sensibles pero muy específicos
y tienen escalas de validez.
Existe como desventaja que las personas se den cuenta de lo que intentamos
evaluar y que cambie la sinceridad, que no hayan opciones suficientes que
describan una variable de personalidad. Para contrarrestar esto tenemos las
escalas de validez (no validez de los inventarios, sino la validez del protocolo de
lo que la persona respondió), las observaciones, las entrevistas, la pericia del
54
Psicométricas
evaluador de que verifique que el sujeto puede responder el instrumento y las

técnicas proyectivas.
Propósitos de las escalas de validez: detectar la consistencia de la respuesta (si el
sujeto fue coherente o no al interior de su patrón de respuestas, porque no
entendió la consigna, el vocabulario, puso cruces en cualquier lado, estaba
desorientado por drogas, alcohol, etc., con un alto grado de inconsistencia se
invalida, las escalas de consistencia son las únicas que hacen invalidar),
defensividad (el sujeto se muestra defensivo, negador), distorsión deliberada
(mentir a propósito), deseabilidad social, etc.
Instrumentos de Screening de psicopatología.

- SCL 90 R (Derogatis, adaptación de la UBA 1998). 13 a 65 años. Formado por
escala lickert de 5 opciones. Pregunta por malestares en la última semana. (Un
test-retest tendría que ser con muy poco tiempo, a la mañana y a la tarde). Se
maneja con puntaje t. Tiene 90 ítems y 9 escalas. (Reemplazado por el LSB-50).
- LSB-50 (Rivera, adaptación UBA 2013). Listado de síntomas breve. 13 a 65
años. Lickert de 5 opciones. 50 ítems. Pregunta por las últimas semanas. Se
maneja con percentiles (solo interesan los puntajes altos, mayores a 85). Como
es un autorreporte, tiene dos escalas de validez, minimización y magnificación.
Evalúa síntomas psicológicos.
Su aplicación tarda entre 5 y 10 minutos e identifica síntomas psicológicos y
psicosomáticos con propósitos de cribaje de riesgo. Distingue síntomas de primer
rango, que resultan más discriminativos desde el punto de vista crítico, generando
un índice de riesgo psicopatológico y tres índices generales que cada uno indica
diferentes aspectos del sufrimiento psicopatológico general. Cuenta con 9 escalas
clínicas y, a pesar de apuntar al rastrillaje, añade dos escalas de validez,
magnificación y minimización, que permiten dar cuenta de sujetos que tienden a la
exageración o la minimización de patología.
Objetivo: screening, identificación y valoración de síntomas psicológicos y
psicosomáticos; Para adultos y adolescentes; Autoadministrable, de forma
individual o colectiva; Formato de respuesta: Escala likert de 5 puntos (nada,
poco, moderadamente, bastante, mucho); Tipo de puntaje: percentiles (Se
considera sintomatología psicopatológica a partir del P85, que se corresponde con
el puntaje T60).
- La escala de sucesos de vida. Escala de 50 ítems, tiene sucesos de vida, si
alguno le ocurrió lo marca con una x, y dice cuánto le sigue afectando hoy. Tiene
como fin derivar en una entrevista posterior semiestructurada.
Evalúa la percepción subjetiva del impacto de sucesos o acontecimientos del ciclo
vital personal para relacionarla con malestares psicológicos. También las
55
Psicométricas
competencias, capacidades y recursos con los que una persona cuenta para poder
afrontar situaciones estresantes.
El hecho de conseguir o dejar un empleo, el graduarse, el nacimiento de hermanos,
la muerte del padre, son sucesos demarcadores en el ciclo vital e implican cambios
y transiciones. Esos hechos externos se relacionan con cambios internos más
profundos. Un suceso de la vida es capaz de alterar o modificar la salud
psicofísica.
50 ítems que se responden con una escala de 1 a 5 puntos, indicando si el suceso
que se nombra ha tenido para la persona ningún impacto emocional (1) a mucho
(5). Las escalas son: familia, salud, trabajo, problemas personales, escuela, afectos
y pareja, y legal.
Instrumentos de diagnóstico psicopatológico (trabajar con entrevistas y técnicas

proyectivas también).
- MMPI. Consiste en 228 ítems, compuesto por escalas sustantivas estructuradas
en tres niveles que implican visiones más globales o más particulares o
específicas. Tiene escalas de validez. Si bien sus virtudes son reconocidas, no se
dispone aún de una versión adaptada a la Argentina (del MMPI-2-RF). Enfoque
empírico (1939 había poca teoría estructurada de la personalidad). Está basado
en las categorías diagnósticas de la psiquiatría clásica (Krapelin).
MMPI-2 (adaptado, pero los baremos son viejos) / MMPI-2RF (no adaptado acá)
- BDI II (Beck. 2005). Específico para trastorno de depresión.
- PAI (Morey. 1991, 2007, adaptación UBA 2013). Versiones para adultos (desde
18 años) y otra para adolescentes (12 a 18 años). Evalúa rasgos de personalidad
patológica. Lickert de 4 opciones. Tiene escalas, subescalas y escalas de validez
(impresión negativa, impresión positiva, infrecuencia, inconsistencia). Versión
larga de 344 ítems y versión abreviada de 165 ítems. Utiliza puntaje t (t mayor a
60 indica rasgo psicopatológico presente).
EL PAI contabiliza una versión recientemente adaptada a nuestro medio. Consta
de 4 escalas de validez, 11 clínicas, 5 de consideraciones para el tratamiento y 2 de
relaciones interpersonales. Ello significa que a la par del diagnóstico brinda la
posibilidad de diseñar intervenciones terapéuticas personalizadas e informadas. Su
uso es admisible en situaciones clínicas, forenses, laborales y educativas.
El diseño de ítems y escalas se desarrolló en base a un criterio mixto, racional y
empírico. Estos procedimientos posibilitaron el desarrollo de escalas útiles para
arribar a diagnósticos según los lineamientos del DSM.
Instrumentos de diagnóstico no psicopatológico.

- MIPS. Inventario de estilos de personalidad de Millon. Para la evaluación de
la personalidad normal en términos de estilos se destaca el MIPS, que
56
Psicométricas
operacionaliza el constructo en términos en 24 dimensiones que se agrupan en

pares psicométricos complementarios, distribuidos en tres grandes áreas
definidas como Metas Motivacionales, Modos Cognitivos y Conductas
Interpersonales. Estos vectores permiten caracterizar la personalidad en
términos no psicopatológicos según la manera en que cada individuo persigue
metas eludiendo el displacer y la frustración, cómo interactúa con su entorno en
cuanto a toma de decisiones, construcción de conocimientos y creencias,
elaboración de juicios y conclusiones, y cómo establece relación con otras
personas en términos simétricos o asimétricos. Puesto que se trata de una
herramienta de diagnóstico porque si bien no pretende evaluar patologías sí
busca una descripción exhaustiva del estilo predominante, incorpora escalas de
validez (impresión positiva, impresión negativa y consistencia) en pos de
contemplar posibles sesgos o peculiaridades en las respuestas.
Millon considera que la personalidad es el patrón complejo de características
psicológicas en su mayor parte ICC, que no pueden ser erradicadas fácilmente y
que se expresan de modo automático en muchos comportamientos. Ellas emergen
de una compleja matriz de disposiciones biológicas y aprendizajes experienciales,
y comprenden la característica distintiva de aquellos modos de percibir, sentir,
pensar y afrontar la realidad de los individuos.
La teoría de Millon se ubica en el enfoque teórico politaxonómico. Desde el punto
de vista teórico, los estilos de personalidad no son meramente la forma en que
las personas se comportan, es decir, las conductas, sino que también se
incorporan dentro de los estilos las formas en que las personas captan y
procesan la información. La consideración de la personalidad debe tomar a la
persona total, también las metas o aspiraciones que las personas tienen en la
vida (las conductas y rasgos toman dimensión según el lugar hacia donde están
dirigidas). El eje de su teoría es la intersección entre modos cognitivos, metas
motivacionales y conductas intepersonales, que son el reflejo de la historia de
transacciones entre el individuo y su ambiente a lo largo de la vida. El
resultado es el estilo de personalidad dominante.
Millon es el creador de una serie de inventarios que evalúan personalidad
psicopatológica y no psicopatológica.
Dice que la personalidad humana normal se puede describir según tres vectores:
metas motivacionales (cómo cada uno se acerca a los objetivos que se plantea, y
cómo evita los obstáculos), modos cognitivos (cómo proceso la información,
cómo aprendo, cómo tomo decisiones, cómo formo juicios), y conductas
interpersonales (cómo me relaciono con los otros, con las relaciones simétricas y
las asimétricas). Estos vectores se operacionalizan en el MIPS, en 24 escalas,
divididas en 12 pares dicotómicos (las escalas van de a pares opuestos, por
ejemplo extroversión-introversión, o discrepancia-conformismo). Tiene 3 escalas
57
Psicométricas
de validez. Es un inventario que evalúa personalidad no psicopatológica, estilos

de personalidad normal.
Es para adultos entre 18 y 65 años (la personalidad se hace fija al final de la
adolescencia).
Está adaptado al país (Millon tiene inventarios de personalidad psicopatológica
pero no están adaptados ni validados).
Trabaja con puntajes de prevalencia (por debajo de 50 desestimamos el rasgo,
por arriba está presente, cuánto más cerca de 100 más acentuado; Tiene un valor
de corte en 50. Interesa saber si el rasgo que mide cada subescala está presente o
ausente. Pp 49 o menos rasgo ausente; pp 50 o más rasgo presente: entre 50 y
69 el rasgo está presente, entre 70 y 89 está exacerbado, y entre 90 y 100 es un
rasgo prototípico (la persona se define bastante por ese rasgo).
SOVI y DAT se utilizan en orientación vocacional. Interesa saber los intereses

vocacionales de la persona y cuáles son sus aptitudes (habilidad para desarrollar
alguna capacidad).
- DAT (Test de Aptitudes Diferenciales). Se utiliza con adolescentes finalizando
el secundario que requieran orientación vocacional (entre 15 y 20 años aprox., el
manual no especifica). Tiene 8 subtest (velocidad de procesamiento,
razonamiento espacial, razonamiento mecánico, ortografía y lenguaje,
razonamiento verbal, cálculo, razonamiento abstracto), todos con tiempo límite, y
se puede administrar solo algunos.
Utiliza percentiles (un percentil por cada escala).
- CIP (cuestionario de intereses profesionales, versión en papel y lápiz)/ SOVI
(Sistema de orientación vocacional informatizado, versión informatizada). Evalúa
intereses profesionales. Se fundamenta en que los intereses medidos por un test
son más estables en el tiempo. Tiene 15 escalas, entre ellas: cálculo, físico-
química, construcción, asistencial-educacional, artístico-plástica, artística-
musical. Tiene 150 ítems con 3 opciones de respuesta. No hay puntaje total, se
calcula un percentil por escala. Percentil alto indica alto interés.
58

Resumen Psicometricas Liporace - Doc Versión 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Psicometricas Liporace - Doc Versión 1

Cargado por

Copyright:

Formatos disponibles

Psicométricas

Curso básico de Psicometría.

Psicometría, evaluación psicológica y ámbitos de aplicación.

1.2. Evaluación psicológica y Psicometría. Existe otra inserción posible para el

Más allá de la cuantificación, también medimos cuando asignamos números de

1.3. Los instrumentos psicométricos. Una técnica, prueba, test, escala o

comportamientos posibles, reducidos a un área específica. El modelo teórico

El psicólogo dispone de un arsenal de pruebas que le permiten recoger la

información pero con poca con más profanidad, son poco

1.4. Los test como operacionalizaciones de constructos teóricos. Todo test se

1.5. La noción de escalamiento. Una prueba psicométrica supone: una

Formas de clasificación de los test:

ciertos casos mediante el instrumento de despistaje, se vuelve a examinar a esos

similar al de los inventarios y se utilizan para recolectar opiniones o actitudes de

respuestas son suficientes para llegar a un diagnóstico (comparamos con un

La validez y los instrumentos psicométricos.

Ya no hablamos de discriminación, confiabilidad y validez como atributos

Validez de contenido. Se evalúa con el juicio experto. Los jueces valoran a

de no haber descuidado ninguna de las dimensiones de la variable. Esta tarea

que se realizan múltiples investigaciones con el fin de poner a prueba

elevados grados de asociación se agruparan bajo lo que llamamos un factor,

Validez empírica (o validez de criterio). Uso un criterio externo (otro test

(externa a él), cuyas evidencias de validez deberán estar previamente

[Para comparar dos vías de evaluación: se empleará un coeficiente de

Validez de facies o validez aparente. Se evalúa con estudio piloto.

2.6. Sesgo y error sistemático. El sesgo es un concepto relacionado con el de

Confiabilidad y error de medición.

poniendo a prueba la consistencia y precisión de los puntajes (confiabilidad) y

- Error sistemático de construcción del instrumento. Error relacionado con

4.3. Confiabilidad de las puntuaciones. Podemos definir confiabilidad como la

Coeficiente de correlación. Un coeficiente de correlación expresa el grado de

El coeficiente de confiabilidad. Se trata de un número que indica en qué medida

4.6. Procedimientos empíricos para estimar el coeficiente de confiabilidad.

Cada método involucra diferente pasos para hallar el coeficiente de confiabilidad,

La correlación de pearson es una medida que indica el grado de relación que

Métodos que requieren repetidas aplicaciones, dos aplicaciones del test a

la misma muestra de sujetos; calcular la correlación (r) entre las puntuaciones

- Confiabilidad entre evaluadores. Una técnica psicométrica confiable debe

4.7. Error típico de medida. El coeficiente de confiabilidad ayuda al autor o

A medida que aumentamos la seguridad, la confianza en la evaluación, aumenta

Las puntuaciones de los test.

El puntaje bruto. Referiremos como variable psicológica a los fenómenos de

resultado de este proceso de medición, se lo denomina puntaje bruto, crudo o

3.2. Medidas de posición. Lo ideal para establecer comparaciones y valorar el

Percentil. La mediana es el valor que divide al conjunto de los datos en dos

parámetros p30 y p70 encontramos las puntuaciones que están en el medio. Es

3.3. Puntajes estándar. Los puntajes estándar se obtienen mediante un cálculo

Puntaje z. El puntaje z tiene gran difusión en los instrumentos de

Para el DFH y el VADS, cuanto más puntúa mejor, debajo de -1 es inferior, y

3.4. Distribución normal. Si se grafica los datos de las frecuencias, donde en el

Puntajes de prevalencia. Son propuestos en los instrumentos de Millon.

Construcción y adaptación de técnicas psicométricas.

Etapa 1. Definir la finalidad de la técnica. El investigador debe hacerse

lectora, nivel intelectual), modalidad de administración (individual, colectiva,

posibilidades de respuesta del examinado deben también fundamentarse y

considera que un ítem está sesgado cuando arroja puntuaciones significativamente

significados iguales o lo más parecidos posible a los originarios. Está

la personalidad del entrevistado y su problemática. Las variables a ser mantenidas

Clasificación. El grado de estructuración de las entrevistas variará de acuerdo

psicopatológicos, de tratamiento, etc., y que debe estar dotado de una gran

MINIBATERÍA PSICOEDUCACIONAL KOPPITZ. Apta para niños en edad

BENDER. Maduración visomotriz en la infancia y pre-pubertad: el Test

DFH. La maduración conceptual en la infancia y pubertad: el T est del Dibujo de