Manual de Pruebas de Inteligencia y Aptitudes

MANUAL DE
PRUEBAS
DE INTELIGENCIA
Y APTITUDES
Kathia Maria Costa Neiva

MANUAL DE
PRUEBAS
DE INTELIGENCIA
Y APTITUDES

Diseño de portada: Fernando A. Colmenero
Primera edición: junio de 1996
MANUAL DE PRUEBAS DE
INTELIGENCIA Y APTITUDES
© Universidad Iberoamericana
© Kathia Maria Costa Neiva
© Plaza y Valdés, S.A. de C.V.
Derechos exclusivos de edición reservados para

todos los países de habla española. Prohibida la reproducción
total o parcial por cualquier medio, sin autorización
escrita por los editores.
Este libro es una coedición entre

la Editorial Plaza y Valdés y la
Universidad Iberoamericana
Editado en México por Plaza y Valdés editores

Manuel María Contreras No. 73 Col. San Rafael
México D.F. Tel. 705-00-30
ISBN: 968-856-466-4
HECHO EN MEXICO
A mi padre
de quien heredé el gusto por leer y escribir
A mi madre
de quien heredé el ser emprendedora y
perseverante
A Edi, Tais y Tiago
quienes siempre me han apoyado en mis
proyectos profesionales
ÍNDICE GENERAL
Prólogo 9
Introducción 11
Agradecimientos 13
PRIMERA PARTE: Aspectos métricos de las

pruebas psicológicas 15
Capítulo I Las pruebas psicológicas 17
Capítulo II Construcción y evaluación de las
pruebas psicológicas 27
Capítulo III Unidades de calificación de las pruebas
psicológicas 47
SEGUNDA PARTE: Inteligencia 59

Capítulo IV La inteligencia 61
Capítulo V Escala de Inteligencia Stanford-Binet 67
Capítulo VI Escala de Inteligencia para adultos
de Wechsler (WAIS) 75
Capítulo VII Escala de Inteligencia para el nivel
escolar de Wechsler (WISC) 105
Capítulo VIII Escala de Inteligencia para los niveles
preescolar y primario de Wechsler (WPPSI) 127
Capítulo IX Beta II-R 137
Capítulo X Test de Matrices Progresivas (Raven) 145
Capítulo XI Test de Dominós 153
Capítulo XII Test de Goodenough 159
TERCERA PARTE: Aptitudes 171

Capítulo XIII Las Aptitudes 173
Capítulo XIV Pruebas de Aptitud Diferencial (DAT) 177
7
Capítulo XV Prueba de Clasificación de Aptitudes
de Flanagan (FACT) 195
BIBLIOGRAFÍA 203
PROLOGO
Con el propósito de que los estudiantes de psicología
pongan en práctica los conocimientos teóricos adquiridos
previamente sin ambigüedades ni contradicciones, el presente
manual de pruebas de inteligencia y aptitudes, pretende
organizar y aclarar dos de las variables más investigadas
dentro de la psicología.
Cabe señalar que los tests psicólogicos son de las
herramientas más utilizadas en el quehacer profesional, por
lo que resulta imprescindible conocer el orden y desarrollo
de las pruebas, aplicar los aspectos metodológicos implicados
en la medida, aplicar, interpretar e integrar a una batería
de pruebas y desarrollar una posición ética con respecto a
su utilización.
Deseo felicitar a la Dra. Kathia Ma. Costa Neiva, ya que
ha podido transmitirnos su experiencia acumulada como
profesora de psicometría por 4 años y medio en esta
Universidad.
Estoy seguro que el presente manual facilitará la
comunicación entre maestros y alumnos y promoverá un
aprendizaje significativo a todo aquel que lo consulte.
Antonio Tena Suck
9
INTRODUCCIÓN
La idea de construir un manual sobre pruebas psicológicas
surgió de mi experiencia como profesora de Psicometría de
la Universidad Iberoamericana - México D.F. La necesidad
de textos claros, organizados y resumidos que facilitaran la
tarea de los profesores me llevó a la elaboración de este
primer manual sobre Pruebas de Inteligencia y Aptitudes.
Mi interés es que éste sea el primer manual de una serie sobre
Pruebas Psicológicas.
Los tests psicológicos constituyen uno de los instrumentos
básicos de trabajo del Psicólogo. Son utilizados en las distintas
áreas de la Psicología: Clínica, Educativa, Industrial,
Comunitaria. Son necesarios en tareas como: psicodiagnóstico,
orientación vocacional, selección de personal, investigación,
entre otras. Por ello, conocerlos, saber aplicarlos, evaluarlos,
interpretarlos, y criticarlos es imprescindible.
El objetivo del presente manual es proveer a los Psicólogos y
alumnos de Psicología una fuente de consulta, clara, sucinta y
organizada sobre algunas de las pruebas de inteligencia y aptitudes
más utilizadas. No se pretende, de manera alguna, que éste sustituya
a los manuales de las pruebas. La intención es que sirva como
una primera aproximación al conocimiento de éstas y que facilite
la tarea de los psicólogos, en los momentos en que necesiten decidir
sobre la utilización de una u otra prueba psicológica, proporcionando
la información esencial para la toma de una decisión.
Este manual está dividido en tres partes. La primera parte
—Aspectos métricos de las pruebas psicológicas— tiene
como objetivo introducir al tema proveyendo la información
básica sobre los tipos de pruebas y los procedimientos de
construcción, evaluación y calificación de las mismas. Estas
11
informaciones son de gran importancia para la comprensión

y análisis de las distintas pruebas que serán presentadas en
las dos otras partes del manual.
La segunda parte —Inteligencia — provee una introducción
al concepto de inteligencia y la información básica sobre
varias de las pruebas de inteligencia frecuentemente utilizadas
por los psicólogos.
La tercera parte —Aptitudes — esclarece sobre el concepto
de aptitud y proporciona la información básica sobre algunas
de las baterías de aptitudes múltiples más utilizadas.
Se espera que la presente obra, sea de gran utilidad a todos
los profesionistas interesados en el campo de la Psicometría
y que facilite su quehacer profesional.

Noviembre 1995
12
AGRADECIMIENTOS
Deseo manifestar mi agradecimiento a la Universidad
Iberoamericana y en especial al Dr. José Gómez del Campo,
director del Departamento de Psicología, por apoyar la
publicación de este manual; al Mtro. Antonio Tena Suck,
coordinador del Departamento de Psicología, por animarme
a escribirlo, por revisar cuidadosamente el manuscrito origi-
nal y aportar sugerencias interesantes y al Arq. Alejandro
Robles Oyarzun, subdirector de Difusión Universitaria, por
agilizar la publicación del mismo.
Deseo también agradecer a la Dirección General de
Orientación Vocacional de la UNAM y muy especialmente
a su director, Dr. Ramón Alberto Ruiz Tapia, por permitir
el acceso al material sobre la Prueba Diferencial de Apti-
tudes "PROUNAM" y autorizar la mención de dicha prueba
en este manual. Asimismo, agradezco al Dr. Lucio Cárdenas,
Jefe del Proyecto del PROUNAM, por su disponibilidad en
proveerme la información necesaria y revisar la parte del
manuscrito relacionada a esta prueba.
Por último, quisiera manifestar mi profundo agradecimiento
a todos mis alumnos de Psicometría que con sus comentarios,
dudas y cuestionamientos me motivaron e incentivaron a
escribir este manual.
13
PRIMERA PARTE
ASPECTOS METRICOS DE
LAS PRUEBAS
PSICOLOGICAS
CAPITULO I
LAS PRUEBAS PSICOLÓGICAS
Son muchas las definiciones propuestas para el término
"prueba psicológica". Sintetizándolas, puede considerarse
que una prueba psicológica es un instrumento de medición
psicológica que posee tres características fundamentales:
1. Sirve de estímulo para extraer un segmento de la
conducta de un sujeto.
2. Es rigurosamente estandarizado, o sea se construye,
se administra y se califica según reglas preestablecidas.
3. Permite comparar estadísticamente la conducta de un
sujeto con un grupo de sujetos de una población definida
y clasificarla cuantitativa, cualitativa y/o tipológicamente.
Así, la medición de una conducta implica " l a utilización
de determinados procedimientos (operaciones), según reglas
especificadas, para obtener como resultado la asignación de
valores numéricos a la ejecución de una persona" (Brown,
1980, p.8)
La función básica de las pruebas psicológicas es medir diferencias
de conducta entre los individuos o diferencias en la conducta de
un mismo individuo en distintos momentos (Anastasi, 1978).
A. ORÍGENES
Aunque puede considerarse que Platón y Aristóteles fueron

los pioneros de la medición psicológica, ésta adquirió
importancia en el siglo XIX, con el aumento de la preocupación
por la identificación y clasificación de retrasados mentales.
La obra publicada en 183 8, por el médico francés Esquirol,
17
sobre retraso mental, sus procedimientos para constituir

algún sistema de clasificación de los diferentes grados de
retraso y las técnicas de adiestramiento muscular y de los
sentidos propuestos por Seguin en 1866, constituyeron los
primeros pasos para la elaboración de una medida de la
inteligencia.
Sin embargo, fue Galton, en Inglaterra, quién, interesado
en estudiar la herencia humana, ideó las primeras pruebas,
para que fueran utilizadas en el laboratorio antropométrico
que estableció en la Exposición Internacional de 1884. Estas,
eran pruebas sensomotoras que medían básicamente agudeza
visual y auditiva, energía muscular, tiempo de reacción, etc.
El creía que las mismas podían servir para medir la capacidad
intelectual. Galton contribuyó aun al desarrollo de métodos
estadísticos para análisis de datos sobre las diferencias
individuales y estuvo entre los primeros a aplicar las escalas
de estimación (rating scales), los métodos de cuestionario y
la técnica de asociación libre. En sus libros El genio Heredado
e Investigación del desarrollo de las facultades humanas
relató sus ideas sobre las diferencias individuales y sus
primeros intentos por medirlas.
La expresión test mental apareció por primera vez en un
artículo escrito por el psicólogo americano Cattell en 1890,
donde describía las pruebas aplicadas a estudiantes
universitarios para evaluar su nivel intelectual. Estas pruebas
medían capacidades sensoriales y otras funciones simples
como: velocidad de movimiento, sensibilidad al dolor, energía
muscular, agudeza de la vista y del oído, discriminación de
pesos, tiempo de reacción, memoria, etc.
En este mismo período, el psicólogo experimental Alfred
Binet, investigó activamente, junto con sus colaboradores,
métodos de evaluación de la capacidad intelectual. Pero fue
en 1905 que, comisionado por la Secretaria de Educación
Pública del gobierno francés para estudiar la educación de
18
MANUAL DE PRUEBAS DE INTELIGENCIA Y APTITUDES
niños retrasados mentales, elaboró junto con Simon la primera

escala Binet-Simon. Esta escala contenía 30 problemas en
orden creciente de dificultad que medían, entre otras, funciones
como: razonamiento, juicio y comprensión. En la segunda
escala (1908), se aumentó el número de tests, aunque se
eliminaron algunos de la primera versión considerados no
satisfactorios. Además, se agruparon los tests en niveles de
edad, lo que permitió que la puntuación obtenida por un niño
pudiera ser expresada como una edad mental (edad de los
niños normales cuya ejecución se igualaba). La 3 a versión
(1911) presentó cambios menores: se añadieron tests en
varios niveles de edad y la escala se extendió hasta el nivel
adulto. El Binet-Simon obtuvo gran éxito, habiendo sido
traducido y adaptado a varios idiomas. La revisión más
conocida fue realizada en E. U. A. por Terman en la Universidad
de Stanford y se llamó Stanford-Binet (1916). En esta última
fue utilizada por primera vez la noción de cociente de
inteligencia (C.I.) obtenido por la fórmula: C.I.= Edad Mental/
Edad cronológica x 100. Otra revisión fue hecha en 1912
por Kuhlmann, quién extendió la escala hasta el nivel de
edad de 3 meses.
Con el desarrollo de los tests surgieron las primeras
oficinas de Orientación Vocacional: Munich (1902), Francia
(1906), E.U.A. (1908), Bélgica (1914), España (1916),
Inglaterra (1920), etc.
Los tests colectivos de inteligencia aparecieron en 1917,
cuando los E. U. A. decidieron participar en la primera guerra
mundial y necesitaron clasificar intelectualmente millón y
medio de reclutas. Los más utilizados fueron el Alfa y Beta,
el primero se destinaba a la población general y el segundo
era empleado con analfabetos y extranjeros que no dominaban
el inglés. La segunda revisión del Beta (Beta II-R) es utilizada
actualmente.
A partir de la primera guerra las pruebas psicológicas
19
experimentaron un gran avance. Además de los tests de
inteligencia, que eran principalmente verbales, se
desarrollaron tests de aptitudes específicas, de rendimiento
y de personalidad.
Los tests de aptitudes específicas fueron construidos
sobre todo para la orientación y selección profesional. Los
más utilizados medían aptitudes mecánicas, burocráticas,
musicales y artísticas. Los avances metodológicos,
principalmente el análisis factorial, aportaron mucho a la
elaboración de tests y en especial al desarrollo de las baterías
de aptitud múltiple, que aparecieron a partir de 1945. Otra
vez la labor de los psicólogos militares en la segunda guerra
mundial fue determinante para la evolución de las pruebas
psicológicas.
B. TIPOS DE PRUEBAS
Las pruebas psicológicas pueden clasificarse desde diversos

puntos de vista. Compilando las ideas de algunos autores
(Morales, 1973; Anastasi, 1978; Brown, 1980) se proponen
las siguientes dimensiones de clasificación:
1) Según la conducta que miden:

• Pruebas de inteligencia
• Pruebas de aptitudes/habilidades
• Pruebas de personalidad/temperamento
• Pruebas de intereses/preferencias
• Pruebas de valores
• Pruebas de actitudes
• Pruebas de rendimiento
• Pruebas psicomotoras
• Pruebas situacionales
2) Según el objetivo:
. Pruebas de potencia o ejecución máxima - Exigen del
20
examinado su máximo rendimiento en las distintas tareas

que componen la prueba. Este es el caso de las pruebas de
inteligencia, habilidades, aptitudes específicas o múltiples
y de rendimiento.
- Pruebas de ejecución o rasgos (ejecución típica) -
Estas también son llamadas pruebas de clasificación tipológica
o cualitativa. En esta clasificación se sitúan las escalas o
inventarios de personalidad, tests de ajuste, de temperamento,
de intereses o preferencias, de valores, de actitudes, técnicas
proyectivas, pruebas situacionales, etc.
3) Según la forma o el tipo de respuesta exigida:

• Pruebas objetivas - Son aquellas en que el examinado
elige una respuesta entre varias alternativas (reactivos de
comparación, verdadero/falso o elección múltiple). Este es
el caso de las pruebas de inteligencia y aptitudes.
- Pruebas subjetivas - Son aquellas en que el sujeto
proporciona libremente la respuesta, como en las pruebas
de personalidad, especialmente en las proyectivas como
Rorschach, TAT (Prueba de Apercepción Temática), Frases
Incompletas de Sacks, etc.
4) Según la forma de administración:

• Pruebas de aplicación individual
• Pruebas de aplicación colectiva
• Pruebas autoadministrables
5) Según la libertad de ejecución:

• Pruebas de poder - Son aquellas que exigen que el
sujeto emplee toda su capacidad, realice lo más que pueda.
El tiempo límite a veces es controlado, pero cuando esto
sucede, se considera que éste es suficiente para que el sujeto
demuestre su máxima capacidad.
. Pruebas de velocidad - Son las que exigen que el sujeto
21
ejecute la tarea asignada, lo más rápido posible. La duración

de la prueba es rigurosamente controlada, existe un tiempo
límite estricto.
6) Según el material utilizado en la prueba:

• Prueba de lápiz-papel
• Prueba completamente verbal
• Prueba de ejecución (material visomotor)
• Pruebas mixtas (combinación de diferentes materiales)
7) Según la forma de dar las instrucciones:

• Orales
• Escritas
8) Según la forma de calificación:

• Manual
• Informatizada
9) Según la población a la que se destina:

• Pruebas para bebés (baby-tests)
• Pruebas para niños preescolares
• Pruebas para niños escolares
• Pruebas para adolescentes
• Pruebas para adultos
• Pruebas que se aplican a dos o más etapas del desarrollo
Una prueba psicológica combina varias de estas dimensiones

(de inteligencia, para adultos, de poder, verbal, etc.) o diferentes
aspectos de una misma dimensión (prueba verbal y de ejecución,
para adolescentes y adultos, etc.)
C. USOS DE LAS PRUEBAS
Una pruebapsicológica puede ser empleada con diferentes finalidades:
22
• Evaluación: por ejemplo en el caso de evaluarse el

rendimiento académico de alumnos.
• Clasificación: cuando, por ejemplo, se clasifica
intelectualmente a los niños de un determinado grado escolar.
• Selección: cuando se seleccionan candidatos para un
puesto o alumnos para la universidad.
• Diagnóstico: cuando se busca estudiar áreas del
comportamiento de un sujeto para detectar o no dificultades
específicas.
• Investigación: cuando se busca verificar hipótesis, como
por ejemplo, si el nivel de ansiedad de jóvenes drogadictos
es más alto que el de jóvenes no drogadictos.
Se constata pues, que las pruebas psicológicas pueden
ser utilizadas en las distintas áreas de la Psicología: clínica,
educacional, industrial y social. Algunas son específicas de
una sola área, otras pueden servir a cualquiera de ellas.
En el área clínica, las pruebas no solo son utilizadas bási-
camente para diagnosticar aspectos del comportamiento
normal y patológico, sino también para evaluar intervenciones
terapéuticas.
En el área escolar, son muchos los empleos: clasificación
de alumnos (nivel intelectual, rendimiento escolar),
homogeneidad de los grupos, detección de problemas de
aprendizaje, orientación vocacional, evaluación psicomotora,
etc.
En el área industrial son utilizadas para selección,
clasificación y promoción de personal, evaluación de
capacitación, evaluación de productividad y calidad del
trabajo, evaluación de la propia organización, etc.
En el área social son empleadas sobre todo para comprender
y evaluar los procesos grupales y los patrones culturales y sociales.
Finalmente, en cualquiera de estas áreas las pruebas
psicológicas pueden ser utilizadas con fines de investigación
científica.
23
D. ASPECTOS ÉTICOS
Son muchas las medidas adoptadas para controlar el uso

inadecuado de las pruebas psicológicas. El Código de Etica
Profesional del Psicólogo Ethical Principles of Psycholo-
gists and Code of Conduct y el Standards for Educational
and Psychological Testing, ambos editados por la A.P.A.
(American Psychological Association), contienen varios
principios que reglamentan la publicación, distribución y
utilización de las pruebas psicológicas. Todo psicólogo debe
tener conocimiento de estos principios y cuidar que los mismos
sean rigurosamente cumplidos, puesto que, son éstos los que
permiten conservar la credibilidad en las pruebas. En seguida
se mencionan algunos puntos éticos importantes apuntados
por Anastasi (1978):
• La venta, distribución y utilización de los tests debe
restringirse a personas calificadas para ello.
• No debe venderse un test en el mercado sin que éste
esté suficientemente validado a través de investigaciones.
• No deben publicarse en periódico, revista o libro popular,
ni tests ni parte de ellos.
• No deben realizarse tests por correo, ni tampoco enviar
resultados de los mismos.
• La aplicación, calificación, interpretación y
comunicación de los resultados de tests debe ser realizada
por persona debidamente calificada y entrenada.
• Todo test debe disponer de un manual que contenga
informaciones detalladas sobre su aplicación, calificación e
interpretación, datos precisos de confiabilidad y validez,
además de tablas de normas con información sobre el número
y naturaleza de los sujetos a partir de los cuales las mismas
se establecieron. El manual debe ser una exposición objetiva
sobre el test y no un instrumento de publicidad que busque
presentarlo de manera más favorable.
24
• Es imprescindible aclarar al examinado sobre el objetivo
del test y la forma en que serán utilizados sus resultados.
• Los resultados obtenidos en un test solo pueden ponerse
a disposición de terceros bajo dos condiciones: a) el examinado
debe consentir que se proporcione la información; b) la
persona a la que se transmite debe tener una necesidad
legítima de la información (por ejemplo, profesores o futuros
patrones). Sin embargo, hay algunos casos especiales, como:
a) en circunstancias que puedan implicar peligro para un
individuo o sociedad, el psicólogo tiene obligación de revelar
la información a profesionales o autoridades públicas; b)
el psicólogo está obligado a revelar la información de un
test a los padres o guardianes de un menor o a las autoridades
de su escuela.
Los puntos arriba mencionados no agotan las medidas
propuestas en el Código de Etica Profesional del Psicólogo.
Además, cada uno de ellos implica discusiones éticas
importantes y debe ser sujeto de reflexión por parte de todo
psicólogo o estudiante de Psicología. Proteger la intimidad
de sus clientes y la credibilidad de su material de trabajo
es parte del quehacer profesional del psicólogo.
Referencias bibliográficas
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)

Madrid: Editorial Aguilar.
Brown, F.G. (1980). Principios de medición en Psicología
y Educación. México D.F.: Editorial El Manual Moderno.
Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a reimpre-
sión) México D.F.: Editorial Trillas.
25
CAPITULO II
CONSTRUCCIÓN Y EVALUACIÓN DE LAS

PRUEBAS PSICOLÓGICAS
Toda prueba psicológica es construida de tal manera que
represente o pueda predecir una determinada conducta. Según
Brown (1980) una prueba psicológica es una representación cuando
sus reactivos son similares a la conducta que desea medir y es
predictiva cuando sus reactivos, aunque no son similares a la
conducta, pueden predecirla.
Por lo tanto, la construcción de los reactivos de una prueba es
fundamental, así como su análisis y comprobación. Conocer
exactamente lo que se quiere medir es muy importante para la
construcción de "buenos reactivos". Al elaborarse una prueba,
se proponen inicialmente una buena cantidad de reactivos, de los
cuales solo se quedan aquellos que realmente miden lo que se
pretende medir. Bacher (1981) advierte sobre los errores sistemáticos
queocurren en la construcción de reactivos y hace varias sugerencias,
entre ellas: (a) el vocabulario debe ser simple, accesible a todos,
(b) se deben evitar los términos técnicos y palabras cuyo sentido
varíe según la región o el grupo social, (c) se deben evitar formulaciones
muy abstractas pues pueden ser mal comprendidas, (d) se deben
evitar reactivos muy largos, sobre todo cuando son formulados en
la forma interrogativa o cuando contengan negaciones, (d) en la
formulación de los reactivos, se debe evitar favorecer determinadas
respuestas volviendo las demás menos probables, (e) no debe
figurar en la formulación de un reactivo más de una idea pues,
es imposible saber a cuál de ellas contesta el sujeto.
27
No es el propósito de este manual proveer mayores detalles sobre

la construcción de las pruebas sino informar sobre los diferentes
procedimientos de evaluación y comprobación de las mismas, para
que se puedan analizar los límites de éstas.
A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS
El primer procedimiento para analizar los reactivos de una prueba

consiste en aplicársela a una muestra de personas, similares a las
que se pretenden examinar con la misma, para verificar la reacción
de éstas ante el instrumento. Con esta aplicación puede verificarse
el nivel de dificultad de la prueba, el poder de discriminación de
sus reactivos así como ambigüedades en éstos.
El nivel de dificultad de la prueba depende de sus reactivos y
de su distribución en la prueba (Anastasi, 1978). Este puede ser
verificado a través de la distribución de las puntuaciones totales
de una muestra de sujetos. Un nivel de dificultad normal proporciona
una curva de distribución de las puntuaciones semejante a la curva
normal (figura 2.1), donde hay una acumulación de sujetos en el
centro (puntuaciones medianas) y una disminución gradual de
sujetos al acercarse de los extremos de la curva (puntuaciones altas
o bajas).
Figura 2.1: Curva de distribución normal
Si la prueba es muy difícil, la curva de distribución de las

puntuaciones de los sujetos presenta una acumulación en el extremo
28
inferior o sea gran número de sujetos con puntuaciones bajas (figura

2.2). Esto indica que faltan a la prueba suficientes reactivos fáciles.
Sin embargo, cuando la prueba es muy fácil, la acumulación de
puntuaciones se da en el extremo superior (puntuaciones altas) y
por lo tanto le faltan reactivos difíciles (figura 2.3).
Figura 2.2 Figura 2.3

Distribución desviada Distribución desviada
(a la izquierda) (a la Derecha)
Cuando sucede uno de los dos casos arriba mencionados suele

modificarse el nivel de dificultad de la prueba hasta que la gráfica
de distribución de las puntuaciones se aproxime a la curva normal.
Para tal, se pueden añadir reactivos más fáciles o más difíciles,
cambiar la posición de reactivos, eliminar o modificar reactivos,
revisar pesos o ponderaciones de las puntuaciones asignadas a
determinadas respuestas, etc. (Anastasi, 1978).
La verificación del poder discriminative de los reactivos es
hecha a través de un análisis estadístico que "indica la amplitud
con la que el reactivo mide lo que debe medir" (Brown, 1980,
p. 31). El procedimiento más común es el que, utilizando la calificación
de la prueba como medida de criterio, correlaciona las respuestas
a los reactivos individuales con las calificaciones totales obtenidas
en la prueba. Se supone que las personas que obtuvieron calificaciones
totales altas respondieron a un reactivo en forma correcta con mayor
frecuencia que aquellas que obtuvieron calificaciones totales bajas.
Si esto ocurre, el reactivo es considerado "bueno", o sea que
discrimina relativamente bien lo que se desea medir.
29
Un tercer procedimiento en el que se verifica el porcentaje de

personas que seleccionan cada una de las respuestas alternativas
de un reactivo. Las respuestas que son muy poco o nunca escogidas
deberán ser revisadas, pues indican que no contribuyen al poder
discriminativo del reactivo (Brown, 1980).
Algunos otros procedimientos también son útiles dependiendo
del objetivo y tipo de prueba como: interrelaciones entre reactivos;
interrelaciones entre reactivos y las diferentes subescalas de una
prueba; efectos de diferentes límites de tiempo, etc.
En general, estos procedimientos son realizados en dos muestras
independientes (validación cruzada) para eliminar variaciones
provenientes de errores en el muestreo.
B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA
El análisis de laprueba, como un todo, supone distintos procedimientos,

que objetivan la minimización de los efectos de variables que
pudieron intervenir en la medición. En otras palabras supone el
control de los errores.
1. Estandarización
Este proceso, también llamado por algunos autores tipificación,

implica la utilización del mismo material de prueba (o equivalente)
bajo un procedimiento uniforme de aplicación y puntuación (Anastasi,
1978). Solo así pueden compararse los resultados obtenidos por
distintos sujetos en una misma ocasión o por un mismo sujeto en
distintas ocasiones.
En primer lugar, el material de la prueba debe ser siempre el
mismo, o comprobadamente equivalente.
En segundo lugar, las condiciones de aplicación deben también
ser, en la medida de lo posible idénticas. Para tal, las instrucciones
de aplicación, las demostraciones previas, los límites de tiempo, las
formas de resolver dudas, la disposición del material, etc. deben
30
ser rigurosamente las mismas para todos los sujetos. Por ello, el
manual de una prueba debe proveer estas informaciones con el
máximo de detalles. Además, el aplicador debe cuidar aspectos
como: tono e inflexión de voz, expresión facial, reacciones verbales
del tipo "sí" o "bien" quepueden dar la connotación de "correcto",
entre otros. El ambiente de la aplicación debe proporcionar las
condiciones físicas adecuadas para que el resultado del sujeto no
se vea afectado por variables extrañas como: falta o exceso de luz,
ruidos, intervenciones, etc.
Finalmente, el procedimiento de calificación debe ser lo más
uniforme posible. Se necesita para tal un alto grado de objetividad
en la puntuación y calificación de las respuestas de los sujetos.
En pruebas que utilizan reactivos de elección múltiple es más fácil
garantizar esta objetividad. Sin embargo, los reactivos que suponen
una respuesta libre del sujeto son más vulnerables. En este caso,
es importante que el manual de la prueba proporcione indicaciones
detalladas para la asignación de calificaciones y que los calificadores
sean debidamente entrenados para esta tarea.
Otro aspecto importante de la estandarización del procedimiento
de puntuación es el establecimiento de normas. "Una norma es
la actuación media o normal" (Anastasi, 1978, p. 24) de un grupo
de personas similar al que se destina la prueba. Al aplicarse la
prueba a este grupo llamado norma de estandarización, muestra
de tipicación o grupo normativo, se obtiene el promedio de actuación
del grupo, así como los grados de desviación por arriba y por abajo
del promedio. La comparación del resultado de un sujeto con la
norma, permite determinar la posición del mismo con respecto a
este grupo. Muchas veces se necesita comparar el resultado de un
sujeto con diferentes grupos (según el sexo, la edad, el nivel de
escolaridad, la ocupación, etc.) y por lo tanto son necesarios varios
grupos normativos. Además, las normas pueden estar expresadas
en diferentes unidades de calificación: CI de desviación, percentil,
estanina, puntuación T, puntuación Z, etc. El próximo capítulo
tratará con detalles las distintas unidades de calificación.
31
2. Validez
La validez de una prueba es el grado en que ésta mide lo que se
quiere medir y solo lo que se quiere medir (Anastasi, 1978). Existen
tres procedimientos que permiten verificar la validez de una prueba.
La utilización de uno u otro depende del objetivo y tipo de prueba.
2.1. Validez de contenido
Este tipo de validez es utilizado sobre todo en pruebas de rendimiento/

aprovechamiento, aunque también se aplica a otros tipos de pruebas
psicológicas (Brown, 1980). A través de la validez de contenido
se verifica si los reactivos de la prueba realmente constituyen "una
muestra representativa del universo de las conductas o de los
contenidos" (idem, p. 154) que se quiere medir. El procedimiento
utilizado para verificar la validez de contenido de una prueba
consiste en:
1) Precisar las habilidades, conocimientos y comprensiones que
corresponden al contenido enseñado y que ha sido el objetivo de
un curso o entrenamiento.
2) Examinar cuidadosamente la prueba (muestra de tareas) para
ver qué conocimientos, habilidades y comprensiones requiere.
3) Verificar qué tanto contenido de la prueba representa el
contenido y los objetivos del curso o entrenamiento.
Una prueba válida debe estar compuesta de tareas que representen
al máximo los contenidos y metas de la enseñanza. Este procedimiento
no utiliza ningún índice cuantitativo para verificar la adecuación
de la muestra de tareas; la evaluación se da a través de un examen
detallado y cuidadoso de la misma y por lo tanto implica un proceso
de juicio y razonamiento por parte del evaluador. Brown (1980)
presenta algunos de los inconvenientes que puede presentar este tipo
de validez: a) no poder utilizar un índice cuantitativo para verificar
el grado de relación, b) distintos evaluadores pueden no estar de
acuerdo en cuanto a la validez del contenido de la prueba y c) la
falta de claridad en la precisión del dominio dificultará los juicios
32
de validez de contenido. Murphy y Davidshofer (1994) hacen además

hincapié en el hecho de que "los estudios de validez de contenido no
pueden, por ellos mismos, garantizar la validez de la medida"(p. 113).
2.2. Validez de criterio
Este tipo de validez está relacionado con la predicción de un

resultado específico futuro por ejemplo, el éxito en una futura
ocupación o en un futuro programa de capacitación. Por ello, se
aplica a pruebas utilizadas para pronosticar resultados por medidas
de criterios muy claras y definidas (e .g. tests de selección y clasificación
de personal). Se elige así una medida como criterio (e.g. desempeño
en el empleo) y se verifica cuánto la medida en la prueba (e.g. prueba
de habilidad numérica) se relaciona con la medida del criterio.
Existen varios métodos para verificar la validez de criterio. El más
utilizado supone el siguiente procedimiento:
1) Aplicar la prueba a un grupo, antes de iniciar el desempeño
en un trabajo o de ingresar en un programa de capacitación o curso.
2) Definir un criterio que sirva de valoración del éxito en el
empleo, programa de capacitación o curso y obtener más tarde,
junto al mismo grupo, una medida de este criterio.
3) Calcular la correlación entre la calificación en la prueba y
la calificación en el criterio de valoración del éxito. El coeficiente
de correlación puede variar de -1 a +1. Cuando el valor es cercano
a 0 indica que no existe correlación entre las dos medidas. Tanto
un coeficiente positivo cuanto un coeficiente negativo indican una
relación entre las medidas. Un coeficiente positivo indica que ambas
medidas varían en la misma dirección (ambas altas o ambas bajas),
mientras que un coeficiente negativo indica que si una medida es
alta, la otra es baja o viceversa. Tanto mayor es esta correlación,
más efectiva será la prueba para predecir este criterio y
consecuentemente más válida.
La gran dificultad de este procedimiento está en la elección de
un criterio adecuado de valoración. Thorndike (1975) propone
cuatro cualidades que debe tener un criterio de valoración:
33
• Adecuación - Un criterio es adecuado cuando la calificación

de éste está determinada por los mismos factores que determinan
el éxito en el trabajo/curso/tarea. No hay ninguna prueba que permita
verificar la adecuación o no del criterio. Hay que confiar en el juicio
del profesional para elegirlo.
• Exención de prejuicios - la medida del criterio debe
proporcionar, a cada persona, la misma oportunidad de obtener una
buena calificación. Por ello, debe ser exenta de prejuicios del
evaluador.
• Conflabilidad - La medida del criterio debe ser estable y
reproducible para que una prueba cualquiera pueda predecirla. Si
la medida del criterio varía de una situación a otra o de tiempo en
tiempo, ésta no podrá relacionarse con otras medidas y por lo tanto
no habrá prueba que la pueda predecir.
• Disponibilidad - En la elección del criterio debe tomarse en
cuenta los problemas prácticos de su utilización: disponibilidad,
tiempo, costo, etc.
Un segundo método para determinar la validez de criterio es ' 'ver
si las calificaciones predictoras diferencian a los grupos específicos
por su ejecución en el criterio" (Brown, 1980, p. 133). Por ejemplo,
para determinar si una prueba de habilidad numérica es un buen
predictor del éxito de alumnos en un curso de álgebra, se debe
proceder de la siguiente manera:
1) Dividir los alumnos en dos grupos: los aprobados y reprobados
en el curso de álgebra
2) Comparar las calificaciones, de esos dos grupos, en la prueba
de Habilidad Numérica para verificar si hay una diferencia
estadísticamente significativa entre sus calificaciones. El
procedimiento generalmente utilizado para verificar si la diferencia
es significativa es la obtención de la estadística t. Esta estadística
"compara la diferencia en las medias con la medida del error de
muestreo" (Brown, 1980,p. 132). Si el valor/obtenido es significativo
(según las tablas), quiere decir que los dos grupos tienen calificaciones
significativamente diferentes en la prueba. Un valor t no significativo
indica que las calificaciones de la prueba no discriminan entre los
34
grupos definidos según el criterio y consecuentemente, que la prueba

no es válida.
Un tercer método es la utilización de índices de exactitud en
la toma de decisiones (Brown, 1980). El procedimiento, en este
caso, consiste en:
1) Clasificar las calificaciones de la prueba en dos o más
categorías independientes (ejemplo: fracaso VÍ éxito o aceptable
vs inaceptable)
2) Clasificar, según las mismas categorías, las calificaciones
del criterio
3) Comparar el conjunto de datos
4) Obtener la proporción de decisiones correctas (Pdc)
Por ejemplo, el cuadro 2.1 indica las predicciones correctas
(aciertos) e incorrectas (fallas). Se consideran en el cuadro cuatro
grupos formados a través de la comparación de dos categorías de
criterio y dos categorías de la prueba predictiva (éxito vs fracaso).
CUADRO 2.1
Predicciones en las decisiones
Ejecución del criterio
Predicción de la Prueba Psicológica ÉXITO FRACASO
ÉXITO Aciertos (A) Falla (B)
FRACASO Falla (C) Aciertos (D)
Cuando los grupos obtienen éxito o fracaso en ambas medidas,

la de la prueba y la del criterio, se considera una predicción o
decisión correcta o sea un acierto (grupos A y D). Los demás
casos son considerados una falla (grupos B y C). Un índice importante
en la toma de decisiones es la proporción de decisiones correctas(P¿.)
en el total de decisiones. Esta proporción se obtiene a través de
la siguiente fórmula:
35
Los valores A, B, C y D corresponden al número de sujetos

de cada uno de los cuatro grupos y N al total de sujetos. La
proporción de decisiones correctas (Pdc) indica la exactitud de las
decisiones y puede ser utilizada como índice de validez de
la prueba.
Brown (1980) comenta sobre las variaciones en este procedimiento,
como la que supone la determinación de la calificación límite
óptima, calificación que separa a los grupos para producir el número
máximo de decisiones correctas.
2.3. Validez de construcción (o validez interna o estructural)
Este tipo de validez verifica el grado en que una prueba mide un

constructo o rasgo teórico. En realidad, no existe un índice cuantitativo
único o sólo un procedimiento de validez de construcción. La validez
se evalúa mediante un conjunto de evidencias y métodos. Brown
(1980) agrupa en cinco categorías la variedad de técnicas y
procedimientos utilizados para establecer la validez de construcción:
a) Métodos intrapruebas
En esta categoría se encuentran las técnicas utilizadas para estudiar

la estructura interna de una prueba: su contenido, los procesos
utilizados para contestar a las preguntas, la relación entre sus
reactivos, la relación entre las subescalas. Se incluyen en esta
categoría desde procedimientos de validez de contenido hasta estudios
de homogeneidad de la prueba (coeficiente alfa, coeficiente Kuder-
Richardson), que serán examinados más adelante. Estos índices
indican si la prueba mide un solo o varios rasgos.
b) Métodos interpruebas
Estos métodos están diseñados para verificar las relaciones entre

varias pruebas o sea, si éstas miden o no el mismo rasgo. Algunos
de los procedimientos utilizados son:
36
• Validez congruente - En este caso se verifica la correlación

entre las calificaciones de una nueva prueba y las obtenidas en una
otra, ya validada, que mida el mismo rasgo. Si la correlación es
alta significa que ambas pruebas miden el mismo rasgo y que pueden
interpretarse los resultados de la nueva prueba como los de aquella
ya validada.
• Validez factorial - Este es considerado uno de los tipos más
importantes de validez. Es verificada a través de un procedimiento
estadístico—el análisis factorial—que permite determinar "cuantos
factores (construcciones) se necesitan para explicar las
intercorrelaciones entre un conjunto de calificaciones de varias
pruebas" (Brown, 1980, p. 165). El análisis factorial permite
obtener: 1) el número de factores que explican las intercorrelaciones
entre las pruebas, 2) los factores que componen cada prueba y 3)
la cantidad de varianza en las calificaciones de las pruebas que
explican los factores. Así, pueden determinarse las pruebas que
comparten una varianza común y que por lo tanto miden el mismo
factor o sea la misma construcción. Además, la proporción de
varianza total en las calificaciones de la prueba que es atribuida
al factor, puede ser utilizada como índice de validez de construcción.
• Validez discriminante - En este caso el objetivo es verificar
que las calificaciones de una nueva prueba no se correlacionen con
las obtenidas en otras pruebas que miden otros rasgos distintos.
Se demuestra así que la medida de esta nueva prueba es independiente
de la medida de otras construcciones o rasgos.
c) Estudios relacionados con criterios
Este método se basa en la predicción acerca de diferencias entre

grupos, naturalmente separados o diseñados experimentalmente.
Por ejemplo, una teoría sugiere que algunas clases de grupos deben
obtener puntuaciones elevadas o bajas respecto al rasgo medido
por una nueva prueba. Al aplicársela se verificará cuanto las
calificaciones en esta prueba separan a estos grupos, o sea pueden
predecir las diferencias entre ellos.
37
d) Manipulación experimental
En este procedimiento se manipula experimentalmente una variable

y se observa sus efectos sobre las calificaciones de la prueba o la
relación de éstas con algún criterio. Por ejemplo, una teoría puede
sugerir que la expresión de un rasgo o conducta se modificará a
consecuencia de algunas condiciones o tratamientos experimentales.
Se aplica entonces la nueva prueba en la condición experimental
para verificar si las modificaciones previstas ocurren. Sería el caso
de aplicarse una prueba de ansiedad a personas que están por
someterse una operación quirúrgica para verificar si esta prueba
puede detectar el nivel de ansiedad que supuestamente debe encontrarse
aumentado por la inminencia de la cirugía.
e) Estudios de capacidad de generalización
Según Brown (1980) se encuentran en esta categoría los estudios

que "analizan sistemáticamente la prueba sobre una gama de
condiciones o dimensiones —por ejemplo— en una variedad de
poblaciones (transferibilidad) o con diferentes condiciones de
administración"(p. 167). El explica con detalles el método propuesto
por Campbell y Fiske llamado Matriz de Multirasgo y Multimétodo.
Este procedimiento consiste básicamente en examinar las correlaciones
entre los mismos rasgos medidos por diferentes métodos (validez
convergente) y las correlaciones entre diferentes rasgos, medidos
por un mismo método (validez discriminante).
3. Confiabilidad
La confiabilidad es el "grado de consistencia de las

mediciones "(Brown, 1980, p.80). Es la consistencia de las
puntuaciones obtenidas por los mismos sujetos cuando son
examinados con la misma prueba o una forma paralela de ésta,
en diferentes ocasiones.
38
Toda medida implica un cierto error. El objetivo de una prueba

psicológica es reducir, al mínimo, el error de medición. Al reducirlo
se eleva el nivel de confíabilidad de la prueba.
Thorndike (1975) apunta cuatro fuentes principales de error que
resultan de:
1) Variaciones surgidas dentro del procedimiento mismo de medición,
que pueden estar relacionadas con las condiciones de aplicación de la
prueba, tales como: la situación física, las instrucciones, los errores
en el registro de tiempo, los factores de distracción, etc.
2) Variaciones en el sujeto mismo, a corto plazo (salud, atención,
motivación, ansiedad, experiencia con la prueba, etc.) o a largo
plazo (maduración, aprendizaje, cambios en su ambiente, etc.).
3) Variaciones procedentes de la muestra específica de tareas
(reactivos) elegidas para representar el área de la conducta que
mide la prueba.
4) Variaciones en la velocidad de trabajo del sujeto.
Existen diferentes procedimientos para examinar la cantidad de
error en la medición, o sea, estimar el grado de consistencia de
la misma. Brown (1980) diferencia dos tipos de consistencia, que
aunque están relacionados, considera útil separar para fines didácticos.
La confiabilidad verifica la consistencia de la medida a través del
tiempo (estabilidad) y a lo largo de formas equivalentes de la prueba
(equivalencia). La homogeneidad o consistencia interna verifica
si todos los reactivos de la prueba miden o no el mismo rasgo.
Serán analizados, por separado, los distintos procedimientos.
3.1. Procedimientos para verificar la confiabilidad de una prueba

psicológica
Existen diferentes procedimientos que permiten verificar el nivel

de confiabilidad de una prueba psicológica:
a) Repetición de la misma prueba (Test/Retest)
Este procedimiento consiste en aplicar la misma prueba dos veces.

39
La medida de confiabilidad es la correlación entre las calificaciones

obtenidas en la primera aplicación y en la reaplicación. Esta medida
se denomina coeficiente de estabilidad. Este procedimiento puede
ser realizado de dos maneras distintas:
• Sin intervalo de tiempo entre las dos mediciones, o sea, la
reaplicación es realizada en seguida de la aplicación. En este caso
son controlados dos tipos de errores provenientes de: (a) variaciones
en el procedimiento mismo de medición y (b) variaciones en la
velocidad de trabajo del sujeto.
• Con intervalo de tiempo entre las dos mediciones, o sea, la
reaplicación se hace después de cierto tiempo, que puede ser de
días o de años. Tres errores son controlados en este procedimiento,
que resultan de: (a) variaciones en el procedimiento mismo de
medición, (b) variaciones en el sujeto de una vez a otra y (c)
variaciones en la velocidad de trabajo del sujeto.
Este tipo de procedimiento no debe ser utilizado en el caso de
rasgos que sean, por principio, inestables o cuando se produzca algún
tipo de aprendizaje diferencial entre las dos aplicaciones (por ejemplo
un programa de estudios o entrenamiento). Otro problema es el del
efecto de la práctica, sobre todo cuando la aplicación y reaplicación
son realizadas sin intervalo de tiempo o con un intervalo muy corto
entre las dos. En este caso "algunas personas pueden recordar sus
respuestas o aprender algo sobre la técnica de pasar una prueba"
(Brown, 1980, p. 85).
b) Aplicación de formas paralelas (o equivalentes) de la prueba
Para este procedimiento hay que disponer de formas equivalentes

de la prueba, que sigan la misma especificación pero que sean
compuestas de muestras separadas de la conducta que se pretende
medir. Las formas paralelas deben por tanto cubrir el mismo
contenido, utilizar el mismo número de reactivos y poseer el mismo
grado de dificultad. La medida de confiabilidad es la correlación
entre las puntuaciones obtenidas en las dos formas de la prueba.
40
Este procedimiento también puede ser realizado de dos maneras:

• Sin intervalo de tiempo entre la aplicación de las dos formas
equivalentes de la prueba. En este caso la correlación entre las dos
medidas ofrece un coeficiente de equivalencia. Los tipos de errores
tomados en cuenta son los que provienen de: (a) variaciones en el
procedimiento mismo de medición, (b) variaciones en la velocidad de
trabajo del sujeto y (c) variaciones procedentes de la muestra de tareas.
• Con intervalo de tiempo entre la aplicación de las dos formas
paralelas de la prueba. La correlación entre las dos medidas ofrece,
en este caso, un coeficiente de estabilidad y equivalencia. Con
este procedimiento puede controlarse los cuatro tipo de errores
mencionados anteriormente, que provienen de: (a) variaciones en
el procedimiento mismo de medición, (b) variaciones en el sujeto
de una vez a otra, (c) variaciones en la velocidad de trabajo y (d)
variaciones procedentes de la muestra de tareas.
El procedimiento que utiliza la aplicación de formas paralelas
con intervalo de tiempo es el que proporciona el coeficiente de
confiabilidad más preciso y riguroso pues permite controlar las
distintas fuentes de error. Por esta misma razón el provee el
coeficiente de confiabilidad más bajo. Sin embargo, él plantea
problemas prácticos importantes, puesto que exige que se disponga
de dos formas paralelas de la prueba y del tiempo necesario para
aplicárselas por separado.
c) Confiabilidad por mitades
Este procedimiento, también llamado de test subdivide (split half),

es el más ampliamente utilizado para estimar la confiabilidad a
partir de una sola administración de la prueba (Thorndike, 1975).
Según Murphy y Davidshofer (1994), este procedimiento soluciona
los dos problemas prácticos del método de formas paralelas: la
dificultad de desarrollar formas paralelas y la necesidad de tiempo

para las aplicaciones.
41
Para realizarlo se aplica la prueba y después se divide en dos

mitades supuestamente equivalentes y equilibradas en relación al
contenido y nivel de dificultad. Para la división puede precederse
de distintas maneras. La más común es la que utiliza los reactivos
pares, en una de las formas, y los impares en la otra. Sin embargo,
este tipo de división no puede ser manejada cuando existe alguna
desviación sistemática en la prueba como por ejemplo, los tipos
alternativos de reactivos o reactivos en que la respuesta depende
de la anterior (Brown, 1980).
La correlación entre las calificaciones de las dos mitades de la
prueba proporciona una estimación de la confiabilidad. Mientras
tanto, como cada conjunto de calificaciones está basado en la mitad
de los reactivos de la prueba original completa y la confiabilidad
de una prueba depende de su longitud, la correlación entre las dos
mitades proporciona una estimación de la confiabilidad inferior a
la que podría esperarse de la prueba original. Para estimar la
confiabilidad de la prueba original completa se utiliza la siguiente
fórmula, propuesta por Spearman-Brown:
en d o n d e c o n f i a b i l i d a d de la prueba original completa

correlación entre las mitades de la prueba
Este procedimiento toma en cuenta solamente dos tipos de errores

provenientes de variaciones en el procedimiento mismo de medición
y variaciones procedentes de la muestra de tareas. Además, presenta
algunas limitaciones como: (a) dos medias pruebas pueden ser más
semejantes que dos formas paralelas separadas; por ejemplo, cuando
los reactivos están basados en un mismo material de referencia —
texto, experimento— pueden provocar distorsiones en el coeficiente
de confiabilidad y (b) este tipo de coeficiente no tiene significado
en pruebas de tiempo limitado donde influya la rapidez; el factor
42
velocidad tenderá a inflar el coeficiente de confiabilidad (Brown,

1980).
Sin embargo, la utilización de este procedimiento presenta ventajas
prácticas importantes relacionadas a la aplicación de un mismo
material de prueba, sólo una vez. Hay que tomarse también en cuenta
que cuanto mayor sea la muestra de conducta de la persona, tanto
más confiable será la medida. Además, entre mayor sea la muestra
de conducta registrada menos dependerá la medida de elementos
fortuitos en la conducta del sujeto o en la muestra específica de
tareas. Por ello, la utilización de un gran número de reactivos es
un medio utilizado para garantizar la confiabilidad de una prueba.
3.2. Interpretación de coeficientes de confiabilidad
Brown (1980) propone tres modos de interpretación de los coeficientes

de confiabilidad:
• Correlación entre calificaciones reales y obtenidas - Se
puede interpretar un coeficiente de confiabilidad tomando como
base que la proporción de la variancia en las calificaciones obtenidas
representa la variación de las calificaciones reales. Por ejemplo
si r = 0.80, entonces 80% de la variabilidad en las calificaciones
obtenidas se debe a diferencias en las calificaciones reales y 20%
se debe a errores de medición.
• Comparación con la confiabilidad de otras pruebas - Este
es un criterio muy utilizado para decidir si la prueba puede o no
ser considerada confiable. En este caso se compara el coeficiente
de confiabilidad de la prueba con el nivel de confiabilidad de pruebas
similares ya existentes.
• Errores en las calificaciones individuales - Puede interpretarse
el coeficiente de confiabilidad evaluando el cambio que podrá pasar
en la calificación de un sujeto al volver a contestar la prueba. Para
eso hay que verificar cuál es el error estándar de la medición.
Thorndike (1975, p. 204) presenta un cuadro del error estándar
de medición para diferentes valores del coeficiente de confiabilidad.
43
Es importante en la interpretación de un coeficiente de confiabilidad

tener en mente que éste es específico de la muestra utilizada, de
la situación de prueba y del método utilizado para su cálculo. Por
eso hay que verificar la confiabilidad de una prueba en una gran
variedad de situaciones y con diferentes muestras y procedimientos.
3.3. Procedimientos para verificar la homogeneidad de una

prueba psicológica
Los procedimientos para verificar la homogeneidad o consistencia

interna de una prueba buscan determinar el grado de las relaciones
recíprocas entre los reactivos que la componen. Brown (1980, p.
102) afirma que "se puede definir la homogeneidad como la
consistencia en la ejecución de todos los reactivos de una prueba
psicológica". Una correlación positiva entre las calificaciones de
los distintos reactivos de una prueba indica que ésta es homogénea.
Si la prueba está compuesta de subpruebas heterogéneas, se procede
al estudio de la homogeneidad de cada subprueba, cuyos reactivos
deben por tanto ser homogéneos.
Los procedimientos más comunes para verificar la homogeneidad
o consistencia interna de una prueba son:
a) Coeficiente alfa
Este coeficiente, propuesto por Cronbach (1951), es utilizado con

bastante frecuencia . Su utilización es limitada a las pruebas cuyos
reactivos no son calificados de forma dicótoma (correcto o incorrecto).
Su fórmula es:
44
en d o n d e : n ú m e r o de reactivos de la prueba
sumatoria
desviación estándar de cada reactivo
desviación estándar de la prueba
b) Fórmula de Kuder - Richardson (KR-20)
Esta fórmula, propuesta por Kuder y Richardson en 1937, es

utilizada cuando se califican los reactivos de la prueba de forma
dicótoma y suele ser considerada como un caso especial del coeficiente
alfa:
en donde:
número de reactivos de la prueba
desviación estándar de la prueba
sumatoria
proporción de individuos que contestan bien un reactivo
1- p= proporción de individuos que fallan en este reactivo
Esta fórmula no se aplica a pruebas psicológicas de velocidad

pues, para el cálculo del componente Σ pq, es necesario que cada
reactivo sea probado por todas las personas, lo que no siempre
ocurre en las pruebas de velocidad.
Estos mismos autores propusieron una segunda fórmula
(KR-21) que supone que todos los reactivos de la prueba
tienen el mismo grado de dificultad. Esta fórmula es menos
utilizada puesto que tal situación raramente ocurre.
c) Análisis factorial
Este procedimiento es uno de los más utilizados y en general es

considerado como el mejor por varios autores (Brown, 1980).
45
Mientras tanto, es un proceso complejo que supone la utilización

de varios métodos de cálculo. Estos métodos utilizan la matriz de
intercorrelaciones entre los reactivos de la prueba y permiten
verificar si existe un único factor o varios que expliquen estas
intercorrelaciones. Si existe un sólo factor la prueba es considerada
homogénea. Si son varios factores que explican las intercorrelaciones
significa que, aunque la prueba es heterogénea, existen subpruebas
compuestas por conjuntos de reactivos homogéneos. Este
procedimiento permite también detectar los reactivos que no tienen
relación con el factor principal, ni con ninguno de los factores que
componen la prueba.
Finalmente, todos los puntos discutidos en este capítulo deben
ser examinados cuando se pretende utilizar una determinada prueba
psicológica para estar seguro, no sólo de sus cualidades métricas,
sino también de sus límites. Todo manual de prueba debe proveer
información suficiente sobre estos aspectos y todo psicólogo debe
saber cómo interpretarlos.
Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión)

Bacher, F. (1981). Les etiquetes en Psychologie. Tesis inédita
de Doctorado en Psicología, Université de París V, París
Brown, F.G. (1980). Principios de medición en Psicología y
Educación. México D.F.: Editorial El Manual Moderno.
Cronbach, L.J. (1951). Alpha and the internal structure of tests.
Psychometrika, 16, 297-334.
Murphy, K. R. y Davidshofer, CO. (1994). Psychological Tes-
ting - Principles Applications. New Jersey: Prentice Hall.
Thorndike, L. R. Y Hagen, E. (1973). Tests y técnica de medi-
ción en psicología y educación. México: Editorial Trillas.
46
CAPITULO III
UNIDADES DE CALIFICACIÓN DE LAS
PRUEBAS PSICOLÓGICAS
Las respuestas de un individuo a una prueba psicológica
determinan su calificación bruta, también llamada original
o directa. Esta calificación carece de significado si no es
comparada a una norma, o sea a la ejecución promedio de
un grupo de individuos. Esta comparación permite determinar
la posición exacta del individuo con respecto a este grupo.
Para tal, las calificaciones brutas son transformadas, mediante
diferentes procedimientos estadísticos, en calificaciones
derivadas (o transformadas o ponderadas). Las calificaciones
derivadas tienen como objetivo fundamental propiciar la
comparación de las calificaciones obtenidas en diferentes
pruebas, expresándolas en un mismo tipo de unidad.
Existen varios tipos de puntuaciones derivadas, que suponen
diferentes procedimientos estadísticos para su obtención.
Anastasi (1978) las clasifica en tres tipos principales: de
edad o cronológicas, percentiles y típicas.
Para comprender e interpretar estas calificaciones se
requiere de nociones básicas de estadísticas como: media,
mediana, moda, desviación estándar, curva normal y rango.
No es objetivo de este manual aportar este tipo de información,
que puede ser encontrada en cualquier libro de estadística.
A. PUNTUACIONES DE EDAD
1. Cociente intelectual de razón (CI)
El CI de razón se empleó por primera vez en la forma del

47
Stanford-Binet de 1916, aunque su idea surgió anteriormente

con Stern y Kuhlmann. La fórmula para obtenerlo es:
donde: EM= edad mental

EC= edad cronológica
La edad mental es el nivel de edad que corresponde a la

calificación recibida por el niño en la ejecución de la prueba.
Por ejemplo, un niño de 8 años que obtiene una puntuación
que corresponde a la puntuación promedio de los niños de
10 años, posee una edad mental de 10 años.
El CI de razón fue muy utilizado en las primeras pruebas
de inteligencia, lo que ya no ocurre actualmente, debido a
sus limitaciones e inconvenientes. Algunos de éstos son: (a)
las normas de edad dejan de tener un significado claro cuando
utilizadas con adultos normales o superiores, (b) la distribución
de los CI proporciona desviaciones estándar variables (de 12
a 20 puntos) según la edad (Terman y Merril, 1937 en Brown,
1980), lo que no permite comparar, de manera confiable, CI
obtenidos a distintas edades, (c) el CI no es aplicable a las
funciones que no muestran un cambio claro y consistente con
la edad.
2. Cociente educacional
Este cociente, aplicado a las pruebas de rendimiento escolar,

se obtiene de manera similar al cociente intelectual, pero en
este caso se utiliza la edad educacional en lugar de la edad
mental. Su fórmula es: CE = EE x 100 / EC.
El cociente educacional posee las mismas limitaciones del
CI y por lo tanto " n o se pueden hacer comparaciones entre
una materia y otra, aun cuando las pruebas hayan sido
estandarizadas con el mismo grupo" (Morales, 1993, p. 65).
48
B. RANGOS PERCENTILES
Este tipo de puntuación derivada es una de las más utilizadas

por su facilidad de interpretación. Esta se expresa en función
del porcentaje de personas del grupo normativo, que obtienen
calificaciones más bajas. Así, un percentil de 65 indica que
6 5 % de los sujetos del grupo normativo obtuvieron
calificaciones inferiores. Es importante no confundir el uso
del porcentaje de personas, en el caso del percentil, con la
idea de porcentaje de respuestas correctas. En otras palabras,
un percentil de 65 no significa que el sujeto respondió
correctamente a 65% de los reactivos, sino que 65% de los
sujetos obtuvieron calificaciones inferiores a la suya. La
forma gráfica utilizada para expresar los rangos percentiles
es llamada ojiva.
La obtención de los rangos percentiles supone el siguiente
procedimiento:
1) Ordenar las calificaciones brutas obtenidas por el grupo
normativo de la menor hasta la mayor.
2) Calcular la frecuencia de cada calificación
3) Calcular la frecuencia acumulada (F A) a cada aplicación,
sumando la frecuencia de la calificación más baja con la
frecuencia de la calificación siguiente y así sucesivamente
hasta la calificación más alta.
4) Determinar el punto medio de cada frecuencia acumulada
(FA ). Para la FA más baja, se añade a ésta un cero y se
divide entre dos. El resultado es el punto medio de esta FA.
En seguida se pasa a la FA siguiente, a la cual se suma la
FA más baja, dividiendo el resultado entre dos. Se sigue este
procedimiento hasta la FA más alta.
5) Convertir la frecuencia acumulada a cada punto medio
(FApm) a porcentaje acumulada a cada punto medio (PApm),
a través de la fórmula: P A p m = 100 x FApm / N, donde N
es el número total de casos.
49
6) Hallar los rangos percentiles, convirtiendo los valores

de los PApm a números enteros, a excepción del 1 para el 0
y del 99 para el 100.
La tabla 3.1. ofrece un ejemplo de este procedimiento,
utilizando los resultados, en una prueba, de una muestra de
100 personas.
Así, puede decirse que un sujeto que obtuvo una calificación
bruta de 34 está situado en el rango percentil 80, lo que
significa que 80% de los sujetos obtuvieron calificaciones
inferiores a la suya en la prueba y 20%, calificaciones
superiores.
TABLA 3.1
Obtención de rangos percentilares
21 2 2 1.0 1.0 1
22 2 4 3.0 3.0 3
23 6 10 7.0 7.0 7
24 3 13 115 11.5 11
25 5 18 15.5 15.5 15
26 5 23 20.5 20.5 20
27 7 30 26.5 26.5 26
28 6 36 33.0 33.0 33
29 8 44 40.0 40.0 40
30 13 57 50.5 50.5 50
31 7 64 60.5 60.5 60
32 6 70 67.0 67.0 67
33 7 77 73.5 73.5 73
34 6 83 80.0 80.0 80
35 4 87 85.0 85.0 85
36 3 90 88.5 88.5 88
37 5 95 92.5 92.5 92
38 2 97 96.0 96.0 96
39 2 99 98.0 98.0 98
40 1 100 99.5 99.5 99+
50
La gran ventaja de los percentiles es la facilidad de su

cálculo e interpretación. Además, pueden ser empleados con
niños y adultos y con distintos tipos de tests (aptitud,
inteligencia, personalidad).
Mientras tanto, presentan dos limitaciones importantes
(Brown, 1980). Primero, por ser una escala ordinal, sus
valores no se pueden sumar, restar, multiplicar o dividir, lo
que impide la utilización de ciertos análisis estadísticos.
Segundo, presentan una distribución rectangular, en las que
las puntuaciones brutas, en general, se aproximan de la curva
normal, lo que provoca que: (a) las diferencias de las
puntuaciones brutas, próximas al centro de la distribución, se
exageren en la transformación a percentil y (b) las diferencias de
las puntuaciones brutas, cerca de los extremos de la distribución,
se reduzcan considerablemente en la transformación a percentil.
Con eso, los rangos percentilares pueden, a veces, ser mal
interpretados. Anastasi (1978, p.55), advierte: "los percen-
tiles presentan un cuadro correcto de la posición relativa de
cada individuo en el grupo normativo, pero no de la cuantía
de la diferencia entre su puntuación y la de otra persona".
Para resolver esta limitación algunas pruebas como el D. A.T.
(Test de Aptitud Diferencial) utilizan, para presentar los
resultados en percentiles, un papel probabilístico aritmético
que proporciona una representación visual correcta de las
diferencias entre las puntuaciones de las distintas subescalas.
Este papel es " u n papel cuadriculado en el cual las líneas
verticales se encuentran espaciadas de la misma forma que
los percentiles en una distribución normal..., mientras que
las líneas horizontales se encuentran uniformemente
espaciadas, o viceversa" (ídem, p.55).
C. CALIFICACIONES TÍPICAS (o estándar)
Este tipo de puntuación es muy utilizado en pruebas
51
psicológicas por sus ventajas, principalmente por la de ser

una escala de intervalo y permitir, por lo tanto, la realización
de varios análisis estadísticos.
Las calificaciones típicas expresan, en unidades de
desviación estándar, la distancia del sujeto con respecto al
promedio del grupo.
1. Calificaciones típicas lineales
Estas calificaciones son obtenidas a través de una

transformación lineal de las calificaciones brutas. Por eso,
muestran la misma estructura de la distribución de las
calificaciones brutas.
1.1. Calificación z
La calificación típica lineal básica es la calificación z. Su

fórmula es:
z = X - X
S
donde: X= calificación del sujeto

X= promedio de la calificación de la muestra
s = desviación estándar de esta muestra
La calificación z se expresa en una escala que tiene una

media de 0 y una desviación estándar de 1. El valor de z indica
la distancia en que se encuentra la calificación bruta del
promedio. Si z tiene un signo positivo indica que la calificación
bruta está arriba del promedio, mientras que un z negativo
indica que la calificación bruta está abajo del promedio. En
una distribución normal z varia aproximadamente de -3 a +3.
52
Para evitar los valores negativos y decimales proporcionados

por la calificación z, se han diseñado otras calificaciones
estándar lineales, obtenidas a partir de ésta, a través de una
nueva transformación lineal. Para convertir la calificación
z a la nueva escala se multiplica aquélla por la desviación
estándar deseada y a este resultado se añade la media deseada.
En seguida serán presentadas algunos tipos de calificaciones
que utilizan este procedimiento.
1.2. Calificación T
En estas calificaciones se considera una media de 50 y una

desviación estándar de 10, lo que proporciona la siguiente
fórmula:
T = l0z + 50
1.3. Calificaciones AGCT
Estas calificaciones fueron originalmente usadas en la prueba

de inteligencia general ARMY (Army General Classification
Test), de donde proviene su denominación. Esta prueba fue
utilizada para seleccionar soldados para la Primera Guerra
Mundial. En esta situación la media fue de 100 y la desviación
estándar de 20. Por eso su fórmula es:
AGCT = 20z + 100
1.4. Calificaciones CEEB
La sigla utilizada para denominar estas calificaciones proviene del

College Entrance Examination Board, donde éstas fueron utilizadas
por primera vez. En este caso, se considera una media de 500 y
una desviación estándar de 100. Su fórmula es:
53
CEEB = l00z + 500
1.5. CI de desviación estándar (CIs)
Estos CI, muy distintos de los CI originales, basados en la

relación entre edad mental y edad cronológica, son otro tipo
de puntuación típica con una media de 100 y una desviación
estándar próxima a la de la distribución de la prueba de
inteligencia Stanford-Binet (revisión de 1960). En el caso de
esta revisión la desviación estándar obtenida fue de 16 y por
lo tanto la fórmula del CI de desviación proporcionada por
esta prueba es:
CIs = 16z + 100
Mientras tanto, se ha observado que la desviación estándar

puede variar de una prueba a otra, aunque se utilice la misma
unidad de medida. Por ejemplo, la desviación estándar de las
pruebas de inteligencia Wechsler (WAIS, WISC, WPPSI) es
de 15, y la fórmula del CI obtenido con estas pruebas es:
CIs = 15z + 100
Por eso, hay que tener cuidado al comparar los CI de

desviación de pruebas diferentes. Estos, sólo pueden ser
comparados cuando emplean valores iguales o muy parecidos
de desviación estándar. Por ejemplo, al interpretar los resultados
de un niño que, a los 8 años, obtuvo un CI de desviación de
124 en una prueba cuya desviación estándar es de 12 y que,
a los 10 años, obtuvo un CI de desviación de 136 en una prueba
cuya desviación estándar es de 18, se puede erróneamente
pensar que este niño ha desarrollado su capacidad intelectual
en este periodo. En realidad, los dos CI resultan de una misma
calificación z (+2), como indican las operaciones abajo,
representando así la misma medida de la capacidad intelectual.
54
12 x (+2) + 100 = 124 18 x (+2) + 100 = 136
El inconveniente de las puntuaciones típicas lineales se

presenta cuando se necesita comparar puntuaciones obtenidas
en diferentes pruebas. Estas, solamente podrán ser utilizadas
cuando la forma de la distribución de las puntuaciones de
las distintas pruebas es similar. Para poder comparar
puntuaciones obtenidas en distribuciones de forma distinta,
se emplean transformaciones no lineales, como las
calificaciones típicas normalizadas.
2. Calificaciones típicas normalizadas
Estas calificaciones "están expresadas en función de una

distribución que se ha transformado para que se adapte a una
curva normal" (Anastasi, 1978, p. 57) y son calculadas a
través del siguiente procedimiento:
1) Ordenar las calificaciones brutas
2) Hallar la frecuencia de cada calificación
3) Calcular la frecuencia acumulada a cada calificación (FA)
4) Determinar el punto medio de la frecuencia acumulada
de cada calificación (FApm)
5) Convertir la frecuencia acumulada a cada punto medio
a porcentaje acumulada (PApm)
6) En el cuadro de zonas de la curva normal 1 , hallar la
calificación z correspondiente a cada porcentaje acumulado.
Las cinco primeras etapas de este procedimiento son idénticas
a las utilizadas en el cálculo de rangos percentiles (ver tabla
3.1). Las calificaciones típicas normalizadas también pueden
ser transformadas a otras escalas, utilizando cualquier media
y cualquier desviación estándar arbitraria.
1
Este cuadro puede ser encontrado en diversos manuales de estadística.
55
2.1. Calificaciones T escaladas

Se utilizan los mismos valores usados en la calificación T, media
de 50 y desviación estándar de 10, entonces, T = l0z + 50
2.2. CI de desviación
La media utilizada es de 100 y la desviación estándar puede

ser establecida por el autor de la prueba, siendo, en general,
cercana de 16. Por ejemplo: CI = 16z + 100.
2.3. Calificaciones estaninas
La escala estanina es una calificación estándar de 9 intervalos,

con una media de 5 y una desviación estándar de 2. Para
convertir las puntuaciones brutas en estaninas debe procederse
de la siguiente manera:
1) Disponer las puntuaciones brutas por orden de tamaño.
2) Calcular el número de casos correspondientes a cada
estanina, de acuerdo con los porcentajes de la curva normal,
como indica la tabla 3.2. Por ejemplo, si el grupo es de 100
personas, a las cuatro de puntuaciones más bajas se atribuye
la estanina 1, a las siete siguientes, la estanina 2 y así
sucesivamente.
TABLA 3.2
Porcentaje de la curva normal utilizada para la conversión a estaninas
Porcentaje 4 7 12 17 20 17 12 7 4
Estanina 1 2 3 4 5 6 7 8 9
2.4. Calificaciones estén
Son similares a las anteriores, siendo que en este caso son

diez unidades estándar (1-10). "Tienen cinco unidades
56
normalizadas de cada lado de la media y poseen media desviación

estándar de amplitud, excepto en los extremos 1 y 10 que son
abiertos" (Morales, 1993, p. 62). El procedimiento de obtención
es análogo al de las estaninas, aunque los porcentajes asignados
son diferentes.
2.5. Calificaciones C escaladas
También similares a las dos últimas, pero tienen once unidades

estándar, con valores de 0 a 10. Son obtenidas de modo
similar, pero los porcentajes se distribuyen diferente.
Las calificaciones típicas normalizadas son las que mejor
se aplican a la mayoría de los casos. Mientras tanto, Anastasi
(1978) hace énfasis en las objeciones técnicas provenientes
de la normalización de distribuciones. Según ella, este tipo
de calificaciones debe ser solamente utilizado cuando la
muestra es grande y representativa y cuando existen motivos
para creer que la desviación de la normalidad proviene de
defectos en la prueba y no de la muestra o de otros factores
que afecten la conducta medida.
D. TABLAS DE NORMAS DE CALIFICACIÓN
Los manuales de pruebas deben ser siempre acompañados

de tablas de normas de calificación que permiten ubicar la
ejecución de un individuo dentro de un grupo o de diferentes
grupos ( por sexo, por edad, por grado, etc.). Estas tablas
pueden ser construidas a partir de diferentes tipos de
calificaciones: normas de edad, normas percentilares, normas
de calificaciones típicas, etc.
Una tabla de normas deberá contener las calificaciones
brutas y sus correspondientes calificaciones derivadas y ser
acompañada de la descripción de la muestra de sujetos a
partir de la cual fue elaborada.
57
Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión).

y Educación. México D.F.: Editorial El Manual Moderno.
Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a reimpresión).
México D.F.: Editorial Trillas.
SEGUNDA PARTE
INTELIGENCIA
II I I .1 I I 11
CAPITULO IV
LA INTELIGENCIA
A. LA DEFINICIÓN DE INTELIGENCIA
lVluchos teóricos como Binet, Spearman, Thurstone, Guilford,

Piaget, Wechsler, entre otros, propusieron definiciones para el
concepto de inteligencia. Dorsch (1976), en su Diccionario de
Psicología, señala que la mayoría de las definiciones apunta como
característica principal de la inteligencia ''la capacidad de orientarse
en situaciones nuevas a base de comprensiones, o de resolver tareas
con la ayuda del pensamiento, no siendo la experiencia lo decisivo,
sino mas bien la comprensión de lo planteado y de sus relaciones"
(p. 506).
Pueden distinguirse tres enfoques teóricos en la medida de la
inteligencia (Aubret y col., 1991):
1. El enfoque empírico
Se basa en una definición amplia de la inteligencia, próxima a la

del sentido común. Está representado en las primeras pruebas de
inteligencia (Binet-Simon), que fueron construidas a partir de la
experiencia práctica, sobre todo con el objetivo de diagnóstico o
de resolver dificultades escolares (ver capítulo I).
2. El enfoque factorial
El método estadístico de análisis factorial, introducido por Spearman

en 1904, ha permitido grandes avances en la investigación y
medición de la inteligencia.
61
La Teoría de los Dos Factores o Teoría Bifactorial,

formulada por Spearman, fue el primero de los modelos que
representaran al enfoque factorial. Esta teoría señala que
todas las habilidades del hombre tienen un factor común
(factor g) y uno específico a cada una de ellas (factor e). El
factor g, de inteligencia general, es intraindividualmente
constante e interindividualmente variable. El factor e, es
variable intra e interindividualmente, por lo tanto es específico
de cada habilidad particular (Raven, 1987). Varias pruebas
fueron pues construidas para medir, lo mejor posible el factor
g, como es el caso de la Prueba de Matrices Progresivas de
Raven y del Test de Dominós de Anstey.
Otro modelo, el multifactorial, defendido principalmente
por Thurstone, considera que la inteligencia es compuesta por
un número limitado de habilidades primarias llamadas factores
de grupo, sin que resulte necesaria la existencia de un factor
común. Sin embargo, la verificación de que estos factores de
grupo son sólo relativamente independientes llevó a la idea
de que la correlación entre dos de estos factores implica la
existencia de un factor general, que la correlación entre dos
factores generales implica otro factor más general, etc. La
inteligencia, en este caso, es concebida como un conjunto de
factores distribuidos jerárquicamente de la siguiente manera:
uno o más generales, algunos de grupo y varios específicos.
El modelo tridimensional de Guilford (1956, 1967, 1970)
considera que la estructura intelectual es compuesta de
habilidades que son clasificadas de tres maneras: (a) en términos
de operaciones: cognición, memoria, pensamiento divergente,
pensamiento convergente o evaluación; (b) en término de
contenidos de estas operaciones: figurativo, simbólico
semántico o conductual; (c) en término de producto: unidades,
clases, relaciones, sistemas, transformaciones o implicaciones.
Cuando se combinan las tres clasificaciones se obtiene un
modelo cúbico, con 120 celdillas (5 operaciones X 4 contenidos
X 6 productos), cada una de las cuales representa una habilidad.
62
La mayoría de estas habilidades ya ha sido demostrada en

investigaciones (Guilford y Hoepfner, 1971).
3) El enfoque genético
Este enfoque tiene origen en la teoría de Jean Piaget. Según

este autor " l a inteligencia constituye el estado de equilibrio
hacia el cual tienden todas las adaptaciones sucesivas de
orden sensomotor y cognoscitivo, así como todos los
intercambios asimiladores y acomodadores entre el organismo
y el medio" (Piaget, 1972, p.23). Según Ginsburg y Opper
(1977) el concepto de inteligencia propuesto por Piaget supone
"una serie de adaptaciones biológicas, un equilibrio entre
el individuo y el medio ambiente, una evolución gradual y
una actividad mental"(p. 13). Piaget no se preocupa en
describir las diferencias individuales, ni el nivel medio de
funcionamiento cognoscitivo, pero sí el nivel óptimo en una
determinada etapa del desarrollo.
Piaget (1972) toma en cuenta tres aspectos en su concepción
de la inteligencia: el contenido, la función y la estructura.
El contenido, uno de los aspectos más sencillos del
pensamiento, es el que el individuo expresa en un determinado
momento. La estructura está representada, de un lado, por
los factores biológicos hereditarios, las estructuras físicas
(ejemplo: el sistema nervioso) y las reacciones conductuales
automáticas (ejemplo: los reflejos) y del otro, por las
estructuras psicológicas, estructuras organizadas de conducta
que no pueden ser explicadas completamente por lo hereditario
pues se basan en alguna experiencia (ejemplo: esquema de
chupar el dedo). La función se refiere a los principios generales
de funcionamiento que afectan la inteligencia: la organización
y la adaptación. La organización es " l a tendencia que tienen
todas las especies a sistematizar u organizar sus procesos
en sistemas coherentes que pueden ser físicos o psicológicos
63
(p. 16). La adaptación, que implica la interacción del individuo

con su medio ambiente, es descrita en función de dos procesos
complementarios: la asimilación y la acomodación. En el
primero, el individuo utiliza sus estructuras para incorporar,
asimilar, elementos del medio ambiente. En el segundo, el
individuo modifica o acomoda su estructura para enfrentarse
a las exigencias del medio.
Finalmente, el individuo tiende a buscar un equilibrio con
el medio ambiente, utilizando para este fin las funciones de
organización y adaptación. A lo largo de las diferentes etapas
del desarrollo intelectual, son utilizadas distintas estructuras
psicológicas, con el objetivo de alcanzar una mayor eficacia
en la interacción con la realidad.
Piaget nunca se preocupó en estandarizar las pruebas que
construyó para estudiar las estructuras lógicas del pensamiento.
Un investigador francés del I.N.E.T.O.P. (Instituí National
du Travail et de I´Orientation Professionnelle), F. Longeot,
interesado en la teoría de Piaget, desarrolló la escala E.P.L.
(Echelle du Développement de la Pensée Logique), presentada
en 1965 (Aubret y col., 1991).
B. LA MEDICIÓN DE LA INTELIGENCIA
Son muchas las pruebas de inteligencia construidas hasta el

presente momento. Algunas de fácil aplicación y calificación,
otras más complicadas que requieren un examinador
suficientemente entrenado y con amplia experiencia. Algunas
que sólo pueden ser aplicadas en forma individual y otras que
pueden también ser aplicadas colectivamente. Unas para niños
y adultos, otras construidas específicamente para niños o para
adultos. Unas estandarizadas en una única muestra y otras
estandarizadas en distintas muestras. Unas más válidas y
confiables que otras. De cualquier manera, toda prueba tiene
sus ventajas y desventajas que dependen también del uso que
64
el psicólogo va a hacer de ella. Lo importante es disponer

de la información básica sobre las distintas pruebas para que
uno pueda decidir cuál de ellas es la que conviene más a
un determinado fin.
Este manual tiene como objetivo principal proporcionar
el conocimiento básico con respecto a las pruebas de
inteligencia más comúnmente utilizadas, facilitando así la
elección de un instrumento de medida adecuado, cuando se
hace necesario la evaluación de la capacidad intelectual. Es
importante señalar que la información aportada por el presente
manual no sustituye, en hipótesis alguna, la información
proporcionada por los manuales de las pruebas. La información
presentada en este manual sirve como una primera
aproximación al conocimiento de algunas de las pruebas de
inteligencia. La utilización de una prueba requiere de la
consulta de su manual.
Los capítulos de esta segunda parte serán dedicados a la
presentación, sucinta y organizada, de distintas pruebas de
inteligencia. Serán analizados, en cada prueba, los siguientes
aspectos: aspectos históricos, descripción de la prueba,
material, población con la que se utiliza, forma de
administración, tiempo de administración, procedimiento de
administración, procedimiento de calificación, normas,
confiabilidad y validez. Además, se incluirá un apartado de
"Comentarios", cuyo objetivo es aportar opiniones expresadas
por distintos teóricos, así como observaciones del propio
autor, provenientes de su experiencia en la utilización de la
prueba.
Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., Francequin-

Chartier, G., Huetau, M., Porlier, J - C , Rozencwajg,
P. y Vrignaud, P. (1991). Evaluer I'intelligence.
Manuscrito no publicado, I.N.E.T.O.P., París, Francia.
65
Dorsch, F.(1976). Diccionario de Psicología. Barcelona:

Editorial Herder.
Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del
desarrollo intelectual. Madrid: Editorial Paidós.
Guilforf, J.P. (1956). The structure of intellect. Psychologi-
cal Bulletin, 53, 267-293.
,(1967). The nature of human intelligence. Nueva York:
McGraw Hill.
, (1970). Creativity: Retrospect and Prospect. Journal
of Creative Behavior, 4(3), 149-168.
, y Hoepfner, R. (1971). The analysis of intelligence.
Nueva York: McGraw Hill.
Piaget, J. (1972). Psicología de la inteligencia. Buenos Aires:
Editorial Psique.
Rapaport, D. (1965). Test de diagnóstico psicológico. Buenos
Aires: Editorial Paidós.
Raven, J. C. (1987). Test de Matrices Progresivas. Buenos
Aires: Paidós
66
CAPITULO V
ESCALA DE INTELIGENCIA
STANFORD-BINET
1. ASPECTOS HISTORICOS
Esta escala es derivada de la Escala de Inteligencia Binet-

Simon, creada en 1905 y revisada en 1908 y 1911. La primera
versión del Stanford-Binet fue publicada por Terman en 1916
y obtuvo gran éxito sobre todo por introducir el concepto
de CI (Cociente Intelectual), por proporcionar instrucciones
detalladas de aplicación y calificación y por utilizar una
muestra representativa de la población americana de cerca
de 1,400 sujetos para su estandarización (Terman y Merrill,
1973).
En 1937 fue publicada la segunda revisión. En ésta, se
construyeron dos formas paralelas, L y M, que cubrían
rangos de edades de los 2 años hasta la edad adulta y que
fueron estandarizadas en una muestra de más de 3,000 sujetos.
La tercera revisión, realizada en 1960, presentaba una
única forma LM, que incluía los mejores reactivos de las
formas L y M publicadas anteriormente. En esta revisión
no se utilizó una nueva muestra de estandarización, sino que
se aprovecharon las respuestas de 4,498 personas, entre 2½
y 18 años, que habían contestado una de las dos formas, L
o M, entre 1950 y 1954. La selección de los mejores reactivos
fue realizada a través de varios procedimientos. Las
modificaciones realizadas consistieron en la eliminación de
algunos reactivos y reubicación de otros, proporcionando
67
una nueva distribución de éstos en los diferentes niveles de

edad. No se introdujo nuevos materiales, aunque en algunos
reactivos se actualizaron los dibujos. Un aspecto importante
de esta revisión fue el inicio de la utilización del CI de
desviación para eliminar los inconvenientes estadísticos del
CI de razón (Terman y Merrill, 1973).
En 1972, se llevó a cabo una reestandarización sistemática
de la forma LM. El material se mantuvo prácticamente el
mismo, fueron cambiados un diseño de una tarjeta (muñeca)
y una palabra de la subprueba Semejanzas. Los procedimientos
de administración y calificación no fueron alterados. Se
utilizó una muestra representativa de la población americana
de cerca de 100 sujetos para cada nivel de edad.
2. DESCRIPCIÓN DE LA PRUEBA
La prueba Stanford-Binet es compuesta de varias subpruebas

agrupadas según niveles de edad. La prueba considera 20
niveles de edad, desde la edad de 2 años hasta la adulta
superior. Entre 2 y 5 años las subpruebas se agrupan por
intervalos de medio año y entre 5 y 14 años, se agrupan por
intervalos anuales. Hay además un nivel adulto promedio y
tres niveles adulto superiores (I, II y III). Para cada nivel
de edad existen seis subpruebas, excepto para el nivel adulto
promedio que tiene ocho. La dificultad de las subpruebas es
uniforme en cada nivel. Para cada nivel, existe una subprueba
extra que puede ser utilizada en caso de anulación de una
de las subpruebas originales. Sin embargo, la subprueba
extra no debe sustituir una subprueba original en la cual
fracasa el sujeto.
Una determinada subprueba puede aparecer sólo en un
nivel de edad o en varios. Las subpruebas utilizadas en los
niveles de edad más bajos hacen hincapié en las capacidades
sensoriales y motoras. Algunas de éstas son: identificación
68
de partes del cuerpo u objetos, torre de cubos de construcción,

vocabulario de imágenes, comparación de barras, copia de
círculo, combinación de palabras, etc. Para niños mayores,
las subpruebas empiezan a exigir capacidades verbales y
conceptos numéricos. En este caso las subpruebas son del
tipo: vocabulario, palabras abstractas, repetición de dígitos,
orientación, memoria (palabras y dibujos), cuenta de cubos,
juicio práctico, etc. Para los adultos, son utilizadas sobre
todo subpruebas de contenido verbal, simbólico y abstracto,
como: vocabulario, analogías, interpretación de proverbios,
frases desordenadas, entre otras.
3. MATERIAL
La prueba es compuesta de distintos materiales que son

utilizados en las diferentes subpruebas. Se encuentran
juguetes, tarjetas impresas, cubos, objetos de diferentes
tipos (coches, muñecos, animales) que están acondicionados
en una maleta, junto con el manual de la prueba y el cuaderno
de respuestas.
4. POBLACIÓN CON LA QUE SE UTILIZA
La prueba puede ser utilizada desde dos años de edad hasta

la edad adulta.
5. FORMA DE ADMINISTRACIÓN
La administración debe ser individual. Se exige un examinador

entrenado y con amplia experiencia, puesto que la aplicación
y la puntuación de la mayoría de las subpruebas son
relativamente complejas. Un problema adicional está en el
hecho de que cada subprueba debe ser calificada
inmediatamente después de su aplicación, pues la realización
69
subsecuente depende de la actuación del sujeto en la subprueba

anterior.
6. TIEMPO DE ADMINISTRACIÓN
En niños pequeños, la aplicación completa requiere no más que 30

o 40 minutos y en niños mayores y adultos cerca de hora y media.
En casos excepcionales, la administración requiere demasiado tiempo
y es conveniente dividirla en dos sesiones.
7. PROCEDIMIENTO DE ADMINISTRACIÓN
El primer paso es llenar los datos personales del examinado

en el cuaderno de respuestas. Nadie contesta todas las
subpruebas del Stanford-Binet, solamente las que correspondan
a una amplitud de niveles de edad adecuados a su nivel
intelectual. Se inicia la aplicación por un nivel de edad
ligeramente inferior al de la edad mental que se espera tenga
el sujeto. Si el sujeto fracasa en alguna de las subpruebas
de este nivel, se le aplica el nivel inmediatamente inferior.
La aplicación sigue hasta llegar a un nivel en que todas las
subpruebas sean resueltas con éxito. Este nivel es denominado
edad basal. En seguida, se continúa la aplicación hasta el
nivel en que ninguna de las subpruebas es contestada
correctamente. Este nivel es llamado edad tope. Aquí se
suspende la aplicación.
Es importante mencionar la existencia de una escala
abreviada. En cada nivel de edad, fueron elegidas cuatro
subpruebas para constituir la escala abreviada, tomando en
cuenta la validez y representatividad. Estas subpruebas están
marcadas con un asterisco en el cuaderno de respuestas. La
escala reducida solamente debe ser utilizada cuando no hay
tiempo suficiente para una aplicación completa.
70
8. PROCEDIMIENTO DE CALIFICACIÓN
La respuesta a un reactivo es calificada comparándola a una

lista de respuestas correctas presentadas en el manual de la
prueba. La calificación no proporciona créditos parciales,
utiliza el sistema de todo o nada. En general, las subpruebas
correctamente contestadas por un individuo se extienden a
varios niveles de edad, limitados en un extremo por su edad
basal y en el otro por su edad tope. Para calcular la edad
mental de un sujeto en esta prueba, se parte de su edad basal
y se añade a ésta los meses correspondientes por cada
subprueba que realice correctamente más allá de este nivel.
Para hallar su CI, se utilizan las tablas que se encuentran
en el manual (Terman y Merrill, 1973). Se busca la tabla
correspondiente a la edad mental del sujeto, se localiza su
edad cronológica en la respectiva columna y se halla su CI
de desviación. En el manual se encuentran dos conjuntos de
normas, uno que corresponde a la revisión de 1960 y otro
a la reestandarización de 1972.
9. NORMAS
Los inconvenientes observados en la utilización del CI de

razón (ver primer capítulo y Terman y Merrill, 1973) llevaron
a la utilización del CI de desviación a partir de la revisión
de 1960. Estos CI de desviación, como se ha explicado
anteriormente, son calificaciones estandarizadas con una
media de 100 y desviación estándar de 16 puntos. Su prin-
cipal ventaja es presentar resultados comparables en todos
los niveles de edad.
Las normas obtenidas en la reestandarización de 1972
provienen de una muestra representativa de la población
americana de cerca de 100 sujetos en cada uno de los 20
niveles de edad.
71
10. CONFIABILIDAD Y VALIDEZ
Distintos estudios han demostrado el alto nivel de confíabilidad

del Stanford-Binet. Los valores obtenidos para el coeficiente
de equivalencia y estabilidad de las formas L y M, aplicadas
con una semana de intervalo o menos, son de .90 o más. En
general, se ha observado que el coeficiente de confíabilidad
es más alto en las muestras de niños mayores y en aquellas
de niños que presentan CI más bajos. Los índices de confíabilidad
obtenidos indican que el error estándar de la medida es de
cinco puntos de CI (Brown, 1980; Anastasi, 1978).
El estudio de las subpruebas de la forma LM, realizado
en 1960, utilizando la correlación biserial (correlación entre
cada subprueba y la escala total) indica una correlación
biserial promedio de 0.66, lo que asegura que la prueba tiene
una buena consistencia interna (Terman y Merrill, 1973).
La validez estructural ha sido también comprobada por
varios análisis factoriales, que constataron la existencia de
un factor general aunque no excluyeron la posibilidad de que
existan factores de grupo en algunos niveles de edad. La
validez predictiva o de criterio fue también estudiada. Los
coeficientes de correlación encontrados entre el CI del Stanford-
Binet y calificaciones escolares, evaluaciones de maestros y
resultados en pruebas de rendimiento varían entre .40 y .75
(Anastasi, 1978).
11. COMENTARIOS
No se puede negar la importancia histórica de la prueba Stan-

ford-Binet en la medida de la inteligencia. Tampoco la calidad
técnica de su proceso de construcción, su eficiencia y amplia
aceptación a lo largo de los años.
Sin embargo, Anastasi (1978) apunta algunos límites de
la prueba, a los cuales uno debe estar atento:
72
• La medida está muy cargada de funciones verbales,

sobre todo en los niveles de edad superiores, lo que llevaría
a los individuos con deficiencia de lenguaje a obtener resultados
relativamente bajos.
• La prueba es inadecuada para medir aptitudes diferenciales
pues: (a) no se encuentran las mismas subpruebas a todos los niveles
de edad; (b) el número de subpruebas de cada tipo es muy reducido
para que se pueda determinar, de manera precisa, la realización
de un individuo en un grupo específico de subpruebas y (c) es
difícil determinar cuales son las funciones medidas por una subprueba,
solamente a través de la observación de su contenido.
• La prueba es inadecuada para adultos sobre todo en
la amplitud normal y superior. Aunque se utilicen tres niveles
de adulto superior es muy difícil establecer, para la mayoría
de los adultos superiores, la edad tope (la edad en que
ninguna subprueba es resuelta). Además, el contenido de las
subpruebas del Stanford-Binet es más apropiado para niños
que para adultos.
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión).

Educación. México D.F.: Editorial El Manual Moderno.
Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet intelli-
gence scale. Form L-M. Boston: Houghton Mifflin Com-
pany.
73
CAPITULO VI
ESCALA DE INTELIGENCIA PARA
ADULTOS (WAIS)
1. ASPECTOS HISTÓRICOS
La primera escala individual para la medida de la inteligencia

del adolescente y del adulto fue publicada en 1939 en Baltimore
por David WECHSLER, jefe de clínica del hospital
psiquiátrico de Bellevue (New York). Esta escala era llamada
"Wechsler-Bellevue". Su construcción tomó como base la
concepción global de la inteligencia definida por Wechsler
como ' 'la capacidad agregada o global del individuo para
actuar con propósito, para pensar racionalmente y para
habérselas de manera efectiva con su medio ambiente^
(Wechsler, 1955, p.3).
El desarrollo de esta escala ha sido impulsado por el hecho
de que las escalas existentes, no proporcionaban una medida
adecuada de la inteligencia en el adulto. No solamente el uso
de la edad mental era inapropiado para medir la inteligencia
en el adulto, sino que la mayoría de los reactivos de estas
escalas estaban orientados hacia los intereses infantiles.
Además, los adultos eran frecuentemente penalizados por el
énfasis dado a la velocidad de respuesta, en comparación con
la exactitud, puesto que las personas más grandes generalmente
trabajan más despacio que los niños. Las escalas existentes
también presentaban fallas importantes en los procedimientos
de estandarización. La nueva escala tenía como objetivo
superar estas dificultades.
La escala Wechsler-Bellevue dio origen, después de algunas
75
revisiones, a la escala WAIS (Wechsler Adulte Intelligence

Scale) que surgió en 1955 en Estados Unidos. Esta nueva
escala no contenía cambios significativos en cuanto a su
contenido general, construcción y organización. Las
modificaciones más importantes estaban relacionadas a: a)
la muestra normativa, b) las instrucciones y calificaciones
c) el contenido para situaciones especiales (evaluación de
sujetos con un bajo nivel intelectual). Algunos reactivos de
la escala original fueron conservados; otros fueron sustituidos
por reactivos menos ambiguos y presentados en un mejor
orden de dificultad.
En 1981, El WAIS sufrió una revisión y pasó a llamarse
WAIS-R (Wechsler, 1981a). El objetivo de esta última revisión
fue actualizar algunos contenidos y proveer nuevas normas
basadas en las puntuaciones obtenidas por muestras más
actuales de la población. Cerca del 80% de los reactivos del
WAIS-R provinieron del WAIS, intactos o modificados. Los
demás reactivos fueron nuevos. Además, se realizaron pequeños
cambios en el procedimiento de aplicación y de puntuación.
El WAIS ha sido traducido y adaptado a varios idiomas,
demostrando mucha utilidad y aceptación. La versión francesa
fue realizada por Pichot y presentada en 1968 (Vrignaud, en
Aubret y col, 1991). La versión para el idioma español se
llama WAIS-español y fue presentada en 1981 (Wechsler,
1981b).
EL WAIS ha dado origen a las demás escalas Wechsler,
WISC y WPPSI, utilizadas con niños, que serán presentadas
en los próximos capítulos.
Las pruebas de Wechsler están compuestas por dos subescalas,

una verbal y otra de ejecución, que están constituidas por
una serie de tests específicos (subtests). Según Morales (1993),
76
estas escalas "son, por una parte, escalas heterogéneas

intertest, debido a que miden diferentes funciones y, por
tanto, distintos factores ...; y por otra parte, son escalas
homogéneas intratest, porque cada subtest mide un sólo
factor en toda su amplitud"(p. 107).
Los reactivos de cada subtest son organizados en orden
creciente de dificultad. Los reactivos de los subtests se
clasifican en tres grupos: 1) reactivos que toda persona puede
contestar, tenga o no instrucción escolar, 2) reactivos que
se espera sean contestados por sujetos de instrucción escolar
media y 3) reactivos que sólo pueden ser contestados por
sujetos con una instrucción especial (idem).
La escala verbal del WAIS está compuesta de seis subtests:
1) Conocimientos o Información, 2) Comprensión, 3)
Aritmética, 4) Semejanzas, 5) Vocabulario y 6) Repetición
de dígitos o retención de dígitos. La escala de ejecución se
compone de 5 subtests: 1) Dibujos Incompletos o Figuras
Incompletas, 2) Diseño con cubos, 3) Ordenación de dibujos,
4) Composición de objetos y 5) Dígitos y Símbolos o Claves.
2.1. Características de los subtests
Cada subtest solicita funciones intelectuales distintas y por

lo tanto difiere en sus características y contenidos. Las dos
medidas —verbal y de ejecución— representan las diferentes
formas en que puede expresarse la inteligencia. En seguida,
serán presentadas las características específicas de cada
subtest mencionadas por Wechsler (1955), Rapaport (1965),
Vrignaud (en Aubret y col., 1991) y Morales (1993).
a. Escala verbal:
Conocimientos o Información: Este subtest propone

cuestiones que permiten verificar la extensión de los
77
conocimientos del sujeto. Dos funciones son solicitadas: 1)

capacidad de retención (memoria) y 2) asociación y
organización de experiencias. Los resultados están ligados
al medio ambiente cultural, a la estabilidad emocional y a
los intereses. Mientras tanto, proporcionan una buena
indicación de la capacidad intelectual. Este subtest presenta
una buena correlación con la escala total y sus resultados
en general se mantienen bien con la edad.
Comprensión: Este subtest depende de un cierto aprendizaje
de informaciones prácticas aunado a la habilidad de evaluar
y utilizar la experiencia. Es una prueba de juicio. Mide la
inteligencia social, la aptitud para evaluar la experiencia.
Además, el factor verbal contribuye considerablemente al
buen desempeño en este subtest. Las funciones solicitadas
son: 1) razonamiento abstracto, 2) organización del
conocimiento (análisis y síntesis), 3) capacidad de utilizar
en la práctica las experiencias y aprendizajes obtenidos y 4)
manejo de símbolos, números y lenguaje. Los factores
influyentes son: a) las oportunidades culturales, b) la capacidad
para colocarse en situaciones reales y c) el juicio social y
sentido común. Proporciona muchos datos clínicos, es sen-
sible a las psicopatías, esquizofrenias y a las actitudes
reaccionales. Presenta una buena correlación con la escala
total y con los subtests de Conocimientos y Semejanzas. Sus
resultados se mantienen bien con la edad.
Aritmética: Este subtest es una señal de vivacidad intelectual.
Solicita las siguientes funciones: 1) razonamiento abstracto,
2) formación de conceptos numéricos, 3) retención de procesos
aritméticos. Los resultados son influenciados por: a) la
concentración, b) la atención inmediata y automática, c) las
oportunidades ambientales para adquirir los procesos
aritméticos fundamentales y d) las reacciones emocionales y
de inhibición escolar. Este subtest evalúa el saber de origen
escolar y familiar, la concentración con relación a la atención,
78
la abstracción y la memoria. Presenta una buena correlación

con la escala total y sus resultados se mantienen medianamente
con la edad.
Semejanzas: El tipo de respuestas ofrecidas proporciona

indicios sobre el proceso de pensamiento del sujeto y su nivel
de generalización y abstracción. Según Rapaport (1965),
los sujetos buscan sus respuestas en tres planes diferentes:
concreto, funcional y abstracto. La correlación de este subtest
con la escala total es muy buena. Sin embargo, es uno de
los tests menos estables de los subtests del grupo esencialmente
verbal. Son exigidas funciones como: 1) análisis de relaciones
y 2) formación de conceptos verbales (calidad). Los factores
influyentes son: a) un mínimo de oportunidades culturales,
b) la capacidad para relacionar hechos y c) la adaptación
adecuada al medio ambiente.
Vocabulario: Subtest constituido de palabras que se sacaron
de una serie experimental, presentadas en orden de dificultad
creciente. Según Rapaport (1965, p. 40), " l a riqueza e
integración del Vocabulario depende, en parte, de la capacidad
de la dotación natural y, en parte, de la riqueza cultural de
los primeros años". El Vocabulario es refractario a la
disminución por inadaptación y también al progreso por la
instrucción o experiencia de vida. Inicialmente, Wechsler
lo utilizó como subtest complementario, y posteriormente
lo incluyó regularmente. El ha constatado que este subtest
es un muy buen índice de la inteligencia y que permite
observaciones clínicas importantes: proceso de pensamiento
del sujeto (calidad, extensión de las ideas y de la expresión),
rasgos particulares, errores sutiles, aspecto convencional,
perseveración, redundancia, incoherencia, pudiendo llegar a
aspectos patológicos (esquizo-epilepsia). Presenta una
correlación muy elevada con la escala total y se mantiene
bien con la edad. Solicita funciones del tipo: 1) adquisición
79
y desarrollo del lenguaje y 2) adquisición y organización de

significados verbales. Los resultados son influenciados por:
a) las potencialidades naturales y 3) las oportunidades
culturales.
Repetición de dígitos: Uno de los subtests más mediocres.
Su correlación con la escala total es mediana. Inicialmente,
Wechsler propuso que este subtest fuera utilizado como
complementario, pero después lo incorporó a la subescala
verbal. Requiere: 1) concentración y memoria inmediata, 2)
imaginación auditiva y 3) imaginación visual simultánea. Los
factores influyentes son: a) atención inmediata, b) atención
dirigida c) nivel de ansiedad. El fracaso en este subtest
presenta frecuentemente significación diagnóstica, siendo el
mismo utilizado para detectar deficiencia mental o defectos
orgánicos. Cuando se obtienen bajas calificaciones y éstas
no están asociadas con problemas de deficiencia u organicidad,
pueden deberse a un cierto grado de ansiedad. Sus resultados
disminuyen con la edad.
b. Escala de ejecución:
Figuras incompletas: La tarea del sujeto es discernir la

parte esencial tomando en cuenta la forma o la función del
objeto. Este subtest discrimina bien los niveles mediocres e
inferiores de la inteligencia. Su correlación con la escala total
es alta. Los resultados en este subtest se mantienen relativamente
bien con la edad. Las funciones solicitadas son: 1) percepción
visual fina (análisis), 2) concentración visual, 3) atención
selectiva, 4) imágenes visuales. Los factores influyentes son:
a) esfuerzo sistemático voluntario y selectivo, b) enfoque
activo de la atención, c) agudeza visual y d) experiencia
ambiental.
Diseño con cubos: Es considerado el mejor subtest de
ejecución, mide lo mismo que miden los tests verbales, está
80
saturado en g y revela las perturbaciones antiguas o recientes

de los procesos de percepción superiores. Es importante
analizar el proceso de trabajo y las actitudes. Se detectan
comportamientos característicos en el caso de deterioro mental.
Sus resultados no se mantienen con la edad. Este subtest
presenta una buena correlación con la escala total y también
con los subtests verbales. Requiere: 1) percepción de forma, 2)
percepción visual: análisis y síntesis, y 3) integración
visomotora. Los resultados pueden ser influenciados por: a)
el nivel de actividad motora, b) un mínimo de discriminación
del color, c) la agudeza y velocidad del análisis visual y d)
la organización visual.
Ordenación de dibujos: Subtest de construcción difícil
debido al contenido de las historias (rol social o afectivo).
Exige la comprensión de la situación en su totalidad y su
organización en el tiempo y en el espacio. Raramente es
realizado por un deficiente mental. Este subtest presenta una
correlación mediana con la escala total y sus resultados no
se mantienen con la edad. Es el subtest más vulnerable de
la escala. Requiere las funciones siguientes: 1) percepción
visual de relaciones, 2) síntesis de material no verbal y 3)
anticipación y organización visual. Los factores influyentes
son: a) la exactitud visual y b) un mínimo de oportunidades
culturales.
Composición de objetos: Este subtest proporciona indicios
sobre el modo de percepción, el método de investigación
y la reacción delante de la dificultad o de un error. Su
correlación con la escala total es mediocre y varía según la
edad (baja entre 15 y 30 años). Las funciones exigidas son:
1) percepción visual, 2) integración visomotora y 3)
anticipaciones adecuadas. Los factores influyentes son: a)
velocidad de la actividad motora, b) precisión de la actividad
motora, c) interés y d) atención.
Dígitos y Símbolos o Claves: Excepto casos particulares,
81
el aspecto motor no interviene en los resultados obtenidos en

esta escala. Requiere: 1) recuerdo inmediato, 2) integración
visomotora 3) imaginación visual y 4) capacidad de
reproducción e imitación. Puede sufrir influencia de los
factores: a) velocidad de la actividad motora, b) rapidez en
la asociación, c) aprendizaje en función de entrenamiento de
la atención, d) instabilidad y e) emotividad. La correlación
de este subtest con la escala global es relativamente buena
pero sus resultados no se mantienen con la edad.
Los subtests pueden ser clasificados en cuatro grupos,
según los factores específicos que evalúan y su vulnerabilidad
(sensibilidad) (Rapaport, 1965).
1) Esencialmente verbal: Conocimientos, Vocabulario,
Semejanzas y Comprensión . "Su rasgo común es que requieren
la explicación verbal de los problemas y la formulación verbal
de las respuestas" (ídem, p. 38). Son los tests menos
vulnerables. La disminución considerable ante cualquiera de
estas cuatro pruebas sugiere la presencia de una inadaptación
grave.
2) Atención y concentración: Retención de dígitos y
Aritmética. En ambos, la verbalización es sólo una forma de
comunicación. Son los subtests verbales más vulnerables y
variables.
3) Coordinación Visomotora: Diseño con c u b o s ,
Composición de objetos, Dígitos y símbolos. "Un rasgo común
en estos subtests es que tras la conducta que estimulan subyacen
funciones tanto motrices como visuales" (ídem, p.39). Estos
subtests son más resistentes que los demás de ejecución , pero
más vulnerables que los subtests esencialmente verbales.
4) Organización Visual: Ordenación de dibujos y Figuras
incompletas. Se basan en la organización visual, no suponiendo
ninguna acción motriz en especial. Estos subtests son los más
vulnerables.
Según Morales (1993), desde el punto de vista de la
82
vulnerabilidad, se considera que el subtest de Vocabulario

es el menos sensible de todos y por lo tanto el que mejor
sirve como parámetro de comparación de la ejecución de los
demás subtests. Los más sensibles son: repetición de dígitos
(escala verbal) y figuras incompletas (escala de ejecución),
siendo el primero más vulnerable que el segundo. En general,
los subtests de ejecución son más vulnerables que los verbales.
3. MATERIAL
Para la aplicación del WAIS se requieren: 1) el manual, 2)

un protocolo donde se registran las respuestas del examinado,
3) una tarjeta con una lista de palabras para Vocabulario,
4) una libreta que contiene los reactivos de Figuras incompletas
y los modelos para Diseño con cubos, 5) una caja con tarjetas
para Ordenación de dibujos, 6) una caja con cubos rojos/
blancos para Diseño con cubos, 7) cuatro cajas que contienen
las partes de los reactivos de Composición de objetos, 8)
un diagrama para Composición de Objetos, y 9) una plantilla
de corrección para Dígitos y Símbolos. El examinador necesita
también un cronómetro y dos lápices, sin goma, para Dígitos
y Símbolos (Wechsler, 1981b).
El WAIS es utilizado con personas a partir de los 16 años

(ídem).
Esta prueba sólo debe ser administrada individualmente. La

complejidad de su aplicación y calificación no permite la
administración en forma colectiva.
83
Se requieren entre 50 y 90 minutos para la aplicación completa

del WAIS. Sin embargo, las diferencias individuales respecto
al estilo particular de cada sujeto para contestar y la técnica
de aplicación del examinador pueden alargar o abreviar el
tiempo de administración. El ideal es aplicar todos los subtests
en una misma sesión. Si esto resulta imposible por problemas
de horario, motivación u otra razón, pueden programarse dos
sesiones con un intervalo máximo de una semana.
No se debe reducir el número de subtests aplicados para
ahorrar tiempo. La reducción en el número de éstos sólo puede
ser contemplada cuando no sea posible la aplicación de ciertos
subtests debido a incapacidades que impiden su realización
como: inadecuada comprensión del lenguaje o deficiencias
sensorio-motrices. Por ejemplo, es posible aplicar solamente
la subescala verbal a individuos con incapacidades motoras
o solamente la subescala de ejecución, en el caso de sujetos
imposibilitados de comprender o utilizar el lenguaje (Wechsler,
1981a)
Algunos subtests de las escalas Wechsler suponen un tiempo
límite estricto para su ejecución y otros no. Por ejemplo, en
el WAIS, cada reactivo del subtest de Aritmética debe ser
contestado en un tiempo límite que varía de 15 a 120 segundos.
Además, en algunos subtests se bonifica la ejecución rápida
del sujeto, concediéndole puntos extras dependiendo del tiempo
de ejecución. En los subtests que no suponen un tiempo límite,
el examinador debe conceder al sujeto el tiempo adecuado para
que éste exprese su respuesta. Generalmente se considera de
10 a 15 segundos como suficiente.
El procedimiento de administración de las escalas Wechsler

es relativamente complejo y supone un buen entrenamiento.
84
El examinador debe leer las instrucciones y preguntas

directamente del manual, sin cambiar términos ni apartarse
de los procedimientos estandarizados. Para sacar dudas,
repetir instrucciones y hacer preguntas que esclarezcan una
respuesta ambigua o incompleta, el examinador debe seguir
las indicaciones especificadas en el manual. Además, debe
tener muy claro los procedimientos de puntuación de cada
subtest para que pueda discontinuar la aplicación, después
de un determinado número de errores, o regresar a la aplicación
del primer reactivo del subtest, cuando sea el caso.
El registro, de los datos personales y de las respuestas,
en el protocolo es realizado por el examinador. El subtest
de Dígitos y Símbolos es contestado por el sujeto directamente
en el espacio destinado del protocolo.
En el WAIS, primero se aplican todos los subtests verbales y
en seguida todos los subtests de ejecución (Wechsler, 1981b). La
secuencia de aplicación fue alterada en el W AIS-R, subtests verbales
y de ejecución son sistemáticamente alternados (Wechsler, 198 la).
Para cada subtest, se indica el reactivo donde debe iniciarse la
aplicación y en que situación debe retornarse a la aplicación del
primer reactivo. Para algunos subtests, un cierto número de errores
consecutivos conduce a la discontinuación del subtest.
Para la mayoría de los subtests de las escalas Wechsler la

puntuación es objetiva. Sin embargo, la evaluación de los
subtests de Semejanzas, Vocabulario y Comprensión y de
algunos de los reactivos de Conocimientos requiere un criterio
considerable por parte del examinador. El manual del WAIS
proporciona, para estos subtests, ejemplos de respuestas
para cada reactivo, además de un criterio general de
puntuación. El examinador debe estar familiarizado con este
criterio general para poder calificar correctamente. En estos
85
subtests se recomienda apuntar las respuestas completas del

sujeto para facilitar la calificación.
Pueden asignarse uno o más puntos a las respuestas correctas
dependiendo del subtest, de la calidad de la respuesta o del
tiempo en que el sujeto ha contestado el reactivo. Para cada
subtest se calcula la puntuación natural, que en seguida es
convertida a puntuación normalizada, utilizando la tabla de
conversión presentada en el manual. En seguida, se calcula
el total de las puntuaciones normalizadas de cada subescala
—Verbal y de Ejecución— de la escala total. Con estas
puntuaciones totales se hallan los respectivos CI (verbal, de
ejecución y total). En el manual del WAIS, existen varias
tablas de conversión (puntuación normalizada - CI) que están
divididas por rangos de edad. Deben registrarse las
puntuaciones naturales y normalizadas en el protocolo de
respuestas, la suma de puntuaciones de cada subescala, la
puntuación total y los tres valores de CI.
Es importante señalar que cuando un subtest es anulado
o cuando, por impedimento del sujeto, se hizo inadmisible
la aplicación de toda la escala, es necesario prorratear la suma
de las puntuaciones normalizadas de la subescala. Si se anula
un subtest de la subescala verbal, la suma de las puntuaciones
normalizadas debe ser multiplicada por 6/5 para obtener la
puntuación prorrateada. Si el subtest omitido es de la subescala
de ejecución, la suma de las puntuaciones normalizadas de
los otros cuatro subtests debe ser multiplicada por 5/4
(Wechsler, 1981b).
Obtenido el CI total se utiliza la tabla de clasificación de
inteligencia, presentada a continuación, para establecer el
diagnóstico.
El examinador puede también hacer la gráfica de las
puntuaciones del sujeto en el protocolo (primera hoja),
encerrando en un círculo las puntuaciones naturales obtenidas
en cada subtest y conectando los círculos con una línea.
86
CI CLASIFICACIÓN
130 y por encima Muy superior
120-129 Superior
110-119 Arriba del normal (brillante)
90-109 Normal
80-89 Abajo del normal (torpe)
70-79 Limítrofe
69 y hacia abajo Deficiente Mental
Además del diagnóstico de la capacidad intelectual, pueden

realizarse otros análisis, cuantitativos y cualitativos, que
permiten profundizar el diagnóstico de habilidades o
incapacidades específicas. En seguida, serán presentados
otros tipos de análisis que pueden ser llevados a cabo con
los resultados del WAIS.
8.1. Comparación por edad
Puede ser interesante comparar los resultados de un individuo,

en cada uno de los subtests, con los resultados de personas
del mismo grupo de edad. Para realizar este tipo de comparación,
el manual del WAIS provee 10 cuadros de puntuaciones
normalizadas por edad. Estos cuadros no deben ser utilizados
para computar el CI.
En cada cuadro comparativo por edad, una puntuación normali-
zada de 10 para un subtest representa la puntuación normalizada
media para este grupo de edad. La desviación estándar de puntuacio-
nes normalizadas para cada subtest es de 3 puntos (Wechsler,
1981a, 1981b).
El procedimiento es el siguiente {ídem):
• Se localiza el cuadro que corresponde a la edad del
individuo y se buscan las puntuaciones normalizadas para
cada subtest
•Las puntuaciones normalizadas por edad son apuntadas,
87
entre paréntesis, en la columna situada al lado de la columna

destinada a puntuaciones normalizadas, en el protocolo.
Estas puntuaciones permiten al examinador evaluar la
actuación del individuo en relación con personas de su misma
edad y comparar los resultados de una primera aplicación
con los de una reaplicación, permitiendo verificar cambios
en la ejecución de los distintos subtests, además de las
variaciones causadas por la edad. Estas puntuaciones son
también utilizadas para el cálculo del coeficiente de deterioro
mental (ver más adelante en el apartado 8.3).
8.2. Dispersión de los resultados
El análisis de la dispersión de los resultados obtenidos en

las escalas Wechsler provee datos importantes sobre las
funciones intelectuales más y menos desarrolladas.
Discrepancias fuertes pueden también estar asociadas a ciertos
tipos de patologías mentales.
a. Diferencia entre el CI Verbal y el CI de Ejecución
El CI Verbal indica la facilidad del sujeto en utilizar palabras y

símbolos y el CI de Ejecución, su habilidad para manipular objetos
y para percibir patrones visuales. En general, puede existir una
diferencia de algunos puntos entre estos dos CI. En el caso del
WAIS, esta diferencia solamente tiene importancia a partir de 10
puntos (Wechsler, 1955). En el WAIS-R también se observó que
una diferencia de 10 puntos corresponde a un nivel de significancia
de .05 (Wechsler, 1981a).
b. Interpretación de las diferencias entre el CI Verbal y

el CI de Ejecución
Cuando se encuentra una diferencia significativa entre los

dos CI, hay que ser prudente en su interpretación antes de
88
considerar que el sujeto tiene realmente una función

intelectual más desarrollada que la otra. Wechsler (1955)
afirma, respecto al WAIS, que la cantidad y dirección de
la diferencia varía según la edad y el nivel global de inteligencia
del individuo. El apunta que "sujetos de inteligencia superior
generalmente lo hacen mejor en la parte verbal del examen,
y sujetos de inteligencia inferior lo hacen mejor en la parte
de ejecución" (p.213). El, también hace incapié en las
diferencias raciales y culturales.
c. Dispersión intraindividual
El cálculo de la dispersión de las puntuaciones obtenidas

por un sujeto en los diferentes subtests permite apreciar
la homogeneidad de sus resultados y establecer un perfil
de éstos. El estudio de la dispersión responde a la pregunta
siguiente: ¿Cuándo podemos decidir que la puntuación
obtenida en un subtest se desvía significativamente del
promedio de los resultados del sujeto?
Vrignaud (en Aubret y col., 1991) menciona el siguiente
procedimiento para calcular la dispersión intraindividual en
el WAIS:
• Calcular el promedio de las puntuaciones normalizadas
(Suma de puntuaciones normalizadas/Número de escalas).
Si la diferencia entre el CI verbal y el CI de Ejecución es
considerada significativa, es recomendable calcular, por
separado, el promedio de las puntuaciones normalizadas de
la subescala verbal y de la subescala de ejecución.
• Calcular la dispersión hallando la diferencia entre la
puntuación normalizada de cada subtest y el promedio de
puntuaciones normalizadas (total o por subescala).
Este mismo autor añade que Wechsler propuso, para la
escala Wechsler-Bellevue, un método para determinar cuales
son los subtests que presentan desviaciones significativas.
89
Aunque Wechsler no ha comentado sobre la utilización de

este método en el caso del WAIS, éste es generalmente utilizado
por los clínicos.
Según este método, para determinar si la diferencia, entre
la puntuación normalizada obtenida en un subtest y el promedio,
es significativa, debe examinarse la suma total de las
puntuaciones normalizadas o el CI total del sujeto.
Para sumas totales comprendidas entre 80 y 110, que
corresponden a CI totales comprendidos entre 85 y 115. es
significativa toda diferencia de más de 2 puntos entre la
puntuación del subtest y el promedio de las puntuaciones
normalizadas. Este intervalo representa más o menos una
desviación típica.
Para los CI superiores a 115 o inferiores a 85, el valor
de la diferencia significativa varía en función del promedio
de las puntuaciones normalizadas del sujeto. La diferencia,
entre la puntuación normalizada obtenida en un subtest y el
promedio de las puntuaciones normalizadas, es significativa
si su valor es superior a este promedio divido entre 4. Por
Ejemplo: para un sujeto cuyo promedio de puntuaciones
norma'izadas es 5.6, la diferencia es significativa si es mayor
que 5.6/4 = 1.4; para otro sujeto cuyo promedio es 13.2, la
diferencia es significativa si es mayor que 13.2/4 = 3.3.
Además de este procedimiento, Wechsler propuso la tabla
presentada abajo, donde define, para diferentes valores de la
diferencia, símbolos que caracterizan el sentido e importancia
de la desviación:
+ desviación del subtest de 1.5 a 2.5 unidades arriba

de la puntuación promedio.
++ desviación del subtest de 3 o más unidades arriba
desviación del subtest de 1.5 a 2.5 unidades abajo
90
desviación del subtest de 3 o más unidades abajo de

la puntuación promedio.
0 desviación del subtest de +1.5 a -1.5 unidades de la
puntuación promedio.
Vrignaud (en Aubret y col., 1991) señala la ambigüedad,

de la parte de Wechsler, en la determinación de la importancia
de la diferencia. De un lado, propuso el método expuesto
inicialmente para determinar el valor de la diferencia
significativa y de otro, propuso una tabla con valores fijos
(que no dependen del CI del sujeto) para la determinación
de la importancia de la diferencia.
d. Análisis e interpretación de la dispersión
Dos tipos de análisis pueden ser realizados a través del

estudio de la dispersión del WAIS.
1) Análisis de las funciones intelectuales más desarrolladas
o deficientes. En este caso deben analizarse las escalas que
presentan una dispersión significativa (para arriba o para
abajo) verificando a cuales funciones intelectuales
corresponden. Se determinan así cuales funciones intelectuales
el sujeto tiene más desarrolladas y cuales son las más
deficientes. Este análisis proporciona una interpretación
cualitativa de los resultados numéricos obtenidos a través
del cálculo de la dispersión.
2) Establecimiento de relaciones entre las dispersiones y
diferentes entidades clínicasEste análisis, propuesto por
Rapaport (1965), permite establecer asociaciones entre las
divergencias de las puntuaciones de subtests particulares y
las entidades clínicas específicas. Consiste en relacionar el
perfil del sujeto con perfiles correspondientes a tipos
particulares de problemas o disfunciones mentales.
Rapaport (ídem), a partir de una investigación realizada
91
con la escala Wechsler-Bellevue, que fue aplicada a 261

casos clínicos y de control, propone un análisis de la dispersión
de los diferentes subtests y describe las vicisitudes de cada
uno de ellos en los distintos grupos clínicos. El utiliza las
siguientes medidas de la dispersión: a) Dispersión del
Vocabulario: el Vocabulario es el subtest menos vulnerable
o sea es donde los sujetos muestran la máxima tendencia a
no sufrir disminuciones en el rendimiento; sirve de referencia
para medir la disminución de los otros subtests; b) Dispersión
media: desviación de los subtests verbales con respecto al
promedio y verbal de los subtests de ejecución con respecto
al promedio de ejecución; los subtests verbales y de ejecución
son tratados separadamente pues difieren en el grado de
vulnerabilidad; c) Puntuaciones normalizadas extremada-
mente altas o bajas.
El análisis de la dispersión permite evaluar la eficiencia
desigual de las diferentes funciones y a partir de estas
diferencias de la eficiencia funcional pueden inferirse las
categorías clínicas en que puede esperárselas. Rapaport (1965,
pp. 50-61) propone, para cada grupo y sus respectivos subtests,
el análisis siguiente:
• Grupo esencialmente verbal
Vocabulario: Este subtest se halla profundamente disminuido

en los neurasténicos, en los depresivos psicóticos y en los
esquizofrénicos deteriorados. Los promedios más altos para
el Vocabulario se encuentran en las condiciones paranoideas,
en los preesquizofrénicos sobreideacionales y en los
compulsivos obsesivos. Un puntaje en este subtest, inferior
en dos o más unidades a la tendencia central de los otros
subtests esencialmente verbales, indica un retardo significativo
del desarrollo o disminución del Vocabulario.
Conocimientos: En general las puntuaciones son semejantes
92
a las de Vocabulario; sólo en tres grupos se observa una

puntuación significativamente más baja que la de Vocabulario:
histeria, depresiones involucionadas y en algunas
esquizofrenias paranoideas crónicas. En estos dos últimos
grupos también se hallan disminuidas las puntuaciones en
el resto de los subtests verbales, lo que no ocurre con los
histéricos. En las neurosis y psicosis intelectuali-
zantes, especialmente en los preesquizofrénicos sobre-
ideacionales y los compulsivos obsesivos los Conocimientos
se encuentran preservados. Cuando el puntaje en Cono-
cimientos está tres o más unidades abajo del puntaje en
Vocabulario significa una disminución significativa de la
disponibilidad del conocimiento general.
Semejanzas: Este subtest permite distinguir los diferentes
tipos de depresiones. En las neurosis depresivas la puntuación
en este subtest no está afectada; en las psicosis depresivas
ella está por debajo del Vocabulario y aun más por debajo
del promedio de los puntajes del grupo esencialmente verbal.
De la misma manera, en las esquizofrenias paranoideas este
puntaje no se ve afectado, mientras que en los casos crónicos
y deteriorados su puntaje es inferior al de Vocabulario y al
promedio de los puntajes verbales. Los puntajes más altos
son obtenidos por los grupos "intelectualizantes". Una
puntuación inferior en tres o más unidades a la de Vocabulario
indica una disminución significativa de la formación verbal
de conceptos.
Comprensión: Cuando la puntuación en este subtest está
más de dos unidades por debajo de la de Vocabulario o de
Conocimientos constituye un índice grave. Indica una
significativa disminución del juicio. Esto se observa, con
frecuencia, en los compulsivos obsesivos, esquizofrénicos,
preesquizofrénicos y depresivos. Se constata que, mientras
los histéricos represivos presentan una disminución en el
subtest de Conocimientos y un puntaje normal en el de
93
Comprensión, los compulsivos obsesivos presentan un excelente

puntaje en Conocimientos y una caída en Comprensión.
• Grupo de atención y concentración
Repetición de dígitos: En los neuróticos y depresivos se

observa una baja de puntuación, especialmente en aquellos
casos en que la ansiedad adquiere una mayor importancia,
provocando una disminución de la atención. Se considera este
subtest como un test específico de ansiedad. Un puntaje
inferior de 4 o más unidades al del Vocabulario indica una
significativa disminución de la atención.
Aritmética: El puntaje a este subtest se ve seriamente
disminuido en el caso de los esquizofrénicos, especialmente
de los deteriorados y de los psicóticos depresivos. Los neuróticos
y normales presentan disminuciones pequeñas. También aquí
los grupos "intelectualizantes" presentan altos puntajes,
superiores al de Vocabulario. El puntaje en este subtest inferior
en 4 o más unidades al de Vocabulario indica una significativa
disminución de la concentración.
• Grupo de coordinación visomotora
Composición de objetos: La puntuación en este subtest se

ve disminuida sobre todo por la depresión o ansiedad intensa.
Es uno de los subtests más vulnerables. En las depresiones,
en general, los puntajes bajan en la mayoría de los subtests
de ejecución. Cuando el puntaje es normal en los demás
subtests de ejecución y la caída se da solamente en este subtest
indica una ansiedad neurótica normal. Los esquizofrénicos
generalmente presentan un desempeño normal en este subtest.
Un puntaje inferior en 5 o más unidades al de Vocabulario
indica una significativa disminución de la organización y
coordinación visomotora.
94
Diseño con cubos: Este subtest es el más sólido de los

de ejecución y en general se mantiene próximo al nivel del
Vocabulario. El factor que genera disminución en este subtest
es la depresión. En este caso la disminución es igual o más
importante que la de los demás subtests de ejecución y cuanto
mayor la disminución más grave es la depresión. Un puntaje,
en este subtest y en el de Composición de objetos, superior
a una tendencia central baja para los tests de ejecución puede
indicar una esquizofrenia. En general en estos dos subtests
los esquizofrénicos crónicos y deteriorados pueden
desempeñarse perfectamente bien. Un puntaje en Diseño con
cubos inferior en tres o más unidades al de Vocabulario indica
una baja significativa de la organización y coordinación
visomotora.
Dígitos y Símbolos: Este es el subtest de ejecución más
sensible al retardo psicomotor producido por las depresiones.
En los esquizofrénicos, es la disminución de la concentración
que perjudica el desempeño en esta prueba, aunque algunos
tipos (los blandos) la realizan sin ansiedad y obtienen buenas
puntuaciones. Las personas acostumbradas a realizar trabajos
semejantes al requerido en este subtest, como los taquígrafos,
suelen obtener puntuaciones altas no solamente en este subtest
pero también en los demás de ejecución. Una puntuación en
Dígitos y Símbolos, tres o más unidades inferior a la de
Vocabulario, indica una disminución significativa de la
coordinación y velocidad visomotora.
• Grupo de organización visual
Ordenamiento de dibujos: Este es un subtest muy vulnera-

ble, aun en neuróticos y normales. También se halla disminuido
en los esquizofrénicos paranoideos y más profundamente en
los deteriorados y psicóticos depresivos. Un puntaje inferior
al de Vocabulario en 4 o más unidades revela una baja
95
significativa de la aptitud para realizar anticipaciones correctas

y/o de la organización visual.
Figuras incompletas: Este es el subtest que presenta la serie
de disminución más sistemática. La disminución más importante
es observada en los psicóticos depresivos, luego vienen los
esquizofrénicos deteriorados sin clasificar, luego los
esquizofrénicos agudos y crónicos seguidos de los compulsivos
obsesivos, luego los neuróticos depresivos, en seguida los
normales con tendencias depresivas y finalmente los normales
no depresivos. Para diferenciar los psicóticos depresivos de
los esquizofrénicos se verifica el desempeño en los demás
subtests de ejecución que debe estar mucho más disminuido
entre los primeros.
Completando el análisis de la dispersión, Rapaport (1965,
pp.68-81) comenta sobre los patrones de dispersión específicos
y característicos de diferentes grupos clínicos. Presentamos
en seguida algunas características de tres de estos grupos:
• Grupo de esquizofrénicos:
Los esquizofrénicos agudos sin clasificar presentan puntajes

inferiores al de Vocabulario en prácticamente todos los subtests.
El subtest de Conocimientos es el que presenta menor dispersión
con respecto al de Vocabulario. El patrón diagnóstico para
los esquizofrénicos agudos es el siguiente, en los subtests
verbales se observa disminución en el de Comprensión y
sobretodo en el de Aritmética y poca baja en el de Repetición
de Dígitos; en los de ejecución se observa gran disminución
en los subtests de Organización Visual (Ordenamiento de
figuras y Figuras incompletas) y en el de Composición de
Objetos. Los casos crónicos presentan puntuaciones en los
subtests inferiores a la de Vocabulario, excepto en
Conocimientos; pero casi ninguna de ellas es tan baja cuanto
las obtenidas por los casos agudos. En general, los casos
96
crónicos se desempeñan mejor que los agudos, excepto en

Comprensión, Aritmética y Repetición de Dígitos.
Los esquizofrénicos deteriorados sin clasificar muestran
una baja importante en casi todos los subtests. Comprensión
y Repetición de Dígitos sufren una disminución considerable,
Aritmética aun más y los peores son Ordenamiento de figuras,
Figuras incompletas y Dígitos y Símbolos.
El diagnóstico diferencial del carácter agudo, crónico o
deteriorado de una esquizofrenia paranoica se basa en: 1)
los casos agudos conservan muy bien su desempeño en
Semejanzas, bien en Conocimientos, pero son los peores en
Composición de objetos y Dígitos y Símbolos. 2) los casos
crónicos presentan una dispersión más blanda que la de los
agudos y se distinguen de ellos sobre todo por la disminución
en Conocimientos y Semejanzas, 3) los casos deteriorados
son los que presentan la mayor disminución del juicio
(Comprensión), de la atención (Repetición de dígitos), de la
concentración (Aritmética) y de la capacidad de planeamiento
y anticipación (Ordenamiento de figuras).
Tanto en los esquizofrénicos sin clasificar como en los
paranoideos la dispersión es mayor en los grupos deteriorados,
seguidos de los agudos y finalmente de los crónicos.
• Grupo de depresivos
La gravedad de la depresión corre paralela a la medida

de la disminución de los subtests de ejecución. Los psicóticos
depresivos son los que presentan mayor disminución. El
desempeño de los psicóticos depresivos difiere del de los
neuróticos depresivos en: el subtest de Semejanzas se halla
bien conservado en los neuróticos y muy disminuido en los
psicóticos; los subtests de Conocimientos y Repetición de
dígitos se hallan mejor conservados en los neuróticos.
La diferenciación entre psicóticos depresivos,
97
esquizofrénicos y preesquizofrénicos se halla en la ausencia

de una disminución especial en los subtests de organización
visual (Ordenamiento de figuras y Figuras incompletas), en
la disminución de Diseño de cubos y en la falta de la relación
Repetición de dígitos/Aritmética, puesto que en el primero el
desempeño está seriamente disminuido mientras que en el
segundo está apenas un poco menos.
La diferencia entre depresivos neuróticos y esquizofrénicos
agudos se basa en la baja sistemática de los primeros en los
subtests de ejecución, en la ausencia de verbalizaciones
extravagantes y en la lentitud, bloqueo y pobreza de producción.
• Grupo de neuróticos
Los grupos histeroides difieren de los obsesivos puesto que

los primeros presentan puntajes en Comprensión más altos
que en Conocimientos, lo que sucede al revés en los últimos.
En los grupos histeroides los puntajes en Conocimientos,
Comprensión y Semejanzas se hallan bien conservados,
cercanos o superiores a los de Vocabulario, ya los de Repetición
de dígitos y Aritmética sufren una disminución considerable.
Estos son los grupos más ansiosos de los neuróticos y
observamos en estos dos últimos subtests los efectos de la
ansiedad.
Los grupos neuróticos de tipo obsesivo se caracterizan por
una disminución en Comprensión, aunque el desempeño en
Conocimientos se halla conservado. También en estos grupos
la ansiedad es fuerte, lo que provoca una fuerte disminución
en Repetición de dígitos.
Los neurasténicos presentan un nivel de eficiencia sumamente
bajo en los tests de ejecución resultante de su pereza y apatía.
Sus puntajes verbales parecen permanecer en un nivel
relativamente parejo, aunque bajo.
En los compulsivos obsesivos se constata una baja en
98
Aritmética mayor que en cualquier otro grupo neurótico. Se

observa aun una disminución del juicio (Comprensión), de
la organización visual (Ordenamiento de figuras y Figuras
Incompletas) y de los conceptos verbales (Semejanzas) como
sucede en los esquizofrénicos agudos sin clasificar. La
distinción está en el hecho de que la dispersión, en los
primeros, se da en un nivel de puntuaciones normalizadas
más altas, siendo raras las respuestas peculiares o los errores
en los reactivos fáciles.
Finalmente, cabe mencionar que estos análisis provienen
de una investigación realizada con la escala Wechsler-Bellevue
y que por lo tanto debemos tener cuidado en generalizarlos
para las demás escalas de Wechsler. Este tipo de análisis
deja abierto un sinnúmero de problemas tanto en el dominio
estadístico como en el de la interpretación clínica de los
perfiles. Sin embargo, permite la elaboración de hipótesis
diagnósticas que deben ser verificadas con la aplicación de
pruebas psicológicas específicas.
8.3. Coeficiente de deterioro mental
Wechsler (1955) considera señal de deterioro mental cualquier

caída significativa o pérdida de las habilidades intelectuales.
Esta declinación mental puede ocurrir como resultado de una
enfermedad mental específica o de una lesión orgánica o
cerebral, pero también resulta del proceso senil, del aumento
natural de la edad.
Partiendo de la observación de que ciertas habilidades
declinan más despacio con la edad que otras, Wechsler (ídem)
propuso un procedimiento para el cálculo del coeficiente de
deterioro. En éste, se utilizan las puntuaciones ponderadas
obtenidas en los subtests que "se mantienen" con la edad
(Conocimientos, Vocabulario, Dibujos incompletos y
Composición de objetos) y aquellas obtenidas en los subtests
que "no se mantienen" con la edad (Repetición de dígitos,
99
Aritmética, Diseño con cubos y Dígitos y símbolos). El

procedimiento propuesto es el siguiente:
1) Transformar las puntuaciones brutas obtenidas en cada
uno de estos subtests en puntuaciones normalizadas utilizando
los cuadros de transformación por edades (ver manual)
2) Sumar las cuatro puntuaciones normalizadas obtenidas en los
subtests que se mantienen con la edad (Conocimientos, Vocabulario,
Dibujos incompletos y Composición de objetos)
3) Sumar las cuatro puntuaciones normalizadas obtenidas en los
subtests que declinan con la edad (Repetición de dígitos, Aritmética,
Diseño con cubos y Dígitos y símbolos).
4) Calcular el coeficiente de deterioro mental cuya fórmula es:
Suma (punt. norm, subtests que se mantienen)
-Suma (punt. norm, subtests que declinan)
Suma puntuaciones normalizadas subtests que se mantienen
5) Interpretación: un coeficiente positivo es indicador de deterioro

mental. El estudio de la dispersión de este coeficiente muestra que
uno tiene 20 posibilidades entre 100 de obtener un CD > .12 y 1
posibilidad entre 100 de obtener un CD > .35. En general, se obtiene
un valor cercano a 0, independientemente de la edad (Vrignaud en
Aubret y col, 1991).
Es importante señalar que para el cálculo del coeficiente
de deterioro deben utilizarse las puntuaciones ponderadas
obtenidas en las tablas por edad. Este procedimiento elimina
la deterioración psicológica provocada por la edad y evalúa
únicamente la deterioración patológica.
9. NORMAS
Las normas del WAIS son presentadas en CI de desviación,

considerando una media de 100 y una desviación estándar de
15 puntos. Estas provienen de una muestra de 1,700 adultos
100
de E.U.A (16-64 años), prorrateados de acuerdo con el censo

de 1950. Los sujetos fueron tomados de cuatro áreas
geográficas en que se dividió a los Estados Unidos y se
establecieron 18 centros de aplicación en diferentes sitios.
Las aplicaciones fueron realizadas por examinadores,
supervisados por psicólogos profesionales (Wechsler, 1955).
Las normas del WAIS-R fueron extraídas de una muestra
de 1,880 adultos (entre 16 y 74 años y 11 meses), estratificada
de acuerdo con el censo de E.U.A. realizado en 1970. Los
sujetos fueron examinados entre 1976 y 1980 en 115 centros
localizados en 39 estados y Washington DC. Un grupo de
individuos de esta muestra fue sometido a ambas formas de
la escala (WAIS y WAIS-R) (Wechsler, 1981a).
Anastasi (1978) resume los resultados reportados sobre la

confíabilidad y validez del WAIS. La confiabilidad de los
subtests, de las subescalas y de la escala total fue verificada
con los grupos de edad de 18-19, 24-34 y 45-54. En general,
se utilizó el procedimiento de división en mitades, excepto
en los casos en que este procedimiento no era apropiado:
Repetición de Dígitos y Dígitos y Símbolos. Para Dígitos
y Símbolos se utilizó el procedimiento de test-retest y para
Repetición de dígitos se obtuvo la correlación entre las
puntuaciones de Dígitos en Orden Progresivo y Dígitos en
Orden Inverso, corregida por la fórmula de Spearman-Brown.
Fueron calculados coeficientes de confiabilidad de las
subescalas y de la escala total a partir de los coeficientes
obtenidos para los subtests. El CI de la escala total presentó
coeficientes de confiabilidad de .97 en los tres grupos de
edad, el CI de la subescala verbal, coeficientes de .96 en
los tres grupos y el de la subescala de ejecución, coeficientes
entre .93 y .94. Los subtests presentaron coeficientes más
101
bajos, variando de .60 a .90. Vocabulario demostró ser el

subtest más confiable. El error estándar de la medida es de
3 puntos (en cada grupo) para el CI Verbal, de 4 puntos para
el CI de Ejecución y de 2.60 para el CI Total.
La validez del WAIS fue demostrada por distintos
procedimientos. Muchos estudios fueron realizados para
estudiar la validez de criterio, utilizando: correlaciones con
evaluaciones de realización en el trabajo, con calificaciones
académicas, etc. La validez estructural fue testada a través
de intercorrelaciones entre los distintos subtests y subescalas
y de análisis factoriales. Uno de los estudios factoriales,
realizado por Cohen, identificó tres factores básicos: un
factor de comprensión verbal, un factor de organización
perceptual y un factor de memoria. Según Wechsler (1981a)
estos resultados confirman la adecuación de la división en
dos subescalas: una verbal y otra de ejecución. Fueron también
obtenidos coeficientes de correlación con otras pruebas de
inteligencia. Con el Stanford-Binet, los coeficientes de
correlación variaron entre .80 y .90 dependiendo de la muestra.
Con los tests colectivos las correlaciones fueron un poco más
bajas, variando de .40 a .80 (Anastasi, 1978). Anastasi (ídem)
relata, con detalles, varios de los estudios realizados para
testar la validez de esta escala.
El WAIS-R presentó también coeficientes de confiabilidad
elevados en nueve grupos de edad. Estos fueron obtenidos
a través de los mismos procedimientos utilizados para el
WAIS. Los coeficientes promedio obtenidos fueron: .97 para
la subescala verbal, .93 para la subescala de ejecución y .97
para la escala total. Los coeficientes de confiabilidad de los
subtests variaron entre .52 y .96, la escala de vocabulario
obtuvo el coeficiente más alto. En general, los subtest verbales
presentaron una mayor confiabilidad que los de ejecución.
El subtest de Repetición de dígitos presentó un coeficiente
significativamente superior al obtenido en la versión anterior
102
del WAIS. Este resultado puede ser atribuido a los cambios

realizados en este subtest. El error estándar de la medida
es de 2.74 para la subescala verbal, de 4.14 para la subescala
de ejecución y de 2.53 para la escala total (Wechsler, 1981a).
El manual del WAIS-R no presenta ningún estudio
específico sobre la validez de esta prueba. El autor comenta
que como el WAIS-R mide las mismas habilidades que sus
precursores (WAIS y WECHSLER-BELLEVUE), los
resultados de los estudios realizados con estos últimos pueden
ser considerados relevantes para la escala revisada (ídem).
11. COMENTARIOS
El WAIS ha demostrado gran utilidad y aceptación. Su gran

ventaja es proporcionar un diagnóstico mucho más fino de
las habilidades intelectuales de un individuo, comparado al
ofrecido por la mayoría de las pruebas de inteligencia. Además,
posibilita otros análisis, a nivel cuantitativo y cualitativo,
que enriquecen enormemente la interpretación de sus
resultados, posibilitando hasta la formulación de hipótesis
diagnósticas de disfunciones orgánicas y mentales.
Mientras tanto, ésta es una prueba que sólo puede ser
aplicada individualmente y que requiere un tiempo de
aplicación importante. Necesita también, examinadores
altamente entrenados.
Una observación importante, en la utilización de WAIS-
español, es el hecho de que todavía no existen normas para
la población mexicana. En México, desde 1964, vienen
siendo realizados los primeros pasos para la estandarización
de la escala, bajo la dirección del doctor. Rogelio Díaz-
Guerrero (Morales, 1993).
103
Anastasi, A. (1978). Tests psicológicos (3 a ed., 4a reimpresión).

Aubret, F., Aubret, J., Chartier, D., Chaudagne, H.,Francequin-
Chartier, G., Huetau, M., Porlier, J - C , Rozencwajg,
P. y Vrignaud, P. (1991). Evaluer I'intelligence. Manus-
crito no publicado, I.N.E.T.O.P., París, Francia.
Morales, M.L. (1993). Psicometria Aplicada (2a ed., 2a reimpre-
sión) México D.F.: Editorial Trillas.
Wechsler, D. (1955). La medición de la inteligencia del adulto.
La Habana: Cultural, S.A.
, D . (1981a). WA1S-R Manual: Wechsler Adult Intelligence
Scale-Revised. Nueva York: The psychological Corpora-
tion
, D. (1981b). WAIS-Español - Escala de Inteligencia
para Adultos -Manual. México D.F.: Editorial El Manual
Moderno.
CAPITULO VII
ESCALA DE INTELIGENCIA PARA EL
NIVEL ESCOLAR DEfWECHSLER
(WISC)
La escala WISC (Escala de Inteligencia para el Nivel

Escolar) fue presentada en 1949, como una extensión de la
escala Wechsler-Bellevue, para ser utilizada con niños de 5
a 15 años 11 meses (Wechsler, 1981c). En 1974, surgió la
escala revisada del WISC (WISC-R) que es fundamentalmente
similar, pero técnicamente superior, a la original. Los cambios
básicos fueron: 1) eliminación de los reactivos ambiguos,
obsoletos o injustos e inclusión de reactivos nuevos para
incrementar la confiabilidad de la escala; 2) cambio en el
rango de edad para 6 a 16 años 11 meses; 3) cambios en
la estandarización (ejemplo: más amplia representación de
los blancos); 4) cambio en el contenido de algunos reactivos;
5) cambio en la secuencia de aplicación de los subtests; 6)
cambio en las instrucciones de aplicación; 7) cambio en los
criterios de calificación (Wechsler, 1981d).
Una nueva edición del WISC fue presentada recientemente
(WISC-III). Como en el caso de la revisión anterior, esta
última representa un desarrollo técnico de la versión original.
Incluye reactivos actualizados, dibujos más modernos, mejores
normas y más investigaciones con respecto a la validez.
Esta escala fue traducida y adaptada para varios idiomas.
Las dos primeras versiones fueron traducidas para el español
105
—WISC-español y WISC-R español— y presentadas en

1981. Además, desde 1964 está siendo realizada la
estandarización de esta prueba para la población mexicana
(WISC-RM), por el equipo de investigaciones del INCCAPAC
(Instituto Nacional de Ciencias del Comportamiento y de la
Actitud Pública, Asociación Civil), bajo la dirección del
doctor Rogelio Díaz-Guerrero. Para elaborar esta versión se
tomó la traducción de Puerto Rico, se le comparó con el
original de Wechsler, se hicieron correcciones en la traducción
y se adaptaron aquellos reactivos considerados no adecuados
a la cultura mexicana, cuidando de no alterar ni el contenido,
ni el grado de dificultad de los mismos (Morales, 1993).
El WISC se compone de dos subescalas: Verbal y de Ejecución.

Cada subescala es compuesta de 6 subtests: 1) Verbal:
Conocimientos o Información, Comprensión, Aritmética,
Semejanzas, Vocabulario y Repetición de dígitos o retención
de dígitos; 2) De ejecución: Figuras Incompletas o Dibujos
Incompletos, Diseño con cubos, Ordenación de dibujos,
Composición de objetos, Dígitos y Símbolos o Claves, y
Laberintos. Los subtests del WISC son los mismos del WAIS,
la diferencia es que se agregó el subtest de Laberintos a la
subescala de ejecución. Dos de estos subtests son considerados
complementarios: en la escala verbal, el subtest Repetición
de dígitos y en la de ejecución, es subtest de Laberintos. Los
subtests complementarios tienen como objetivo sustituir un
subtest, que por algún motivo específico quede invalidado
(Wechsler, 1981c, 198 Id).
3. MATERIAL
Para la aplicación del WISC se requieren: 1) el manual, 2)

106
un protocolo donde se registran las respuestas del examinado,

3) un protocolo de Claves y Laberintos, 4) una libreta con
algunos problemas de Aritmética, Figuras Incompletas y
Diseños con Cubos, 5) una caja con tarjetas para Ordenación
de Dibujos, 6) una lámina con árboles y una lámina blanca
para problemas de Aritmética, 7) una caja con cubos
rojiblancos para Diseño con Cubos, 8) cinco cajas con
diferentes "rompecabezas" para Composición de Objetos y
9) una plantilla de Claves. Además, se necesita un cronómetro,
dos lápices rojos sin goma y un lápiz color negro para Claves
y Laberintos.
El WISC es indicado para niños entre 5 y 15 años y 11 meses

y el WISC-R para niños de 6 a 16 años y 11 meses.
Esta prueba sólo debe ser administrada individualmente.
Se requieren entre 50 y 75 minutos para la aplicación de

10 subtests del WISC. El ideal es aplicar toda la prueba en
una única sesión. Pero, si esto resulta imposible debido a
problemas de horario, motivación del niño o algún otro
motivo, puede dividirse en dos sesiones, con un intervalo
máximo entre ellas de una semana. Lo que no se puede hacer
es disminuir el número de escalas para ahorrar tiempo
En el WISC, también debe estarse atento a los subtests
107
que suponen un límite estricto de tiempo, así como a los

subtests que bonifican la ejecución rápida del individuo.
La complejidad de la aplicación exige del examinador un buen

entrenamiento. El examinador debe seguir exactamente las
instrucciones del manual, las indicaciones para sacar dudas,
para formular y contestar preguntas y para repetir
instrucciones. Es importante que el examinador sepa que las
instrucciones utilizadas en el WISC-R son, algunas veces,
distintas a las del WISC y que él debe estar muy atento a
estas diferencias. La aplicación del WISC requiere aún más
cuidado puesto que ésta se realiza con niños. Los niños, sobre
todo los muy jóvenes, son más inquietos, curiosos con el
material, hacen preguntas, pueden cansarse más rápido, etc.
El examinador debe prepararse para enfrentar situaciones de
este tipo y seguir las instrucciones del manual para manejarlas.
El examinador inicia la aplicación llenando los datos
personales y calculando la edad exacta del individuo. En el
manual se indica la forma correcta de realizar este cálculo.
En el WISC se aplican primero los subtests de la subescala
verbal y después los subtests de la subescala de ejecución
(Wechsler, 198 le). En el WISC-R se alternan subtests verbales
y de ejecución. El orden recomendado es el siguiente: 1)
Información, 2) Figuras Incompletas, 3) Semejanzas, 4)
Ordenación de dibujos, 5) Aritmética, 6) Diseño con cubos,
7) Vocabulario, 8) Composición de Objetos, 9) Comprensión,
10) Claves, 11) Retención de Dígitos (subtest complementario)
y 12) Laberintos (subtest complementario). Este orden no es
estricto pudiendo ser adaptado a las necesidades de un niño
específico. Si el niño se rehusa a ejecutar un subtest en
particular el examinador puede dejarlo para el final de la
sesión (Wechsler, 198Id).
108
Los subtests complementarios pueden usarse: (a) cuando

el tiempo lo permita, (b) como subtest alternativo cuando
uno de los subtests, de la misma subescala, se quede invalidado
y (c) cuando el sujeto presente una limitación específica que
impida la ejecución de uno de los subtests. Mientras tanto,
la sustitución no puede ser realizada simplemente porque el
sujeto obtuvo una puntuación baja en un determinado subtest
(Wechsler, 1981c).
Para cada subtest, se indica el reactivo donde debe iniciarse
la aplicación; el reactivo inicial depende, en varios subtests,
de la edad del examinado. Por ello, es muy importante hacer
el cálculo exacto de la edad del niño antes de iniciar la
aplicación. Al aplicarse a niños con sospecha de deficiencia
mental, perturbados emocionalmente o atípicos es
recomendable iniciar con el primer reactivo.
El procedimiento básico de calificación es muy similar al

del WAIS, aunque los criterios de calificación de los subtests,
cuya puntuación no es objetiva (Semejanzas, Vocabulario
y Comprensión y algunos de los reactivos de Conocimientos),
son muy distintos. Por ello, un examinador entrenado en el
WAIS no debe creerse capaz de aplicar o calificar un WISC
sin el debido entrenamiento. Los criterios utilizados en el
WISC y en el WISC-R también tienen diferencias importantes.
En el WISC, se asignan uno o más puntos a las respuestas
correctas dependiendo del subtest, de la calidad de la respuesta
o del tiempo en que el sujeto ha contestado el reactivo. Para
cada subtest, se calcula la puntuación natural y se la convierte
en puntuación normalizada. Las tablas de conversión
(puntuación natural - puntuación normalizada) están divididas
por edades, con intervalos de 4 meses. Estas, son presentadas
en el manual. En seguida, se calcula el total de las puntuaciones
109
normalizadas de cada subescala —Verbal y de Ejecución—

y de la escala total. Con estas puntuaciones totales se hallan
los respectivos CI (verbal, de ejecución y total) en la tabla
de conversión presentada en el manual. Todas las puntuaciones
deben ser apuntadas en el protocolo, en sus respectivos espacios.
Allí también se debe trazar la gráfica de las puntuaciones.
Es importante señalar que, en esta prueba, cuando se
incluyen en la aplicación los subtests complementarios, debe
prorratearse la suma de las puntuaciones normalizadas (Ver-
bal y/o de Ejecución) antes de convertirla a CI. Esto se hace
necesario, puesto que, la construcción de la tabla de CI fue
basada en la suma de las puntuaciones normalizadas de cinco
subtests verbales y cinco de ejecución. Para prorratear se
multiplica la suma de puntuaciones normalizadas de la
subescala por 5/6. Si ocurre la invalidación de un subtest,
o sea, en el caso que sólo se tomen en cuenta cuatro de los
subtests de una subescala, se multiplica la suma de puntuaciones
normalizadas de esta subescala por 5/4 (Wechsler, 198Id).
Obtenido el CI total se utiliza la tabla de clasificación de
inteligencia para establecer el diagnóstico (ver Capítulo VI).
También con el WISC pueden realizarse otros análisis para
profundizar el diagnóstico de habilidades o incapacidades
específicas.
a. Diferencia entre el CI Verbal y el CI de Ejecución
Según Kaufman (1982), en el WISC-R, la diferencia entre

el CI Verbal y el CI de Ejecución es considerada significativa
cuando es superior o igual a 12 puntos. El apunta que cuando
la diferencia es mayor que 25 puntos puede ser indicativo de
disfunción neurológica (daño cerebral). Mientras tanto, añade
que "las discrepancias en los CI V-E no deben utilizarse para
inferir una disfunción neurológica si no se cuenta con un
110
apoyo convincente de otros datos y observaciones

suplementarias" (ídem, p.30).
b. Interpretación de las diferencias entre el CI Verbal v

el CI de Ejecución
Kaufman (1982, pp. 26-50) analiza posibles explicaciones

para las diferencias significativas entre los CI Verbal y de
Ejecución en el WISC-R.
• Inteligencia verbal contra inteligencia no verbal
Algunos individuos pueden tener una facilidad desigual para

expresar su inteligencia: dando mayor énfasis a la expresión
de la inteligencia verbal en respuesta a estímulos verbales
o expresándola mejor en forma manipulativa en respuestas
a estímulos visuales concretos. Las verdaderas diferencias
entre la inteligencia verbal y la no verbal pueden reflejar
un mayor desarrollo de uno de los hemisferios cerebrales.
El hemisferio izquierdo está especializado en el procesamiento
de estímulos lingüísticos mientras que el derecho es experto
en el manejo de estímulos visuales-espaciales. Entonces: E > V
puede sugerir un mayor desarrollo del hemisferio derecho en tanto
que V > E puede sugerir un mayor desarrollo del hemisferio
izquierdo.
• Capacidad fluida y capacidad cristalizada
Las discrepancias entre el CI Verbal y el de Ejecución pueden

indicar diferencias entre las capacidades fluida y cristalizada
más que entre el pensamiento verbal y de ejecución. "La
capacidad fluida implica solución de problemas en los que
el punto crítico es la adaptación y flexibilidad para enfrentar
estímulos desconocidos; la capacidad cristalizada se refiere
111
al funcionamiento intelectual en tareas que requieren

entrenamiento, educación y aculturación previos" (ídem, p.
32). La primera es reflejo del aprendizaje incidental, obtenido
indirectamente de las experiencias de la vida, mientras que
la segunda implica un entrenamiento directo y deliberado. No
hay una correspondencia perfecta entre las dicotomías V-E
y fluida-cristalizada. Aunque la escala verbal puede ser
considerada una buena medida del Pensamiento cristalizado,
la escala de ejecución evalúa además del Pensamiento fluido,
la Visualización amplia (factor análogo a Organización
perceptual) y otras capacidades menores. Estas escalas no
son medidas puras de estos pensamientos.
Un niño proveniente de un medio privilegiado y cuyos
padres dan mucha importancia al éxito escolar es probable
que obtenga V > E, como también los niños que logran su
éxito escolar con un trabajo excesivo. Es frecuente que los
niños con problemas de aprendizaje obtengan E > V. La
relación E > V en los niños con desventaja cultural puede
indicar una verdadera capacidad intelectual potencial a pesar
de la falta de experiencia de aprendizajes adecuadas. El CI
de ejecución considerablemente más alto indica que el niño
puede abordar la solución de problemas de forma adaptable
y flexible, lo que sugiere que él podría llegar a una situación
de éxito escolar si fuera debidamente estimulado en estas
habilidades.
• Deficiencias psicolingüísticas
Deficiencias en el funcionamiento psicolingüístico generan

problemas de aprendizaje y seguramente afectan las
puntuaciones de un test de inteligencia. Como el WISC-R
evalúa la inteligencia por medio de los transmisores
correspondientes a las formas de comunicación auditiva-
vocal y visual-motora, si uno de estos transmisores está
112
dañado, una parte del test ya no está midiendo la inteligencia

del sujeto. Por ejemplo, un niño con deficiencia en las vías
de comunicación auditiva-visual probablemente realizará una
ejecución deficiente en la mayoría de los subtests verbales
y podrá tener dificultades en los subtests no verbales que
requieren la comprensión de extensas instrucciones verbales.
Los niños con problemas psicolingüísticos graves podrán
presentar una fuerte discrepancia V-E. Los niños con
problemas receptivos no tienen la oportunidad de demostrar
su inteligencia en el canal afectado, mientras que los que
tienen problemas en el área de expresión no pueden comunicar
sus procesos de pensamiento. Si la discrepancia V-E es
resultado de una deficiencia psicolingüística, el CI total no
tiene significado.
• Bilingüismo
Es probable que los niños que aprenden dos idiomas

simultáneamente en la infancia obtengan una puntuación más
alta en la escala de Ejecución que en la Verbal. "Varias
investigaciones han encontrado que los niños mexicanos
norteamericanos y los puertorriqueños que viven en los Estados
Unidos obtienen puntuaciones significativamente mayores en
las medidas de capacidad mental no verbal que en la verbal"
(Kaufman, 1982,p.36). Este hecho es generalmente observado
independientemente de que la prueba sea aplicada en inglés
o español. No se pueden atribuir las bajas calificaciones en
la escala verbal a un déficit intelectual pues las puntuaciones
en las tareas cristalizadas son influenciadas por la capacidad
de lenguaje, por la cultura y por el estilo cognoscitivo.
Kaufman (ídem) recomienda que, al evaluar un niño bilingüe
a través del WISC-R, no se compute o interprete el CI global
y se proceda a una interpretación juiciosa de la discrepancia
CI V-E.
113
• Dialecto de los negros
Se ha observado que la pronunciación, estructura gramatical

y vocabulario del niño negro tienen sus peculiaridades. Aunque
el examinador está familiarizado con el lenguaje y la cultura
negra posiblemente sentirá el impacto del dialecto de los
negros en el CI del WISC-R. Tanto el CI verbal cuanto el
de Ejecución pueden ser afectados, sin embargo el CI verbal
es el más vulnerable. Cuando los examinadores desconocen
el dialecto de los negros puede haber una profunda influencia
de las diferencias de lenguaje sobre el CI verbal. Hay muchas
diferencias de pronunciación que pueden provocar dificultades
en los estímulos de Vocabulario y Semejanzas. Además, al
contestar los reactivos verbales el niño puede usar palabras
y conceptos específicos a la cultura negra. Muchas de estas
respuestas, que pueden ser correctas o parcialmente correctas,
pueden ser tomadas como incorrectas por un examinador que
no tenga los conocimientos pertinentes. Así, cuando un niño
negro presenta una puntuación de ejecución mucho más alta
que la verbal, debe considerarse la posibilidad que su puntuación
verbal esté disminuida por las diferencias lingüísticas.
• Problema de coordinación
Un CI Verbal más alto que uno de Ejecución no necesariamente

indica que el niño ha desarrollado mejor su capacidad mental
verbal que no verbal. Muchos subtests de ejecución exigen
una coordinación motora considerable para un rendimiento
acertado. Niños con un desarrollo motor deficiente tienden
a obtener una baja puntuación en la Escala de Ejecución. Los
subtests Diseño con cubos, Composición de objetos, Laberintos
y Dígitos y Símbolos son los que más coordinación motora
exigen. Siempre que el examinador observe que las puntuaciones
normalizadas del niño en los primeros cinco subtests de
114
ejecución muestran una disminución constante, debe considerar

la posibilidad de un problema motor. Si el niño no manifiesta
alguna dificultad de coordinación durante la aplicación, sobre
todo de la escala de ejecución, la hipótesis debe ser rechazada.
Cuando esta hipótesis no es rechazada, es importante aplicar
tests suplementarios específicos que permitan verificarla
(Ejemplo: Bender).
• Exigencias de tiempo
Las discrepancias de tipo V > E también pueden ser explicadas

por la incapacidad del niño de conducirse adecuadamente
bajo situaciones de apremio. En todos los subtests de ejecución
se toma el tiempo y en muchos se dan bonificaciones por una
rápida ejecución. Sin embargo, en la escala verbal sólo se
controla el tiempo en Aritmética. Un niño con este tipo de
problema tendrá no solamente una puntuación de ejecución
baja pero también la de Aritmética. En general, la conducta
del niño proporciona indicios de su problema. Algunos emiten
respuestas claramente negativas hacia el cronómetro o
comportamientos que indican ansiedad con respecto al mismo;
otros harán caso omiso del cronómetro o de la importancia
del tiempo. El rendimiento deficiente en los subtests
cronometrados puede ser debido a (además de problemas de
coordinación motora): inmadurez, ansiedad, distracción,
reflexión o compulsión.
Un método para verificar la capacidad no verbal de solución
de problemas sin presiones de tiempo, es el probar los límites
al terminar la aplicación del WISC-R completo. En este caso
se elimina el cronómetro y se presenta otra vez aquellos
reactivos que el niño no pudo contestar correctamente,
analizando su conducta bajo estas nuevas condiciones.
115
• Dependencia e independencia del campo
Según Kaufman (1982) el estilo cognoscitivo bipolar —

dependencia-independencia del campo— "se refiere al proceso
o forma de una actividad cognoscitiva (es decir, se interesa
en cómo percibimos, aprendemos, nos relacionamos con la
gente, etc.), más que al contenido; es difuso, abarca los
dominios sociales, intelectivos y personales, y es estable con
el tiempo; además, a diferencia de los extremos de la
inteligencia, cada polo tiene un valor adaptativc bajo
circunstancias específicas" (p.46).
El añade que, en general, las personas independientes del
campo son flexibles en situaciones que exigen la resolución
de problemas, imponen una estructura cuando se carece de
ella al manejar materiales verbales y perceptuales, tienen una
orientación impersonal, son interesadas por los aspectos
teóricos y abstractos y utilizan la intelectualización como
mecanismo de defensa. Las dependientes del campo están en
armonía con los aspectos sociales de su medio ambiente, echan
mano del orden social predominante, se interesan por la gente
y gustan de estar con ella, no estructuran de forma espontánea
a los estímulos (los dejan como están), tienen un concepto
corporal global y no detallado y utilizan defensas inespecíficas
como la represión.
Las personas independientes del campo, por su forma
analítica tienen mayor facilidad en los subtests Figuras
incompletas, Diseño con cubos y Composición de objetos. En
consecuencia, puede atribuirse una discrepancia E > V al
hecho que el sujeto sea del tipo independiente del campo, así
como la relación V > E puede estar asociada a un tipo
dependiente del campo. El mismo autor apunta que pueden
comprobarse las hipótesis relacionadas al estilo cognoscitivo:
1) analizando el perfil de los subtests que debe indicar que
las puntuaciones normalizadas obtenidas en Figuras
116
incompletas, Diseño con cubos y Composición de objetos son

radicalmente distintas (mayores o menores) al promedio de
las demás puntuaciones (verbales y no verbales); 2) aplicando
instrumentos específicos para discriminar el estilo cognoscitivo
(Ejemplo: Test de Figuras Ocultas); 3) integrando la
información referente al medio del niño con las observaciones
del comportamiento del niño en las áreas social y personal.
• Operación de evaluación de GUILFORT
Las escalas verbal y de ejecución difieren en el grado en que

miden la operación de ' 'evaluación'' descrita por Guilfort.
Esta operación está relacionada con la capacidad para emitir
juicios tomando como base una norma conocida. Este proceso
mental es requerido para que se obtengan buenas puntuaciones
en los cinco subtests de ejecución normalmente aplicados,
pero sólo es necesario para un subtest verbal — Comprensión.
Luego, las discrepancias V-E pueden deberse a la capacidad
de evaluación excelente o deficiente y no a diferencias entre
las habilidades de Comprensión Verbal y Organización
Perceptual. Según Kaufman (1982), dos condiciones son
importantes para la formulación de esta hipótesis: 1) que
exista poca variación en las puntuaciones normalizadas de
la Escala de Ejecución, 2) que la puntuación de Comprensión
difiera significativamente del promedio de las puntuaciones
verbales y que sea consistente con el promedio de las
puntuaciones normalizadas obtenidas en la Escala de
Ejecución.
• Influencias socioeconómicas
Las discrepancias V-E pueden ser atribuidas, en parte, al

medio socioeconómico del niño. La investigación ha
demostrado que los hijos de profesionistas tienden a obtener
117
puntuaciones superiores en la Escala Verbal, mientras que

en los hijos de trabajadores no especializados sucede el opuesto.
Kaufman comenta: "aunque los datos son muy variables para
cada categoría socioeconómica, estas tendencias son dignas
de atención ya que sugieren que las experiencias que el niño
tiene en su medio pueden ayudar a conformar sus habilidades
relativas en las esferas verbal y no verbal" (ídem, p.50).
Kaufman (1982) menciona algunas situaciones en que la
discrepancia CI V-E carece de importancia:
• Los cocientes de inteligencia no corresponden a las

puntuaciones del factor
No hay un acuerdo perfecto entre el CI de la escala y el factor

(verbal o no verbal). El subtest Aritmética realmente no
pertenece al factor verbal, tampoco hay datos que apoyen la
inclusión de Dígitos y Códigos en el factor perceptual. En
consecuencia, hay que analizar el impacto que tienen estos
dos subtests sobre la discrepancia V-E. Discrepancias V-E
que aparentemente no son significativas (inferiores a 12)
pueden en realidad ser importantes, o viceversa.
• Compensación Verbal de la deficiencia en Ejecución
Los niños que tienen habilidades verbales excepcionalmente

desarrolladas pueden utilizarlas para compensar habilidades
no verbales deficientes. En este caso hay que observar el
rendimiento del niño en dos tests no verbales, que tienen
cargas secundarias de Comprensión Verbal - Ordenación de
figuras y Figuras incompletas - y su discrepancia de los demás
tests de ejecución. Muchas veces se observa que los niños
altamente verbales vocalizan sus estrategias de resolución de
problemas.
118
• Dispersión en el perfil
Siempre que se observe una dispersión considerable en el

perfil de puntuaciones normalizadas, en la Escala Verbal,
en la Escala de Ejecución o en ambas, la discrepancia V-
E suele perder significado. La existencia de dispersión de
las puntuaciones normalizadas obtenidas en la Escala Verbal
indica que la capacidad global de Comprensión Verbal del
niño no es la causa principal de las puntuaciones normalizadas
que obtuvo en los distintos subtests de esta escala, sino que
existen otras variables que han contribuido; por lo tanto el
CI Verbal no corresponde a una entidad unitaria. El mismo
tipo de razonamiento debe ser realizado en cuanto a la Escala
de Ejecución. En este caso la discrepancia entre los CI V-
E tiene poco significado.
• Efectos de la repetición del test
Varias situaciones pueden llevar a una reaplicación del test

con un intervalo de unos cuantos meses. "En ningún caso
en que se vuelva a aplicar el WISC-R después de uno o varios
meses son de fiar las discrepancias V-E y los CI globales
obtenidos por los niños en segunda aplicación'' (Kaufman,
1982, p.56). Cuando se realiza un retest después de un mes,
se espera que cualquier niño logre un incremento cercano
a los 7 puntos en su CI total. Sin embargo, este incremento
no se distribuye igualmente entre el CI Verbal y el CI de
Ejecución. El primero obtiene un incremento de 3½ puntos
mientras que el segundo aumenta de 9½ puntos. Este
incremento desigual puede provocar una discrepancia
significativa en la reaplicación. Es probable que el mayor
incremento del CI de Ejecución se deba a una familiaridad
relativa con las tareas. Si es posible, es conveniente aplicar
un instrumento de retest diferente (Ejemplo: el Stanford-
Binet). En el caso que se reaplique el WISC-R, se debe
119
proceder a una interpretación prudente, sin dar importancia

indebida al CI global o a la discrepancia V-E. "Cuando la
discrepancia V > E casi es significativa, se debe suponer que
probablemente refleje una diferencia significativa; sin em-
bargo, se deben ignorar aquellas discrepancias E > V que
apenas son significativas. En caso que se encuentren grandes
discrepancias E > V, es pertinente mantener como hipótesis
viable que la magnitud de esas discrepancias se puede atribuir
parcialmente al retest" (ídem, p. 57).
c. Dispersión intra-individual
Kaufinan (1982, p. 64) propone el siguiente procedimiento para

calcular fluctuaciones internas significativas en el WISC-R:
1) Compute la puntuación normalizada promedio de todos los
subtests de la Escala Verbal aplicados (5 o 6) y la puntuación
normalizada promedio de los subtests de la Escala de Ejecución.
Redondee cada promedio al número entero más próximo.
2) Examine las puntuaciones normalizadas de la Escala
Verbal y anote todos los valores que están 3 puntos por arriba
del promedio de esta escala. Estas son las ventajas significativas
del niño y deben señalarse con " V " . En seguida anote los
valores que están 3 puntos por abajo del promedio de la Escala
Verbal y señálelos con " D " (desventaja).
3) Realice el mismo procedimiento arriba mencionado con
las puntuaciones de la Escala de Ejecución.
4) Todas las puntuaciones normalizadas cuyas desviaciones
no son significativas deben considerarse como fluctuaciones
al azar
Deben interpretarse las ventajas y desventajas del niño con
base a las funciones intelectuales medidas por los subtests
cuya dispersión es significativa. En la sesión del WAIS, se
mencionan las funciones intelectuales medidas por cada uno
de los subtests de la escala.
120
9. NORMAS
Las normas para ambas versiones del WISC son presentadas

en CI de desviación, considerando una media de 100 y una
desviación estándar de 15 puntos. Los manuales presentan
tablas de normas para 11 grupos de edad.
El WISC fue estandarizado en una muestra de 2,200 niños
de E.U.A., distribuidos en 11 grupos de edad (100 niños y
100 niñas de cada edad), de 5 años 0 meses a 15 años 11
meses. Todos los niños fueron examinados dentro de un mes
y medio de su medio año; por ejemplo los niños de 5 años,
ya habían cumplido 5 años, 4 meses y 15 días, sin embargo
no habían pasado de los 5 años, 5 meses y 15 días. Los
requisitos de muestreo fueron basados, en gran medida, en
los datos del Censo de E.U.A de 1940, tomándose en cuenta
la edad, el sexo, el área geográfica, la residencia urbana-
rural y la ocupación de los padres. Se incluyeron en la
muestra 55 casos de débiles mentales, la mayoría provenientes
de escuelas especiales (Wechsler, 1981c).
Las normas del WISC-R provienen de una muestra de
2,200 niños de E.U.A., 200 de cada uno de los 11 grupos
de edad, desde los 6 ½ hasta los 16 ½ años. Cada niño fue
examinado hasta seis semanas de su medio año cumplido,
como en el WISC. El plan de muestreo fue estratificado y
se seleccionaron variables de acuerdo con los datos del Censo
de 1970. Las variables utilizadas fueron: edad, sexo, raza
(blancos y no blancos), región geográfica, ocupación de los
jefes de la familia y residencia rural-urbana. La muestra de
estandarización se limitó a niños ' 'normales"; no se tomaron
en cuenta niños institucionalizados con anormalidades
mentales o con problemas emocionales graves. Un total de
202 examinadores aplicaron la prueba a lo largo de E.U.A.,
entre diciembre de 1971 y enero de 1973 (Wechsler, 1981d).
La estandarización de la versión mexicana (WISC-RM)
121
se inició en 1964, con una muestra de niños residentes en la

ciudad de México. La muestra incluyó niños escolares urbanos,
de ambos sexos y de tres niveles de sistemas escolares, que
representaban tres niveles económicos de la ciudad de México
(Morales, 1993).
Para estudiar la confíabilidad de las dos versiones del WISC,

se utilizó el procedimiento de división en mitades, excepto
en los casos en que este procedimiento no era apropiado:
Repetición de Dígitos y Dígitos y Símbolos. Para Dígitos y
Símbolos se utilizó el procedimiento de test-retest y para
Repetición de dígitos se obtuvo la correlación entre las
puntuaciones de Dígitos en Orden Progresivo y Dígitos en
Orden Inverso, corregida por la fórmula de Spearman-Brown.
Fueron calculados coeficientes de confíabilidad de las
subescalas y de la escala total a partir de los coeficientes
obtenidos para los subtests.
En el caso del WISC, la confíabilidad de los subtests, de las
subescalas y de la escala total ha sido testada con los grupos de
edad de 7 ½, 10 ½ y 13 ½ años, considerados los más representativos
de los rangos de edades para los cuales fue diseñada la prueba. Los
coeficientes de confíabilidad para la Subescala Verbal variaron, en
función del grupo de edad, entre .88 y .96; los de la Subescala de
Ejecución, entre .86 y .90; y los de la Escala Total entre .92 y .94.
Los coeficientes de confíabilidad fueron más elevados en los
grupos de edades más altas. El Error Estándar varió también
con el grupo de edad: para la Subescala Verbal entre 3.00
y 5.19, para la Subescala de Ejecución, entre 4.74 y 5.61 y
para la Escala Total entre 3.68 y 4.25. El Error Estándar fue
siempre menor en los grupos de edades más altas (Wechsler,
1981c).
Para estudiar la confíabilidad del WISC-R, se tomaron en
122
cuenta los 11 grupos de edad. Para la Subescala Verbal el

coeficiente promedio fue .94, para la Subescala de Ejecución
fue .90 y para la Escala Total fue .96. Los valores promedio
observados de Error Estándar fueron de 3.6, 4.66 y 3.19,
para las escalas verbal, de ejecución y total, respectivamente.
Con el WISC-R se sacaron también coeficientes de estabilidad,
reaplicando la prueba después de un intervalo de cerca de
un mes. Una comparación en la media de los CI en la primera
y en la segunda aplicación revela un aumento de alrededor
3 ½ puntos en la Escala Verbal, 9 ¼ puntos en la escala
de Ejecución y de 7 puntos en la escala Total. Estos resultados
deben ser tomados en cuenta cuando se reaplica la prueba
después de un breve intervalo de tiempo (Wechsler, 198Id).
La confiabilidad del WISC-RM fue verificada a través del
procedimiento de test-retest, con un intervalo de 12 meses,
en tres grupos de edades: 6-7 (133 casos), 9-10 (118 casos)
y 12-13 (133 casos). Los coeficientes de confiabilidad
obtenidos variaron, según el grupo, entre .72 y .76 para la
subescala verbal, entre .64 y .70 para la subescala de ejecución
y entre .77 y .79 para la escala total (Morales, 1993).
La validez, del WISC y del WISC-R, fue estudiada a través
de las intercorrelaciones entre los diferentes subtests. En el
caso del WISC, en tres grupos de edad (7 ½ , 10 ½ y 13
½ ) y en el caso del WISC-R en todos los 11 grupos de edad.
Los coeficientes obtenidos son presentados en los respectivos
manuales e indican que, en general, cada subtest verbal se
correlaciona mejor con la subescala verbal que con la de
ejecución y que cada subtest de ejecución se correlaciona
mejor con la subescala de ejecución que con la verbal
Fueron realizados también estudios para determinar la
relación entre el WISC-R y otras medidas de inteligencia,
de aplicación individual: el WPPSI, el WAIS y el Stanford-
Binet. La correlación entre el CI total del WISC-R y el del
123
WPPSI, obtenida con un grupo de 50 niños de 6 años 0 meses

fue de .82. La correlación obtenida entre el CI total del WISC-
R y el del WAIS, en un grupo de 40 niños con edades de 16
años 11 meses, fue .95. La correlación entre el WISC-R y
el Stanford-Binet fue estudiada en cuatro grupos de niños (6,
9 ½ , 12 ½ y 16 ½ años). Los coeficientes de correlación
promedio, entre los CI de la subescala verbal, de la subescala
de ejecución y de la escala total y los CI del Stanford-Binet,
fueron .71, .60 y .73, respectivamente. Estos valores son
similares a aquellos obtenidos en estudios que comparan el
Stanford-Binet al WISC (Wechsler, 198Id).
La validez del WISC-RM fue estudiada mediante un análisis
factorial por edades. Los resultados confirmaron aquellos
obtenidos por Wechsler y otros investigadores con la escala
WISC. Además, fue realizado un análisis de varianza (ANOVA)
con el objetivo de probar el poder discriminative de cada
subtest, por edad, y de verificar la hipótesis de diferenciación
por sexo y nivel socioeconómico (Morales, 1993).
11. COMENTARIOS
Las ventajas del WISC son similares a las atribuidas al WAIS,

sobre todo respecto a la posibilidad de elaborar un diagnóstico
más fino de las habilidades intelectuales, más y menos
desarrolladas, del niño. La aplicación y puntuación del WISC-
R es relativamente más fácil que la del WISC. Los cambios
realizados en el WISC-R fueron de gran utilidad para los
examinadores.
Las dificultades encontradas en la utilización del WISC
se refieren a aspectos prácticos: aplicación estrictamente
individual, tiempo de aplicación considerable, material costoso,
etc. Tanto el WISC como el WISC-R no han sido estandarizados
para la población mexicana, solamente traducidos para el
español. La versión mexicana, construida bajo la dirección
124
de Díaz-Guerrero (WISC-RM), es la que presenta una

estandarización para la población mexicana. Sin embargo,
hay que llevar en consideración que la muestra utilizada se
limitó a la ciudad de México, no siendo por lo tanto
representativa de toda la población mexicana.
Kaufman, A.(1982) Psicometría razonada con el WISC-R.

México D.F.: Editorial El Manual Moderno.
Magnuson, P. (1979). Teoría de los tests México: Editorial
Trillas.
Morales, M.L. (1993). Psicometría Aplicada (2a ed., 2a re-
impresión) México D.F.: Editorial Trillas.
Wechsler, D. (1981c). WISC-Español - Escala de Inteligencia
para el nivel escolar -Manual. México D.F.: Editorial
El Manual Moderno.
, D. (1981d). WISC-R-Español - Escala de Inteligen-
cia revisada para el nivel escolar - Manual. México
D.F.: Editorial El Manual Moderno.
125
CAPITULO VIII
ESCALA DE INTELIGENCIA PARA LOS

NIVELES
PREESCOLAR Y PRIMARIO (WPPSI)
La escala WPPSI (Wechsler Preschool and Primary Scale

of Intelligence), fue presentada en 1963. La idea original era
elaborar una escala que fuera una extensión descendiente del
WISC. Sin embargo, después de un estudio preliminar, y
por razones teóricas y prácticas, se consideró que el WPPSI
"era una escala independiente, adaptada de manera óptima
al examen mental de los niños de 4 a 6 ½ años" (Wechsler,
198 le, p. 1). Asimismo, ocho de los once subtests del WPPSI
y casi la mitad de sus reactivos provienen directamente del
WISC. Las modificaciones básicas que se hicieron en los
subtests provenientes del WISC son: adición de elementos
más fáciles y eliminación de otros más difíciles, algunos
cambios en el contenido de reactivos y en la forma de la
aplicación.
Posteriormente se presentó una versión revisada (WPPSI-
R) que puede ser utilizada con niños de 3 a 7 años de edad.
La versión en español —WPPSI español— surgió en 1981
(Wechsler, 198 le). En México, fue realizado un estudio para
la traducción, adaptación, confiabilidad y validez del WPPSI
127
en un grupo de 60 niños de nivel socio económico medio alto

(Coto Villa y Llano de la Torre, 1981).
El WPPSI consta de un total de once subtests, seis

pertenecientes a la subescala verbal y cinco a la subescala
de ejecución. Ocho de los subtests provienen del WISC:
Información, Vocabulario, Aritmética, Semejanzas,
Comprensión, Figuras Incompletas, Laberintos y Diseño con
Prismas y tres son nuevos: Frases, Casa de los Animales y
Diseños Geométricos. El subtest de Frases es complementario
y sólo debe ser utilizado como alternativa, cuando no se puede
aplicar o se queda invalidado uno de los subtests verbales.
Las subescalas, verbal y de ejecución están compuestas por
los siguientes subtests (Wechsler, 198le):
Subescala verbal Subescala de ejecución

Información Casa de Animales
Vocabulario Figuras Incompletas
Aritmética Laberintos
Semejanzas Diseños geométricos
Comprensión Diseños con prismas (o con cubos)
Frases (complementario)
3. MATERIAL
El material del WPPSI se compone de: (1) un manual, (2)

un protocolo, (3) una hoja con laberintos, (4) una hoja de
Diseños Geométricos, (5) un tablero de 28 cilindros de colores
para Casa de los Animales, (6) una libreta con espiral que
contiene los reactivos de Figuras Incompletas y algunos de
Diseño con Prismas, (7) una libreta con espiral que contiene
128
algunos de los problemas de Aritmética y los de Diseños

Geométricos, (8) una caja con 14 prismas, rojo y blancos
para Diseño con Prismas y para algunos de los problemas
de Aritmética. El examinador necesitará también un
cronómetro y dos lápices de color rojo (Wechsler, 198le).
El WPPSI puede ser utilizado con niños de 4 a 6 ½ años

y el WPPSI-R con niños de 3 a 7 años.
La administración es exclusivamente individual.
La aplicación del WPPSI requiere entre 50 y 75 minutos.

Si posible, la prueba debe ser aplicada en una única sesión.
Caso el niño de muestra de cansancio o desmotivación, puede
aplicársela en dos sesiones, con un intervalo máximo de una
semana.
En el WPPSI también existen subtests con tiempo
estrictamente limitado y otros que no tienen límite de tiempo.
En estos últimos, se considera que 15 segundos son suficientes
para que el niño inicie su respuesta.
7. PROCEDIMIENTO DE APLICACIÓN
Como en las demás escalas de Wechsler, las instrucciones

de aplicación y calificación, presentadas en el manual, deben
ser seguidas con la mayor precisión posible. Siendo el WPPSI
utilizado con niños muy pequeños, su aplicación requiere
del examinador mucha simpatía, objetividad y paciencia. Es
129
muy importante mantener el interés y motivación del niño,

pero deben ser evitadas manifestaciones de efusividad o
sobreprotección. Con frecuencia, los niños pequeños quieren
manejar el material, situación que debe ser debidamente
controlada por el examinador.
Llenar los datos personales del sujeto es el primer paso
de la aplicación, seguido del cálculo exacto de la edad del
niño, cuyo procedimiento viene descrito en el manual. En la
aplicación, se alternan los subtests verbales y de ejecución,
así como los "fáciles" y "difíciles". El orden de aplicación
indicado, en el manual, es el siguiente: 1) Información, 2) Casa
de Animales, 3) Vocabulario, 4) Figuras Incompletas, 5)
Aritmética, 6) Laberintos, 7) Diseños Geométricos, 8)
Semejanzas, 9) Diseño con Prismas y 10) Comprensión. Este
orden puede ser alterado, si el niño presenta alguna dificultad
especial o manifiesta alguna resistencia a un determinado
subtest (Wechsler, 198le).
El subtest de Casa de Animales puede ser reaplicado,
después de todos los demás, con el objetivo de ayudar al
examinador en la evaluación cualitativa de la habilidad del
niño para aprender una tarea simple. La reaplicación permite,
muchas veces, diferenciar a los sujetos de aprendizaje rápido
o lento. El subtest de Frases es aplicado cuando se invalida
o no se puede aplicar alguno de los subtests verbales.
En la mayoría de los subtests se inicia la aplicación por
el reactivo 1, con excepción de los subtests de Aritmética,
Diseño con Prismas y Frases cuyo reactivo inicial depende
de la edad del niño.
El procedimiento básico de calificación, aunque muy similar

al del WISC, supone criterios distintos, sobre todo en los
subtests que implican una calificación no objetiva. Se asignan
130
uno o más puntos a las respuestas correctas y se calcula,

para cada subtest, la puntuación natural. Cada puntuación
natural es convertida en puntuación normalizada, utilizándose
los cuadros de conversión, presentados en el manual, que
están divididos por rangos de edades. Se halla la Puntuación
Verbal, que es la suma de las puntuaciones normalizadas de
los cinco subtests verbales, y la Puntuación de Ejecución,
que Se obtiene sumando las cinco puntuaciones de los subtests
de ejecución. Es importante señalar que caso se reaplique
el subtest Casa de Animales, no se incluye en la suma de
la Puntuación de Ejecución la puntuación normalizada de la
reaplicación, sólo la de la primera aplicación. Si solamente
se pueden tomar en cuenta cuatro de los subtests de una
subescala (por problemas de invalidez), debe prorratearse
la suma de puntuaciones normalizadas de esta subescala,
multiplicándola por cinco cuartos (5/4) (Wechsler, 198le).
En seguida, se calcula la puntuación total, sumando la
Puntuación de Ejecución con la Puntuación Verbal. Estas
tres puntuaciones son convertidas a CI mediante los cuadros
de conversión presentados en el manual. Todas las
puntuaciones son apuntadas en el protocolo, en los espacios
correspondientes. Además, puede trazarse la gráfica de las
puntuaciones del sujeto en el protocolo. Para establecer el
diagnóstico, se utiliza la tabla de clasificación de la inteligencia,
ya presentada anteriormente (ver Capítulo VI ).
8.1. Aspectos cualitativos
Analizando las respuestas del niño, puede llegarse a una

mayor y mejor comprensión de éste, puesto que, sus respuestas
reflejan, no sólo las influencias culturales o familiares, sino
también algunas características de personalidad como:
motivación, persistencia, impulsividad, ansiedad, necesidad
de realización, independencia, etc. Sin embargo, hay que
tener el cuidado de no hacer demasiadas inferencias a partir
de una sola respuesta.
131
Kathia María Costa Neiva
8.2. Diagnóstico de deficiencia mental en niños de edad

preescolar
Aunque el diagnóstico de deficiencia mental en niños pequeños
puede ser una tarea relativamente fácil, "su diferenciación
de otras incapacidades o deficiencia similares (por ejemplo,
esquizofrenia y lesión cerebral), en muchas ocasiones es
realmente difícil´´(Wechsler, 198 le, p.26). La dificultad mayor
está en distinguir las perturbaciones congénitas del desarrollo
mental interrumpido y también en evaluar, de manera objetiva,
las deficiencias. Esta evaluación se vuelve aún más importante
a la medida en que se acerca la entrada del niño en la edad
escolar.
a. Diferencia entre el CI verbal y el CI de ejecución
Wechsler (198le) considera que la diferencia entre el CI

verbal y el CI de ejecución es significativa, a un nivel de
confianza de 5%, cuando es mayor que 11 puntos. Según él,
una diferencia de 15 o más puntos es importante y debe ser
investigada.
b. Diferencia entre las puntuaciones normalizadas de los

distintos subtests
Wechsler presenta en el manual del WPPSI un cuadro con

las diferencias entre las puntuaciones normalizadas requeridas
para la obtención de una significancia estadística al nivel de
confianza de 15%. Según él, una diferencia de 3 puntos entre
las puntuaciones normalizadas de cualquier par de subtests
es significativa a este nivel de confianza (ídem).
132
9. NORMAS
Las normas del WPPSI son presentadas en CI de desviación,

considerando una media de 100 y una desviación estándar
de 15 puntos. En el manual se encuentran tablas de normas
para 6 grupos de edad.
Las normas del WPPSI fueron derivadas de una muestra
considerada representativa de los niños estadounidenses de
4 a 6 ½ años de edad. El total de la muestra fue de 1,200
niños, 100 niños y 100 niñas para cada uno de los seis grupos
de edad, que están divididos por intervalo de seis meses. Cada
niño fue examinado dentro de las seis semanas anteriores o
posteriores a su cumpleaños o dentro de las seis semanas
anteriores o posteriores a su medio año cumplido. La muestra
fue basada en los datos del Censo de E.U.A. de 1960 y fue
estratificada según los siguientes criterios: edad, sexo, región
geográfica, residencia (urbana-rural), color (blancos-no
blancos) y ocupación del padre (Wechsler, 198le).
La confiabilidad fue estudiada mediante las correlaciones

entre las puntuaciones naturales de los reactivos pares y
aquellas de los reactivos nones, que fueron en seguida
corregidas a través de la fórmula de Spearman-Brown. Como
este procedimiento no es apropiado para subtests que son
cronometrados, como el subtest Casa de Animales, se utilizó
en este caso el procedimiento de test-retest. Los coeficientes
fueron obtenidos para los seis niveles de edad. Los coeficientes
promedios obtenidos para los distintos subtests variaron de
.77 a .87. Los coeficientes promedio de las escalas fueron,
.94, .93 y .96, para la escala verbal, de ejecución y total,
respectivamente (Wechsler, 198le)
Fue también estudiada la estabilidad de las puntuaciones
133
del WPP SI. A un grupo de 50 niños, entre 5 ¼ y 5 ¾ años

de edad, se les aplicó la escala dos veces con un intervalo
de 48 hasta 117 días. Los coeficientes de estabilidad (corregidos)
de los subtests variaron de .60 a .93. Los coeficientes obtenidos
para la subescala verbal, de ejecución y la escala total fueron,
.86, .89 y .92, respectivamente (ídem).
Se estudió también el Error Estándar de la medida para
cada subtest y escala, en los distintos grupos de edad. El
manual del WPPSI presenta un cuadro indicando los distintos
valores obtenidos. En la subescala verbal el Error Estándar
varía, según el grupo de edad, entre 3.40 y 3.69; en la
subescala de ejecución varía entre 3.44 y 4.35 y en la escala
total varía entre 2.66 y 3.12 (Wechsler, 1981e).
La validez del WPPSI fue estudiada a través de las
intercorrelaciones entre: a) los 11 subtests, b) cada subtest
y las subescalas, c) cada subtest y la escala total y d)las
subescalas verbal y de ejecución. Se tomaron en cuenta los
seis grupos de edad. Se observó, de un lado, que los subtests
verbales se correlacionan mejor con su propia subescala que
con la de ejecución, y del otro, que los subtests de ejecución
se correlacionan mejor con su propia subescala que con la
verbal. La correlación promedio obtenida entre las dos
subescalas —verbal y de ejecución —fue de .66 (ídem).
La validez fue también verificada mediante la correlación
con otras pruebas de inteligencia de aplicación individual: la
Escala de Stanford-Binet (Forma LM), el Peabody Picture
Vocabulary Test (Forma A) y el Pictorial Test of Intelligence;
los coeficientes de correlación obtenidos fueron .75, .58 y .64,
respectivamente. La muestra utilizada fue de 98 niños entre
los 5 y 6 años de edad. Los coeficientes de correlación
obtenidos entre los CI del WPPSI y el del Stanford-Binet son
de la misma magnitud que los observados entre el los CI del
WISC y el del Stanford-Binet. Se observó también, que el
CI verbal del WPPSI se correlaciona más con el CI del
134
Stanford-Binet, que el CI de ejecución, lo que también fue

observado en las investigaciones que se interesaron a la
correlación entre el WISC y el Stanford-Binet (Wechsler,
198 le). La correlación entre el CI total del WISC-R y el del
WPPSI, obtenida con un grupo de 50 niños de 6 años 0 meses
fue de .82 (Wechsler, 1981d).
11. COMENTARIOS
El WPPSI tiene las mismas ventajas de las demás escalas

Wechsler, además de ser una de las pocas escalas que permite
la evaluación de la capacidad intelectual de niños tan pequeños.
Las dificultades encontradas en la utilización del WPPSI
se refieren a los mismos aspectos ya mencionados respecto
a las escalas Wechsler: aplicación estrictamente individual,
tiempo de aplicación considerable, material costoso, etc. Esta
prueba tampoco ha sido estandarizada para la población
mexicana, solamente traducida para el español. La versión
mexicana, desarrollada por Coto Villa y Llano de la Torre
(1981), no ha sido estandarizada. Estos investigadores
solamente realizaron un primer estudio sobre la traducción
y adaptación del WPPSI, limitado a una pequeña muestra
(N=60) de niños mexicanos de nivel socio económico medio
alto.
Coto Villa, M. J. y Llano de la Torre, A. (1981). Estudio

sobre la traducción, adaptación, conflabilidad y validez
del test para preescolares y primaría de Wechsler
(WPPSI) en un grupo de niños de nivel socioeconómico
medio alto. Tesis inédita de Licenciatura en Psicología.
Universidad Iberoamericana, México D.F.
Wechsler, D. (1981d). WISC-R-Español-Escala de Inteligen-
135
cia revisada para el nivel escolar-Manual. México

., D. (1981e). WPPSl-Español - Escala de
Inteligencia para los niveles preescolar y primario -
Manual. México D.F.: Editorial El Manual Moderno.
136
CAPITULO IX
BETA II-R
El Beta II-R (Segunda Edición Revisada) tiene su origen

en el Examen Beta Grupal (Group Examination Beta)
desarrollado por la Armada de los Estados Unidos de
Norteamérica durante la primera guerra mundial para
seleccionar reclutas extranjeros o analfabetos. La versión
original, que fue la primera prueba colectiva de inteligencia,
fue revisada en 1934 por Kellogg y Morton, con el objetivo
de adaptarla a poblaciones civiles (Examen Beta Revisado).
Esta prueba se quedó conocida como el Beta I (Primera
edición). Posteriormente, apareció la edición utilizada
actualmente (Beta II-R) (Kellogg y Morton, 1974).
Entre una edición y otra, fueron realizadas varias revisiones
del manual. En 1946, Lindner y Gurvitz llevaron a cabo una
reestandarización, utilizando procedimientos basados en la
escala de inteligencia Wechsler-Bellevue. Aunque no se
introdujeron cambios importantes en los procedimientos de
aplicación y calificación, es a partir de esta revisión que se
empezó a utilizar el CI de desviación. Se desarrollaron tablas
de conversión para nueve niveles de edad. En 1957, fue
realizada otra revisión del manual que aportó nueva
información sobre la confiabilidad de la prueba (ídem).
Los cambios introducidos en el Beta II-R están relacionados
al contenido de los reactivos y a la estandarización. Aunque
137
la naturaleza de las tareas no cambió, el orden de éstas fue

alterado ligeramente. El material sufrió modificaciones
(reactivos mayores o redibujados), los reactivos obsoletos,
ambiguos o inadecuados fueron reemplazados por nuevos y
fueron revisadas las instrucciones para que se volvieran más
comprensibles. Además, fueron utilizados procedimientos de
estandarización más sofisticados; la muestra estudiada siendo
más representativa de toda la población norteamericana, de
las mismas edades a las que se destina el instrumento (ídem).
El Beta II-R es una prueba de inteligencia no verbal diseñada

especialmente para adultos que tienen problemas de lectura
y escritura. Está compuesta de seis tareas, cada una de ellas
mide como uno puede resolver determinados problemas. Las
tareas son: Laberintos, Claves, Figuras Geométricas, Figuras
Incompletas, Pares Iguales vs Desiguales y Objetos
Equivocados.
3. MATERIAL
El material consta de: 1) un folleto de tareas, donde son

presentadas y contestadas, una a una, las seis tareas; 2) una
lámina complementaria para los ejercicios de práctica de la
tarea 3 (Figuras Geométricas), 3) una plantilla de calificación
y 4) el manual de la prueba. Se necesita también un cronómetro.
Esta prueba es indicada para adultos que presentan problemas

de lectura (no leen o la lectura es deficiente) y escritura, así
138
como para extranjeros. Es utilizada frecuentemente en prisiones

y en industrias que emplean sobre todo obreros no calificados.
Esta prueba fue construida para posibilitar la aplicación

colectiva, pudiendo ser también administrada en forma in-
dividual. Para la aplicación grupal se requiere de un
examinador para cada 15 examinados. Se necesitan más
asistentes cuando en el grupo existan sujetos que requieran
ayuda especial para la ejecución de los ejercicios de práctica.
Cada tarea tiene un tiempo límite para su realización, que

no incluye el tiempo necesario para las instrucciones y para
la ejecución de los ejercicios de práctica. El examinador debe
contar, por lo tanto, con un cronómetro o con un reloj con
segundero. Para la aplicación completa se necesitan cerca
de 30 minutos. Los tiempos límites para cada tarea son:
TAREA TIEMPO
Tarea 1 (Laberintos) 1 min. 30 seg.
Tarea 2 (Claves) 2 min.
Tarea 3 (Figuras Geométricas) 4 min.
Tarea 4 (Figuras Incompletas) 2 min. 30 seg.
Tarea 5 (Pares Iguales vs Desiguales) 2 min.
Tarea 6 (Objetos Equivocados) 3 min.
Cada examinado debe contar con dos lápices y una goma; y empezar
139
llenando, en el folleto de tareas, sus datos personales. En el caso

de analfabetos, el examinador debe encargarse de anotarlos.
Cada tarea tiene una instrucción específica que debe ser leída
atentamente por el examinador. Antes de cada una de ellas, hay
algunos ejercicios de práctica que aclararán cómo hacerlas. Las
tareas son realizadas en orden y contestadas directamente en el folleto
de tareas.
La plantilla de calificación facilita la corrección de las tareas.

Los criterios de puntuación varían de una tarea a otra y deben
ser seguidos rigurosamente. En el caso de las tareas 2, 3, 4
y 6, se asigna un punto para cada respuesta correcta. En la
tarea 1 (laberintos) se asigna un punto a la ejecución correcta
de la mitad de cada uno de los laberintos; la puntuación
máxima de cada laberinto es de dos puntos. En el manual
vienen los casos en que se considera incorrecta la mitad de
un laberinto. En la tarea 5 (Pares Iguales vs Desiguales) se
atribuye un " + " a las respuestas contestadas correctamente
y un " - " a las respuestas contestadas en forma incorrecta.
Se resta, el total de las respuestas contestadas incorrectamente
(-), del total de las respuestas contestadas correctamente (+).
Unicamente se toman en cuenta los reactivos contestados por
el examinado (Kellogg y Morton, 1974).
Para cada tarea, se convierte la puntuación bruta o natural
en puntuación normalizada utilizando un cuadro de conversión
presentado en el manual. En el Sumario de Puntuaciones
(última hoja del folleto de tareas), se anotan los valores en
los debidos espacios. La suma de las puntuaciones normalizadas
puede ser convertida a CI de desviación o percentil, mediante
cuadros de conversión disponibles en el manual. Estos cuadros
140
toman en cuenta el grupo de edad del sujeto. El manual provee

también una tabla de clasificación de la inteligencia, en
función del CI obtenido.
9. NORMAS
Las normas son expresas en CI de desviación y en percentil.

Se determinó que los CI, en cada grupo de edades, tendrían
una media con valor de 100 y una desviación estándar con
valor de 15. Las tablas de CI de desviación y de percentil
están dividas en siete grupos de edad: (16-17), (18-19),
(20-24), (25-34), (35-44), (45-54) y (55-64).
Las normas provienen de una muestra considerada
representativa de la población norteamericana, compuesta
por 1,050 personas entre 16 y 64 años de edad. Se utilizó
un procedimiento de muestreo estratificado y se tomaron en
cuenta las siguientes variables: sexo, edad, región geográfica,
raza y ocupación. Aunque el nivel de escolaridad no fue
controlado, se procuró que en la muestra existiera una
proporción semejante de sujetos que habían completado
determinado números de años escolares en relación con la
existente en la población norteamericana. La aplicación de
la prueba se llevó a cabo entre abril de 1974 y mayo de 1976
(ídem).
La confiabilidad del Beta II-R fue testada en una muestra

de 79 sujetos (40 hombres y 39 mujeres) de 16-17 años. Como
las tareas de esta prueba deben ser resueltas con rapidez,
el procedimiento de confiabilidad utilizado fue el de Test-
Retest con intervalo de 3 semanas. El coeficiente de estabilidad
obtenido fue de .91. El Error Estándar de la medida es de
4.6, lo que significa que existe una probabilidad de 2 sobre
141
3 de que el CI real del examinado se encuentre dentro de 4.6

puntos del CI obtenido (Kellogg y Morton, 1974).
La validez ha sido estudiada mediante la correlación entre
la puntuación obtenida en el Beta y la puntuación obtenida
en otras medidas de inteligencia. La Primera Edición del Beta
presentaba una correlación de .80 con el Alpha, de .73 con
el Stanford-Binet (Anastasi, 1974) y correlaciones variando
entre .37 y .83 con el WAIS, dependiendo de la muestra
utilizada (Kellogg y Morton, 1974). Es importante señalar
que estos coeficientes fueron obtenidos con muestras muy
específicas.
La correlación entre el CI del Beta II-R y el CI del WAIS
fue estudiada en una muestra más amplia y general que tomó
dos de los grupos de edad del Beta II-R: 18-19 y 35-44 años.
Se observó una correlación entre el CI del Beta II-R y el CI
total del WAIS de .64 (18-19 años) y de .66 (35-44 años).
Las correlaciones más altas se obtuvieron entre los CI del
Beta II-R y los CI de la escala de ejecución del WAIS: .68
(18-19 años) y .73 (35-44 años) (ídem).
Fue también estudiada la relación entre la Primera Edición
del Beta y el Beta II-R. La muestra utilizada fue de 267 sujetos
entre 18 y 54 años. A 132 sujetos se les aplicó primero la
Primera Edición del Beta y 7 a 10 días después el Beta II-
R. Al resto de los sujetos se procedió de manera inversa.
Los coeficientes de correlación obtenidos fueron:. 84 (Primera
Edición - Beta II-R) y .93 (Beta II-R - Primera Edición). Este
estudio permitió detectar que, en general, los CI de la Primera
Edición resultan más bajos que los obtenidos en el Beta II-
R. Esta diferencia puede ser explicada de dos maneras: (a)
diferencias en las estrategias de muestreo utilizadas en las
dos estandarizaciones y (b) la posibilidad que la población
adulta norteamericana, ejecute mejor actualmente las tareas
en comparación con los sujetos que participaran de la
normalización en 1946 (ídem).
142
11. COMENTARIOS
Algunas de las ventajas del Beta 1I-R son: ser una medida
no verbal de inteligencia, permitir una aplicación colectiva,
poder ser aplicado a personas analfabetas o con problemas
de escritura y lectura, no requerir mucho tiempo para su
administración.
Entre los inconvenientes está el hecho de que el valor
máximo de este instrumento no es muy alto, no diferenciando
bien entre sujetos de capacidades muy altas. Por este motivo,
se recomienda que los individuos que puntúan muy alto en
esta prueba deberían ser examinados con otros instrumentos,
para que se pueda obtener una medida más exacta de su
capacidad (Kellogg y Morton, 1974).
Otro aspecto importante está en las normas. Las tablas
presentadas en el manual son adecuadas solamente para la
población norteamericana, de donde fueron extraídos los
datos normativos.
Anastasi, A (1978). Tests Psicológicos, (3 a ed., 4a reimpre-

sión). Madrid: Editorial Aguilar.
Kellogg, C E . y Morton, N.W. (1974). Instrumento no ver-
bal de inteligencia - Beta II-R. Manual. México D.F.:
Editorial El Manual moderno.
143
CAPITULO X
TEST DE MATRICES PROGRESIVAS
(RAVEN)
Esta prueba fue desarrollada por el psicólogo inglés J.C.

Raven e impresa por primera vez en 1936. Dos años después,
la prueba ya tenía su forma definitiva y estaba tipificada
(Progressive Matrices —1938— Series A, B, C, D, E).
Posteriormente fueron publicadas: (a) una escala para niños
de 3 a 10 años y adultos deficientes (1938), (b) una revisión
de la escala general de 1938 (1956) y (c) una escala general
para niveles superiores. La revisión de 1956 presentó como
cambios el reemplazo de un reactivo y modificación de la
ubicación de otros siete (Raven, 1987).
El Test de Matrices Progresivas es una prueba no verbal que

busca medir la inteligencia general. La escala general es
compuesta de 60 problemas, dispuestos en cinco series de
doce problemas (A, B, C, D y E) en orden de dificultad
progresiva. Las dos primeras series plantean problemas de
educción de relaciones y las demás, problemas de educción
de correlatos. Es un test de matrices lacunarios pues cada
reactivo es compuesto de una lámina de figuras geométricas
abstractas lacunarias que exige una tarea de completamiento.
145
Cada figura geométrica es la matriz de un sistema de

pensamiento. Para descubrir la matriz de pensamiento implicada
en cada figura, el sujeto realiza una tarea de observación,
comparación y razonamiento analógico. El completamiento
de la matriz es realizado a través de elección múltiple entre
una serie de 6 o 8 respuestas (ídem).
La escala especial es compuesta de 36 láminas dispuestas
en tres series: A, Ab y B. La primera y la última son las
mismas de la escala general, la serie Ab es de un nivel de
dificultad intermediario.
3. MATERIAL
El material básico consta de: (1) un cuaderno de matrices,

donde vienen encuadernadas las láminas en negro y blanco;
(2) un protocolo de prueba, donde se registran los datos y
las respuestas del sujeto; (3) una plantilla de corrección (clave
matriz); (4) una carpeta de evaluación, donde vienen varias
tablas normativas (baremos) obtenidas con distintas muestras
y una tabla de diagnóstico de la capacidad intelectual, y (5)
el manual del autor.
La escala especial es presentada en la forma de tablero
o de cuadernillo y las láminas son coloridas. En la forma de
tablero, las láminas están encuadernadas sobre planchas de
cartón con excavaciones, de manera que pueden ser manejadas
como un test de tipo encaje. Cada serie viene en una carpeta
y las tres carpetas en un estuche.
La escala general es utilizada con sujetos normales o poco

dañados intelectualmente, de 12 a 65 años. La escala especial
es indicada para niños menores de 12 años o adultos dañados
intelectualmente (reducida capacidad intelectual, serios
trastornos de lenguaje o audición). La forma de cuadernillo
146
es indicada para niños entre 9 y 11 años y sujetos deficitarios,

mientras que la forma de tablero es recomendada para niños
menores de 9 años y sujetos muy deficitarios (Raven, 1987)
En niños menores de 9 años o adultos muy deficitarios la

aplicación es individual. En niños mayores de 9 años o
adultos, la aplicación puede ser individual o colectiva. Con
estos últimos, la prueba puede también ser autoadministrada.
El tiempo de administración no es limitado. En general, se

necesitan entre 30' y 40' para la ejecución de la prueba.
Inicialmente, deben llenarse los datos del examinado en el protocolo

de prueba. El procedimiento de administración consiste en presentar
a la inspección del sujeto, uno a uno, los 60 problemas de
completamiento e instruirle para hallar la respuesta correcta entre
varias soluciones presentadas (6 o 8). Cada respuesta debe ser
anotada en su respectivo espacio en el protocolo de prueba. Las
anotaciones pueden ser realizadas por el examinador (aplicación
individual) o por el propio examinado (aplicación colectiva o
autoaplicación). En el caso de una aplicación colectiva, el examinador
debe vigilar para asegurarse de que los examinados no se salten
ningún problema, anoten sus respuestas en las respectivas casillas
y no copien entre sí.
Para calificar la prueba se utiliza una clave matriz de

corrección que permite verificar las respuestas correctas e
147
incorrectas. Se atribuye un punto para cada respuesta correcta.

Se calculan los puntajes parciales (de cada serie) y el puntaje
total (suma de puntajes parciales). Se convierte la puntuación
bruta a puntaje ponderado (percentil), buscando en la carpeta
de evaluación la tabla de normas (baremo) más adecuada a
los datos del examinado (edad, nacionalidad, etc.). Finalmente,
se convierte el percentil en rango, estableciendo así el
diagnóstico de la capacidad intelectual del sujeto.
8.1. Consistencia del puntaje
Un segundo procedimiento de evaluación es la verificación

de la consistencia del puntaje, cuyo objetivo es comprobar
si la composición del puntaje del sujeto es ajustada al esperado.
Raven ha calculado los puntajes medios, de cada una de las
series, que deberían componer cada uno de los posibles puntajes
totales. Estos puntajes medios son los puntajes parciales
esperados para cada puntaje total. Para verificar la consistencia
del puntaje de un sujeto, se calcula, por sustracción, la
discrepancia entre los puntajes obtenidos por el sujeto en cada
una de las cinco series (puntajes parciales) y los puntajes
parciales esperados en razón de su puntaje total. El puntaje
de un sujeto es considerado consistente cuando la discrepancia
entre puntajes parciales y puntajes parciales esperados, no
es mayor que +2 o -2. En el manual se encuentran las tablas
que presentan los puntajes parciales esperados para cada
puntaje total (Raven, 1987).
8.2. Evaluación de errores
Una forma adicional de evaluación es la que toma en cuenta

la cantidad de errores. Los errores indican las fallas en el
razonamiento. La ejecución satisfactoria, de los problemas
propuestos en esta prueba, exige la educción de tres correlatos:
148
(a) correlato numérico: cantidad de figuras, (b) correlato de

figuras: forma de las figuras y (c) correlato lineal: disposición
de las figuras (recta, oblicua curva). Al dar una solución
errada, el sujeto puede estar omitiendo uno, dos o tres
correlatos. Así, se distinguen tres tipos de errores: (1) finos
(F) - educción de dos correlatos; (2) medios (M) - educción
de un correlato y (3) grosero (G) - completa ausencia de
educción. En el manual (Raven, 1987, p. 27), se presenta
una tabla de graduación de errores para los 60 problemas.
Para expresar cuantitativamente cada error, se acreditan
a: errores groseros = 1 ½ puntos, errores medios = 1 punto
y errores finos = ½ punto. Se suman los valores hallando
así el puntaje de error (P.E.). Este puntaje es muy útil en
la selección de clases de escolares y de cuadros militares
para desempatar percentiles iguales. También es importante
en diagnóstico diferencial, para detectar fallas y déficits en
las funciones mentales (ídem).
9. NORMAS
Las normas son expresas en percentiles. El manual ofrece

varias tablas de normas (baremos) obtenidas con distintas
muestras: de Argentina, Uruguay, España e Inglaterra. El
número de sujetos varía de una muestra normativa a otra,
así como la edad de éstos. Algunas normas fueron establecidas
a partir de una aplicación individual, otras a partir de una
aplicación colectiva.
El coeficiente de estabilidad (test-retest) del Raven varía

según la edad, entre .83 y .93. (Raven, 1987; Anstey, 1974).
La validez de criterio ha sido comprobada comparando
los resultados de un grupo de sujetos con la opinión de los
149
maestros acerca de su inteligencia y verificando el éxito o

fracaso en el aprendizaje escolar de un grupo de alumnos en
el año siguiente al de su medición.
La validez estructural ha sido estudiada a través de análisis
factoriales. Raven encontró una saturación g de .82 (Raven,
1987), aunque otros estudios han llegado a valores entre .75
y .79 (Anstey, 1974). El estudio realizado por Vernon en 1947
(citado por Anstey, 1974) ha detectado un factor específico
del grupo visual perceptivo, factor espacial, y un residuo
compuesto por otros factores específicos no identificados.
Otro procedimiento, para el estudio de la validez estructural,
obtuvo una correlación de .86 con el test de Terman - Binet.
11. COMENTARIOS
Las principales ventajas del Test de Matrices Progresivas

(Raven) son: (a) es una prueba no verbal, supuestamente
independiente de factores culturales; (b) es de fácil
administración y evaluación; (c) no requiere demasiado tiempo
para ser contestado ni calificado y (d) la tarea motiva tanto
a jóvenes cuanto a adultos mayores.
Cuanto a las desventajas, Raven (1987) menciona las
detectadas por M. Madruga en 1958. Algunas de ellas son:
(a) validez deficiente, (b) no mide el factor g con pureza, (c)
permite dar soluciones acertadas por otras vías distintas a
la que se pretende medir (por ejemplo, su probabilidad de
respuestas al azar el de 1/6 o 1/8 según el reactivo) y (d)
presenta excesiva dificultad para personas de nivel intelectual
mediocre. Anastasi (1978) comenta que estudios realizados
en algunas culturas no europeas llevaron a dudar de la
adecuación de esta prueba para grupos con ambientes muy
diferentes. Además, en estos grupos se ha verificado que el
test refleja una cierta educación y que está susceptible a la
práctica.
150
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reim-

presión). Madrid: Editorial Aguilar.
Anstey, E. (1974). Test de dominós - manual. Buenos Aires:
Editorial Paidós.
' Aires: Paidós
151
CAPITULO XI
TEST DE DOMINOS
El test de Dominós fue construido para la armada británica

por el psicólogo inglés Edgar Anstey en 1944. Esta prueba
fue ideada para servir como test paralelo del test de Matrices
Progresivas de Raven y para superar algunos de sus
inconvenientes (Anstey, 1974).
La versión original, que constaba de 44 reactivos, ha
quedado como un "closed test" con uso oficial o exclusivo.
En 1955, Anstey publicó una nueva versión con carácter de
"open test'', ligeramente diferente de la primera en su material.
Esta, constaba de 48 reactivos de complejidad creciente,
agrupados en ocho páginas según diferentes principios. Anstey
confió esta nueva versión al investigador uruguayo W. L.
Risso, de la Universidad del Trabajo del Uruguay, para
estandarización. La prueba fue entonces tipificada, fueron
elaboradas normas para el Uruguay, estudiada su validez y
confíabilidad y preparado su manual (ídem).
El test de Dominós ha tenido dos adaptaciones: la inglesa
(Group Test 100) y la francesa (D48). La primera, realizada
por el Instituto de Psicología Industrial de Londres, utiliza
el test de Dominós dentro de una batería que incluye también
pruebas verbales. La segunda, que alcanzó gran difusión, fue
elaborada por P. Pichot y publicada por el Centre de
Psychologie Appliquée de París. Esta adaptación difiere de
la original sobre todo en la disposición de los reactivos.
153
Además de distribuir las fichas de Dominós en columnas, en

estrella y en espiral, como el test de Anstey, las dispone
también en elipse. El D48 fue estandarizado para sujetos de
12, a 39 años y proporciona normas para seis niveles culturales
diferentes. En algunos países de América Latina también se
realizaron estudios y adaptaciones del test (Anstey, 1974).
El test de Dominós es una prueba no verbal de inteligencia,

que no depende en un grado considerable del ambiente, de
la educación o de la experiencia del individuo. Se basa en
la teoría factorial de Spearman y busca por lo tanto medir
el factor de inteligencia general g.
Es un test de educción de leyes o principios de relaciones
y de completamiento de series numéricas. Los principios que
regulan las secuencias en las series son los siguientes: Simetría,
Alternancia y progresión simple, Asimetría, Progresión
circular, Progresión compleja, Combinación de principios
previos, Adición y Sustracción.
Es un test de figuras numéricas de puntos dispuestos en
grupos según un patrón, las fichas de Dominós. Los estudios
han demostrado que la experiencia previa con el juego de
Dominós no interviene en el resultado del sujeto (ídem).
El test es compuesto de 48 reactivos, impresos en ocho
páginas, a razón de seis reactivos por página. Los reactivos,
pertenecientes a un mismo principio, están dispuestos en orden
de dificultad creciente. Sin embargo, el primer reactivo
correspondiente a un nuevo principio, en general, es más fácil
que el último reactivo correspondiente al principio anterior.
3. MATERIAL
El material básico está constituido por: 1) un cuaderno de
154
prueba, donde vienen las instrucciones básicas, cuatro

ejemplos y 48 reactivos; 2) una hoja de respuestas, 3) una
clave matriz de corrección; 4) una carpeta de instrucciones
y evaluación, donde se encuentran también las tablas de
normas (baremos) y la tabla de diagnóstico y 5) el manual
del autor.
Esta prueba puede ser utilizada con sujetos de 12 años en

adelante, aunque es posible aplicársela individualmente a
partir de los 10 años. El autor de la prueba ha comprobado
una cierta dificultad de ejecución cuando aplicó la prueba
a sujetos de más de 65 años. El considera que puede aplicársela
individualmente a enfermos mentales, sin embargo, en éste
caso, la interpretación de los resultados debe basarse más
en criterios cualitativos que cuantitativos (Anstey, 1974).
Esta prueba puede ser aplicada en forma individual y colectiva.
Para la realización de esta prueba se establece un tiempo

límite de 30 minutos, con una tolerancia de 12 a 15 minutos
adicionales. Aunque se limite el tiempo, no se considera ésta
una prueba de velocidad sino de poder (power test), pues
pretende medir solamente la habilidad de los sujetos y no
su velocidad de trabajo. El autor de la prueba considera que
el tiempo establecido es suficiente para que los sujetos tengan
la oportunidad de intentar la resolución de todos los problemas.
Los sujetos menos inteligentes nunca resolverán los problemas
más difíciles aunque se les permita dedicar más tiempo a
155
ellos. En una aplicación colectiva, la reducción del grupo a

1/5 o 1/6 de su tamaño original puede señalar el tiempo límite
para la finalización de la prueba (Anstey, 1974).
El procedimiento se inicia llenando los datos personales del

examinado en la hoja de respuestas. En seguida, con el cuaderno
de pruebas abierto en la página preliminar, se explican las
instrucciones, se discuten los ejemplos ya resueltos (A y B)
y se le pide al examinado que conteste los ejemplos C y D.
La tarea consiste en observar bien un grupo de Dominós
y calcular cuantos puntos le corresponden a la ficha que está
en blanco. El sujeto debe llenar, en el debido espacio de la
hoja de respuestas, las cifras que corresponden a la ficha en
blanco. Dentro de cada mitad de la ficha, los puntos pueden
variar de 0 a 6.
La clave matriz de corrección permite una calificación rápida y

precisa. Se coloca la hoja de respuestas dentro de la clave matriz,
que posee ventanillas por donde se pueden ver las respuestas. Se
hace una marca visible sobre las respuestas correctas. Se adjudica
un punto para cada respuesta totalmente correcta. Una respuesta
totalmente correcta es la que se compone de las cifras exactas en
cada una de las mitades de la ficha en blanco, estando las cifras
ubicadas en la posición correcta. Se consideran soluciones erradas:
(a) las inversiones de posiciones y (b) las respuestas que omiten
el 0 (cero) y simplemente dejan en blanco la mitad de la ficha (Anstey,
1974).
Con el puntaje total, se busca en la tabla de normas adecuada
el percentil correspondiente. En seguida, se verifica el rango
al cual corresponde el nivel intelectual del examinado.
156
8.1. Porcentaje de eficiencia
Este índice permite verificar el sistema de trabajo del sujeto:

aproximación cuidadosa a los problemas, sacrificio de la
exactitud en beneficio de la rapidez, etc. La fórmula utilizada
para calcularlo es (ídem):
% eficiencia = C / T
donde: C= número de respuestas correctas

T= número de respuestas que el sujeto ha intentado
resolver, o sea, correctas más incorrectas.
9. NORMAS
Las normas son expresadas en percentil. El manual ofrece

tres tablas de normas: (a) un baremo inglés para la población
general, (b) un baremo uruguayo: 1 2 - 3 0 años y población
general, y (c) un baremo argentino provisorio: 1 2 - 1 7 años
y población general.
La estandarización que parece más consistente es la realizada
en Montevideo, con 1736 sujetos de 12 a 30 años de edad,
alumnos de escuelas industriales de la Universidad del Trabajo
del Uruguay y del Instituto Crandon. Las normas argentinas
fueron extraídas de una muestra de 583 estudiantes de 12
a 17 años (Anstey, 1974).
Los estudios han encontrado que el coeficiente de confiabilidad

(Kuder-Richardson) del test de Dominós tiende a crecer con
la edad, variando de .85 a .91. Para la población general el
es de .85 (ídem).
La validez ha sido estudiada por el método de análisis
157
factorial. Dos estudios obtuvieron una saturación de g de .82

y un tercero de .90, lo que indica que el test es una buena
medida de la capacidad intelectual general. Un factor específico
de tipo numérico ha sido detectado en dos de estos estudios
(ídem).
Como la idea original es que el test de Dominós fuera una
prueba paralela al de Raven, muchos estudios comparativos,
entre las dos pruebas, fueron llevados a cabo. El coeficiente
de correlación, entre las dos pruebas, obtenido por Anstey
fue de .55, lo que llevó a pensar que en realidad los dos tests
son complementarios, pero no paralelos.
11. COMENTARIOS
El test de Dominós tiene las ventajas de un test no verbal,

no dependiendo de factores culturales. Es también económico
(su aplicación puede limitarse a 30 minutos), es confiable
(sobre todo para edades más altas) y dificulta la respuesta
al azar, pues la probabilidad de respuestas de este tipo es
de 1/49.
Con respecto a desventajas, se considera que las tablas de
normas son muy limitadas en cuanto a los rangos de edad que
utilizan, no existiendo normas de edad específicas para per-
sonas mayores de 30 años. Para éstas, se deben utilizar las
normas de la población general. Otro aspecto importante, está
en el hecho de poseer el test un factor numérico. Se puede
suponer que éste pueda afectar los resultados de personas que
poseen dificultades específicas en el área de razonamiento
numérico, pero no en otras áreas intelectuales.
Anstey, E. (1974). Test de Dominós - manual. Buenos Aires:

Editorial Paidós.
158
CAPITULO XII
EL TEST DE GOODENOUGH
El Test del dibujo de un hombre de Goodenough fue publicado

por primera vez en 1926. En castellano, su primera publicación
fue realizada en 1951. Este test "ha sido muy empleado para
examinar el nivel intelectual de los niños pequeños y para estudiar
a aquellos niños que tienen disminuciones auditivas o en los que
se sospecha la existencia de deficiencias neurológicas" (Harris,
1991, p. 17). Asimismo, ha sido utilizado para estudiar problemas
de personalidad y adaptación, así como la delincuencia y otros
defectos del carácter.
La hipótesis básica de este test es que el dibujo que hace
un niño de cualquier objeto, muestra las discriminaciones que
él ha efectuado respecto al mismo, como un concepto. Así,
su concepto de un objeto, como el ser humano, "resulta un
índice útil para la creciente complejidad de sus conceptos
en general" (ídem, p.23).
El 1963 fue publicada la versión revisada, ampliada y
actualizada del test, por Dale B. Harris. Esta revisión tuvo
por objetivo: (1) extender la escala a los años de adolescencia
y (2) desarrollar una forma alternativa de la escala de la
figura del hombre, la escala de la figura de la mujer. Se
hicieron algunos otros cambios como: (a) se incluyó el dibujo
de sí mismo con el objetivo de facilitar un mejor estudio del
autoconcepto, del afecto y del interés, (b) se hizo la
estandarización de las escalas de puntos para la figura del
159
hombre y de la mujer y (c) se desarrollaron escalas cualitativas

para una rápida aproximación a la puntuación. Para la revisión
del test se reexaminó la bibliografía empírica y teórica, llegando
a la conclusión de que esta prueba evalúa la madurez intelectual
o conceptual de niños entre cuatro y catorce años, teniendo
mucho menos valor como instrumento proyectivo para estudiar
la personalidad y el área afectiva.
Esta prueba tiene como tarea el diseño de la figura humana.

Según Harris (1991), Goodenough tomó en cuenta los siguientes
aspectos al elegir el tema del dibujo: (a) un tema con el cual
todos los niños estuvieran familiarizados por igual, (b) un
tema que presentara la menor variabilidad posible en sus
características esenciales, (c) un tema sencillo que permitiera
que aun los niños pequeños pudiesen hacerlo, pero al mismo
tiempo suficientemente complejo para poner a prueba las
capacidades de un joven o de un adulto y (d) un tema de interés
universal y que motivara a todos. Basado en estos criterios,
él seleccionó la figura humana, tema relativamente común en
dibujos espontáneos de niños. En la versión original, el dibujo
solicitado era el de un hombre. La elección del dibujo de un
hombre se debe al hecho de considerar la vestimenta masculina
más uniforme.
En esta primera versión, el dibujo del hombre era evaluado
según una escala de cuarenta ítems. El análisis de una muestra
de dibujos de niños de diferentes edades y niveles escolares,
permitió discernir los cambios que se producen en los dibujos
infantiles con el aumento de la edad y el desarrollo intelectual.
Cada ítem fue escogido de manera empírica, pudiendo basarse
"en la presencia o en la ausencia de un determinado elemento,
en el método de representación de una relación dada, especial
o cuantitativa, o en la coordinación ojo-mano" (Harris, 1991,
p. 83). Se hicieron 5 revisiones de la escala original, donde
se reevaluaron los ítems y se añadieron otros.
160
La versión actual (test de la figura humana de Goodenough-

Harris), incluye tres dibujos —la figura de un hombre, la figura
de una mujer y el dibujo de sí mismo— que deben ser realizados
en este orden. En cada una de ellas se analizan determinados ítems,
que fueron elegidos según criterios determinados y validados a
través de investigaciones.
3. MATERIAL
Se requiere para la aplicación de esta prueba el cuadernillo del test

(protocolo) y un lápiz número 2 o 2H (no debe utilizarse crayones).
Para la calificación se necesita el manual de la prueba.
Esta prueba puede ser utilizada con sujetos entre 3 y 15 años de

edad.
El test del dibujo de la figura humana de Goodenough-Harris puede

ser administrado en forma individual o colectiva, utilizándoos
mismas instrucciones. Los preescolares y los niños bajo estudio
clínico deben ser examinados individualmente.
No hay límite de tiempo para la realización del test. Los niños

pequeños, en general, no tardan más de 10 o 15 minutos para hacer
los tres dibujos.
El primer paso de la aplicación es llenar los datos personales
161
solicitados en el protocolo, que puede ser realizado por el propio

niño, a menos que él aun no sepa escribir. En seguida, el
protocolo debe ser doblado, de manera que solamente la hoja
que corresponde al primer dibujo —figura de un hombre—
se quede a la vista. Realizado este dibujo, se pasa a la hoja
siguiente, la de la figura de la mujer. Finalmente, se pasa
a la hoja final, la del dibujo de sí mismo.
A los niños, menores de ocho o nueve años, se recomienda
dar un breve descanso entre el segundo y tercer dibujos. En
los grupos de niños mayores (quinto o sexto grado), puede
ser necesario incentivar a los niños renuentes a emprender
la tarea. El autor advierte para algunas situaciones especiales
que pueden ocurrir en la aplicación del test, como el niño
puede dibujar solamente un busto o arruinar el dibujo y querer
reempezarlo. En ambos casos, el examinador debe dar un
nuevo protocolo, pero guardar ambos dibujos para una
comparación posterior.
Mientras la aplicación es muy sencilla, la calificación requiere

estudio, paciencia y el seguimiento de las instrucciones al pie
de la letra. Cada una de las tres figuras es evaluada en una
escala de puntos, que corresponde a un número determinado
de ítems: Figura del hombre -73 ítems, Figura de la mujer
-71 ítems y Dibujo de sí mismo -73 ítems. En el manual vienen
las instrucciones detalladas para la evaluación de los distintos
ítems; algunos de ellos requieren un juicio más subjetivo del
examinador. Algunos ejemplos de ítems analizados: presencia
de cabeza, presencia de cuello, puente de la nariz, nariz y
labios en dos dimensiones, representación del número correcto
de dedos, proporción de los brazos, proporción de las piernas,
vestimenta, coordinación motriz (líneas), etcétera (Harris,
1991)
162
Cada ítem, de cada figura, es evaluado como aprobado

o reprobado. A cada ítem aprobado se asigna un punto, no
existiendo medios puntos. El total de estos puntos corresponde
al puntaje bruto de la figura, el cual se convierte en puntaje
estándar mediante las tablas presentadas en el manual. Para
esta conversión se toman en cuenta el sexo y la edad del
sujeto. Para cada figura se halla un puntaje estándar. Puede
obtenerse una medida promedio de los dibujos de un hombre
y de una mujer sumando los puntajes estándar y dividiendo
el resultado entre dos. El puntaje estándar promedio representa
una estimación combinada de la madurez intelectual del niño.
El dibujo de sí mismo puede ser evaluado mediante la escala
de puntos del sexo correspondiente. Sin embargo, el
autorretrato no ha sido estandarizado y por lo tanto, debe
ser considerado sólo como una medida tentativa de la madurez
intelectual (Harris, 1991).
Finalmente cada puntaje estándar es convertido en rango
percentil, a través de la tabla de conversión adecuada, también
disponible en el manual.
En el protocolo, al lado de cada dibujo, hay espacios para
registrar el puntaje. Se recomienda apuntar un " + " para cada
ítem aprobado y un "cero" para cada ítem reprobado para
facilitar el control de la calificación. Hay también un espacio
para registrar el puntaje bruto de cada figura. En la primera
hoja hay un cuadro resumen donde deben apuntarse los
puntajes brutos, los puntajes estándar y los rangos percen-
tiles de los tres dibujos, además del puntaje estándar
promediado.
Para los dibujos de la figura del hombre y de la figura
de la mujer se puede también realizar una evaluación
cualitativa. Las escalas cualitativas permiten una evaluación
mucho más rápida de los dibujos que la escala de puntos.
Mientras tanto, sus resultados no son tan exactos,
proporcionando solamente una estimación aproximada de la
163
madurez intelectual del niño. Para esta evaluación, debe

utilizarse una muestra de 12 dibujos (disponibles en el manual)
clasificados según el nivel de madurez del " 1 "(menos maduro)
al "12" (más maduro). El examinador debe comparar el dibujo
que evalúa con los dibujos de la muestra y decidir con cual
se parece más. Atribuirá al dibujo que evalúa el puntaje
correspondiente al dibujo de la muestra que es más similar.
Este valor debe ser registrado en el espacio correspondiente
del cuadro resumen del protocolo, según sea la figura de un
hombre o de una mujer. No fue elaborada ninguna escala
cualitativa para el dibujo de sí mismo y el autor no cree
conveniente utilizar las muestras de las figuras de un hombre
o de una mujer para evaluarlo.
Los valores obtenidos en la escala cualitativa son convertidos
a puntaje estándar mediante tablas disponibles en el manual.
En esta conversión también son tomadas en cuenta la edad
y el sexo del sujeto. Este puntaje estándar es comparable al
obtenido a través de la escala de puntos y por consiguiente
puede ser convertido en rango percentil mediante la misma
tabla.
Harris (1991) propone aun, en forma experimental, una
guía para el análisis del dibujo de sí mismo. Esta guía tiene
como objetivo detectar rasgos especiales de la personalidad:
intereses, actitudes, preocupaciones, etc. Consta de una
sucesión de preguntas, que van de generales a específicas.
9. NORMAS
Las normas de esta prueba son presentadas en puntaje estándar

con una media de 100 y una desviación de 15 (CI de
Goodenough) y en percentil. En las tablas de puntaje estándar
se toman en cuenta el sexo y la edad del sujeto.
La estandarización y las normas de la escala revisada están
basadas en 2,975 niños, representativos de la distribución
164
ocupacional de los Estados Unidos en 1950, pertenecientes

a cuatro áreas geográficas. Se incluyeron 75 niños de cada
nivel de edad provenientes de cada una de estas áreas. La
edad de los niños varió de los 5 a los 15 años y éstos fueron
distribuidos de tal manera "que la muestra se centrara
alrededor de los seis meses, con un número aproximadamente
igual de niños escogidos por cada mes dentro de ese intervalo
de edad" (Harris, 1991, p. 113). Se buscó que la cantidad
de varones y niñas en cada estrato ocupacional fueran
siempre igual.
El primer paso para validar la escala revisada consistió en

la validación de los ítems tomados en cuenta en la escala
de puntos. Se utilizó una muestra de 100 niños (50 varones
y 50 niñas) con edades entre: 5 años y 9 meses y 6 años
8 meses, 6 años 9 meses y 7 años 8 meses, y así sucesivamente.
Los niños tenían como edad media, al momento de la realización
de la prueba, 6 años 3 meses, 7 años 3 meses, etc. Las
muestras de cada edad representaban la distribución de
ocupaciones paternas en los E.U.A. Los ítems fueron
seleccionados según los siguientes criterios: 1) acusar un
incremento regular y bastante rápido en los niños que aprueban
el ítem, 2) mostrar una relación con alguna medida general
de inteligencia, 3) diferenciar entre los niños que obtenían
un puntaje total alto en la escala y aquellos que obtenían
un puntaje total bajo. Para el dibujo del hombre se ensayaron
100 ítems y se seleccionaron 73; para el dibujo de la mujer
se ensayaron 90 de los cuales se mantuvieron 71. En estos
ítems "se incluyeron algunos que son inoperantes en la niñez
pero tienen cierta incidencia en la pubertad" (Harris, 1991,
p. 89).
Utilizando la misma muestra, fueron seleccionados y
165
validados los dibujos que componen la escala cualitativa. Se

eligieron, de cada grupo de edad, 20 dibujos, 10 de varones
y 10 de niñas de acuerdo con una tabla de números al azar.
Estos dibujos fueron dispuestos en un orden fortuito y así
presentados a doce examinadores. Estos, debían clasificar los
dibujos en una escala del " 1 " al "11", el " 1 " correspondiendo
a una menor excelencia y el "11" a una mayor excelencia.
Se incluyeron también otras dos categorías para los dibujos
que se apartaban suficientemente de los demás, sea por una
extraordinaria inferioridad (0) o por una extraordinaria
superioridad (12). La escala cualitativa final fue constituida
por 23 dibujos, dispuestos en una escala de 23 puntos de
intervalo, que pueden también ser utilizados como una escala
de 12 puntos, si se emplean los valores alternos (Harris,
1991).
La confiabilidad de la escala de puntos fue estudiada
mediante la concordancia en la evaluación de distintos
examinadores y la coherencia en el rendimiento del niño en
la tarea del dibujo, según la evaluación de la escala. La
correlación entre los puntajes totales obtenidos por distintos
examinadores varió entre .80 y .96. Las correlaciones entre
los puntajes de dibujos infantiles separados por un intervalo
de hasta tres meses variaron entre .60 y .70. Uno de los
estudios considerados más consistentes por Harris, fue
realizado por McCarthy con 386 niños de tercero y cuarto
grado, siendo la prueba aplicada dos veces con un intervalo
de una semana. La confiabilidad por el método de división
por mitades fue de .89, por el método de test-retest fue de
.68. (ídem).
En el estudio de la confiabilidad de la escala cualitativa
fueron obtenidas correlaciones, entre los puntajes asignados
por tres examinadores, de .86 a .92 para el dibujo de un
hombre y de .74 a .88 para el dibujo de una mujer. Las
correlaciones entre los puntajes obtenidos en la escala de
166
puntos y en la escala cualitativa variaron, según la edad,

entre .72 y .94 para la figura de un hombre y entre .73 y
.89 para la figura de una mujer (ídem).
La validez de esta prueba fue evaluada mediante dos
procedimientos: 1) estudiando los efectos que determinadas
experiencias o aprendizajes ejercen sobre el rendimiento en
el dibujo, 2) correlacionando estadísticamente la escala con
otras medidas de inteligencia. En el primer caso se estudió
el efecto del examinador, de la enseñanza artística, de ciertos
tipos de instrucción formal, etc. Se observó, en general, que
la influencia del examinador y de la enseñanza artística es
insignificante (Anastasi, 1978, Harris, 1991). En el segundo,
se correlacionó la prueba con varias medidas de inteligencia:
Test de habilidades mentales primarias, Test de Stanford-
Binet, WISC, WAIS y otros. Las investigaciones fueron
llevadas a cabo con distintas muestras y los resultados han
proporcionado coeficientes de correlación muy variados, a
veces altos, a veces bajos. Por ejemplo,' 'con niños pequeños,
el puntaje del Test de Goodenough se asocia de modo notable
con la madurez intelectual tal como la evalúa el Test de
Stanford-Binet o el WISC" (Harris, 1991, p. 109). Ya la
correlación obtenida con el Raven, en alumnos de jardín de
infantes fue muy baja (.22). El manual presenta un cuadro
de las correlaciones obtenidas en distintas investigaciones
entre los puntajes en el Test de Goodenough y los puntajes
en otros tests de inteligencia.
Se estudió también la correlación entre la escala original
y la escala revisada obteniéndose coeficientes altos que
variaron, según la edad, entre .91 y .98 (Anastasi, 1978,
Harris, 1991). La correlación entre la escala del hombre y
la de la mujer también es bastante elevada, variando de .71
a .79, según la edad (Harris, 1991).
167
11. COMENTARIOS
Este test es de muy fácil aplicación, motiva en general a los

niños y por ello viene siendo aplicado ampliamente en la
clínica.
Sin embargo, hay que estar atento a algunas limitaciones
de la prueba:
• Aunque originalmente esta prueba ha sido considerada
como independiente del ambiente cultural, las investigaciones
han demostrado que esta idea no es muy verdadera (Anastasi,
1974). La figura femenina parece más vinculada con la cultura,
menos estereotipada y menos susceptible a la interpretación
individual (Harris, 1991).
• La prueba no discrimina bien la madurez intelectual de
niños a partir de los doce años; los puntajes dejan de mostrar
un aumento con la edad, a partir de la pubertad. Goodenough
y otros investigadores llegaron a la conclusión de que este
test es más apropiado para los niños pequeños (Harris, 1991).
• Las niñas de las culturas occidentales se desempeñan
mejor que los niños en la prueba. La diferencia es más
acentuada en la escala de la figura de la mujer, que en la
de la figura de un hombre (ídem).
• El dibujo de sí mismo parece más útil para el estudio
de los factores psicológicos no intelectuales (ídem).
• Las escalas cuantitativas ofrecen mayor precisión en la
evaluación, que las escalas cualitativas. Estas últimas no son
medidas tan sensibles, especialmente después de los ocho o
nueve años, y aumentan las diferencias entre los sexos
observadas en las escalas cuantitativas. Sin embargo, las
escalas cualitativas, además de más fáciles y más rápidas,
"proporcionan una impresión total o global del desarrollo de
la conducta en el dibujo reflejada gráficamente en la figura
humana, que las tablas de porcentajes correspondientes a los
ítems de las escalas de puntos no ofrecen" (Harris, 1991,
p. 127). Por lo tanto, cada método de evaluación proporciona
diferentes ventajas y desventajas.
168
• El manual de la prueba presenta solamente normas

estandarizadas para la población americana.
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpre-

Harris, D.B. (1991). El Test de Goodenough-Revisión, Am-
pliación y Actualización (2a ed., 3a reimpresión). Mé-
xico D.F.: Ediciones Paidós.
169
TERCERA PARTE
APTITUDES
CAPITULO XIII
LAS APTITUDES
A. LA DEFINICIÓN DE APTITUD
La definición del término "aptitud''' proporcionada por

el Diccionario de Psicología de Warren (1934, en Bennett,
Seashore y Wesman, 1990) dice:
Condición o conjunto de características consideradas sintomáticas
de la capacidad de un individuo de adquirir mediante entrenamiento
algún conocimiento, técnica o conjunto de respuestas (generalmente
especificadas) como la habilidad para hablar un idioma, producir
música., .(p. 1)
Esta definición indica que las aptitudes son producto de una interacción
entre la herencia y el ambiente y que pueden ser desarrolladas.
Brown (1980) diferencia los términos habilidad y aptitud, señalando
que la habilidad indica "el poder para realizar una tarea" y la
aptitud "el poder para aprender a realizar una tarea" (p.282). El
primer término se refiere a un estado actual y el segundo a un estado
futuro. En el término aptitud se incluye la idea de previsión, de
probabilidad de que se adquieran o aprendan conductas.
Desde 1928, con la publicación del libro de Kelley, Cross-
roads in the Mind of Man, ya se observaba la preocupación
por investigar los diferentes factores que componen la
inteligencia. El modelo multifactorial, defendido sobre todo
por Thurstone, profundizó esta idea. A partir de varias
investigaciones, él propuso 12 factores grupales a los cuales
denominó de capacidades mentales primarias. De éstos, los
que más se confirmaron en los estudios subsecuentes fueron:
173
(1) Comprensión verbal, (2) Fluencia verbal, (3) Número, (4)

Espacio, (5) Memoria Asociativa, (6) Rapidez Perceptual y
(7) Inducción (o Razonamiento general) (Anastasi, 1978).
Posteriormente, Guilford (1956, 1967, 1970) propuso un
modelo para la estructura intelectual, donde llegó a calcular
la existencia de 120 habilidades.
Antes de que fueran construidas baterías de aptitudes
múltiples, se hicieron tentativas de comparar la posición
relativa de un individuo en diferentes subtests o grupo de
reactivos de pruebas de inteligencia. Como estas pruebas no
fueron desarrolladas con este objetivo, generalmente, los
subtests no permitían una comparación intraindividual
adecuada.
El desarrollo de baterías de aptitud múltiple fue estimulado
por las limitaciones de las pruebas de inteligencia que, en
general, se concentraban en la medida de la capacidad verbal,
no proporcionando medidas de otras capacidades (abstracta,
mecánica, etc.). Además, la creciente actividad de los psicólogos
en las áreas de selección y clasificación de personal y de
orientación vocacional llevaron a la necesidad de disponer de
instrumentos más específicos que facilitaran estas tareas.
Pero, fue sobre todo el desarrollo del método estadístico del
análisis factorial que impulsó la investigación en esta área
y permitió el desarrollo de los primeros instrumentos de
medida de las aptitudes.
B. LA MEDICIÓN DE APTITUDES
Hay pruebas de aptitudes construidas para medir aptitudes

específicas o especiales que pueden ser de tipo cognoscitivo
(habilidad para matemáticas, creatividad), de tipo vocacional
(velocidad y precisión perceptual, destreza manual) y de tipo
musical o artístico.
Existen también las baterías de pruebas de aptitudes
174
múltiples, que se componen de una serie de pruebas de

aptitudes específicas. La construcción de estas baterías
presupone que: (a) la batería debe contener tantas pruebas
cuanto el número de aptitudes que se quiera medir, (b) cada
prueba debe medir solamente una aptitud y (c) debe utilizarse
la misma muestra normativa para todas las pruebas para que
se pueda hacer comparaciones intra e interindividuales
adecuadas. Otro problema está en la utilización del método
apropiado para combinar las calificaciones de las pruebas.
Se sugiere el método de regresión múltiple para determinar
el peso óptimo de cada factor (Brown, 1980).
En los próximos capítulos serán presentadas las
informaciones básicas sobre algunas baterías de aptitudes
múltiples ampliamente utilizadas, principalmente en las áreas
Anastasi, A. (1978). Tests psicológicos (3 a ed.,4 a reim-

presión). Madrid: Editorial Aguilar.
Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990/
Pruebas de Aptitud Diferencial-(DAT) Manual del
Instructor, México D.F. : Ed. El Manual Moderno.
y Educación. México D.F.: Editorial El Manual Mo-
derno.
, J.P. (1967). The nature of human intelligence.
Nueva York: McGraw Hill.
, J.P. (1970). Creativity: Retrospect and Prospect.
Journal of Creative Behavior, 4(3),
175
CAPITULO XIV
PRUEBAS DE APTITUD DIFERENCIAL

(DAT)
Las Pruebas de Aptitud Diferencial (DAT), desarrolladas

en Estados Unidos por G. Bennett, H. Seashore y A. Wesman,
fueron publicadas en sus formas originales (A y B) en 1947.
Fueron diseñadas para atender a la demanda de los orientadores
educacionales y vocacionales, que necesitaban de un
instrumento que permitiera medir rigurosamente las apti-
tudes múltiples de los alumnos de secundaria y preparatoria.
(Bennett, Seashore y Wesman, 1990).
Estas pruebas fueron revisadas y reestandarizadas en 1962
(Formas L y M), en 1972 (Formas S y T), en 1980 (Formas
V y W) y en 1990 (Formas C y D). En la primera revisión,
el objetivo principal fue facilitar la administración y
calificación de las pruebas y para tal se cambió el formato
y extensión de las mismas. En la segunda, se conservaron
los cambios anteriores y se actualizaron algunas pruebas.
La tercera, tuvo como meta principal elaborar reactivos con
el mismo nivel de dificultad para varones y mujeres. Se
hicieron también cambios en las instrucciones para volverlas
más comprensibles (ídem). La última revisión (5a edición)
incluye reactivos nuevos y utiliza dos formas paralelas (C
y D) para dos niveles diferentes (Nivel 1 y Nivel 2), aumentando
así su utilidad y confiabilidad.
177
En México, fue publicada en 1990 la versión en español

del DAT basada en la revisión de 1980 (Bennett y cols., 1990).
En esta versión no se incluyeron las pruebas de Razonamiento
Verbal, Ortografía y Uso del lenguaje.
En 1994, surgió la Prueba Diferencial de Aptitudes
PROUNAM, basada en la quinta versión del DAT (DAT
1990), desarrollada mediante la colaboración de la Universidad
Nacional Autónoma de México, el Instituto de Evaluación en
Gran Escala y The Psychological Corporation (Universidad
Nacional Autónoma de México [UNAM], 1994a). Esta prueba
está compuesta de las ocho subpruebas del DAT, siendo que
tres de ellas fueron elaboradas totalmente en México
(Razonamiento Verbal, Uso del Lenguaje y Ortografía). La
elaboración de las dos primeras siguió los principios
establecidos en la prueba original, aunque en el caso de la
prueba Uso del Lenguaje se utilizaron las reglas del Idioma
Español. Sin embargo " l a prueba de Ortografía fue diseñada
en su totalidad para el 'PROUNAM' siguiendo modelos
escolares utilizados en México para este tipo de evaluación"
(Universidad Nacional Autónoma de México [UNAM], 1994b,
p.5), en sustitución de la prueba original de "Spelling" que
no era aplicable a México.
Aunque la pruebas de la batería DAT son independientes,
éstas fueron desarrolladas y reestandarizadas como una batería
integrada, la estandarización de las distintas pruebas fue
realizada con una misma muestra. Como el rango de niveles
es el mismo para todas las pruebas de la batería, se pueden
hacer comparaciones intra e interindividuales consistentes.
Por ejemplo, si un estudiante obtiene un percentil 50 en tres
pruebas de la batería, estamos seguros que la clasificación
"promedio" tiene el mismo significado para tal estudiante
en las tres áreas de habilidades.
178
Las pruebas de la batería DAT "fueron diseñadas para

valorar habilidades intelectuales fundamentales y evitar en
la medida del posible que éstas dependan del aprendizaje
de materias escolares especificas'' (Bennett y cols., 1990,
p. 2). Las habilidades medidas en éstas son consideradas
importantes en varias situaciones educativas y profesionales.
La batería DAT se compone de 8 pruebas: Razonamiento
Verbal, Habilidad Numérica, Razonamiento Abstracto,
Velocidad y Exactitud Secretariates, Razonamiento
Mecánico, Relaciones Espaciales, Uso del Lenguaje y
Ortografía. La versión en español, publicada en 1990 (forma
V y W), incluye sólo cinco de éstas (Habilidad Numérica,
Razonamiento Abstracto, Velocidad y Exactitud Secretariales,
Razonamiento Mecánico y Relaciones Espaciales), mientras
que en el PROUNAM están incluidas todas las ocho pruebas.
Es importante señalar que en el PROUNAM la prueba de
Velocidad y Exactitud Secretariales se denomina Velocidad
y Precisión Perceptual. Aunque cada prueba mide una
habilidad específica, el agrupamiento de algunas de ellas
puede proporcionar información adicional, como veremos
más adelante. A continuación se describen las diversas pruebas.
• Razonamiento Verbal
Esta prueba tiene como objetivo medir " l a habilidad para

comprender conceptos encerrados en palabras,...para pensar
constructivamente, para encontrar la identificación entre
conceptos aparentemente diferentes y para manejar las ideas
en un nivel abstracto"(Bennett y cols., 1990, p.3). Sus
reactivos son planteados como una doble analogía en que el
primero y último términos están ausentes y deben ser
seleccionados de entre cinco pares de palabras. Los contenidos
179
de los reactivos son relativamente familiares y cubren distintas

áreas: historia, geografía, literatura, ciencia, etc. El vocabulario
es generalmente simple.
Esta prueba busca predecir el éxito en áreas que requieren
" l a comprensión de relaciones verbales complejas y la destreza
para manejar conceptos verbales" (ídem, p.3). Se puede decir
que la prueba indica la posibilidad del estudiante para seguir
estudios universitarios y pronostica, en cierta medida, el éxito
académico en la mayoría de los campos. Algunas áreas
específicas que requieren de esta habilidad son: comunicaciones,
periodismo, traducción, producción editorial, literatura,
filosofía, psicología, pedagogía, derecho, corrección de pruebas
tipográficas, ventas, etc.
• Habilidad Numérica
Esta prueba mide la comprensión de relaciones numéricas y

el manejo de los conceptos y relaciones numéricas. Sus reactivos
son básicamente problemas de "cálculo numérico", que
requieren el manejo de una gran variedad de conceptos
matemáticos. Esta prueba busca predecir el éxito en los
campos donde se hace necesario el pensamiento cuantitativo
como: matemática, física, química, estadística, ingeniería,
contaduría, actuada, economía, arquitectura, computación...y
en trabajos especializados del tipo: carpintería, fabricación
de herramientas, etc.
• Razonamiento Abstracto
Esta prueba provee una medida no verbal de la habilidad de

razonamiento caracterizada por la percepción de relaciones
entre patrones abstractos. Su medida indica la capacidad de
reflexión del sujeto. Cada reactivo requiere el reconocimiento
del principio o principios operantes en una serie de diagramas
y la identificación del diagrama que sigue lógicamente en la
180
serie. En la selección de los diseños, se buscó utilizar diseños

grandes y claros que mostraran diferencias obvias entre los
sucesivos diagramas.
Esta prueba predice el éxito en actividades que requieren
de la percepción entre cosas, más que entre números o palabras.
Esta, "complementa los aspectos de inteligencia general de
las pruebas de Razonamiento Verbal y Habilidad Numérica"
(Bennett y cols., 1990, p.4). Sin embargo, no puede sustituir
ni ser sustituida por la prueba de Razonamiento Verbal,
aunque en los casos de deficiencia de lenguaje pueda ser útil
para la comprobación de las puntuaciones de Razonamiento
Verbal.
Esta aptitud es necesaria para el estudio de las carreras
profesionales, especialmente para carreras como: computación,
ingeniería, matemáticas, arquitectura, ciencias químico-
biológicas, etc.
• Velocidad y Exactitud Secretariates
El objetivo de esta prueba es medir la' 'velocidad de percepción,

la retención momentánea, y la velocidad y exactitud de la
respuesta" (Bennett y cols., 1990, p.4) en una tarea percep-
tual simple. La tarea es seleccionar, de entre un grupo de
combinaciones de números y letras, aquella que está subrayada,
retenerla, e identificarla en un segundo grupo de combinaciones
similares.
La habilidad exigida en esta prueba es necesaria para
tareas administrativas como: archivar, clasificar, codificar,
catalogar, perforar tarjetas, tareas de almacenaje, etc. Se
requiere también de esta aptitud para realizar actividades que
involucren información científica y técnica y para aquellas
que exijan memoria inmediata y la habilidad para trabajar
rápido y sin errores.
Aunque esta habilidad no es muy importante para los
181
objetivos educativos, un estudiante cuya puntuación es baja

puede tener dificultades en cumplir algunas exigencias escolares
de organización, velocidad y precisión. Si la puntuación baja
es obtenida por un estudiante cuyas habilidades son en general
superiores puede indicar una precisión exagerada, más que
una falta de velocidad.
• Razonamiento Mecánico
En esta prueba cada reactivo presenta, en imágenes, una

situación mecánica acompañada de una pregunta sencilla cuya
respuesta debe ser seleccionada de una serie de respuestas
de opción múltiple. Se considera que "la puntuación está
afectada por la experiencia previa del sujeto, pero no a tal
grado que cause dificultades para su interpretación" (Bennett
y cols., 1990, p.4). Una alta puntuación indica una facilidad
para aprender los principios de operación y reparación de
instrumentos o mecanismos relativamente complejos. La prueba
pronostica el éxito en las áreas que requieren la comprensión
de los principios de las fuerzas físicas. Algunas ocupaciones
como carpintero, mecánico, encargado de mantenimiento,
ensamblador y muchas otras tareas de fábricas y oficinas
requieren el tipo de habilidad que mide esta prueba. Además,
esta habilidad es necesaria para campos como: ingeniería,
física, computación, medicina, odontología, etc.
• Relaciones Espaciales
Esta prueba tiene como objetivo medir la habilidad para

manejar objetos concretos a través de su visualización en un
espacio tridimensional. Cada reactivo requiere el examen de
un patrón que al doblarse forma una figura y la identificación
de ésta. Los patrones son en general amplios y claros. Esta
habilidad es necesaria en campos como: arquitectura, diseño
182
gráfico, diseño industrial, diseño de modas, diseño textil,

artes, decoración, odontología, medicina...y en trabajos
especializados del tipo: carpintería, fabricación de
herramientas, etc.
• Uso del Lenguaje
Esta prueba evalúa la capacidad para expresarse correctamente

en forma verbal o escrita según las reglas y características
del idioma. Cada reactivo es compuesto de una oración que
puede contener o no errores (gramaticales, de puntuación,
de uso de mayúsculas y minúsculas). La tarea es identificar
la parte incorrecta de la oración o bien si la misma está
correcta. Esta es una aptitud necesaria a todas las actividades
académicas y muy importante en áreas como: literatura,
periodismo, comunicación, leyes, pedagogía, traducción,
docencia, investigación, etc.
• Ortografía
Esta prueba mide la capacidad para identificar y reconocer

errores ortográficos dentro de una oración. Cada reactivo
requiere identificar, entre las respuestas posibles, la palabra
que complete correctamente la oración. Esta habilidad es
importante para cualquier área académica, sobre todo aquellas
que requieren de la elaboración y revisión de textos, reportes
y manuscritos.
• Aptitud Académica (Razonamiento Verbal y

Habilidad Numérica)
Los aspectos del funcionamiento cognoscitivo derivados de

las pruebas Razonamiento Verbal y Habilidad Numérica son
semejantes a los proporcionados por la mayoría de las pruebas
de aptitud académica. Al combinarse las puntuaciones de
183
estas dos pruebas se obtiene una evaluación de la habilidad

general del sujeto o sea de su aptitud académica. Esta medida
es útil para pronosticar el éxito académico en general, e
identificar los sujetos que deberían continuar su educación
más allá de la preparatoria.
3. MATERIAL
El material básico de la forma V y W (Bennett y cols., 1990) se

compone de: a) folleto de aplicación para cada una de las pruebas,
b) hojas de respuestas, c) plantillas de calificación, d) forma de
reporte individual, donde son presentados los resultados y la gráfica
derivada de los mismos, e) manual. Para su aplicación se necesitan
dos lápices con goma y un cronómetro.
El material básico del PROUNAM (UNAM, 1994b) incluye,
entre otros: a) cuadernillo de prueba (cinco formas diferentes)
con los reactivos para las ocho pruebas y las respectivas
instrucciones, b) cuadernillo de respuestas con espacios
específicos para contestar cada una de las ocho pruebas y
diseñado para ser calificado en forma automatizada (lectora
óptica), c) hoja de respuestas para la parte I de la prueba
de Velocidad y Precisión Perceptual, d) manual del aplicador,
e) manual del orientador y f) hoja de interpretación de resultados
del alumno. Además, se necesitan dos lápices con goma, un
cronómetro y hojas de papel en blanco, tamaño carta, para
las operaciones de la prueba de Razonamiento Numérico.
Las formas V y W fueron construidas para ser utilizadas con

adolescentes entre segundo de secundaria y tercero de
preparatoria. Sin embargo, pueden también ser aplicadas a
adultos.
Las pruebas que componen el PROUNAM fueron diseñadas
para el nivel de 2o año de preparatoria.
184
Las pruebas de la batería DAT pueden ser administradas

individualmente o en forma colectiva. Cuando la aplicación
es colectiva se requiere generalmente un examinador para
cada grupo de 30 estudiantes.
Cada prueba tiene un tiempo máximo para su ejecución. Los

límites de tiempo de las pruebas incluidas en la versión
mexicana del DAT (forma V) y de aquellas incluidas en el
PROUNAM son presentados en la tabla 14.1.
T A B L A 14.1
LIMITE DE TIEMPO DE LAS PRUEBAS
PRUEBA FORMA V PROUNAM
Razonamiento Verbal 30 minutos
Habilidad Numérica 30 minutos 35 minutos
Razonamiento Abstracto 20 minutos 20 minutos
Velocidad y Exactitud Secretariates Parte I- 3 minutos Partel - 3 minutos
(Velocidad y Precisión Perceptual) Parte II-3 minutos Parte II -3 minutos
Razonamiento Mecánico 30 minutos 25 minutos
Relaciones Espaciales 25 minutos 25 minutos
Ortografía 10 minutos
Uso del Lenguaje 20 minutos
La administración de las pruebas de la forma V y W debe

ser realizada con un intervalo de tiempo relativamente corto
entre una y otra, de preferencia en un período máximo de
una o dos semanas. La aplicación puede ser realizada en dos,
tres o cinco sesiones. En el manual son sugeridas distintas
programaciones para la aplicación (Bennett y cois., 1990).
Las pruebas que componen el PROUNAM son aplicadas en
una misma sesión de aproximadamente 3 horas 45 minutos;
la secuencia de aplicación de las pruebas debe ser estrictamente
respetada (UNAM, 1994b)
185
La administración de las pruebas de la batería DAT (Forma

V y W) es relativamente sencilla. Primero, se distribuye la
hoja de respuestas donde el sujeto debe llenar los datos
personales y en seguida, el folleto de prueba. En el folleto
de cada prueba vienen las instrucciones acompañadas de
ejemplos, así como el tiempo de duración máximo de la
prueba. Las instrucciones deben ser leídas en voz alta por
el examinador mientras que el examinado las lee en voz baja
en su folleto. Antes de empezar deben sacarse las dudas que
se presenten, siempre siguiendo las instrucciones. Se le debe
explicar al examinado el propósito de las pruebas y advertirle
que no se desanime cuando alguna pregunta le parezca muy
difícil.
La administración de las pruebas PROUNAM se inicia
también llenando los datos sociodemográficos incluidos en el
cuadernillo de respuestas. Las instrucciones específicas de
cada prueba, así como los ejemplos, vienen en el cuadernillo
de prueba. El procedimiento de aplicación es similar al
mencionado con respecto a las formas V y W; los detalles
de este procedimiento vienen en el manual del aplicador
(UNAM, 1994b).
8.1. Las pruebas de las formas V y W
Para calificar las pruebas de las formas V y W se utilizan

plantillas de calificación. Es importante observar que en la
prueba de Velocidad y Exactitud Secretariales solamente se
califica la Parte II. Cada respuesta correcta es calificada con
un punto. La puntuación bruta de cada prueba es la suma
de las respuestas correctas.
186
La puntuación bruta de cada prueba es convertida en

percentil o estanina utilizándose para tal efecto los cuadros
de conversión disponibles en el manual. Estos cuadros toman
en cuenta el sexo y el grado escolar del sujeto.
Los resultados deben ser apuntados en la hoja de "Reporte
Individual", donde se llenan los datos personales del sujeto,
sus puntuaciones brutas, las puntuaciones percentiles
obtenidas por comparación con una muestra de su mismo
sexo y grado escolar, y las puntuaciones percentiles obtenidas
por comparación con una muestra de su grado escolar pero
de sexo opuesto. En esta misma hoja es trazado el perfil de
aptitudes del sujeto, cuyo procedimiento será explicado en seguida.
a. Comparación con muestras de cada uno de los sexos
En el DAT es importante sacar el percentil obtenido por el

sujeto en una prueba comparándolo, por un lado, con una
muestra de sujetos de su mismo sexo, y por otro, con una
muestra de sujetos del sexo opuesto. Lo que sucede es que
los sexos califican típicamente en algunas pruebas del DAT
en forma muy diferente. Por ejemplo, los varones tienden
a tener puntuaciones más altas que las mujeres, en
Razonamiento Mecánico y Relaciones Espaciales, aunque
que en este último caso la diferencia sea menor. Además,
las mujeres suelen tener mejores puntuaciones que los varones,
en la prueba de Velocidad y Exactitud Secretariales. Siendo
así, es importante comparar al sujeto con una muestra de
su mismo sexo pero también, en muchas casos, es esencial
la comparación con una muestra de sexo opuesto al suyo.
Por ejemplo, si una joven (2 o semestre de 2 o año de
preparatoria) obtiene una puntuación bruta de 43 en
Razonamiento Mecánico, cuando comparada a una muestra
femenina tendrá como percentil P50, mientras que cuando
comparada a una muestra masculina tendrá un percentil P20.
187
La interpretación de la prueba cambia substancialmente si

tomamos como referencia uno o otro valor de percentil.
Suponiendo que esta joven tenga interés en seguir el área
de Ingeniería Mecánica, donde la población es básicamente
masculina, el percentil obtenido a través de la comparación
con la muestra masculina va a ser de gran importancia. Este
es el que va a permitir pronosticar sus posibilidades en la
competencia escolar y profesional con esta mayoría masculina.
En el caso mencionado, aunque lajoven, comparada con otras
jóvenes de su mismo grado escolar, presenta una habilidad
mecánica promedio, esta habilidad es baja cuando se compara
con los varones de su mismo grado escolar. Esto, probablemente
le traerá dificultades al tener que enfrentar la competencia
masculina en la carrera de Ingeniería Mecánica.
b. El perfil de aptitudes
En la hoja de Reportes Individuales se explica como trazar

la gráfica correspondiente al perfil de aptitudes del sujeto.
Primero, se traza la gráfica correspondiente a los percentiles
obtenidos comparando al sujeto con una muestra de su mismo
sexo. Para cada resultado se traza una barra, en la columna
referente a la prueba. Partiendo del punto correspondiente
al percentil obtenido, se mide 1.2 cm. para arriba y 1.2 cm.
para abajo obteniéndose así una barra que debe ser rellenada
en color. Esta barra indica que podemos estar relativamente
seguros de que la puntuación del sujeto está en algún punto
dentro del área cubierta por la misma.
Trazadas todas las barras que indican la habilidad del
sujeto al compararlo con una muestra de su mismo sexo,
hacemos el mismo procedimiento pero ahora tomando como
referencia las puntuaciones percentil obtenidas comparando
al sujeto con una muestra del sexo opuesto. Para cada prueba
se trazará una segunda barra, paralela a la primera, que será
rellenada de color distinto.
188
Para interpretar el perfil de aptitudes se debe proceder

de la siguiente manera (Bennett y col, 1990):
1) Comparar las barras trazadas teniendo como base la
puntuación obtenida a partir de la norma del mismo sexo
del sujeto (primeras barras, que son del mismo color). Esta
comparación indica cuál es el desempeño del sujeto en cada
prueba; cuáles son sus aptitudes más fuertes y más débiles.
2) Comparar cada par de barras correspondiente a una
misma aptitud: la barra obtenida a partir de la norma de
mismo sexo con aquella obtenida a través de la norma de
sexo opuesto (primera y segunda barras, de colores diferentes).
Esta comparación permite verificar si hay una discrepancia
en el desempeño del sujeto comparado con muestras de
distintos sexos.
3) La diferencia entre dos aptitudes (o resultados) es
considerada significativa cuando las dos barras no se
sobreponen. Cuando se sobreponen pero no en más de la
mitad de su longitud, la diferencia puede o no ser importante.
En este caso se deben buscar, en otras informaciones sobre
el sujeto, indicios que ayuden a tomar una decisión. Si las
barras se sobreponen en más de la mitad, no se considera
significativa la diferencia, o sea la habilidad del sujeto en
estas dos áreas es más o menos la misma.
8.2. Las pruebas PROUNAM
La calificación de las pruebas PROUNAM es realizada en

forma automatizada por el IEGE y la UNAM. Las
calificaciones también son expresadas en percentil y estanina,
comparando el sujeto con una muestra de su mismo sexo y
con una muestra mixta (de ambos sexos). Un reporte
informatizado de los resultados, que incluye un perfil de
aptitudes, es entregado al alumno (UNAM, 1994a).
189
9. NORMAS
Las normas para las formas V y W del DAT fueron extraídas

de una muestra de más de 61,000 estudiantes de 2 o . de
secundaria a 3 o . de preparatoria, de 64 sistemas escolares
públicos y parroquiales de los Estados Unidos de América.
Las dos formas V y W son consideradas paralelas lo que
significa que sus puntuaciones brutas son equivalentes y por
lo tanto permiten la utilización de las mismas tablas de normas
para su interpretación (Bennett y cols., 1990).
Los normas se expresan tanto en percentil como en estanina,
para cada sexo y nivel escolar (de 2 o . de secundaria a 3 o .
de preparatoria). Para cada nivel escolar, se presentan normas
para el primer y para el segundo semestre.
El PROUNAM está estandarizado solamente para el 5 o .
año de bachillerato (2 o . de preparatoria). Sus normas fueron
extraídas de una muestra de 3,027 alumnos, hombres y mujeres,
estudiantes de distintos sistemas: Escuela Nacional
Preparatoria, CCH y Escuelas Incorporadas a la UNAM,
siendo que las escuelas estaban ubicadas en distintas regiones
geográficas (UNAM, 1994a).
10.1. Las pruebas de las formas V y W
La confiabilidad de las pruebas de la batería DAT ha sido

estudiada a través del procedimiento de división por mitades,
cuyo coeficiente fue corregido utilizando la fórmula de
Spearman-Brown, con excepción de Velocidad y Exactitud
Secretariales. Siendo esta última una prueba de velocidad,
se utilizó el procedimiento de formas paralelas. Los coeficientes
de confiabilidad fueron calculados para cada una de las
formas V y W, en cada nivel escolar y para cada sexo. En
190
general, se obtuvieron los coeficientes usando submuestras

de la muestra de estandarización, con excepción de la prueba
de Velocidad y Exactitud Secretariates (Bennett y cols.,
1990).
Los coeficientes de confiabilidad obtenidos fueron
relativamente elevados variando, en la muestra masculina de
2o. de secundaria a 3o. de preparatoria de .89 a .97 (forma
V) y de .87 a .97 (Forma W) y en la muestra femenina de
.83 a .96 (forma V) y de .84 a .96 (forma W) (ídem).
En el manual del DAT son también presentados los Errores
Estándar de Medida para cada prueba (formas V y W), por nivel
escolar y sexo. El procedimiento recomendado para trazar la gráfica
del perfil de aptitudes (la construcción de barras) tiene como
objetivo tomar en cuenta el error estándar de medida. En general,
cada 1.2 cm. equivale a cerca de una y media unidades de error
estándar de medida, lo que significa que, para la mayoría de las
pruebas, las probabilidades son aproximadamente de nueve en diez
de que la puntuación real del sujeto caiga dentro del intervalo
delimitado por las barras (ídem).
10.2. Las pruebas PROUNAM
El proceso de desarrollo y validación de las pruebas

PROUNAM incluyó varios procedimientos. Para validar el
PROUNAM se utilizaron cinco formas diferentes de la prueba
(A, B, C, D, y E) conformadas con 250 reactivos de
Razonamiento Verbal, 360 de Ortografía, 250 de Uso del
Lenguaje, 250 de Razonamiento Numérico, 200 de
Razonamiento Abstracto, 500 de Velocidad y Precisión
Perceptual, 300 de Razonamiento Mecánico y 250 de
Relaciones Espaciales. Las pruebas verbales, Razonamiento
Verbal, Uso del Lenguaje y Ortografía fueron desarrolladas
en México y específicamente para la Prueba Diferencial de
Aptitudes PROUNAM. Para las demás pruebas se utilizaron
191
los reactivos de la quinta edición del DAT (1990), formas

C y D, niveles 1 y 2. Los reactivos fueron analizados a través
de varios procedimientos estadísticos como: valores P
(porcentaje de la muestra que respondieron de forma correcta
al reactivo) para determinar el nivel de dificultad, correlación
biserial para establecer el nivel de discriminación, rango de
omisión de los reactivos (porcentaje de sujetos de la muestra
que no contestaron el reactivo) y análisis de Rasch que
determina el nivel de dificultad del reactivo dentro de una
escala métrica logística análoga a la calificación z (UNAM,
1994a).
Se estudió la confiabilidad de las cinco diferentes formas
de la batería, obteniéndose coeficientes Kuder-Richardson
(KR-20) entre .79 y .96 para las ocho pruebas. Las medias,
desviaciones estándar y percentiles seleccionados (cuartiles)
mostraron variaciones moderadas entre las diferentes formas
de la prueba. Se obtuvieron para la forma final de cada una
de las pruebas (con excepción de Velocidad y Precisión
Perceptual) coeficientes KR-20. Estos variaron de .71 a .90
según la prueba, lo que indica que las pruebas poseen un
alto grado de consistencia interna. Se obtuvieron también
los errores estándar de medida para cada una de las pruebas,
cuyos valores estuvieron entre 2.33 y 3.51 (UNAM, 1994).
Para demostrar la validez del PROUNAM se
correlacionaron los valores en percentil obtenidos por la
población de EUA en la 5a. edición del DAT y los obtenidos
por los estudiantes mexicanos en el PROUNAM. Como las
pruebas verbales no son comparables, se limitó la comparación
a las pruebas no verbales. Se comparó así "el rendimiento
de ambas poblaciones considerando tanto a la población
general de ambos sexos (mixto), como las diferencias por
g é n e r o " (ídem, p . 3 6 ) . Se examinaron también las
intercorrelaciones entre las distintas pruebas que componen
el PROUNAM, para verificar cuánto miden estas distintas
aptitudes. "En general las intercorrelaciones entre las pruebas
muestran un rango que va de bajo a moderado" {ídem, p.
11. COMENTARIOS
La batería DAT es considerada una gran contribución a la

medida de las aptitudes. Morales (1993) cita un comentario
de Carroll (1960) sobre las cualidades métricas de esta
prueba: "Los autores han hecho un trabajo tan completo y
técnicamente satisfactorio, que cualquier revisor lo encontraría
difícil de hacerlo parecer suficientemente crítico para él
mismo"(p.l31).
Las pruebas fueron traducidas y adaptadas a varios idiomas
y demostraron gran utilidad, tanto en el área de la orientación
escolar y profesional como en el área de selección de per-
sonal.
Su utilización en la realidad mexicana ha convivido hasta
hace poco tiempo con una limitación importante. Como fue
mencionado anteriormente, la versión en español del DAT
publicada en México (forma V y W) no incluye las pruebas
Bennett, G.K. ; Seashore, H. G. y Wesman, A. G. (1990;.

Pruebas de Aptitud Diferencial (DAT) - Manual del
Instructor, México D.F. : Ed. El Manual Moderno.
Morales, M.L. (1993). Psicometría Aplicada, México D.F.:
Ed. Trillas (2a. Edición, 2a. Reimpresión).
Universidad Nacional Autónoma de México [UNAM] (1994a).
Prueba Diferencial de Aptitudes PROUNAM- Manual
técnico, México D.F.
, (1994b).Prueba Diferencial de Aptitudes PROUNAM
- Manual del aplicador, México D.F.
193
CAPITULO XV
PRUEBAS PARA LA CLASIFICACIÓN
DE APTITUDES
DE FLANAGAN (FACT)
Las Pruebas para la Clasificación de Aptitudes (FACT)

fueron desarrolladas por J.C. Flanagan y dieron continuidad
a su proyecto de construcción de pruebas de clasificación
para la Fuerza Aérea durante la Segunda Guerra Mundial
(Anastasi, 1978). A partir de análisis sistemáticos de puestos
se identificaron elementos comunes a ciertas actividades
profesionales así como las aptitudes necesarias para la buena
ejecución de las mismas. Se construyeron entonces pruebas
para evaluar las aptitudes necesarias para que se realicen
con éxito tareas ocupacionales específicas (Brown, 1980).
Las pruebas FACT fueron publicadas por primera vez en
1953, su publicación en español fue realizada en 1970, y
en 1989 fue presentada la primera edición mexicana. Esta
batería es destinada fundamentalmente a la orientación
vocacional y profesional y a la selección y clasificación de
personal (Flanagan, 1989).
La batería está compuesta de catorce pruebas, cada una

destinada a medir una habilidad específica (ídem):
• Inspección - Mide la habilidad necesaria para
195
inspeccionar artículos manufacturados y para detectar fallas

o imperfecciones en éstos. La rapidez y la exactitud son
importantes en esta prueba.
• Claves - Mide la rapidez y exactitud en el manejo de
claves utilizadas en el trabajo de oficina.
• Memoria - Mide la habilidad para recordar las claves
aprendidas en el test de claves.
• Precisión - Mide la habilidad para hacer tareas de
precisión con objetos relativamente pequeños; mide la rapidez
y precisión en la ejecución de movimientos circulares pequeños,
con los dedos de una o de ambas las manos al mismo tiempo.
• Ensambles - Mide la habilidad para visualizar la forma
de un objeto mirando solamente sus partes.
• Escalas - Mide la habilidad para la lectura de material
gráfico (escalas, gráficos, mapas), requerida en trabajos de
ingeniería y ocupaciones técnicas semejantes.
• Coordinación - Mide la habilidad para coordinar los
movimientos de brazo y mano y controlarlos de una manera
progresiva y exacta.
• Comprensión y discernimiento - Mide la habilidad
para leer de manera comprensiva, pensar lógicamente y utilizar
el sentido común cuando es necesario.
• Aritmética - Mide la habilidad para el cálculo.
• Modelos - Mide la habilidad para reproducir bosquejos
de modelos sencillos y en forma invertida.
• Componentes - Mide la habilidad para identificar partes
importantes en situaciones complejas. Utiliza como ejemplos
dibujos lineales y bosquejos de planos.
• Tablas - Mide el rendimiento en la lectura de dos tipos
de tablas: a) formada únicamente por dígitos, b) formada por
palabras y letras del alfabeto.
• Comprensión Mecánica - Mide la habilidad para
comprender principios mecánicos.
Expresión Idiomática - Mide el dominio del idioma, la
habilidad para manejar la expresión de ideas en forma escrita y oral.
196
3. MATERIAL
El material básico para la aplicación se compone de: a)

folletos de prueba que funcionan también como hojas de
respuestas, b) dos lápices (uno del No. 3), c) cronómetro
, d) hoja de clasificación de aptitudes y d) manual.
Las pruebas FACT pueden ser utilizadas con adolescentes

y adultos.
Las pruebas de la batería pueden ser administradas en forma

individual y colectiva. En este último caso es conveniente
utilizar un ayudante por cada 25 examinados (Flanagan,
1989).
Cada prueba requiere un tiempo de administración diferente.

En el manual se recomienda un orden de aplicación de las
pruebas que permite llevar a cabo la aplicación de todas ellas
en dos períodos de medio día cada uno. El orden propuesto
busca evitar la monotonía alternando pruebas verbales,
numéricas y de ejecución. Las pruebas de Comprensión y
discernimiento y de Expresión vienen al final de la sesión
puesto que no tienen tiempo límite, permitiendo al sujeto la
oportunidad de contestar todos los reactivos de éstas. Se
presenta a seguir un cuadro con el orden recomendado para
cada sesión y el tiempo requerido para cada prueba (Flanagan,
1989).
Los límites de tiempo de cada prueba de la batería, con
excepción de las pruebas 8 (Comprensión y Discernimiento)
197
Primera sesión- Tiempo total: 2 horas y 46 minutos aproximadamente

Prueba Tiempo instrucciones Tiempo Prueba Tiempo Total
1.- Inspección 6 min. 6 min. 12 min.

2.- Claves 20 min. 10 min. 30 min.
3.- Memoria 1 min. 4 min. 5 min
4 - Precisión 7 min. 8 min 15 min.
5 - Ensambles 6 min. 12 min. 18 min.
Receso 10 min.
6.- Escalas 12 min. 16 min. 28 min.
7 - Coordinación 5 min. 3 min. 8 min.
8- Comprensión y
Discernimiento 5 min. 35 min. aprox. 40 min. aprox.
Segunda sesión- Tiempo total: 2 horas y 42 minutos a proximadamente

9 - Aritmética 10 min. 10 min. 20 min.
1 0 - Modelos 8 min. 20 min. 28 min.
1 1 - Componentes 4 min. 20 min. 24 min.
Receso 10 min.
12.- Tablas 5 min. 10 min. 15 min.
1 3 - Comprensión
Mecánica 5 min. 20 min. 25 min.
1 4 - Expresión
Idiomática 5 min. 35 min. aprox. 40 min. aprox.
y 14 (Expresión Idiomática), deben ser cumplidos estrictamente

y por lo tanto deben ser cronometrados. Puede aplicarse la
batería completa o pueden combinarse pruebas de distintas
maneras, de acuerdo con las habilidades requeridas por una
determinada actividad profesional.
Es importante proveer una breve explicación a los examinados

sobre el propósito de las pruebas, antes de empezar su
administración.
La administración empieza solicitando al examinado que
llene sus datos personales en el folleto de prueba. Las
instrucciones de cada prueba vienen en el folleto de prueba,
seguidas de ejemplos o ejercicios de ensayo. El examinador
debe leerlas en voz alta mientras el examinado las leerá en
voz baja.
198
Las instrucciones que están en la portada de cada folleto

son semejantes para todas las pruebas, por lo tanto el
examinador necesitará leerlas solamente una vez, al iniciar
la serie. Sin embargo, las instrucciones impresas en la portada
de los folletos de las pruebas "Comprensión y Discernimiento''
y "Expresión Idiomática" son distintas y deben ser leídas
por el examinador. El examinador debe leer las instrucciones
específicas de cada prueba exactamente como vienen impresas.
Si hay dudas por parte de los examinados, el examinador
debe leer otra vez la parte de la instrucción que permita
esclarecerlas.
La mayoría de las pruebas fueron diseñadas para facilitar

su corrección. Debajo de la hoja donde el examinado marca
sus respuestas, hay una hoja carbón y abajo de ésta, una
parrilla con casillas. La posición de las casillas corresponde
a la de las respuestas correctas. Cuando el examinado pone
una X en la casilla correspondiente a su respuesta, ésta
automáticamente se reproduce en la parrilla. Este
procedimiento permite una evaluación rápida y precisa de
la prueba. En el caso de las pruebas que no traen parrillas,
los resultados son computados sobre los mismos folletos.
La fórmula utilizada para el cálculo de la puntuación total
varía de una prueba a otra: total de repuestas correctas,
total de respuestas correctas menos las equivocadas, etc. En
el manual se presenta un cuadro que contiene la fórmula que
debe ser utilizada en cada prueba.
El puntaje bruto debe ser apuntado en el espacio designado
en cada folleto de prueba. Allí mismo puede determinarse,
a través de una tabla, el puntaje ponderado del sujeto,
expresado en estanina.
Obtenidos todos los puntajes brutos y ponderados, éstos
199
deben ser apuntados en la Hoja de Clasificación de Apti-

tudes, donde también deben ser llenados los espacios
correspondientes a los datos de identificación del sujeto.
La interpretación de las puntuaciones obtenidas puede ser
realizada a dos niveles (Flanagan, 1989):
• Comparando las aptitudes del individuo y verificando
sus aptitudes más altas y más bajas, sus capacidades y
limitaciones, y
• Evaluando las aptitudes de un individuo para una
determinada actividad ocupacional según el siguiente
procedimiento:
1) En la Hoja de Clasificación de Aptitudes, aparecen 30
ocupaciones. Para cada ocupación están determinadas cuáles
aptitudes son necesarias. Al lado de cada ocupación deben
ser llenadas las casillas solicitadas con las respectivos
calificaciones en estaninas.
2) Para cada ocupación se suman las calificaciones en
estanina y se marca con un círculo el resultado obtenido
(puntaje total). En caso que el número correspondiente al
puntaje total no aparezca en la hoja, debe aproximárselo al
número mayor.
3) El puntaje total también es convertido en estanina
mediante la tabla de conversión que aparece en esta misma
hoja. En este caso, cada valor de estanina tiene un valor más
y un valor menos, por ejemplo, 1-, 1, 1+, 2-, 2, 2+, ... hasta
9-, 9 y 9+. La puntuación estanina obtenida debe ser apuntada
al lado de la ocupación, en la casilla de calificación
ocupacional.
4) Se compara el rendimiento del sujeto en distintas áreas
ocupacionales (calificaciones ocupacionales).
9. NORMAS
Las pruebas FACT utilizan como puntuación normalizada la

estanina. La conversión de las puntuaciones brutas a estaninas
200
no toma en cuenta ni el sexo ni el grado escolar del examinado

(Flanagan, 1989).
Las normas fueron extraídas de una muestra de
aproximadamente 11,000 estudiantes americanos, cuyos
grados escolares variaban de tercer de secundaria a tercer
de preparatoria (Anastasi, 1978). Con respecto a la edición
mexicana, el manual del FACT no ofrece datos sobre la
muestra de estandarización utilizada.
Los comentarios de Anastasi (1978) sobre la confiabilidad de este

instrumento apuntan que aunque es elevada la fìabilidad de las
puntuaciones compuestas de aptitud ocupacional, "/os tests
individuales tienen /labilidad más bien baja y algunas de las
distribuciones de las puntuaciones sugieren diferenciaciones
inadecuadas entre los individuos''(p. 352).
En cuanto a la validez, este mismo autor comenta que
las interrelaciones entre las pruebas indican que éstas miden
aptitudes bastante distintas. Sin embargo, muchas ocupaciones
exigen combinaciones semejantes de aptitudes, hasta aquellas
cuyas actividades son substancialmente diferentes. Por
ejemplo, la existencia de una alta correlación entre los
resultados de piloto-aviador y diseñador sugiere una validez
diferencial inadecuada. Por otro lado, Anastasi (ídem) apunta
que la prueba ha demostrado tener una buena validez de
predicción, con respecto a los criterios de capacitación
profesional. Mientras tanto, los datos sobre la validez de
predicción con relación a la admisión y éxito en el trabajo
son escasos y menos consistentes, sobre todo debido a la
inadecuación de los criterios y a la influencia de factores
fortuitos.
201
11. COMENTARIOS
Las pruebas FACT pueden ser útiles para la orientación

profesional y para la selección de personal pues permiten
evaluar las habilidades del sujeto y proveer una cierta
predicción con respecto al éxito en determinadas tareas
ocupacionales. Sin embargo, son varias las restricciones a
las mismas:
•Los resultados sobre la confiabilidad y la validez de la
batería parecen poco consistentes e inclusive en el manual
de la edición mexicana no se proporcionan datos a respecto.
•La representatividad de la muestra normativa de la versión
original es considerada discutible (Anastasi, 1978). En cuanto a
la edición mexicana, no se presentan en el manual datos sobre la
muestra de estandarización utilizada.
•No se toman en cuenta en las normas ni el sexo ni el
grado escolar. Investigadores como Bennett y cois. (1990)
observaron diferencias importantes, en algunas aptitudes,
con respecto a estas variables.
•La edición mexicana del FACT considera solamente 30
ocupaciones, lo que es un número relativamente reducido comparado
al número de ocupaciones existentes en la actualidad.
Anastasi, A. (1978). Tests psicológicos (3 a ed., 4 a reimpre-

Bennett, G.K.; Seashore, H.G. y Wesman, A.G. (1990).Prue-
bas de Aptitud Diferencial (DAT) - Manual del Ins-
tructor, México D.F.: Editorial El Manual Moderno.
Educación. México, D.F.: Editorial El Manual Moderno.
Flanagan, J.C. (1989). Manual del Examinador - FACT.
202
BIBLIOGRAFÍA
Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpre-
Anstey, E. (1974). Test de Dominós - manual. Buenos Aires:
Editorial Paidós.
Aubret, F., Aubret, J, Chartier, D., Chaudagne, H., France-
quin-Chartier, G., Huetau, M., Porlier, J-C, Rozen-
cwajg, P.y Vrignaud, P. (1991). Evaluer I'intelligence.
Manuscrito no publicado, I.N.E.T.O.P., Paris, Francia.
Bacher, F. (1981). Les enquêtes en Psychologic Tesis inédi-
ta de Doctorado en Psicología, Université de París V,
París.
Bennett, G.K.; Seashore, H.G., Wesman, A.G. (1990). Prue-
bas de aptitud diferencial (D.Â. T) - Manual del instruc-
tor. México D.F.: Editorial El Manual Moderno.
y Educación. México D.F.: Editorial El Manual Moder-
no.
Coto Villa, M.J. y Llano de la Torre, A. (1981). Estudio sobre
la traducción, adaptación, conflabilidad y validez del
test para preescolares y primaria deWechsler (WPPSI) en
un grupo de niños de nivelsocioeconómico medio alto.
Tesis inédita de Licenciatura en Psicología. Universidad
Iberoamericana.
Cronbach, L.J. (1951). Alpha and the internal structure of
tests. Psychometrika, 16, 297-334.
Dorsch, F.(1976). Diccionario de Psicología. Barcelona:
Editorial Herder.
Flanagan, J. (1989). Manual del examinador: FACT. México
D.F.: El Manual Moderno.
Ginsburg, H. Y Opper, S. (1977). Piaget y la teoría del
desarrollo intelectual. Madrid: Editorial Paidós.
203

, J . P . (1967). The nature of human intelligence. Nue-
va York: McGraw Hill.
,J.P. (1970). Creativity: Retrospect and Prospect. Jour-
nal of Creative Behavior, 4(3), 149-168.
Guilfort,J.P. y Hoepfner, R. (1971). The analysis of in-
telligence. Nueva York: McGraw Hill.
Harris, D.B. (1991). El Test de Goodenough - Revisión,
Ampliación y Actualización (2 a ed., 3a reimp.). México
D.F.: Ediciones Paidós.
Huteau, M. (1990). La varieté des formes et des composantes
de I´intelligence. En M. Reuchlin y col. (Eds.),Cogni-
tion: ¡'individual et ¡'universe!. Paris: P.U.F.
Kaufman, A. (1982) Psicometría razonada con el WISC-R.
México D.F.;Editorial El Manual Moderno.
Kellogg, C E . y Morton, N.W. (1974). Instrumento no verbal
de inteligencia - Beta II-R. Manual. México D.F.: Edi-
torial El Manual Moderno.
Magnuson, P. (1979) Teoríade los tests. México, D.F. Trillas.
Morales, M.L. (1993). Psicometría Aplicada (2 a ed., 2a reim-
presión). México D.F.: Editorial Trillas.
Murphy, K. R. y Davidshofer, C O . (1994). Psychological Tes-
ting - Principles Applications. New Jersey: Prentice Hall.
Pasquasy, R. (1974). Las aptitudes y su medida. Madrid:
Ediciones Marova.
Piaget, J. (1972). Psicología de la inteligencia. Buenos
Aires: Editorial Psique.
Aires: Paidós.
Terman, L.M. y Merrill, M.A. (1972). Stanford-Binet inte-
lligence scale. Form L-M. Boston: Houghton Mifflin
Company.
204
Thorndike, L. R. Y Hagen, E. (1975). Tests y técnica de

medición en psicología y educación. México: Editorial
Trillas.
Universidad Nacional Autónoma de México [UNAM].(1994a).
Prueba Diferencial de Aptitudes PROUNAM - Manual
técnico, México D.F. UNAM.
, (1994b). Prueba Diferencial de Aptitudes PROUNAM
- Manual del aplicador, México D.F.: UNAM.
Wechsler, D. (1955). La medición de la inteligencia del
adulto. La Habana: Cultural, S.A.
, D. (1981a). WAIS-R Manual: Wechsler Adult Ite-
lligence Scale-Revised. Nueva York: The Psychologi-
cal Corporation.
, D. (1981b). WAIS-Español - Escala de Inteligencia
para Adultos - Manual. México D.F.: Editorial El
Manual Moderno.
, D. (1981c). WISC-Español - Escala de Inteligencia
para el nivel escolar - Manual. México D.F.: Editorial
El Manual Moderno.
, D. (198 Id). WISC-R-Español - Escala de Inteligen-
cia revisada para el nivel escolar- Manual. México
, D. (198le). WPPSI-Español - Escala de Inteligen-
cia para los niveles preescolar y primario - Manual.
205
Se terminó de imprimir
en el mes de junio de 1996.
Tiraje 2,000 ejemplares.

Manual de Pruebas de Inteligencia y Aptitudes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual de Pruebas de Inteligencia y Aptitudes

Cargado por

Copyright:

Formatos disponibles

MANUAL DE

Kathia Maria Costa Neiva

Kathia Maria Costa Neiva

Primera edición: junio de 1996

Derechos exclusivos de edición reservados para

Este libro es una coedición entre

Editado en México por Plaza y Valdés editores

PRIMERA PARTE: Aspectos métricos de las

SEGUNDA PARTE: Inteligencia 59

TERCERA PARTE: Aptitudes 171

Antonio Tena Suck

informaciones son de gran importancia para la comprensión

Kathia Maria Costa Neiva

Aunque puede considerarse que Platón y Aristóteles fueron

sobre retraso mental, sus procedimientos para constituir

niños retrasados mentales, elaboró junto con Simon la primera

Las pruebas psicológicas pueden clasificarse desde diversos

1) Según la conducta que miden:

examinado su máximo rendimiento en las distintas tareas

3) Según la forma o el tipo de respuesta exigida:

4) Según la forma de administración:

5) Según la libertad de ejecución:

ejecute la tarea asignada, lo más rápido posible. La duración

6) Según el material utilizado en la prueba:

7) Según la forma de dar las instrucciones:

8) Según la forma de calificación:

9) Según la población a la que se destina:

Una prueba psicológica combina varias de estas dimensiones

C. USOS DE LAS PRUEBAS

Una pruebapsicológica puede ser empleada con diferentes finalidades:

• Evaluación: por ejemplo en el caso de evaluarse el

Son muchas las medidas adoptadas para controlar el uso

Anastasi, A. (1978). Tests psicológicos (3a ed., 4a reimpresión)

CONSTRUCCIÓN Y EVALUACIÓN DE LAS

No es el propósito de este manual proveer mayores detalles sobre

A. ANÁLISIS Y COMPROBACIÓN DE LOS REACTIVOS

El primer procedimiento para analizar los reactivos de una prueba

Figura 2.1: Curva de distribución normal

Si la prueba es muy difícil, la curva de distribución de las

inferior o sea gran número de sujetos con puntuaciones bajas (figura

Figura 2.2 Figura 2.3

Cuando sucede uno de los dos casos arriba mencionados suele

Un tercer procedimiento en el que se verifica el porcentaje de

B. ANALISIS Y COMPROBACIÓN DE LA PRUEBA

El análisis de laprueba, como un todo, supone distintos procedimientos,

Este proceso, también llamado por algunos autores tipificación,

2.1. Validez de contenido

Este tipo de validez es utilizado sobre todo en pruebas de rendimiento/

de validez de contenido. Murphy y Davidshofer (1994) hacen además

2.2. Validez de criterio

Este tipo de validez está relacionado con la predicción de un

• Adecuación - Un criterio es adecuado cuando la calificación

grupos definidos según el criterio y consecuentemente, que la prueba

Cuando los grupos obtienen éxito o fracaso en ambas medidas,

Los valores A, B, C y D corresponden al número de sujetos

2.3. Validez de construcción (o validez interna o estructural)

Este tipo de validez verifica el grado en que una prueba mide un

En esta categoría se encuentran las técnicas utilizadas para estudiar

Estos métodos están diseñados para verificar las relaciones entre

• Validez congruente - En este caso se verifica la correlación

Este método se basa en la predicción acerca de diferencias entre

En este procedimiento se manipula experimentalmente una variable

e) Estudios de capacidad de generalización

Según Brown (1980) se encuentran en esta categoría los estudios